Aktraiser
/

modele-test

Text Generation

génération-de-texte

Inference Endpoints

8-bit precision

Model card Files Files and versions Community

Aktraiser commited on Nov 27, 2024

Commit

421ac56

·

verified ·

1 Parent(s): 5d0a536

Create handler.py

Files changed (1) hide show

handler.py +50 -0

handler.py ADDED Viewed

	@@ -0,0 +1,50 @@

+from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline
+import torch
+def load_model(model_id):
+    tokenizer = AutoTokenizer.from_pretrained(model_id)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_id,
+        device_map="auto",
+        torch_dtype=torch.float16,
+        load_in_4bit=True
+    )
+    return model, tokenizer
+class EndpointHandler:
+    def __init__(self, path=""):
+        self.model, self.tokenizer = load_model(path)
+        self.pipeline = TextGenerationPipeline(
+            model=self.model,
+            tokenizer=self.tokenizer,
+            max_new_tokens=512,
+            temperature=0.7,
+            top_p=0.95,
+            repetition_penalty=1.15,
+            do_sample=True
+        )
+    def __call__(self, data):
+        inputs = data.pop("inputs", data)
+        parameters = data.pop("parameters", {})
+        generation_kwargs = {
+            "max_new_tokens": 512,
+            "temperature": 0.7,
+            "top_p": 0.95,
+            "repetition_penalty": 1.15,
+            "do_sample": True
+        }
+        generation_kwargs.update(parameters)
+        if isinstance(inputs, str):
+            inputs = [inputs]
+        outputs = self.pipeline(
+            inputs,
+            **generation_kwargs
+        )
+        if len(outputs) == 1:
+            return {"generated_text": outputs[0]["generated_text"]}
+        return [{"generated_text": o["generated_text"]} for o in outputs]