alvarobartt
/

SmolVLM-Instruct-Handler

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

alvarobartt HF staff commited on Dec 4, 2024

Commit

06eb103

·

verified ·

1 Parent(s): c58f49f

Update handler.py

Files changed (1) hide show

handler.py +10 -11

handler.py CHANGED Viewed

@@ -89,18 +89,17 @@ class EndpointHandler:
             prompt = self.processor.apply_chat_template(
                 messages, add_generation_prompt=True
             )
-            with torch.no_grad(), torch.autocast("cuda"):
-                processed_inputs = self.processor(
-                    text=prompt, images=images, return_tensors="pt"
-                )
-                generated_ids = self.model.generate(
-                    **processed_inputs, generation_config=generation_config
-                )
-                generated_texts = self.processor.batch_decode(
-                    generated_ids,
-                    skip_special_tokens=True,
-                )
             predictions.append(generated_texts[0])
         return {"predictions": predictions}

             prompt = self.processor.apply_chat_template(
                 messages, add_generation_prompt=True
             )
+            processed_inputs = self.processor(
+                text=prompt, images=images, return_tensors="pt"
+            ).to(self.model.device)
+            generated_ids = self.model.generate(
+                **processed_inputs, generation_config=generation_config
+            )
+            generated_texts = self.processor.batch_decode(
+                generated_ids,
+                skip_special_tokens=True,
+            )
             predictions.append(generated_texts[0])
         return {"predictions": predictions}