Spaces:

sagar007
/

Multimodal_App

Build error

sagar007 commited on Aug 24, 2024

Commit

15cd21c

verified ·

1 Parent(s): d45486e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -101,7 +101,10 @@ def process_image_input(image, vision_model, vision_processor):
         return "Error: Vision model is not available."
     try:
-        inputs = vision_processor(images=image, return_tensors="pt")
         inputs = {k: v.to(vision_model.device) for k, v in inputs.items()}
         with torch.no_grad():
@@ -111,7 +114,6 @@ def process_image_input(image, vision_model, vision_processor):
         return generated_text
     except Exception as e:
         return f"Error processing image: {str(e)}"
 # Generate response within a GPU-decorated function
 @spaces.GPU
 def generate_response(transcription, sarvam_pipe):

         return "Error: Vision model is not available."
     try:
+        # Add a generic prompt for image description
+        prompt = "Describe this image in detail."
+        inputs = vision_processor(images=image, text=prompt, return_tensors="pt")
         inputs = {k: v.to(vision_model.device) for k, v in inputs.items()}
         with torch.no_grad():
         return generated_text
     except Exception as e:
         return f"Error processing image: {str(e)}"
 # Generate response within a GPU-decorated function
 @spaces.GPU
 def generate_response(transcription, sarvam_pipe):