Spaces:

ManishThota
/

InstructVQA

Paused

ManishThota commited on Feb 8, 2024

Commit

03269c5

verified ·

1 Parent(s): 2fa8310

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,41 +1,28 @@
 import gradio as gr
-# gr.load("models/ManishThota/InstructBlip-VQA").launch()
 from PIL import Image
 import torch
 from transformers import BlipProcessor, BlipForQuestionAnswering
-# from concurrent.futures import ThreadPoolExecutor
 # Initialize the model and processor
 processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
 model = BlipForQuestionAnswering.from_pretrained("ManishThota/InstructBlip-VQA")
-# executor = ThreadPoolExecutor(max_workers=4)
 def predict_answer(image, question):
     # Convert PIL image to RGB if not already
     image = image.convert("RGB")
     # Prepare inputs
-    encoding = processor(image, question, return_tensors="pt")
     out = model.generate(**encoding)
     generated_text = processor.decode(out[0], skip_special_tokens=True)
     return generated_text
 def gradio_predict(image, question):
     answer = predict_answer(image, question)
     return answer
-# def gradio_predict(image, question):
-#     future = executor.submit(predict_answer, image, question)
-#     return future.result()
 # Define the Gradio interface
 iface = gr.Interface(
     fn=gradio_predict,
@@ -48,4 +35,3 @@ iface = gr.Interface(
 # Launch the app
 iface.queue().launch(debug=True)
-# demo.queue().launch(debug=True)

 import gradio as gr
 from PIL import Image
 import torch
 from transformers import BlipProcessor, BlipForQuestionAnswering
 # Initialize the model and processor
 processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
 model = BlipForQuestionAnswering.from_pretrained("ManishThota/InstructBlip-VQA")
 def predict_answer(image, question):
     # Convert PIL image to RGB if not already
     image = image.convert("RGB")
     # Prepare inputs
+    encoding = processor(image, question, return_tensors="pt").to("cuda:0", torch.float16)
     out = model.generate(**encoding)
     generated_text = processor.decode(out[0], skip_special_tokens=True)
     return generated_text
 def gradio_predict(image, question):
     answer = predict_answer(image, question)
     return answer
 # Define the Gradio interface
 iface = gr.Interface(
     fn=gradio_predict,
 # Launch the app
 iface.queue().launch(debug=True)