Spaces:

ixxan
/

cross-lingual-vqa

Sleeping

Irpan commited on Nov 17, 2024

Commit

72a284b

1 Parent(s): 7c308d7

m

Files changed (1) hide show

app.py CHANGED Viewed

@@ -86,8 +86,8 @@ torch.hub.download_url_to_file('https://img.freepik.com/premium-photo/man-holds-
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
-flan_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")
-flan_model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small")
@@ -98,14 +98,14 @@ def main(image, text):
     vqa_answer = vqa(image, cleaned_sentence)
     llm_answer = llm(cleaned_sentence, vqa_answer)
     final_answer, _ = google_translate(llm_answer, dest=dest_lang)
-    return final_answer
 image = gr.Image(type="pil")
 question = gr.Textbox(label="Question")
 answer = gr.Textbox(label="Predicted answer")
 examples = [
-    ["monkeys.jpg", "What are they doing in French?"],
     ["apple.jpg", "Qu'est-ce que c'est dans ma main en anglais?"]
     ]

 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+flan_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
+flan_model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")
     vqa_answer = vqa(image, cleaned_sentence)
     llm_answer = llm(cleaned_sentence, vqa_answer)
     final_answer, _ = google_translate(llm_answer, dest=dest_lang)
+    return vqa_answer, final_answer
 image = gr.Image(type="pil")
 question = gr.Textbox(label="Question")
 answer = gr.Textbox(label="Predicted answer")
 examples = [
+    ["monkeys.jpg", "What are the monkeys doing in French?"],
     ["apple.jpg", "Qu'est-ce que c'est dans ma main en anglais?"]
     ]