Spaces:

ixxan
/

cross-lingual-vqa

Running

App Files Files Community

Irpan commited on Nov 17, 2024

Commit

7c308d7

1 Parent(s): 190650c

m

Browse files

Files changed (1) hide show

app.py +12 -3

app.py CHANGED Viewed

@@ -81,6 +81,7 @@ def llm(cleaned_sentence, vqa_answer):
 torch.hub.download_url_to_file('https://media.istockphoto.com/id/1174602891/photo/two-monkeys-mom-and-cub-eat-bananas.jpg?s=612x612&w=0&k=20&c=r7VXi9d1wHhyq3iAk9D2Z3yTZiOJMlLNtjdVRBEjG7g=', 'monkeys.jpg')
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
@@ -103,15 +104,23 @@ def main(image, text):
 image = gr.Image(type="pil")
 question = gr.Textbox(label="Question")
 answer = gr.Textbox(label="Predicted answer")
-examples = [["monkeys.jpg", "How many monkeys are there, in French?"]]
 title = "Cross-lingual VQA"
-description = "Visual Question Answering (VQA) across langages"
 interface = gr.Interface(fn=main,
                          inputs=[image, question],
                          outputs=answer,
                          examples=examples,
                          title=title,
-                         description=description)
 interface.launch(debug=True)

 torch.hub.download_url_to_file('https://media.istockphoto.com/id/1174602891/photo/two-monkeys-mom-and-cub-eat-bananas.jpg?s=612x612&w=0&k=20&c=r7VXi9d1wHhyq3iAk9D2Z3yTZiOJMlLNtjdVRBEjG7g=', 'monkeys.jpg')
+torch.hub.download_url_to_file('https://img.freepik.com/premium-photo/man-holds-apple-his-hands_198067-740023.jpg', 'apple.jpg')
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 image = gr.Image(type="pil")
 question = gr.Textbox(label="Question")
 answer = gr.Textbox(label="Predicted answer")
+examples = [
+    ["monkeys.jpg", "What are they doing in French?"],
+    ["apple.jpg", "Qu'est-ce que c'est dans ma main en anglais?"]
+    ]
 title = "Cross-lingual VQA"
+description = "Visual Question Answering (VQA) across Langages"
+article = """
+Supports questions regarding the following langages:
+['afrikaans', 'albanian', 'amharic', 'arabic', 'armenian', 'azerbaijani', 'basque', 'belarusian', 'bengali', 'bosnian', 'bulgarian', 'catalan', 'cebuano', 'chichewa', 'chinese (simplified)', 'chinese (traditional)', 'corsican', 'croatian', 'czech', 'danish', 'dutch', 'english', 'esperanto', 'estonian', 'filipino', 'finnish', 'french', 'frisian', 'galician', 'georgian', 'german', 'greek', 'gujarati', 'haitian creole', 'hausa', 'hawaiian', 'hebrew', 'hebrew', 'hindi', 'hmong', 'hungarian', 'icelandic', 'igbo', 'indonesian', 'irish', 'italian', 'japanese', 'javanese', 'kannada', 'kazakh', 'khmer', 'korean', 'kurdish (kurmanji)', 'kyrgyz', 'lao', 'latin', 'latvian', 'lithuanian', 'luxembourgish', 'macedonian', 'malagasy', 'malay', 'malayalam', 'maltese', 'maori', 'marathi', 'mongolian', 'myanmar (burmese)', 'nepali', 'norwegian', 'odia', 'pashto', 'persian', 'polish', 'portuguese', 'punjabi', 'romanian', 'russian', 'samoan', 'scots gaelic', 'serbian', 'sesotho', 'shona', 'sindhi', 'sinhala', 'slovak', 'slovenian', 'somali', 'spanish', 'sundanese', 'swahili', 'swedish', 'tajik', 'tamil', 'telugu', 'thai', 'turkish', 'ukrainian', 'urdu', 'uyghur', 'uzbek', 'vietnamese', 'welsh', 'xhosa', 'yiddish', 'yoruba', 'zulu']
+"""
 interface = gr.Interface(fn=main,
                          inputs=[image, question],
                          outputs=answer,
                          examples=examples,
                          title=title,
+                         description=description,
+                         article=article)
 interface.launch(debug=True)