comparing-captioning-models

Runtime error

App Files Files Community

kasun commited on Jun 12, 2023

Commit

d6f5b20

1 Parent(s): cd34c68

added git-base-coco model

Browse files

Files changed (1) hide show

app.py +5 -5

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-from transformers import AutoProcessor, BlipForConditionalGeneration
 # from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, Blip2ForConditionalGeneration, VisionEncoderDecoderModel
 import torch
@@ -11,8 +11,8 @@ torch.hub.download_url_to_file('http://images.cocodataset.org/val2017/0000000397
 torch.hub.download_url_to_file('https://huggingface.co/datasets/nielsr/textcaps-sample/resolve/main/stop_sign.png', 'stop_sign.png')
 torch.hub.download_url_to_file('https://cdn.openai.com/dall-e-2/demos/text2im/astronaut/horse/photo/0.jpg', 'astronaut.jpg')
-# git_processor_base = AutoProcessor.from_pretrained("microsoft/git-base-coco")
-# git_model_base = AutoModelForCausalLM.from_pretrained("microsoft/git-base-coco")
 # git_processor_large_coco = AutoProcessor.from_pretrained("microsoft/git-large-coco")
 # git_model_large_coco = AutoModelForCausalLM.from_pretrained("microsoft/git-large-coco")
@@ -76,7 +76,7 @@ def generate_caption_coca(model, transform, image):
 def generate_captions(image):
-    # caption_git_base = generate_caption(git_processor_base, git_model_base, image)
     # caption_git_large_coco = generate_caption(git_processor_large_coco, git_model_large_coco, image)
@@ -101,7 +101,7 @@ def generate_captions(image):
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
 # outputs = [gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by CoCa"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
-outputs = [gr.outputs.Textbox(label="Caption generated by BLIP-base"),]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP, CoCa, and BLIP-2, 4 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."

 import gradio as gr
+from transformers import AutoProcessor, BlipForConditionalGeneration, AutoModelForCausalLM
 # from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, Blip2ForConditionalGeneration, VisionEncoderDecoderModel
 import torch
 torch.hub.download_url_to_file('https://huggingface.co/datasets/nielsr/textcaps-sample/resolve/main/stop_sign.png', 'stop_sign.png')
 torch.hub.download_url_to_file('https://cdn.openai.com/dall-e-2/demos/text2im/astronaut/horse/photo/0.jpg', 'astronaut.jpg')
+git_processor_base = AutoProcessor.from_pretrained("microsoft/git-base-coco")
+git_model_base = AutoModelForCausalLM.from_pretrained("microsoft/git-base-coco")
 # git_processor_large_coco = AutoProcessor.from_pretrained("microsoft/git-large-coco")
 # git_model_large_coco = AutoModelForCausalLM.from_pretrained("microsoft/git-large-coco")
 def generate_captions(image):
+    caption_git_base = generate_caption(git_processor_base, git_model_base, image)
     # caption_git_large_coco = generate_caption(git_processor_large_coco, git_model_large_coco, image)
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
 # outputs = [gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by CoCa"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
+outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by BLIP-base")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP, CoCa, and BLIP-2, 4 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."