test-image-Caption

Sleeping

krishnv commited on Aug 17, 2024

Commit

c36694a

verified ·

1 Parent(s): d204657

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,8 @@
-#From
 import torch
 import gradio as gr
 from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel
-device='cpu'
 encoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 decoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 model_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
@@ -14,7 +13,7 @@ model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)
 def predict(image, max_length=64, num_beams=4):
     image = image.convert('RGB')
     image = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
-    clean_text = lambda x: x.replace('','').split('\n')[0]
     caption_ids = model.generate(image, max_length=max_length, num_beams=num_beams)[0]
     caption_text = clean_text(tokenizer.decode(caption_ids, skip_special_tokens=True))
     return caption_text
@@ -41,4 +40,4 @@ interface = gr.Interface(
 )
 # Launch the interface
-    interface.launch(share=True)

 import torch
 import gradio as gr
 from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel
+device = 'cpu'
 encoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 decoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 model_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 def predict(image, max_length=64, num_beams=4):
     image = image.convert('RGB')
     image = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
+    clean_text = lambda x: x.replace('', '').split('\n')[0]
     caption_ids = model.generate(image, max_length=max_length, num_beams=num_beams)[0]
     caption_text = clean_text(tokenizer.decode(caption_ids, skip_special_tokens=True))
     return caption_text
 )
 # Launch the interface
+interface.launch(share=True)