Spaces:

Kawthar12h
/

Image_Captioning_Text_Recognition

Sleeping

Kawthar12h commited on Sep 30, 2024

Commit

7cd21ae

verified ·

1 Parent(s): 40fe0fb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import gradio as gr
 import torch
 import requests
 import re
-from transformers import pipeline, GenerationConfig ,BlipProcessor, BlipForConditionalGeneration, TrOCRProcessor, VisionEncoderDecoderModel
 # load image examples
 img_urls_1 = ['https://i.pinimg.com/564x/f7/f5/bd/f7f5bd929e05a852ff423e6e02deea54.jpg', 'https://i.pinimg.com/564x/b4/29/69/b4296962cb76a72354a718109835caa3.jpg',
@@ -21,8 +21,8 @@ for idx2, url2 in enumerate(img_urls_2):
   image.save(f"tx_image_{idx2}.png")
 # Load Blip model and processor for captioning
-processor_blip = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
-model_blip = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 # Load marefa model for translation (English to Arabic)
 translate = pipeline("translation",model="marefa-nlp/marefa-mt-en-ar")
@@ -32,7 +32,7 @@ def caption_and_translate(img, min_len, max_len):
     raw_image = Image.open(img).convert('RGB')
     inputs_blip = processor_blip(raw_image, return_tensors="pt")
-    out_blip = model_blip.generate(**inputs_blip, min_length=50, max_length=500)
     english_caption = processor_blip.decode(out_blip[0], skip_special_tokens=True)
     # Translate caption from English to Arabic

 import torch
 import requests
 import re
+from transformers import pipeline,BlipProcessor, BlipForConditionalGeneration, TrOCRProcessor, VisionEncoderDecoderModel
 # load image examples
 img_urls_1 = ['https://i.pinimg.com/564x/f7/f5/bd/f7f5bd929e05a852ff423e6e02deea54.jpg', 'https://i.pinimg.com/564x/b4/29/69/b4296962cb76a72354a718109835caa3.jpg',
   image.save(f"tx_image_{idx2}.png")
 # Load Blip model and processor for captioning
+processor_blip = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
+model_blip = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
 # Load marefa model for translation (English to Arabic)
 translate = pipeline("translation",model="marefa-nlp/marefa-mt-en-ar")
     raw_image = Image.open(img).convert('RGB')
     inputs_blip = processor_blip(raw_image, return_tensors="pt")
+    out_blip = model_blip.generate(**inputs_blip, min_length=min_len, max_length=max_len)
     english_caption = processor_blip.decode(out_blip[0], skip_special_tokens=True)
     # Translate caption from English to Arabic