Spaces:

Fiqa
/

StyleSync

Runtime error

App Files Files Community

Fiqa commited on Jan 4

Commit

50b4bab

verified ·

1 Parent(s): 2e8a68a

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -4

app.py CHANGED Viewed

@@ -8,8 +8,9 @@ from diffusers import DiffusionPipeline
 import torch
 import spaces  # Hugging Face Spaces module
-import easyocr
 import requests
@@ -25,12 +26,20 @@ if not hf_token:
     raise ValueError("Hugging Face token is not set in the environment variables.")
 login(token=hf_token)
 # Load the processor and model
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 processor1 = BlipProcessor.from_pretrained("noamrot/FuseCap")
 model2 = BlipForConditionalGeneration.from_pretrained("noamrot/FuseCap")
 pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium")
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -46,10 +55,40 @@ def generate_caption_and_image(image):
     # reader = easyocr.Reader(['en'])
     # result = reader.readtext(img)
     import random
-    reader = easyocr.Reader(['ur', 'eng'], gpu =False)
-    # Read text from an image
-    result = reader.readtext(img)
     # Define lists for the three variables

 import torch
 import spaces  # Hugging Face Spaces module
 import requests
+from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
+from qwen_vl_utils import process_vision_info
     raise ValueError("Hugging Face token is not set in the environment variables.")
 login(token=hf_token)
 # Load the processor and model
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 processor1 = BlipProcessor.from_pretrained("noamrot/FuseCap")
 model2 = BlipForConditionalGeneration.from_pretrained("noamrot/FuseCap")
 pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium")
+model3 =model = Qwen2VLForConditionalGeneration.from_pretrained(
+    "prithivMLmods/Qwen2-VL-OCR-2B-Instruct", torch_dtype="auto", device_map="auto"
+)
+processor2 = AutoProcessor.from_pretrained("prithivMLmods/Qwen2-VL-OCR-2B-Instruct")
 device = "cuda" if torch.cuda.is_available() else "cpu"
     # reader = easyocr.Reader(['en'])
     # result = reader.readtext(img)
     import random
+     messages = [
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "image",
+                    "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
+                },
+                {"type": "text", "text": img},
+            ],
+        }
+    ]
+    text = processor.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=[text],
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
+        return_tensors="pt",
+    )
+    inputs = inputs.to("cuda")
+    generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_ids_trimmed = [
+        out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
+    ]
+    result = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )
     # Define lists for the three variables