Spaces:

mubbashir-ahmed
/

MyModelTestingSpace

Running

App Files Files Community

Mubbashir Ahmed commited on 20 days ago

Commit

b7f426b

1 Parent(s): 7e42f7f

cmt

Browse files

Files changed (2) hide show

app.py +31 -39
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,53 +1,45 @@
 import gradio as gr
-from transformers import AutoProcessor, Llama4ForConditionalGeneration
-import torch
-model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
-processor = AutoProcessor.from_pretrained(model_id)
-model = Llama4ForConditionalGeneration.from_pretrained(
-    model_id,
-    attn_implementation="flex_attention",
-    device_map="auto",
-    torch_dtype=torch.bfloat16,
 )
-def analyze_images(image1, image2, question):
     messages = [
         {
             "role": "user",
             "content": [
-                {"type": "image", "image": image1},
-                {"type": "image", "image": image2},
-                {"type": "text", "text": question}
             ]
         }
     ]
-    inputs = processor.apply_chat_template(
-        messages,
-        add_generation_prompt=True,
-        tokenize=True,
-        return_dict=True,
-        return_tensors="pt",
-    ).to(model.device)
-    outputs = model.generate(
-        **inputs,
-        max_new_tokens=256,
     )
-    response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
-    return response.strip()
-gr.Interface(
-    fn=analyze_images,
-    inputs=[
-        gr.Image(type="pil", label="Image 1"),
-        gr.Image(type="pil", label="Image 2"),
-        gr.Textbox(lines=2, label="Your Question"),
-    ],
-    outputs="text",
-    title="LLaMA 4 Multimodal Visual Q&A",
-    description="Upload two images and ask a question — powered by LLaMA 4"
-).launch()

+import os
 import gradio as gr
+from huggingface_hub import InferenceClient
+# Read your HF token from secret
+client = InferenceClient(
+    provider="sambanova",
+    api_key=os.environ["HF_TOKEN"],
 )
+def llama4_image_chat(image_url, question):
     messages = [
         {
             "role": "user",
             "content": [
+                {"type": "text", "text": question},
+                {
+                    "type": "image_url",
+                    "image_url": {"url": image_url}
+                }
             ]
         }
     ]
+    completion = client.chat.completions.create(
+        model="meta-llama/Llama-4-Maverick-17B-128E-Instruct",
+        messages=messages
     )
+    return completion.choices[0].message.content
+with gr.Blocks() as demo:
+    gr.Markdown("## 🦙 LLaMA 4 Visual Chat")
+    gr.Markdown("Upload an image URL and ask a question.")
+    with gr.Row():
+        image_url_input = gr.Textbox(label="Image URL", placeholder="Paste image URL here...")
+        question_input = gr.Textbox(label="Question", placeholder="e.g., Describe this image in one sentence.")
+    submit_btn = gr.Button("Ask LLaMA 4")
+    output_box = gr.Textbox(label="Response", lines=6)
+    submit_btn.click(fn=llama4_image_chat, inputs=[image_url_input, question_input], outputs=output_box)
+demo.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 transformers>=4.41.0
 torch>=2.2.0
 gradio>=4.24.0

 transformers>=4.41.0
 torch>=2.2.0
 gradio>=4.24.0
+huggingface_hub>=0.22.2