Spaces:

jonaschua
/

gemma

Running on Zero

App Files Files Community

jonaschua commited on Mar 13

Commit

87ee71d

verified ·

1 Parent(s): 10c78b8

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -64

app.py CHANGED Viewed

@@ -18,72 +18,82 @@ duration=None
 login(token = os.getenv('gemma'))
 ckpt = "google/gemma-3-4b-it"
-model = Gemma3ForConditionalGeneration.from_pretrained(
-    ckpt, device_map="auto", torch_dtype=torch.bfloat16,
-)
 processor = AutoProcessor.from_pretrained(ckpt)
-# image = Image.open(requests.get(url, stream=True).raw)
-# prompt = "<start_of_image> in this image, there is"
-# model_inputs = processor(text=prompt, images=image, return_tensors="pt")
-# input_len = model_inputs["input_ids"].shape[-1]
-# with torch.inference_mode():
-#     generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
-#     generation = generation[0][input_len:]
-@spaces.GPU(duration=duration)
-def respond(message, history: list[tuple[str, str]], system_message, max_tokens, temperature, top_p,):
-    # messages = [{"role": "system", "content": system_message}]
-    messages = [{
-        "role": "user",
-        "content": [
-            {"type": "image", "url": "https://huggingface.co/spaces/big-vision/paligemma-hf/resolve/main/examples/password.jpg"},
-            {"type": "text", "text": "What is the password?"}
-        ]}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    response = ""
-    # for message in client.chat_completion(messages, max_tokens=max_tokens, stream=True, temperature=temperature, top_p=top_p,):
-    #     token = message.choices[0].delta.content
-    #     response += token
-    #     yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
-demo = gr.ChatInterface(
-    respond,
-    textbox=gr.MultimodalTextbox(),
-    multimodal=True,
-    stop_btn="Stop generation",
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
-)
-if __name__ == "__main__":
-    demo.launch()

 login(token = os.getenv('gemma'))
 ckpt = "google/gemma-3-4b-it"
+model = Gemma3ForConditionalGeneration.from_pretrained(ckpt, torch_dtype=torch.bfloat16,).to("cuda")
 processor = AutoProcessor.from_pretrained(ckpt)
+@spaces.GPU
+def bot_streaming(message, history, max_new_tokens=250):
+    txt = message["text"]
+    ext_buffer = f"{txt}"
+    messages= []
+    images = []
+    for i, msg in enumerate(history):
+        if isinstance(msg[0], tuple):
+            messages.append({"role": "user", "content": [{"type": "text", "text": history[i+1][0]}, {"type": "image"}]})
+            messages.append({"role": "assistant", "content": [{"type": "text", "text": history[i+1][1]}]})
+            images.append(Image.open(msg[0][0]).convert("RGB"))
+        elif isinstance(history[i-1], tuple) and isinstance(msg[0], str):
+            # messages are already handled
+            pass
+        elif isinstance(history[i-1][0], str) and isinstance(msg[0], str): # text only turn
+            messages.append({"role": "user", "content": [{"type": "text", "text": msg[0]}]})
+            messages.append({"role": "assistant", "content": [{"type": "text", "text": msg[1]}]})
+    # add current message
+    if len(message["files"]) == 1:
+        if isinstance(message["files"][0], str): # examples
+            image = Image.open(message["files"][0]).convert("RGB")
+        else: # regular input
+            image = Image.open(message["files"][0]["path"]).convert("RGB")
+        images.append(image)
+        messages.append({"role": "user", "content": [{"type": "text", "text": txt}, {"type": "image"}]})
+    else:
+        messages.append({"role": "user", "content": [{"type": "text", "text": txt}]})
+    texts = processor.apply_chat_template(messages, add_generation_prompt=True)
+    if images == []:
+        inputs = processor(text=texts, return_tensors="pt").to("cuda")
+    else:
+        inputs = processor(text=texts, images=images, return_tensors="pt").to("cuda")
+    streamer = TextIteratorStreamer(processor, skip_special_tokens=True, skip_prompt=True)
+    generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=max_new_tokens)
+    generated_text = ""
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    buffer = ""
+    for new_text in streamer:
+        buffer += new_text
+        generated_text_without_prompt = buffer
+        time.sleep(0.01)
+        yield buffer
+demo = gr.ChatInterface(fn=bot_streaming,
+                        title="Multimodal Gemma 3 Model by Google",
+      textbox=gr.MultimodalTextbox(),
+      additional_inputs = [gr.Slider(
+              minimum=10,
+              maximum=500,
+              value=250,
+              step=10,
+              label="Maximum number of new tokens to generate",
+          )
+        ],
+      cache_examples=False,
+      description="Upload an image, and start chatting about it, or just enter any text into the prompt to start.",
+      stop_btn="Stop Generation",
+      fill_height=True,
+    multimodal=True)
+demo.launch(debug=True)