Spaces:

huggingface-projects
/

gemma-3-12b-it

Running on Zero

App Files Files Community

hysts HF Staff commited on Mar 14

Commit

3a57265

1 Parent(s): 08f127f

ruff

Browse files

Files changed (1) hide show

app.py +18 -18

app.py CHANGED Viewed

@@ -1,12 +1,15 @@
 #!/usr/bin/env python
 from collections.abc import Iterator
 from threading import Thread
 import gradio as gr
 import spaces
 import torch
-import re
 from transformers import AutoProcessor, Gemma3ForConditionalGeneration, TextIteratorStreamer
 model_id = "google/gemma-3-12b-it"
@@ -15,17 +18,13 @@ model = Gemma3ForConditionalGeneration.from_pretrained(
     model_id, device_map="auto", torch_dtype=torch.bfloat16, attn_implementation="eager"
 )
-import cv2
-from PIL import Image
-import numpy as np
-import tempfile
 def downsample_video(video_path):
     vidcap = cv2.VideoCapture(video_path)
     fps = vidcap.get(cv2.CAP_PROP_FPS)
     total_frames = int(vidcap.get(cv2.CAP_PROP_FRAME_COUNT))
-    frame_interval = int(fps / 3)
     frames = []
     for i in range(0, total_frames, frame_interval):
@@ -34,7 +33,7 @@ def downsample_video(video_path):
         if success:
             image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
             pil_image = Image.fromarray(image)
-            timestamp = round(i / fps, 2)
             frames.append((pil_image, timestamp))
     vidcap.release()
@@ -46,8 +45,8 @@ def process_new_user_message(message: dict) -> list[dict]:
         if "<image>" in message["text"]:
             content = []
             print("message[files]", message["files"])
-            parts = re.split(r'(<image>)', message["text"])
-            image_index = 0
             print("parts", parts)
             for part in parts:
                 print("part", part)
@@ -55,29 +54,30 @@ def process_new_user_message(message: dict) -> list[dict]:
                     content.append({"type": "image", "url": message["files"][image_index]})
                     print("file", message["files"][image_index])
                     image_index += 1
-                elif part.strip():
                     content.append({"type": "text", "text": part.strip()})
                 elif isinstance(part, str) and not part == "<image>":
                     content.append({"type": "text", "text": part})
             print(content)
             return content
-        elif message["files"][0].endswith(".mp4"):
             content = []
             video = message["files"].pop(0)
             frames = downsample_video(video)
             for frame in frames:
                 pil_image, timestamp = frame
-                with tempfile.NamedTemporaryFile(delete=False, suffix='.png') as temp_file:
                     pil_image.save(temp_file.name)
                     content.append({"type": "text", "text": f"Frame {timestamp}:"})
                     content.append({"type": "image", "url": temp_file.name})
             print(content)
             return content
-        else:
-            # non interleaved images
-            return [{"type": "text", "text": message["text"]}, *[{"type": "image", "url": path} for path in message["files"]]]
-    else:
-        return [{"type": "text", "text": message["text"]}]
 def process_history(history: list[dict]) -> list[dict]:

 #!/usr/bin/env python
+import re
+import tempfile
 from collections.abc import Iterator
 from threading import Thread
+import cv2
 import gradio as gr
 import spaces
 import torch
+from PIL import Image
 from transformers import AutoProcessor, Gemma3ForConditionalGeneration, TextIteratorStreamer
 model_id = "google/gemma-3-12b-it"
     model_id, device_map="auto", torch_dtype=torch.bfloat16, attn_implementation="eager"
 )
 def downsample_video(video_path):
     vidcap = cv2.VideoCapture(video_path)
     fps = vidcap.get(cv2.CAP_PROP_FPS)
     total_frames = int(vidcap.get(cv2.CAP_PROP_FRAME_COUNT))
+    frame_interval = int(fps / 3)
     frames = []
     for i in range(0, total_frames, frame_interval):
         if success:
             image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
             pil_image = Image.fromarray(image)
+            timestamp = round(i / fps, 2)
             frames.append((pil_image, timestamp))
     vidcap.release()
         if "<image>" in message["text"]:
             content = []
             print("message[files]", message["files"])
+            parts = re.split(r"(<image>)", message["text"])
+            image_index = 0
             print("parts", parts)
             for part in parts:
                 print("part", part)
                     content.append({"type": "image", "url": message["files"][image_index]})
                     print("file", message["files"][image_index])
                     image_index += 1
+                elif part.strip():
                     content.append({"type": "text", "text": part.strip()})
                 elif isinstance(part, str) and not part == "<image>":
                     content.append({"type": "text", "text": part})
             print(content)
             return content
+        if message["files"][0].endswith(".mp4"):
             content = []
             video = message["files"].pop(0)
             frames = downsample_video(video)
             for frame in frames:
                 pil_image, timestamp = frame
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".png") as temp_file:
                     pil_image.save(temp_file.name)
                     content.append({"type": "text", "text": f"Frame {timestamp}:"})
                     content.append({"type": "image", "url": temp_file.name})
             print(content)
             return content
+        # non interleaved images
+        return [
+            {"type": "text", "text": message["text"]},
+            *[{"type": "image", "url": path} for path in message["files"]],
+        ]
+    return [{"type": "text", "text": message["text"]}]
 def process_history(history: list[dict]) -> list[dict]: