Spaces:

yejunliang23
/

ShapLLM-Omni

Running on Zero

App Files Files Community

yejunliang23 commited on May 27

Commit

d5b7fec

unverified ·

1 Parent(s): 52f32fc

Update app.py

Browse files

Files changed (1) hide show

app.py +81 -4

app.py CHANGED Viewed

@@ -9,6 +9,8 @@ from trimesh.exchange.gltf import export_glb
 import numpy as np
 import tempfile
 import copy
 def _remove_image_special(text):
     text = text.replace('<ref>', '').replace('</ref>', '')
@@ -19,7 +21,7 @@ def is_video_file(filename):
     video_extensions = ['.mp4', '.avi', '.mkv', '.mov', '.wmv', '.flv', '.webm', '.mpeg']
     return any(filename.lower().endswith(ext) for ext in video_extensions)
-def predict(_chatbot, task_history):
     chat_query = _chatbot[-1][0]
     query = task_history[-1][0]
     if len(chat_query) == 0:
@@ -43,24 +45,98 @@ def predict(_chatbot, task_history):
             messages.append({'role': 'assistant', 'content': [{'text': a}]})
             content = []
     messages.pop()
     messages = _transform_messages(messages)
     text = processor.apply_chat_template(
         messages, tokenize=False, add_generation_prompt=True)
-    print(text)
     image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(text=[text], images=image_inputs,
                         videos=video_inputs, padding=True, return_tensors='pt')
     inputs = inputs.to(model.device)
     streamer = TextIteratorStreamer(
-        tokenizer, timeout=2000.0, skip_prompt=True, skip_special_tokens=True)
     gen_kwargs = {'max_new_tokens': 512, 'streamer': streamer, **inputs}
     thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()
     #for new_text in streamer:
     #    yield new_text
@@ -68,6 +144,7 @@ def predict(_chatbot, task_history):
     for chunk in streamer:
         buffer.append(chunk)
         yield "".join(buffer)
 def regenerate(_chatbot, task_history):
@@ -192,7 +269,7 @@ def chat_qwen_vl(messages: str, history: list, temperature: float = 0.1, max_new
     streamer = TextIteratorStreamer(
         tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
-    gen_kwargs = {'max_new_tokens': 1024, 'streamer': streamer, **inputs}
     thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()

 import numpy as np
 import tempfile
 import copy
+from dashscope import MultiModalConversation
+import dashscope
 def _remove_image_special(text):
     text = text.replace('<ref>', '').replace('</ref>', '')
     video_extensions = ['.mp4', '.avi', '.mkv', '.mov', '.wmv', '.flv', '.webm', '.mpeg']
     return any(filename.lower().endswith(ext) for ext in video_extensions)
+def predict_(_chatbot, task_history):
     chat_query = _chatbot[-1][0]
     query = task_history[-1][0]
     if len(chat_query) == 0:
             messages.append({'role': 'assistant', 'content': [{'text': a}]})
             content = []
     messages.pop()
+    responses = MultiModalConversation.call(
+        model="Qwen/Qwen2.5-VL-3B-Instruct", messages=messages, stream=True,
+    )
+    for response in responses:
+        if not response.status_code == HTTPStatus.OK:
+            raise HTTPError(f'response.code: {response.code}\nresponse.message: {response.message}')
+        response = response.output.choices[0].message.content
+        response_text = []
+        for ele in response:
+            if 'text' in ele:
+                response_text.append(ele['text'])
+            elif 'box' in ele:
+                response_text.append(ele['box'])
+        response_text = ''.join(response_text)
+        _chatbot[-1] = (_parse_text(chat_query), _remove_image_special(response_text))
+        yield _chatbot
+    if len(response) > 1:
+        result_image = response[-1]['result_image']
+        resp = requests.get(result_image)
+        os.makedirs(uploaded_file_dir, exist_ok=True)
+        name = f"tmp{secrets.token_hex(20)}.jpg"
+        filename = os.path.join(uploaded_file_dir, name)
+        with open(filename, 'wb') as f:
+            f.write(resp.content)
+        response = ''.join(r['box'] if 'box' in r else r['text'] for r in response[:-1])
+        _chatbot.append((None, (filename,)))
+    else:
+        response = response[0]['text']
+        _chatbot[-1] = (_parse_text(chat_query), response)
+    full_response = _parse_text(response)
+    task_history[-1] = (query, full_response)
+    print("Qwen2.5-VL-Chat: " + _parse_text(full_response))
+    yield _chatbot
+def predict(_chatbot, task_history):
+    chat_query = _chatbot[-1][0]
+    query = task_history[-1][0]
+    if len(chat_query) == 0:
+        _chatbot.pop()
+        task_history.pop()
+        return _chatbot
+    print("User: " + _parse_text(query))
+    history_cp = copy.deepcopy(task_history)
+    full_response = ""
+    messages = []
+    content = []
+    for q, a in history_cp:
+        if isinstance(q, (tuple, list)):
+            if is_video_file(q[0]):
+                content.append({'video': f'file://{q[0]}'})
+            else:
+                content.append({'image': f'file://{q[0]}'})
+        else:
+            content.append({'text': q})
+            messages.append({'role': 'user', 'content': content})
+            messages.append({'role': 'assistant', 'content': [{'text': a}]})
+            content = []
+    messages.pop()
     messages = _transform_messages(messages)
     text = processor.apply_chat_template(
         messages, tokenize=False, add_generation_prompt=True)
     image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(text=[text], images=image_inputs,
                         videos=video_inputs, padding=True, return_tensors='pt')
     inputs = inputs.to(model.device)
     streamer = TextIteratorStreamer(
+        tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     gen_kwargs = {'max_new_tokens': 512, 'streamer': streamer, **inputs}
     thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()
+    # 初始化响应文本
+    full_response = ""
+    _chatbot[-1] = (_parse_text(chat_query), "")  # 初始化空响应
+    # 处理流式输出
+    for new_text in streamer:
+        full_response += new_text
+        # 更新最后一条对话的响应部分
+        _chatbot[-1] = (_parse_text(chat_query), _parse_text(full_response))
+        yield _chatbot
+    # 最终处理（如果需要保存完整响应）
+    task_history[-1] = (chat_query, full_response)
+    print("Model Output: " + _parse_text(full_response))
+    yield _chatbot
+    """
     #for new_text in streamer:
     #    yield new_text
     for chunk in streamer:
         buffer.append(chunk)
         yield "".join(buffer)
+    """
 def regenerate(_chatbot, task_history):
     streamer = TextIteratorStreamer(
         tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
+    gen_kwargs = {'max_new_tokens': 512, 'streamer': streamer, **inputs}
     thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()