Spaces:

Corvius
/

LLaMA-3.1-405B-Instruct

Runtime error

App Files Files Community

Corvius commited on Jul 26, 2024

Commit

4464e12

verified ·

1 Parent(s): bcda566

better streaming

Browse files

Files changed (1) hide show

app.py +11 -9

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import requests
 import json
 import threading
 import os
 from requests.exceptions import RequestException
 stop_generation = threading.Event()
@@ -16,6 +17,9 @@ headers = {
 session = requests.Session()
 def predict(message, history, system_prompt, temperature, top_p, top_k, frequency_penalty, presence_penalty, repetition_penalty, max_tokens):
     global stop_generation, session
     stop_generation.clear()
@@ -27,6 +31,8 @@ def predict(message, history, system_prompt, temperature, top_p, top_k, frequenc
             history_format.append({"role": "assistant", "content": assistant})
     history_format.append({"role": "user", "content": message})
     data = {
         "model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
         "messages": history_format,
@@ -58,15 +64,12 @@ def predict(message, history, system_prompt, temperature, top_p, top_k, frequenc
                                 content = json_data['choices'][0]['delta'].get('content', '')
                                 if content:
                                     partial_message += content
-                                    print(f"<|assistant|>\n{partial_message}\n")
                                     yield partial_message
                         except json.JSONDecodeError:
                             continue
         if partial_message:
-            print(f"<|assistant|>\n{partial_message}\n")
             yield partial_message
     except RequestException as e:
@@ -99,11 +102,11 @@ def import_chat(custom_format_string):
         return None, None
 def export_chat(history, system_prompt):
-    export_data = f"<|system|>\n{system_prompt}\n\n"
     for user_msg, assistant_msg in history:
-        export_data += f"<|user|>\n{user_msg}\n\n"
         if assistant_msg:
-            export_data += f"<|assistant|>\n{assistant_msg}\n\n"
     return export_data
 def stop_generation_func():
@@ -139,8 +142,7 @@ with gr.Blocks(theme='gradio/monochrome') as demo:
             max_tokens = gr.Slider(1, 1024, value=256, step=1, label="Max Output (max_tokens)")
     def user(user_message, history):
-        print(f"<|user|>\n{user_message}\n")
         return "", history + [[user_message, None]]
     def bot(history, system_prompt, temperature, top_p, top_k, frequency_penalty, presence_penalty, repetition_penalty, max_tokens):

 import json
 import threading
 import os
+import datetime
 from requests.exceptions import RequestException
 stop_generation = threading.Event()
 session = requests.Session()
+def get_timestamp():
+    return datetime.datetime.now().strftime("%H:%M:%S")
 def predict(message, history, system_prompt, temperature, top_p, top_k, frequency_penalty, presence_penalty, repetition_penalty, max_tokens):
     global stop_generation, session
     stop_generation.clear()
             history_format.append({"role": "assistant", "content": assistant})
     history_format.append({"role": "user", "content": message})
+    print(f"<|system|> {system_prompt}")
     data = {
         "model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
         "messages": history_format,
                                 content = json_data['choices'][0]['delta'].get('content', '')
                                 if content:
                                     partial_message += content
                                     yield partial_message
                         except json.JSONDecodeError:
                             continue
         if partial_message:
+            print(f"<|assistant|> {partial_message}")
             yield partial_message
     except RequestException as e:
         return None, None
 def export_chat(history, system_prompt):
+    export_data = f"<|system|> {system_prompt}\n\n"
     for user_msg, assistant_msg in history:
+        export_data += f"<|user|> {user_msg}\n\n"
         if assistant_msg:
+            export_data += f"<|assistant|> {assistant_msg}\n\n"
     return export_data
 def stop_generation_func():
             max_tokens = gr.Slider(1, 1024, value=256, step=1, label="Max Output (max_tokens)")
     def user(user_message, history):
+        print(f"{get_timestamp()} <|user|> {user_message}")
         return "", history + [[user_message, None]]
     def bot(history, system_prompt, temperature, top_p, top_k, frequency_penalty, presence_penalty, repetition_penalty, max_tokens):