Spaces:

augmxnt
/

shisa

Runtime error

leonardlin commited on Dec 8, 2023

Commit

9dfa458

1 Parent(s): f929d3a

remove streamer - threads causing weird issues

Files changed (1) hide show

app.py CHANGED Viewed

@@ -42,7 +42,6 @@ model = AutoModelForCausalLM.from_pretrained(
         bnb_4bit_compute_dtype=torch.bfloat16
     ),
 )
-streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
 def chat(message, history, system_prompt):
     print('---')
@@ -65,7 +64,6 @@ def chat(message, history, system_prompt):
     generate_kwargs = dict(
         inputs=input_ids,
-        streamer=streamer,
         max_new_tokens=200,
         do_sample=True,
         temperature=0.7,
@@ -74,13 +72,11 @@ def chat(message, history, system_prompt):
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.eos_token_id,
     )
-    # https://www.gradio.app/main/guides/creating-a-chatbot-fast#example-using-a-local-open-source-llm-with-hugging-face
-    t = Thread(target=model.generate, kwargs=generate_kwargs)
-    t.start()
-    partial_message = ""
-    for new_token in streamer:
-        partial_message += new_token # html.escape(new_token)
-        yield partial_message
 chat_interface = gr.ChatInterface(

         bnb_4bit_compute_dtype=torch.bfloat16
     ),
 )
 def chat(message, history, system_prompt):
     print('---')
     generate_kwargs = dict(
         inputs=input_ids,
         max_new_tokens=200,
         do_sample=True,
         temperature=0.7,
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.eos_token_id,
     )
+    output_ids = model.generate(**generate_kwargs)
+    new_tokens = output_ids[0, input_ids.size(1):]
+    response = tokenizer.decode(new_tokens, skip_special_tokens=True)
+    return response
 chat_interface = gr.ChatInterface(