Spaces:

thunder-007
/

google-gemma-7b-it

Runtime error

thunder-007 commited on Feb 25, 2024

Commit

4e97e1e

verified ·

1 Parent(s): cfe1bf5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,14 +5,14 @@ from llm import Gemma2B
 llm = Gemma2B()
-def echo(message, history, system_prompt, tokens):
     chat_template = []
     for user, model in history:
         chat_template = [
             {"role": "user", "content": user},
             {"role": "model", "content": model},
         ]
-    response = llm.inference_quantized_4bit(
         chat_template + [{"role": "user", "content": message}
                          ]).split("<start_of_turn>")[-1].strip("model").strip("<eos>")
     for i in range(max(len(response), int(tokens))):
@@ -20,7 +20,7 @@ def echo(message, history, system_prompt, tokens):
         yield response[: i + 1]
-demo = gr.ChatInterface(echo,
                         additional_inputs=[
                             gr.Textbox("You are helpful AI.", label="System Prompt"),
                             gr.Slider(10, 200, 100, label="Tokens")

 llm = Gemma2B()
+def inference(message, history, system_prompt, tokens):
     chat_template = []
     for user, model in history:
         chat_template = [
             {"role": "user", "content": user},
             {"role": "model", "content": model},
         ]
+    response = llm.inference_cpu(
         chat_template + [{"role": "user", "content": message}
                          ]).split("<start_of_turn>")[-1].strip("model").strip("<eos>")
     for i in range(max(len(response), int(tokens))):
         yield response[: i + 1]
+demo = gr.ChatInterface(inference,
                         additional_inputs=[
                             gr.Textbox("You are helpful AI.", label="System Prompt"),
                             gr.Slider(10, 200, 100, label="Tokens")