mistral-super-fast

Sleeping

App Files Files Community

sablab commited on May 11, 2024

Commit

da72fb0

verified ·

1 Parent(s): fe14c93

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -12

app.py CHANGED Viewed

@@ -17,15 +17,15 @@ def format_prompt(message, history):
 def generate(
     prompt, history, temperature=0.9, max_new_tokens=16000, top_p=0.95, repetition_penalty=1.0,
 ):
-    generate_kwargs = dict(
-        temperature=0.9,
-        max_new_tokens=16000,
-        top_p=0.9,
-        repetition_penalty=1.0,
         do_sample=True,
         seed=42,
     )
     formatted_prompt = format_prompt(prompt, history)
     stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
@@ -44,10 +44,59 @@ css = """
   }
 """
-with gr.Blocks(css=css) as demo:
-    gr.HTML("<h1><center>Mistral 7B Instruct<h1><center>")
-    gr.ChatInterface(
-        generate
-    )
-demo.queue().launch(debug=True)

 def generate(
     prompt, history, temperature=0.9, max_new_tokens=16000, top_p=0.95, repetition_penalty=1.0,
 ):
+        generate_kwargs = dict(
+        temperature=temperature,
+        max_new_tokens=max_new_tokens,
+        top_p=top_p,
+        repetition_penalty=repetition_penalty,
         do_sample=True,
         seed=42,
     )
     formatted_prompt = format_prompt(prompt, history)
     stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
   }
 """
+additional_inputs=[
+        gr.Textbox(
+                    label="System Prompt",
+                    max_lines=1,
+                    interactive=True,
+        ),
+        gr.Slider(
+                    label="Temperature",
+                    value=0.9,
+                    minimum=0.0,
+                    maximum=1.0,
+                    step=0.05,
+                    interactive=True,
+                    info="Higher values produce more diverse outputs",
+        ),
+        gr.Slider(
+                    label="Max new tokens",
+                    value=4192,
+                    minimum=4192,
+                    maximum=33536,
+                    step=64,
+                    interactive=True,
+                    info="The maximum numbers of new tokens",
+        ),
+        gr.Slider(
+                    label="Top-p (nucleus sampling)",
+                    value=0.90,
+                    minimum=0.0,
+                    maximum=1,
+                    step=0.05,
+                    interactive=True,
+                    info="Higher values sample more low-probability tokens",
+        ),
+        gr.Slider(
+                    label="Repetition penalty",
+                    value=1.2,
+                    minimum=1.0,
+                    maximum=2.0,
+                    step=0.05,
+                    interactive=True,
+                    info="Penalize repeated tokens",
+        )
+        )
+        )
+        )
+        )
+        )
+]
+gr.ChatInterface(
+    fn=generate,
+    chatbot=gr.Chatbot(show_label=False, show_share_button=False, show_copy_button=True, likeable=True, layout="panel"),
+    additional_inputs=additional_inputs,
+    title="Mistral 7B Instruct",
+    concurrency_limit=20,
+).launch(show_api=True)