Spaces:

Mahadih534
/

Rapid_TGI

Runtime error

App Files Files Community

Mahadih534 commited on Jan 31, 2024

Commit

cf5bb80

verified ·

1 Parent(s): 94549b0

added required filles

Browse files

Files changed (2) hide show

app.py +71 -0
requirements.txt +5 -0

app.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import gradio as gr
+from huggingface_hub import InferenceClient
+client = InferenceClient(model="mistralai/Mixtral-8x7B-Instruct-v0.1")
+def format_prompt(message, history):
+  prompt = "<s>"
+  for user_prompt, bot_response in history:
+    prompt += f"[INST] {user_prompt} [/INST]"
+    prompt += f" {bot_response}</s> "
+  prompt += f"[INST] {message} [/INST]"
+  return prompt
+def kwargs_get(Temperature, tokens, top_k, top_p, r_p):
+ generate_kwargs = dict(
+        temperature=Temperature,
+        max_new_tokens=tokens,
+        top_p=top_p,
+        repetition_penalty=r_p,
+        do_sample=True,
+        top_k=top_k,
+        seed=42,
+    )
+ return generate_kwargs
+def inference(message, history, Temperature, tokens, top_k, top_p, r_p, model):
+    prompt = format_prompt(message, history)
+    client = InferenceClient(model=model)
+    kwargs = kwargs_get(Temperature, tokens, top_k, top_p, r_p)
+    partial_message = ""
+    for response in client.text_generation(prompt,**kwargs, stream=True, details=True, return_full_text=False):
+        partial_message += response.token.text
+        yield partial_message
+with gr.Blocks() as UI:
+  with gr.Column():
+    gr.Markdown("Model Selection & Configuration")
+    models=gr.Dropdown(value="mistralai/Mixtral-8x7B-Instruct-v0.1",
+                       choices =["mistralai/Mixtral-8x7B-Instruct-v0.1","codellama/CodeLlama-7b-hf",
+                        "bigcode/starcoder","bigcode/santacoder","codellama/CodeLlama-70b-Instruct-hf",
+                        "google/flan-t5-xxl","facebook/opt-66b","tiiuae/falcon-40b", "bigscience/bloom",
+                        "EleutherAI/gpt-neox-20b"], label="Available models",
+                        info="default model is Mixtral-8x7B-Instruct-v0.1",interactive=True,)
+  with gr.Column():
+    gr.ChatInterface(
+        inference,
+        description="This is the demo for Gradio UI consuming TGI endpoint with LLaMA 7B-Chat model.",
+        title="Gradio 🤝 TGI",
+        additional_inputs_accordion="Additional Configuration to get better response",
+        retry_btn=None,
+        undo_btn=None,
+        clear_btn="Clear",
+        theme="soft",
+        submit_btn="Send",
+        additional_inputs=[
+                                gr.Slider(value=0.1, maximum=0.99,label="Temperature"),
+                                gr.Slider(value=352, maximum=1020,label="Max New Tokens"),
+                                gr.Slider(value=980, maximum=1000,label="Top K"),
+                                gr.Slider(value=0.90, maximum=0.99,label="Top P"),
+                                gr.Slider(value=0.99, maximum=1.0,label="Repetition Penalty"),
+                                models
+                            ],
+        examples=[["Hello", "Am I cool?", "Are tomatoes vegetables?"]],
+    )
+UI.queue().launch(debug=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+# ChatBot_UI
+gradio
+# Mixtral Inference Endpoint
+huggingface_hub