Spaces:

Yahir
/

gemmaw

Sleeping

App Files Files Community

Yahir commited on Feb 23, 2024

Commit

dbe7aa2

verified ·

1 Parent(s): a8ce6ea

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -44

app.py CHANGED Viewed

@@ -1,105 +1,106 @@
 from huggingface_hub import InferenceClient
 import gradio as gr
-cliente = InferenceClient(
     "google/gemma-7b-it"
 )
-def format_prompt(mensaje, historial):
     prompt = ""
-    if historial:
-        for usuario, respuesta_bot in historial:
-            prompt += f"<start_of_turn>user{usuario}<end_of_turn>"
-            prompt += f"<start_of_turn>model{respuesta_bot}"
-    prompt += f"<start_of_turn>user{mensaje}<end_of_turn><start_of_turn>model"
     return prompt
-def generar(
-    mensaje, historial, temperatura=0.9, max_nuevos_tokens=256, top_p=0.95, penalizacion_repetición=1.0,
 ):
-    if not historial:
-        historial = []
-        longitud_hist=0
-    if historial:
-        longitud_hist=len(historial)
-        print(longitud_hist)
-    temperatura = float(temperatura)
-    if temperatura < 1e-2:
-        temperatura = 1e-2
     top_p = float(top_p)
-    generar_kwargs = dict(
-        temperatura=temperatura,
-        max_nuevos_tokens=max_nuevos_tokens,
         top_p=top_p,
-        penalizacion_repetición=penalizacion_repetición,
         do_sample=True,
         seed=42,
     )
-    prompt_formateado = format_prompt(mensaje, historial)
-    flujo = cliente.text_generation(prompt_formateado, **generar_kwargs, flujo=True, detalles=True, return_full_text=False)
-    salida = ""
-    for respuesta in flujo:
-        salida += respuesta.token.text
-        yield salida
-    return salida
-entradas_adicionales=[
     gr.Slider(
-        label="Temperatura",
         value=0.9,
         minimum=0.0,
         maximum=1.0,
         step=0.05,
         interactive=True,
-        info="Valores más altos producen salidas más diversas",
     ),
     gr.Slider(
-        label="Máx. tokens nuevos",
         value=512,
         minimum=0,
         maximum=1048,
         step=64,
         interactive=True,
-        info="El máximo de nuevos tokens",
     ),
     gr.Slider(
-        label="Top-p (muestreo de núcleo)",
         value=0.90,
         minimum=0.0,
         maximum=1,
         step=0.05,
         interactive=True,
-        info="Valores más altos muestrean más tokens de baja probabilidad",
     ),
     gr.Slider(
-        label="Penalización de repetición",
         value=1.2,
         minimum=1.0,
         maximum=2.0,
         step=0.05,
         interactive=True,
-        info="Penaliza los tokens repetidos",
     )
 ]
-# Crea un objeto Chatbot con la altura deseada
 chatbot = gr.Chatbot(height=450,
                      layout="bubble")
 with gr.Blocks() as demo:
     gr.HTML("<h1><center>🤖 Google-Gemma-7B-Chat 💬<h1><center>")
     gr.ChatInterface(
-        generar,
-        chatbot=chatbot,  # Utiliza el objeto Chatbot creado
-        additional_inputs=entradas_adicionales,
-        examples=[["¿Cuál es el significado de la vida?"], ["Cuéntame algo sobre el Monte Fuji."]],
     )
-demo.queue().launch(debug=True)

 from huggingface_hub import InferenceClient
 import gradio as gr
+client = InferenceClient(
     "google/gemma-7b-it"
 )
+def format_prompt(message, history):
     prompt = ""
+    if history:
+        #<start_of_turn>userWhat is recession?<end_of_turn><start_of_turn>model
+        for user_prompt, bot_response in history:
+            prompt += f"<start_of_turn>user{user_prompt}<end_of_turn>"
+            prompt += f"<start_of_turn>model{bot_response}"
+    prompt += f"<start_of_turn>user{message}<end_of_turn><start_of_turn>model"
     return prompt
+def generate(
+    prompt, history, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0,
 ):
+    if not history:
+        history = []
+        hist_len=0
+    if history:
+        hist_len=len(history)
+        print(hist_len)
+    temperature = float(temperature)
+    if temperature < 1e-2:
+        temperature = 1e-2
     top_p = float(top_p)
+    generate_kwargs = dict(
+        temperature=temperature,
+        max_new_tokens=max_new_tokens,
         top_p=top_p,
+        repetition_penalty=repetition_penalty,
         do_sample=True,
         seed=42,
     )
+    formatted_prompt = format_prompt(prompt, history)
+    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
+    output = ""
+    for response in stream:
+        output += response.token.text
+        yield output
+    return output
+additional_inputs=[
     gr.Slider(
+        label="Temperature",
         value=0.9,
         minimum=0.0,
         maximum=1.0,
         step=0.05,
         interactive=True,
+        info="Higher values produce more diverse outputs",
     ),
     gr.Slider(
+        label="Max new tokens",
         value=512,
         minimum=0,
         maximum=1048,
         step=64,
         interactive=True,
+        info="The maximum numbers of new tokens",
     ),
     gr.Slider(
+        label="Top-p (nucleus sampling)",
         value=0.90,
         minimum=0.0,
         maximum=1,
         step=0.05,
         interactive=True,
+        info="Higher values sample more low-probability tokens",
     ),
     gr.Slider(
+        label="Repetition penalty",
         value=1.2,
         minimum=1.0,
         maximum=2.0,
         step=0.05,
         interactive=True,
+        info="Penalize repeated tokens",
     )
 ]
+# Create a Chatbot object with the desired height
 chatbot = gr.Chatbot(height=450,
                      layout="bubble")
 with gr.Blocks() as demo:
     gr.HTML("<h1><center>🤖 Google-Gemma-7B-Chat 💬<h1><center>")
     gr.ChatInterface(
+        generate,
+        chatbot=chatbot,  # Use the created Chatbot object
+        additional_inputs=additional_inputs,
+        examples=[["What is the meaning of life?"], ["Tell me something about Mt Fuji."]],
     )
+demo.queue().launch(debug=True)