Spaces:

Yahir
/

gemmaw

Sleeping

App Files Files Community

Yahir commited on Feb 23, 2024

Commit

a8ce6ea

verified ·

1 Parent(s): a4eda25

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -45

app.py CHANGED Viewed

@@ -1,106 +1,105 @@
 from huggingface_hub import InferenceClient
 import gradio as gr
-client = InferenceClient(
     "google/gemma-7b-it"
 )
-def format_prompt(message, history):
     prompt = ""
-    if history:
-        #<start_of_turn>userWhat is recession?<end_of_turn><start_of_turn>model
-        for user_prompt, bot_response in history:
-            prompt += f"<start_of_turn>user{user_prompt}<end_of_turn>"
-            prompt += f"<start_of_turn>model{bot_response}"
-    prompt += f"<start_of_turn>user{message}<end_of_turn><start_of_turn>model"
     return prompt
-def generate(
-    prompt, history, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0,
 ):
-    if not history:
-        history = []
-        hist_len=0
-    if history:
-        hist_len=len(history)
-        print(hist_len)
-    temperature = float(temperature)
-    if temperature < 1e-2:
-        temperature = 1e-2
     top_p = float(top_p)
-    generate_kwargs = dict(
-        temperature=temperature,
-        max_new_tokens=max_new_tokens,
         top_p=top_p,
-        repetition_penalty=repetition_penalty,
         do_sample=True,
         seed=42,
     )
-    formatted_prompt = format_prompt(prompt, history)
-    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
-    output = ""
-    for response in stream:
-        output += response.token.text
-        yield output
-    return output
-additional_inputs=[
     gr.Slider(
-        label="Temperature",
         value=0.9,
         minimum=0.0,
         maximum=1.0,
         step=0.05,
         interactive=True,
-        info="Higher values produce more diverse outputs",
     ),
     gr.Slider(
-        label="Max new tokens",
         value=512,
         minimum=0,
         maximum=1048,
         step=64,
         interactive=True,
-        info="The maximum numbers of new tokens",
     ),
     gr.Slider(
-        label="Top-p (nucleus sampling)",
         value=0.90,
         minimum=0.0,
         maximum=1,
         step=0.05,
         interactive=True,
-        info="Higher values sample more low-probability tokens",
     ),
     gr.Slider(
-        label="Repetition penalty",
         value=1.2,
         minimum=1.0,
         maximum=2.0,
         step=0.05,
         interactive=True,
-        info="Penalize repeated tokens",
     )
 ]
-# Create a Chatbot object with the desired height
 chatbot = gr.Chatbot(height=450,
                      layout="bubble")
 with gr.Blocks() as demo:
     gr.HTML("<h1><center>🤖 Google-Gemma-7B-Chat 💬<h1><center>")
     gr.ChatInterface(
-        generate,
-        chatbot=chatbot,  # Use the created Chatbot object
-        additional_inputs=additional_inputs,
-        examples=[["What is the meaning of life?"], ["Tell me something about Mt Fuji."]],
     )
-demo.queue().launch(debug=True)

 from huggingface_hub import InferenceClient
 import gradio as gr
+cliente = InferenceClient(
     "google/gemma-7b-it"
 )
+def format_prompt(mensaje, historial):
     prompt = ""
+    if historial:
+        for usuario, respuesta_bot in historial:
+            prompt += f"<start_of_turn>user{usuario}<end_of_turn>"
+            prompt += f"<start_of_turn>model{respuesta_bot}"
+    prompt += f"<start_of_turn>user{mensaje}<end_of_turn><start_of_turn>model"
     return prompt
+def generar(
+    mensaje, historial, temperatura=0.9, max_nuevos_tokens=256, top_p=0.95, penalizacion_repetición=1.0,
 ):
+    if not historial:
+        historial = []
+        longitud_hist=0
+    if historial:
+        longitud_hist=len(historial)
+        print(longitud_hist)
+    temperatura = float(temperatura)
+    if temperatura < 1e-2:
+        temperatura = 1e-2
     top_p = float(top_p)
+    generar_kwargs = dict(
+        temperatura=temperatura,
+        max_nuevos_tokens=max_nuevos_tokens,
         top_p=top_p,
+        penalizacion_repetición=penalizacion_repetición,
         do_sample=True,
         seed=42,
     )
+    prompt_formateado = format_prompt(mensaje, historial)
+    flujo = cliente.text_generation(prompt_formateado, **generar_kwargs, flujo=True, detalles=True, return_full_text=False)
+    salida = ""
+    for respuesta in flujo:
+        salida += respuesta.token.text
+        yield salida
+    return salida
+entradas_adicionales=[
     gr.Slider(
+        label="Temperatura",
         value=0.9,
         minimum=0.0,
         maximum=1.0,
         step=0.05,
         interactive=True,
+        info="Valores más altos producen salidas más diversas",
     ),
     gr.Slider(
+        label="Máx. tokens nuevos",
         value=512,
         minimum=0,
         maximum=1048,
         step=64,
         interactive=True,
+        info="El máximo de nuevos tokens",
     ),
     gr.Slider(
+        label="Top-p (muestreo de núcleo)",
         value=0.90,
         minimum=0.0,
         maximum=1,
         step=0.05,
         interactive=True,
+        info="Valores más altos muestrean más tokens de baja probabilidad",
     ),
     gr.Slider(
+        label="Penalización de repetición",
         value=1.2,
         minimum=1.0,
         maximum=2.0,
         step=0.05,
         interactive=True,
+        info="Penaliza los tokens repetidos",
     )
 ]
+# Crea un objeto Chatbot con la altura deseada
 chatbot = gr.Chatbot(height=450,
                      layout="bubble")
 with gr.Blocks() as demo:
     gr.HTML("<h1><center>🤖 Google-Gemma-7B-Chat 💬<h1><center>")
     gr.ChatInterface(
+        generar,
+        chatbot=chatbot,  # Utiliza el objeto Chatbot creado
+        additional_inputs=entradas_adicionales,
+        examples=[["¿Cuál es el significado de la vida?"], ["Cuéntame algo sobre el Monte Fuji."]],
     )
+demo.queue().launch(debug=True)