Spaces:

askbyte
/

biter-zephyr

Running

App Files Files Community

askbyte commited on Mar 22

Commit

8f8781e

verified ·

1 Parent(s): fda4c03

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -11

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 """
-Versión usando Phi-1.5, un modelo más pequeño que Phi-2.
 """
 import gradio as gr
@@ -22,21 +22,21 @@ def generate_response(user_message):
        # Obtener el prompt del sistema
        system_prompt = get_system_prompt()
-       # Crear el prompt completo para Phi-1.5
-       prompt = f"Instrucciones: {system_prompt}\n\nUsuario: {user_message}\n\nAsistente:"
        # Generar respuesta usando el pipeline
        response = generator(
            prompt,
-           max_new_tokens=256,  # Reducido para mayor velocidad
            temperature=0.7,
            top_p=0.9,
            do_sample=True,
            num_return_sequences=1
        )[0]["generated_text"]
-       # Extraer solo la respuesta del asistente (después de "Asistente:")
-       assistant_response = response.split("Asistente:")[-1].strip()
        # Forzar recolección de basura
        gc.collect()
@@ -49,12 +49,12 @@ def generate_response(user_message):
        return f"Lo siento, ha ocurrido un error: {str(e)}"
 # Cargar el modelo y crear el pipeline
-print("Cargando modelo Phi-1.5 (1.3B parámetros)...")
-# Usar Phi-1.5, un modelo muy pequeño (1.3B parámetros) pero potente
-model_name = "microsoft/phi-1_5"
-# Configuración para reducir el uso de memoria y aumentar velocidad
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
    model_name,
@@ -91,5 +91,5 @@ demo = gr.Interface(
 # Lanzar la aplicación con configuración para ahorrar memoria
 if __name__ == "__main__":
-   # Configurar menos workers para ahorrar memoria y aumentar velocidad
    demo.queue(max_size=1).launch(share=False, debug=False)

 """
+Versión alternativa usando un modelo aún más pequeño y optimizado para español.
 """
 import gradio as gr
        # Obtener el prompt del sistema
        system_prompt = get_system_prompt()
+       # Crear el prompt completo
+       prompt = f"{system_prompt}\n\nPregunta: {user_message}\n\nRespuesta:"
        # Generar respuesta usando el pipeline
        response = generator(
            prompt,
+           max_new_tokens=256,
            temperature=0.7,
            top_p=0.9,
            do_sample=True,
            num_return_sequences=1
        )[0]["generated_text"]
+       # Extraer solo la respuesta (después de "Respuesta:")
+       assistant_response = response.split("Respuesta:")[-1].strip()
        # Forzar recolección de basura
        gc.collect()
        return f"Lo siento, ha ocurrido un error: {str(e)}"
 # Cargar el modelo y crear el pipeline
+print("Cargando modelo ultra ligero...")
+# Usar un modelo muy pequeño con soporte para español
+model_name = "PlanTL-GOB-ES/gpt2-base-bne"  # Modelo de ~125M parámetros, extremadamente ligero
+# Configuración para reducir el uso de memoria
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
    model_name,
 # Lanzar la aplicación con configuración para ahorrar memoria
 if __name__ == "__main__":
+   # Configurar menos workers para ahorrar memoria
    demo.queue(max_size=1).launch(share=False, debug=False)