Spaces:

askbyte
/

biter-zephyr

Running

App Files Files Community

askbyte commited on Mar 22

Commit

fda4c03

verified ·

1 Parent(s): 06ee2a9

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -65

app.py CHANGED Viewed

@@ -1,3 +1,7 @@
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 import torch
@@ -6,92 +10,86 @@ import os
 # Función para cargar el prompt desde el archivo
 def get_system_prompt():
-    with open("prompt.txt", "r", encoding="utf-8") as f:
-        return f.read().strip()
 # Función para generar respuestas
 def generate_response(user_message):
-    try:
-        if not user_message.strip():
-            return "Por favor, escribe una pregunta para que pueda ayudarte."
-        # Obtener el prompt del sistema
-        system_prompt = get_system_prompt()
-        # Crear el prompt completo para TinyLlama
-        prompt = f"""<|system|>
-{system_prompt}
-<|user|>
-{user_message}
-<|assistant|>"""
-        # Generar respuesta usando el pipeline
-        response = generator(
-            prompt,
-            max_new_tokens=256,  # Reducido para mayor velocidad
-            temperature=0.7,
-            top_p=0.9,
-            do_sample=True,
-            num_return_sequences=1
-        )[0]["generated_text"]
-        # Extraer solo la respuesta del asistente (después del último <|assistant|>)
-        assistant_response = response.split("<|assistant|>")[-1].strip()
-        # Forzar recolección de basura
-        gc.collect()
-        torch.cuda.empty_cache() if torch.cuda.is_available() else None
-        return assistant_response
-    except Exception as e:
-        print(f"Error: {str(e)}")
-        return f"Lo siento, ha ocurrido un error: {str(e)}"
 # Cargar el modelo y crear el pipeline
-print("Cargando modelo ultra ligero...")
-# Usar TinyLlama, un modelo muy pequeño (1.1B parámetros) pero potente
-model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 # Configuración para reducir el uso de memoria y aumentar velocidad
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float32,
-    low_cpu_mem_usage=True,
-    # Cargamos en 8-bit para reducir memoria y aumentar velocidad
-    load_in_8bit=True
 )
 # Crear el pipeline de generación de texto
 generator = pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=tokenizer
 )
 print("Modelo cargado correctamente!")
 # Crear la interfaz de Gradio
 demo = gr.Interface(
-    fn=generate_response,
-    inputs=gr.Textbox(
-        placeholder="Escribe tu pregunta sobre emprendimiento aquí...",
-        label="Tu pregunta"
-    ),
-    outputs=gr.Textbox(label="Respuesta de BITER"),
-    title="BITER - Tu Mentor en Tiempo Real para Decisiones de Negocio",
-    description="BITER es un asistente de IA que responde dudas de emprendedores como si fuera un CEO experimentado.",
-    examples=[
-        ["¿Cómo puedo validar mi idea de negocio con poco presupuesto?"],
-        ["¿Cuál es la mejor estrategia para conseguir mis primeros clientes?"],
-        ["¿Debería invertir en publicidad en redes sociales o en SEO?"]
-    ],
-    allow_flagging="never"
 )
 # Lanzar la aplicación con configuración para ahorrar memoria
 if __name__ == "__main__":
-    # Configurar menos workers para ahorrar memoria y aumentar velocidad
-    demo.queue(max_size=1).launch(share=False, debug=False)

+"""
+Versión usando Phi-1.5, un modelo más pequeño que Phi-2.
+"""
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 import torch
 # Función para cargar el prompt desde el archivo
 def get_system_prompt():
+   with open("prompt.txt", "r", encoding="utf-8") as f:
+       return f.read().strip()
 # Función para generar respuestas
 def generate_response(user_message):
+   try:
+       if not user_message.strip():
+           return "Por favor, escribe una pregunta para que pueda ayudarte."
+       # Obtener el prompt del sistema
+       system_prompt = get_system_prompt()
+       # Crear el prompt completo para Phi-1.5
+       prompt = f"Instrucciones: {system_prompt}\n\nUsuario: {user_message}\n\nAsistente:"
+       # Generar respuesta usando el pipeline
+       response = generator(
+           prompt,
+           max_new_tokens=256,  # Reducido para mayor velocidad
+           temperature=0.7,
+           top_p=0.9,
+           do_sample=True,
+           num_return_sequences=1
+       )[0]["generated_text"]
+       # Extraer solo la respuesta del asistente (después de "Asistente:")
+       assistant_response = response.split("Asistente:")[-1].strip()
+       # Forzar recolección de basura
+       gc.collect()
+       torch.cuda.empty_cache() if torch.cuda.is_available() else None
+       return assistant_response
+   except Exception as e:
+       print(f"Error: {str(e)}")
+       return f"Lo siento, ha ocurrido un error: {str(e)}"
 # Cargar el modelo y crear el pipeline
+print("Cargando modelo Phi-1.5 (1.3B parámetros)...")
+# Usar Phi-1.5, un modelo muy pequeño (1.3B parámetros) pero potente
+model_name = "microsoft/phi-1_5"
 # Configuración para reducir el uso de memoria y aumentar velocidad
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
+   model_name,
+   torch_dtype=torch.float32,
+   low_cpu_mem_usage=True
 )
 # Crear el pipeline de generación de texto
 generator = pipeline(
+   "text-generation",
+   model=model,
+   tokenizer=tokenizer
 )
 print("Modelo cargado correctamente!")
 # Crear la interfaz de Gradio
 demo = gr.Interface(
+   fn=generate_response,
+   inputs=gr.Textbox(
+       placeholder="Escribe tu pregunta sobre emprendimiento aquí...",
+       label="Tu pregunta"
+   ),
+   outputs=gr.Textbox(label="Respuesta de BITER"),
+   title="BITER - Tu Mentor en Tiempo Real para Decisiones de Negocio",
+   description="BITER es un asistente de IA que responde dudas de emprendedores como si fuera un CEO experimentado.",
+   examples=[
+       ["¿Cómo puedo validar mi idea de negocio con poco presupuesto?"],
+       ["¿Cuál es la mejor estrategia para conseguir mis primeros clientes?"],
+       ["¿Debería invertir en publicidad en redes sociales o en SEO?"]
+   ],
+   allow_flagging="never"
 )
 # Lanzar la aplicación con configuración para ahorrar memoria
 if __name__ == "__main__":
+   # Configurar menos workers para ahorrar memoria y aumentar velocidad
+   demo.queue(max_size=1).launch(share=False, debug=False)