askbyte commited on
Commit
8f8781e
verified
1 Parent(s): fda4c03

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +11 -11
app.py CHANGED
@@ -1,5 +1,5 @@
1
  """
2
- Versi贸n usando Phi-1.5, un modelo m谩s peque帽o que Phi-2.
3
  """
4
 
5
  import gradio as gr
@@ -22,21 +22,21 @@ def generate_response(user_message):
22
  # Obtener el prompt del sistema
23
  system_prompt = get_system_prompt()
24
 
25
- # Crear el prompt completo para Phi-1.5
26
- prompt = f"Instrucciones: {system_prompt}\n\nUsuario: {user_message}\n\nAsistente:"
27
 
28
  # Generar respuesta usando el pipeline
29
  response = generator(
30
  prompt,
31
- max_new_tokens=256, # Reducido para mayor velocidad
32
  temperature=0.7,
33
  top_p=0.9,
34
  do_sample=True,
35
  num_return_sequences=1
36
  )[0]["generated_text"]
37
 
38
- # Extraer solo la respuesta del asistente (despu茅s de "Asistente:")
39
- assistant_response = response.split("Asistente:")[-1].strip()
40
 
41
  # Forzar recolecci贸n de basura
42
  gc.collect()
@@ -49,12 +49,12 @@ def generate_response(user_message):
49
  return f"Lo siento, ha ocurrido un error: {str(e)}"
50
 
51
  # Cargar el modelo y crear el pipeline
52
- print("Cargando modelo Phi-1.5 (1.3B par谩metros)...")
53
 
54
- # Usar Phi-1.5, un modelo muy peque帽o (1.3B par谩metros) pero potente
55
- model_name = "microsoft/phi-1_5"
56
 
57
- # Configuraci贸n para reducir el uso de memoria y aumentar velocidad
58
  tokenizer = AutoTokenizer.from_pretrained(model_name)
59
  model = AutoModelForCausalLM.from_pretrained(
60
  model_name,
@@ -91,5 +91,5 @@ demo = gr.Interface(
91
 
92
  # Lanzar la aplicaci贸n con configuraci贸n para ahorrar memoria
93
  if __name__ == "__main__":
94
- # Configurar menos workers para ahorrar memoria y aumentar velocidad
95
  demo.queue(max_size=1).launch(share=False, debug=False)
 
1
  """
2
+ Versi贸n alternativa usando un modelo a煤n m谩s peque帽o y optimizado para espa帽ol.
3
  """
4
 
5
  import gradio as gr
 
22
  # Obtener el prompt del sistema
23
  system_prompt = get_system_prompt()
24
 
25
+ # Crear el prompt completo
26
+ prompt = f"{system_prompt}\n\nPregunta: {user_message}\n\nRespuesta:"
27
 
28
  # Generar respuesta usando el pipeline
29
  response = generator(
30
  prompt,
31
+ max_new_tokens=256,
32
  temperature=0.7,
33
  top_p=0.9,
34
  do_sample=True,
35
  num_return_sequences=1
36
  )[0]["generated_text"]
37
 
38
+ # Extraer solo la respuesta (despu茅s de "Respuesta:")
39
+ assistant_response = response.split("Respuesta:")[-1].strip()
40
 
41
  # Forzar recolecci贸n de basura
42
  gc.collect()
 
49
  return f"Lo siento, ha ocurrido un error: {str(e)}"
50
 
51
  # Cargar el modelo y crear el pipeline
52
+ print("Cargando modelo ultra ligero...")
53
 
54
+ # Usar un modelo muy peque帽o con soporte para espa帽ol
55
+ model_name = "PlanTL-GOB-ES/gpt2-base-bne" # Modelo de ~125M par谩metros, extremadamente ligero
56
 
57
+ # Configuraci贸n para reducir el uso de memoria
58
  tokenizer = AutoTokenizer.from_pretrained(model_name)
59
  model = AutoModelForCausalLM.from_pretrained(
60
  model_name,
 
91
 
92
  # Lanzar la aplicaci贸n con configuraci贸n para ahorrar memoria
93
  if __name__ == "__main__":
94
+ # Configurar menos workers para ahorrar memoria
95
  demo.queue(max_size=1).launch(share=False, debug=False)