Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
@@ -1,5 +1,5 @@
|
|
1 |
"""
|
2 |
-
Versi贸n usando
|
3 |
"""
|
4 |
|
5 |
import gradio as gr
|
@@ -22,21 +22,21 @@ def generate_response(user_message):
|
|
22 |
# Obtener el prompt del sistema
|
23 |
system_prompt = get_system_prompt()
|
24 |
|
25 |
-
# Crear el prompt completo
|
26 |
-
prompt = f"
|
27 |
|
28 |
# Generar respuesta usando el pipeline
|
29 |
response = generator(
|
30 |
prompt,
|
31 |
-
max_new_tokens=256,
|
32 |
temperature=0.7,
|
33 |
top_p=0.9,
|
34 |
do_sample=True,
|
35 |
num_return_sequences=1
|
36 |
)[0]["generated_text"]
|
37 |
|
38 |
-
# Extraer solo la respuesta
|
39 |
-
assistant_response = response.split("
|
40 |
|
41 |
# Forzar recolecci贸n de basura
|
42 |
gc.collect()
|
@@ -49,12 +49,12 @@ def generate_response(user_message):
|
|
49 |
return f"Lo siento, ha ocurrido un error: {str(e)}"
|
50 |
|
51 |
# Cargar el modelo y crear el pipeline
|
52 |
-
print("Cargando modelo
|
53 |
|
54 |
-
# Usar
|
55 |
-
model_name = "
|
56 |
|
57 |
-
# Configuraci贸n para reducir el uso de memoria
|
58 |
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
59 |
model = AutoModelForCausalLM.from_pretrained(
|
60 |
model_name,
|
@@ -91,5 +91,5 @@ demo = gr.Interface(
|
|
91 |
|
92 |
# Lanzar la aplicaci贸n con configuraci贸n para ahorrar memoria
|
93 |
if __name__ == "__main__":
|
94 |
-
# Configurar menos workers para ahorrar memoria
|
95 |
demo.queue(max_size=1).launch(share=False, debug=False)
|
|
|
1 |
"""
|
2 |
+
Versi贸n alternativa usando un modelo a煤n m谩s peque帽o y optimizado para espa帽ol.
|
3 |
"""
|
4 |
|
5 |
import gradio as gr
|
|
|
22 |
# Obtener el prompt del sistema
|
23 |
system_prompt = get_system_prompt()
|
24 |
|
25 |
+
# Crear el prompt completo
|
26 |
+
prompt = f"{system_prompt}\n\nPregunta: {user_message}\n\nRespuesta:"
|
27 |
|
28 |
# Generar respuesta usando el pipeline
|
29 |
response = generator(
|
30 |
prompt,
|
31 |
+
max_new_tokens=256,
|
32 |
temperature=0.7,
|
33 |
top_p=0.9,
|
34 |
do_sample=True,
|
35 |
num_return_sequences=1
|
36 |
)[0]["generated_text"]
|
37 |
|
38 |
+
# Extraer solo la respuesta (despu茅s de "Respuesta:")
|
39 |
+
assistant_response = response.split("Respuesta:")[-1].strip()
|
40 |
|
41 |
# Forzar recolecci贸n de basura
|
42 |
gc.collect()
|
|
|
49 |
return f"Lo siento, ha ocurrido un error: {str(e)}"
|
50 |
|
51 |
# Cargar el modelo y crear el pipeline
|
52 |
+
print("Cargando modelo ultra ligero...")
|
53 |
|
54 |
+
# Usar un modelo muy peque帽o con soporte para espa帽ol
|
55 |
+
model_name = "PlanTL-GOB-ES/gpt2-base-bne" # Modelo de ~125M par谩metros, extremadamente ligero
|
56 |
|
57 |
+
# Configuraci贸n para reducir el uso de memoria
|
58 |
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
59 |
model = AutoModelForCausalLM.from_pretrained(
|
60 |
model_name,
|
|
|
91 |
|
92 |
# Lanzar la aplicaci贸n con configuraci贸n para ahorrar memoria
|
93 |
if __name__ == "__main__":
|
94 |
+
# Configurar menos workers para ahorrar memoria
|
95 |
demo.queue(max_size=1).launch(share=False, debug=False)
|