Spaces:

askbyte
/

biter-zephyr

Running

App Files Files Community

askbyte commited on Mar 22

Commit

d5afe56

verified ·

1 Parent(s): 10436a0

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -50

app.py CHANGED Viewed

@@ -4,93 +4,73 @@ import torch
 import os
 import gc
-# Variables globales para el modelo y tokenizador
 model = None
 tokenizer = None
-# Cargar el prompt desde el archivo
 def get_system_prompt():
     with open("prompt.txt", "r", encoding="utf-8") as f:
         return f.read().strip()
-# Función para cargar el modelo (se ejecutará solo cuando sea necesario)
 def load_model_if_needed():
     global model, tokenizer
     if model is None:
-        print("Cargando modelo Mistral-7B-Instruct-v0.1...")
-        # Cargar el tokenizador
-        model_name = "mistralai/Mistral-7B-Instruct-v0.1"
-        tokenizer = AutoTokenizer.from_pretrained(model_name)
-        # Configuración para CPU con optimizaciones de memoria
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
-            torch_dtype=torch.float32,  # Usar float32 para CPU
-            low_cpu_mem_usage=True,     # Optimización para CPU con poca memoria
         )
-        # Mover el modelo a CPU explícitamente
         model = model.to("cpu")
-        # Forzar recolección de basura para liberar memoria
         gc.collect()
         torch.cuda.empty_cache() if torch.cuda.is_available() else None
-        print("Modelo cargado correctamente en CPU!")
-# Función principal que procesa las preguntas del usuario
 def generate_response(user_message):
     try:
-        # Cargar el modelo si aún no está cargado
         load_model_if_needed()
         if not user_message.strip():
             return "Por favor, escribe una pregunta para que pueda ayudarte."
-        # Obtener el prompt del sistema
         system_prompt = get_system_prompt()
-        # Formato de prompt para Mistral-7B-Instruct-v0.1
-        prompt = f"""<s>[INST] {system_prompt}
-Pregunta del usuario: {user_message} [/INST]</s>"""
-        # Tokenizar el prompt
         inputs = tokenizer(prompt, return_tensors="pt")
-        # Configuración de generación optimizada para CPU
         generation_config = {
-            "max_new_tokens": 512,      # Limitar tokens para ahorrar memoria
             "temperature": 0.7,
             "top_p": 0.9,
             "do_sample": True,
             "pad_token_id": tokenizer.eos_token_id,
             "num_return_sequences": 1
         }
-        # Generar respuesta
         with torch.no_grad():
             outputs = model.generate(**inputs, **generation_config)
-        # Decodificar la respuesta
-        full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        # Extraer solo la respuesta del asistente (después del prompt)
-        assistant_response = full_response.replace(prompt.replace("<s>", "").replace("</s>", ""), "").strip()
-        # Forzar recolección de basura para liberar memoria
         gc.collect()
         torch.cuda.empty_cache() if torch.cuda.is_available() else None
-        return assistant_response
     except Exception as e:
         print(f"Error: {str(e)}")
-        return f"Lo siento, ha ocurrido un error: {str(e)}"
-# Crear la interfaz de Gradio
 demo = gr.Interface(
     fn=generate_response,
     inputs=gr.Textbox(
@@ -108,7 +88,5 @@ demo = gr.Interface(
     allow_flagging="never"
 )
-# Lanzar la aplicación con configuración para ahorrar memoria
 if __name__ == "__main__":
-    # Configurar menos workers para ahorrar memoria
     demo.queue(max_size=1).launch(share=False, debug=False)

 import os
 import gc
 model = None
 tokenizer = None
 def get_system_prompt():
     with open("prompt.txt", "r", encoding="utf-8") as f:
         return f.read().strip()
 def load_model_if_needed():
     global model, tokenizer
     if model is None:
+        print("🔁 Cargando modelo Falcon-7B-Instruct...")
+        model_name = "tiiuae/falcon-7b-instruct"
+        tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
+            torch_dtype=torch.float32,
+            trust_remote_code=True,
+            low_cpu_mem_usage=True
         )
         model = model.to("cpu")
         gc.collect()
         torch.cuda.empty_cache() if torch.cuda.is_available() else None
+        print("✅ Modelo Falcon-7B cargado en CPU")
 def generate_response(user_message):
     try:
         load_model_if_needed()
         if not user_message.strip():
             return "Por favor, escribe una pregunta para que pueda ayudarte."
         system_prompt = get_system_prompt()
+        prompt = f"{system_prompt}\n\nUsuario: {user_message}\nBITER:"
         inputs = tokenizer(prompt, return_tensors="pt")
         generation_config = {
+            "max_new_tokens": 400,
             "temperature": 0.7,
             "top_p": 0.9,
             "do_sample": True,
             "pad_token_id": tokenizer.eos_token_id,
             "num_return_sequences": 1
         }
         with torch.no_grad():
             outputs = model.generate(**inputs, **generation_config)
+        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        answer = response.replace(prompt, "").strip()
         gc.collect()
         torch.cuda.empty_cache() if torch.cuda.is_available() else None
+        return answer
     except Exception as e:
         print(f"Error: {str(e)}")
+        return f"❌ Lo siento, ha ocurrido un error: {str(e)}"
 demo = gr.Interface(
     fn=generate_response,
     inputs=gr.Textbox(
     allow_flagging="never"
 )
 if __name__ == "__main__":
     demo.queue(max_size=1).launch(share=False, debug=False)