Spaces:

C2MV
/

BioRAG

Sleeping

App Files Files Community

C2MV commited on Sep 27, 2024

Commit

b956a25

verified ·

1 Parent(s): 3d55aee

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -28

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 import time
 from functools import wraps
 import sys
-import spaces  # Asegúrate de que este import es correcto según la documentación de Hugging Face
 # Decorador para medir el tiempo de ejecución
 def medir_tiempo(func):
@@ -18,8 +18,31 @@ def medir_tiempo(func):
         return resultado
     return wrapper
-# Decorador para asignar GPU en Hugging Face Spaces
-@spaces.GPU(duration=120)
 @medir_tiempo
 def generar_respuesta(consulta):
     """
@@ -43,7 +66,7 @@ def generar_respuesta(consulta):
         # Generar la respuesta
         with torch.no_grad():
-            outputs = model.generate(**inputs, **generation_kwargs)
         # Decodificar la respuesta
         respuesta = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -52,30 +75,6 @@ def generar_respuesta(consulta):
         print(f"Error durante la generación de respuesta: {e}")
         return f"Error al generar la respuesta: {e}"
-# Verificar si CUDA está disponible
-device = "cuda" if torch.cuda.is_available() else "cpu"
-if device == "cpu":
-    print("Advertencia: CUDA no está disponible. Se usará la CPU, lo que puede ser lento.")
-# Cargar el tokenizador y el modelo desde HuggingFace
-model_name = "dmis-lab/selfbiorag_7b"
-try:
-    print("Cargando el tokenizador y el modelo desde HuggingFace...")
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-except ValueError as e:
-    print(f"Error al cargar el tokenizador: {e}")
-    sys.exit(1)
-try:
-    model = AutoModelForCausalLM.from_pretrained(
-        model_name,
-        torch_dtype=torch.float16 if device == "cuda" else torch.float32
-    ).to(device)
-except Exception as e:
-    print(f"Error al cargar el modelo: {e}")
-    sys.exit(1)
 # Definir la interfaz de Gradio
 titulo = "Generador de Respuestas con SelfBioRAG 7B"
 descripcion = "Ingresa una consulta y el modelo generará una respuesta basada en el contenido proporcionado."

 import time
 from functools import wraps
 import sys
+import spaces  # Asegúrate de que este módulo esté disponible y correctamente instalado
 # Decorador para medir el tiempo de ejecución
 def medir_tiempo(func):
         return resultado
     return wrapper
+# Verificar si CUDA está disponible
+device = "cuda" if torch.cuda.is_available() else "cpu"
+if device == "cpu":
+    print("Advertencia: CUDA no está disponible. Se usará la CPU, lo que puede ser lento.")
+# Cargar el tokenizador y el modelo desde HuggingFace
+model_name = "dmis-lab/selfbiorag_7b"
+try:
+    print("Cargando el tokenizador y el modelo desde HuggingFace...")
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+except ValueError as e:
+    print(f"Error al cargar el tokenizador: {e}")
+    sys.exit(1)
+try:
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        torch_dtype=torch.float16 if device == "cuda" else torch.float32
+    ).to(device)
+except Exception as e:
+    print(f"Error al cargar el modelo: {e}")
+    sys.exit(1)
+@spaces.GPU(duration=120)  # Decorador para asignar GPU durante 120 segundos
 @medir_tiempo
 def generar_respuesta(consulta):
     """
         # Generar la respuesta
         with torch.no_grad():
+            outputs = model.generate(input_ids=inputs, **generation_kwargs)
         # Decodificar la respuesta
         respuesta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         print(f"Error durante la generación de respuesta: {e}")
         return f"Error al generar la respuesta: {e}"
 # Definir la interfaz de Gradio
 titulo = "Generador de Respuestas con SelfBioRAG 7B"
 descripcion = "Ingresa una consulta y el modelo generará una respuesta basada en el contenido proporcionado."