Spaces:

jorgencio
/

proandosi

Sleeping

jorgencio commited on Dec 7, 2024

Commit

95c5b4a

1 Parent(s): c44fcc8

cambiando modelo

Files changed (1) hide show

app.py CHANGED Viewed

@@ -43,29 +43,31 @@ async def personaje_detalle(request: Request, personaje: str):
-model_name = "nakodanei/Blue-Orchid-2x7b"
 # Inicialización global
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    device_map="auto",
-    torch_dtype=torch.float16
 )
 @app.post("/personajes/{personaje}/chat", response_class=HTMLResponse)
 async def chat_with_character(request: Request, personaje: str, user_input: str):
-    prompt = f"""
-    ### Instruction:
-    You are {personaje}, a sexy girl who has been dating the user for 2 months.
-    ### Input:
-    User: {user_input}
-    ### Response:
-    Character:
-    """
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda" if torch.cuda.is_available() else "cpu")
     outputs = model.generate(
         **inputs,
         max_new_tokens=500,
@@ -73,6 +75,12 @@ async def chat_with_character(request: Request, personaje: str, user_input: str)
         do_sample=True,
         temperature=0.7
     )
     generated_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return {"response": generated_response}

+# Cambia al nuevo modelo
+model_name = "allura-org/MoE-Girl_400MA_1BT"
 # Inicialización global
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    device_map="auto",  # Utiliza automáticamente la GPU si está disponible
+    torch_dtype=torch.float16  # Usa FP16 para eficiencia en GPUs
 )
 @app.post("/personajes/{personaje}/chat", response_class=HTMLResponse)
 async def chat_with_character(request: Request, personaje: str, user_input: str):
+    # Crear el prompt dinámico con el formato esperado
+    prompt = f"""<|im_start|>system
+You are {personaje}, a sexy girl who has been dating the user for 2 months.<|im_end|>
+<|im_start|>user
+{user_input}<|im_end|>
+<|im_start|>assistant
+"""
+    # Tokenizar el prompt
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda" if torch.cuda.is_available() else "cpu")
+    # Generar la respuesta
     outputs = model.generate(
         **inputs,
         max_new_tokens=500,
         do_sample=True,
         temperature=0.7
     )
+    # Decodificar la respuesta
     generated_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Filtrar la respuesta para extraer solo el texto del asistente
+    response_text = generated_response.split("<|im_start|>assistant")[1].strip().split("<|im_end|>")[0].strip()
+    # Devolver la respuesta al usuario
+    return {"response": response_text}