Spaces:

JMAA00
/

Testllama8b

Sleeping

App Files Files Community

JMAA00 commited on Mar 29

Commit

2ddc1fd

1 Parent(s): cc4027d

DSV3

Browse files

Files changed (1) hide show

app.py +12 -19

app.py CHANGED Viewed

@@ -1,21 +1,21 @@
 import os
 import torch
 import gradio as gr
 from transformers import (
     AutoTokenizer,
     AutoModelForCausalLM,
     TextIteratorStreamer,
 )
-# 1) Cargamos el tokenizer y el modelo de deepseek-ai/DeepSeek-R1-Distill-Llama-8B
 print("Cargando tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Llama-8B")
 print("Cargando modelo (puede tardar varios minutos)...")
 model = AutoModelForCausalLM.from_pretrained(
     "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
-    device_map="auto",          # Para usar GPU si está disponible
-    torch_dtype=torch.float16    # Usa float16 en GPU; en CPU, cambia a float32
 )
 model.eval()
@@ -28,14 +28,12 @@ def respond(
     top_p: float,
 ):
     """
-    - system_message: Texto del rol "system"
-    - history: Historial [(user_message, assistant_reply), ...]
-    - message: Mensaje actual del usuario
-    Genera una respuesta en streaming usando transformers.TextIteratorStreamer
     """
-    # Construimos un prompt concatenando 'system_message', 'history' y el nuevo 'message'
-    # Esto es un ejemplo de formateo sencillo. Ajusta según tu preferencia de estilo chat.
     prompt = f"[SYSTEM] {system_message}\n"
     for (usr, bot) in history:
         if usr:
@@ -44,14 +42,11 @@ def respond(
             prompt += f"[ASSISTANT] {bot}\n"
     prompt += f"[USER] {message}\n[ASSISTANT]"
-    # Usamos TextIteratorStreamer para obtener tokens a medida que se generan
     streamer = TextIteratorStreamer(
         tokenizer=tokenizer,
         skip_special_tokens=True
     )
-    # Preparamos argumentos para model.generate
-    # (similar a pipeline pero de bajo nivel)
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     generation_kwargs = dict(
         **inputs,
@@ -59,24 +54,22 @@ def respond(
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
-        do_sample=True,           # para permitir sampling
-        # repetition_penalty=1.0,  # ajusta si lo deseas
     )
-    # Lanzamos la generación en un hilo
-    generation_thread = torch.Thread(
         target=model.generate,
         kwargs=generation_kwargs
     )
     generation_thread.start()
-    # Leemos tokens a medida que se generan y yield
     output_text = ""
     for new_token in streamer:
         output_text += new_token
         yield output_text
-# Interfaz con ChatInterface
 demo = gr.ChatInterface(
     fn=respond,
     additional_inputs=[

 import os
 import torch
 import gradio as gr
+import threading
 from transformers import (
     AutoTokenizer,
     AutoModelForCausalLM,
     TextIteratorStreamer,
 )
 print("Cargando tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Llama-8B")
 print("Cargando modelo (puede tardar varios minutos)...")
 model = AutoModelForCausalLM.from_pretrained(
     "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
+    device_map="auto",          # Usa GPU si está disponible
+    torch_dtype=torch.float16    # FP16 en GPU; en CPU quizá float32
 )
 model.eval()
     top_p: float,
 ):
     """
+    Construimos el prompt a partir de:
+      - system_message
+      - history (lista de (user, assistant))
+      - message actual
+    Generamos tokens progresivamente con TextIteratorStreamer.
     """
     prompt = f"[SYSTEM] {system_message}\n"
     for (usr, bot) in history:
         if usr:
             prompt += f"[ASSISTANT] {bot}\n"
     prompt += f"[USER] {message}\n[ASSISTANT]"
     streamer = TextIteratorStreamer(
         tokenizer=tokenizer,
         skip_special_tokens=True
     )
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     generation_kwargs = dict(
         **inputs,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
+        do_sample=True,
     )
+    # Usamos threading.Thread en lugar de torch.Thread
+    generation_thread = threading.Thread(
         target=model.generate,
         kwargs=generation_kwargs
     )
     generation_thread.start()
+    # Leemos tokens a medida que se generan y los enviamos a Gradio (yield)
     output_text = ""
     for new_token in streamer:
         output_text += new_token
         yield output_text
 demo = gr.ChatInterface(
     fn=respond,
     additional_inputs=[