Spaces:

analist
/

OmniMed_SIA

Runtime error

App Files Files Community

analist commited on 25 days ago

Commit

12a623d

verified ·

1 Parent(s): 8152e76

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -3

app.py CHANGED Viewed

@@ -26,11 +26,11 @@ bnb_config = BitsAndBytesConfig(
 # Chargement du modèle et du tokenizer
 print("Chargement du modèle de base et du tokenizer...")
-tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_NAME)
 print("Chargement du modèle de base quantifié...")
 base_model = AutoModelForCausalLM.from_pretrained(
-    BASE_MODEL_NAME,
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True
@@ -39,7 +39,6 @@ base_model = AutoModelForCausalLM.from_pretrained(
 print("Application des adaptateurs...")
 model = PeftModel.from_pretrained(
     base_model,
-    ADAPTER_MODEL_NAME,
     device_map="auto",
 )
@@ -47,6 +46,49 @@ print("Modèle et tokenizer chargés avec succès!")
 # Fonction pour générer une réponse
 def generate_response(message, chat_history, system_prompt, temperature=TEMPERATURE, max_tokens=MAX_NEW_TOKENS):
     # Construction du contexte de chat
     chat_context = []

 # Chargement du modèle et du tokenizer
 print("Chargement du modèle de base et du tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(ADAPTER_MODEL_NAME)
 print("Chargement du modèle de base quantifié...")
 base_model = AutoModelForCausalLM.from_pretrained(
+    ADAPTER_MODEL_NAME,
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True
 print("Application des adaptateurs...")
 model = PeftModel.from_pretrained(
     base_model,
     device_map="auto",
 )
 # Fonction pour générer une réponse
 def generate_response(message, chat_history, system_prompt, temperature=TEMPERATURE, max_tokens=MAX_NEW_TOKENS):
+    # Construction du contexte de chat
+    chat_context = []
+    # Ajout du prompt système s'il existe
+    if system_prompt.strip():
+        chat_context.append({"role": "system", "content": system_prompt})
+    else:
+        chat_context.append({"role": "system", "content": DEFAULT_SYSTEM_PROMPT})
+    # Ajout de l'historique des conversations
+    for user_msg, assistant_msg in chat_history:
+        chat_context.append({"role": "user", "content": user_msg})
+        chat_context.append({"role": "assistant", "content": assistant_msg})
+    # Ajout du message actuel
+    chat_context.append({"role": "user", "content": message})
+    # Préparation du texte d'entrée avec le template de chat
+    input_text = tokenizer.apply_chat_template(
+        chat_context,
+        tokenize=False,
+        add_generation_prompt=True
+    )
+    # Tokenisation de l'entrée
+    model_inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
+    # Mise à jour des paramètres de génération
+    model.generation_config.temperature = temperature
+    model.generation_config.max_new_tokens = max_tokens
+    # Génération de la réponse
+    with torch.no_grad():
+        generated_ids = model.generate(
+            **model_inputs,
+            use_cache=True,
+        )
+    # Extraction uniquement de la nouvelle partie générée
+    new_tokens = generated_ids[0][model_inputs.input_ids.shape[1]:]
+    response = tokenizer.decode(new_tokens, skip_special_tokens=True)
+    return response
     # Construction du contexte de chat
     chat_context = []