Spaces:

Programmes
/

E_P

Sleeping

E_P

File size: 1,853 Bytes

4b4260f
 
 
87392ed
c1ff486
87392ed
 
4b4260f
c1ff486
4b4260f
 
 
 
 
 
87392ed
4b4260f
 
 
 
87392ed
4b4260f
c1ff486
 
 
 
 
4b4260f
da32198
87392ed
da32198
87392ed
da32198
87392ed
c1ff486
87392ed
c1ff486
da32198
c1ff486

import faiss
import pickle
import numpy as np
import torch
import re
from sentence_transformers import SentenceTransformer
from transformers import AutoModelForCausalLM, AutoTokenizer

def load_faiss_index(index_path="faiss_index.faiss", doc_path="documents.pkl"):
    index = faiss.read_index(index_path)
    with open(doc_path, "rb") as f:
        documents = pickle.load(f)
    return index, documents

def get_embedding_model():
    return SentenceTransformer("sentence-transformers/multi-qa-MiniLM-L6-cos-v1")

def query_index(question, index, documents, model, k=3):
    question_embedding = model.encode([question])
    _, indices = index.search(np.array(question_embedding).astype("float32"), k)
    return [documents[i] for i in indices[0]]

def nettoyer_context(context):
    context = re.sub(r"\[\'(.*?)\'\]", r"\1", context)  # nettoie ['...']
    context = context.replace("None", "")  # supprime les None
    return context

def generate_answer(question, context):
    model_id = "Salesforce/codegen-350M-mono"

    tokenizer = AutoTokenizer.from_pretrained(model_id)
    tokenizer.pad_token = tokenizer.eos_token
    model = AutoModelForCausalLM.from_pretrained(model_id)

    prompt = f"""Voici des informations sur des établissements et formations en lien avec les métiers que tu recherches :

{context}

Formule ta réponse comme si tu étais un conseiller d’orientation bienveillant, qui s’adresse à un·e élève.
Rédige de manière fluide et naturelle, en expliquant les formations ou débouchés possibles, sans utiliser de listes brutes.

Question : {question}
Réponse :
"""

    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True)
    outputs = model.generate(**inputs, max_new_tokens=256, pad_token_id=tokenizer.eos_token_id)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)