Spaces:

gaia-mistral
/

volAI_Avril

Running

App Files Files Community

LostPikachu commited on Feb 25

Commit

f056b9f

verified ·

1 Parent(s): 8ae11fa

Upload 3 files

Browse files

RAG Mistral AI intégrant la sauvegarde du fichier faiss_inde.bin et chunked_docs.pkl s'il n'existe pas, sinon, si la base a déjà été vectorisée, le programme appel directement l'API du LLM de mistral

Files changed (3) hide show

RAG_Mistral.py +55 -39
chunked_docs.pkl +3 -0
faiss_index.bin +3 -0

RAG_Mistral.py CHANGED Viewed

@@ -16,6 +16,7 @@ import os
 import numpy as np
 import fitz  # PyMuPDF pour extraction PDF
 import faiss
 import matplotlib.pyplot as plt
 from mistralai import Mistral
 from sklearn.manifold import TSNE
@@ -29,7 +30,7 @@ MISTRAL_API_KEY = os.getenv('MISTRAL_API_KEY_static')
 # 📌 Initialisation du client Mistral
 client = Mistral(api_key=MISTRAL_API_KEY)
 model_embedding = "mistral-embed"
-model_chat = "mistral-large-latest"
 temperature = 0.1  # Réduction de la température pour privilégier la RAG
 probability = 0.9  # Ajustement de la probabilité pour plus de contrôle
@@ -37,37 +38,52 @@ probability = 0.9  # Ajustement de la probabilité pour plus de contrôle
 chunk_size = 256  # Réduction du chunk size pour un meilleur contrôle du contexte
 chunk_overlap = 15
-# 📌 Extraction et segmentation des PDF
-def extract_and_chunk_pdfs(pdf_folder):
-    """Extrait et segmente les textes des PDF en chunks optimisés pour Mistral."""
-    documents = SimpleDirectoryReader(pdf_folder).load_data()
-    chunked_docs = [doc.text for doc in documents]
-    return chunked_docs
-# 📌 Génération des embeddings par batch
-def get_embeddings_in_batches(text_chunks, batch_size=5):
-    """Génère les embeddings en batch pour éviter les dépassements de tokens."""
     embeddings = []
-    for i in range(0, len(text_chunks), batch_size):
-        batch = text_chunks[i:i + batch_size]
         embeddings_batch_response = client.embeddings.create(
             model=model_embedding,
             inputs=batch,
         )
         batch_embeddings = [data.embedding for data in embeddings_batch_response.data]
         embeddings.extend(batch_embeddings)
-    return np.array(embeddings).astype('float32')
-# 📌 Chargement et embedding des documents
-pdf_folder = 'C:/Users/MIPO10053340/OneDrive - Groupe Avril/Bureau/Salon_Agriculture_2024/Micka_API_Call/Docs_pdf/'
-chunked_docs = extract_and_chunk_pdfs(pdf_folder)
-embeddings = get_embeddings_in_batches(chunked_docs)
-# 📌 Indexation des embeddings avec FAISS
-dimension = embeddings.shape[1]
-index = faiss.IndexFlatL2(dimension)
-index.add(embeddings)
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
@@ -77,7 +93,18 @@ def retrieve_relevant_chunks(question, k=5):
         inputs=[question],
     )
     question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
     distances, indices = index.search(question_embedding, k)
     return [chunked_docs[i] for i in indices[0]]
 # 📌 Génération de réponse avec MistralAI
@@ -88,11 +115,11 @@ def generate_response(context, question):
         {"role": "user", "content": question}
     ]
-    response = client.chat.complete(model=model_chat, messages=messages, temperature=temperature, probability=probability)
     return response.choices[0].message.content
 # 📌 Exécuter une requête utilisateur
-user_question = "Quelles sont les souches de poulets ou poules présentent dans les publications de notre corpus utilisé pour la RAG"
 relevant_chunks = retrieve_relevant_chunks(user_question)
 context = "\n".join(relevant_chunks)
 answer = generate_response(context, user_question)
@@ -101,20 +128,9 @@ answer = generate_response(context, user_question)
 print("\n🔹 Réponse Mistral :")
 print(answer)
-# # 📊 Visualisation des embeddings avec t-SNE
-# tsne = TSNE(n_components=2, perplexity=min(30, max(2, embeddings.shape[0] - 1)), random_state=42)
-# embeddings_2d = tsne.fit_transform(embeddings)
-# plt.figure(figsize=(10, 8))
-# plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], alpha=0.5)
-# plt.title('Visualisation des embeddings avec t-SNE')
-# plt.xlabel('Dimension 1')
-# plt.ylabel('Dimension 2')
-# plt.show()
 # 💾 Sauvegarde des résultats
-with open("mistral_response.txt", "w", encoding="utf-8") as f:
     f.write(f"Question : {user_question}\n")
     f.write(f"Réponse :\n{answer}\n")
-print("\n✅ Réponse enregistrée dans 'mistral_response.txt'")

 import numpy as np
 import fitz  # PyMuPDF pour extraction PDF
 import faiss
+import pickle
 import matplotlib.pyplot as plt
 from mistralai import Mistral
 from sklearn.manifold import TSNE
 # 📌 Initialisation du client Mistral
 client = Mistral(api_key=MISTRAL_API_KEY)
 model_embedding = "mistral-embed"
+model_chat = "ministral-8b-latest"
 temperature = 0.1  # Réduction de la température pour privilégier la RAG
 probability = 0.9  # Ajustement de la probabilité pour plus de contrôle
 chunk_size = 256  # Réduction du chunk size pour un meilleur contrôle du contexte
 chunk_overlap = 15
+# 📌 Définition des chemins de stockage
+index_path = "faiss_index.bin"
+chunks_path = "chunked_docs.pkl"
+# 📌 Vérification et chargement des données
+if os.path.exists(index_path) and os.path.exists(chunks_path):
+    print("🔄 Chargement des données existantes...")
+    index = faiss.read_index(index_path)  # Charger l'index FAISS
+    with open(chunks_path, "rb") as f:
+        chunked_docs = pickle.load(f)  # Charger les chunks de texte
+    print("✅ Index et chunks chargés avec succès !")
+else:
+    print("⚡ Création et stockage d'un nouvel index FAISS...")
+    # 📌 Extraction et segmentation des PDF
+    pdf_folder = 'C:/Users/MIPO10053340/OneDrive - Groupe Avril/Bureau/Salon_Agriculture_2024/Micka_API_Call/Docs_pdf/'
+    chunked_docs = SimpleDirectoryReader(pdf_folder).load_data()
+    chunked_docs = [doc.text for doc in chunked_docs]
+    # 📌 Génération des embeddings
     embeddings = []
+    batch_size = 5
+    for i in range(0, len(chunked_docs), batch_size):
+        batch = chunked_docs[i:i + batch_size]
         embeddings_batch_response = client.embeddings.create(
             model=model_embedding,
             inputs=batch,
         )
         batch_embeddings = [data.embedding for data in embeddings_batch_response.data]
         embeddings.extend(batch_embeddings)
+    embeddings = np.array(embeddings).astype('float32')
+    # 📌 Vérification avant d’indexer dans FAISS
+    if embeddings is None or len(embeddings) == 0:
+        raise ValueError("⚠️ ERREUR : Aucun embedding généré ! Vérifie l'étape de génération des embeddings.")
+    # 📌 Création et stockage de l'index FAISS
+    dimension = embeddings.shape[1]
+    index = faiss.IndexFlatL2(dimension)
+    index.add(embeddings)
+    faiss.write_index(index, index_path)  # Sauvegarde de l'index
+    # 📌 Sauvegarde des chunks de texte
+    with open(chunks_path, "wb") as f:
+        pickle.dump(chunked_docs, f)
+    print("✅ Index et chunks sauvegardés !")
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
         inputs=[question],
     )
     question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
+    # Vérification de la compatibilité des dimensions
+    dimension = index.d
+    if question_embedding.shape[1] != dimension:
+        raise ValueError(f"⚠️ ERREUR : La dimension de l'embedding de la question ({question_embedding.shape[1]}) ne correspond pas aux embeddings indexés ({dimension}).")
     distances, indices = index.search(question_embedding, k)
+    if len(indices[0]) == 0:
+        print("⚠️ Avertissement : Aucun chunk pertinent trouvé, réponse possible moins précise.")
+        return []
     return [chunked_docs[i] for i in indices[0]]
 # 📌 Génération de réponse avec MistralAI
         {"role": "user", "content": question}
     ]
+    response = client.chat.complete(model=model_chat, messages=messages, temperature=temperature)
     return response.choices[0].message.content
 # 📌 Exécuter une requête utilisateur
+user_question = "Bonjour le Chat, je suis éléveur de poulets depuis plus de 20 ans et j'ai un doctorat de nutrition animale.Qu’est-ce qu’une protéine idéale en poule pondeuse ? Peux-tu suggérer une protéine idéale en pondeuse ? Merci d'être exhaustif et d'approfondir tes réponses et de ne pas survoler le sujet"
 relevant_chunks = retrieve_relevant_chunks(user_question)
 context = "\n".join(relevant_chunks)
 answer = generate_response(context, user_question)
 print("\n🔹 Réponse Mistral :")
 print(answer)
 # 💾 Sauvegarde des résultats
+with open("mistral_response_types.txt", "w", encoding="utf-8") as f:
     f.write(f"Question : {user_question}\n")
     f.write(f"Réponse :\n{answer}\n")
+print("\n✅ Réponse enregistrée dans 'mistral_response_types.txt'")

chunked_docs.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:002933b799b3b8d0824a2144045cd30f9a0bc3adcbbec594f3b3b0fab6f9b384
+size 1940652

faiss_index.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e097afeea3f73b331e09a0a81f4a09d920478ec100bb52c83ba550a6bf29600
+size 2293805