Spaces:

gaia-mistral
/

volAI_Avril

Sleeping

App Files Files Community

LostPikachu commited on Feb 25

Commit

dfe94ac

verified ·

1 Parent(s): ef69074

Upload 5 files

Browse files

RAG Mistral AI avec citation des Chunks de référence par document ayant impactés la réponse

Files changed (5) hide show

RAG_Mistral.py +62 -61
chunked_docs.pkl +2 -2
embeddings.npy +3 -0
faiss_index.bin +2 -2
metadata.pkl +3 -0

RAG_Mistral.py CHANGED Viewed

@@ -1,23 +1,10 @@
-# -*- coding: utf-8 -*-
-"""
-Created on Mon Feb 24 15:51:34 2025
-@author: MIPO10053340
-C:/Users/MIPO10053340/OneDrive - Groupe Avril/Bureau/Salon_Agriculture_2024/Micka_API_Call/Docs_pdf/Docs_pdf/
-"""
-# -*- coding: utf-8 -*-
-"""
-Optimisation du RAG avec MistralAI - Embeddings en batch
-"""
 import os
 import numpy as np
 import fitz  # PyMuPDF pour extraction PDF
 import faiss
 import pickle
 import matplotlib.pyplot as plt
 from mistralai import Mistral
 from sklearn.manifold import TSNE
 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
@@ -32,7 +19,6 @@ client = Mistral(api_key=MISTRAL_API_KEY)
 model_embedding = "mistral-embed"
 model_chat = "ministral-8b-latest"
 temperature = 0.1  # Réduction de la température pour privilégier la RAG
-probability = 0.9  # Ajustement de la probabilité pour plus de contrôle
 # 📌 Paramètres de segmentation
 chunk_size = 256  # Réduction du chunk size pour un meilleur contrôle du contexte
@@ -41,96 +27,111 @@ chunk_overlap = 15
 # 📌 Définition des chemins de stockage
 index_path = "faiss_index.bin"
 chunks_path = "chunked_docs.pkl"
 # 📌 Vérification et chargement des données
-if os.path.exists(index_path) and os.path.exists(chunks_path):
     print("🔄 Chargement des données existantes...")
-    index = faiss.read_index(index_path)  # Charger l'index FAISS
     with open(chunks_path, "rb") as f:
-        chunked_docs = pickle.load(f)  # Charger les chunks de texte
-    print("✅ Index et chunks chargés avec succès !")
 else:
     print("⚡ Création et stockage d'un nouvel index FAISS...")
-    # 📌 Extraction et segmentation des PDF
     pdf_folder = 'C:/Users/MIPO10053340/OneDrive - Groupe Avril/Bureau/Salon_Agriculture_2024/Micka_API_Call/Docs_pdf/'
-    chunked_docs = SimpleDirectoryReader(pdf_folder).load_data()
-    chunked_docs = [doc.text for doc in chunked_docs]
-    # 📌 Génération des embeddings
-    embeddings = []
-    batch_size = 5
-    for i in range(0, len(chunked_docs), batch_size):
-        batch = chunked_docs[i:i + batch_size]
-        embeddings_batch_response = client.embeddings.create(
-            model=model_embedding,
-            inputs=batch,
-        )
-        batch_embeddings = [data.embedding for data in embeddings_batch_response.data]
-        embeddings.extend(batch_embeddings)
-    embeddings = np.array(embeddings).astype('float32')
-    # 📌 Vérification avant d’indexer dans FAISS
-    if embeddings is None or len(embeddings) == 0:
-        raise ValueError("⚠️ ERREUR : Aucun embedding généré ! Vérifie l'étape de génération des embeddings.")
     # 📌 Création et stockage de l'index FAISS
     dimension = embeddings.shape[1]
     index = faiss.IndexFlatL2(dimension)
     index.add(embeddings)
-    faiss.write_index(index, index_path)  # Sauvegarde de l'index
-    # 📌 Sauvegarde des chunks de texte
     with open(chunks_path, "wb") as f:
         pickle.dump(chunked_docs, f)
-    print("✅ Index et chunks sauvegardés !")
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
-    """Recherche les chunks les plus pertinents en fonction de la similarité des embeddings."""
     question_embedding_response = client.embeddings.create(
         model=model_embedding,
         inputs=[question],
     )
     question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
-    # Vérification de la compatibilité des dimensions
-    dimension = index.d
-    if question_embedding.shape[1] != dimension:
-        raise ValueError(f"⚠️ ERREUR : La dimension de l'embedding de la question ({question_embedding.shape[1]}) ne correspond pas aux embeddings indexés ({dimension}).")
     distances, indices = index.search(question_embedding, k)
     if len(indices[0]) == 0:
         print("⚠️ Avertissement : Aucun chunk pertinent trouvé, réponse possible moins précise.")
-        return []
     return [chunked_docs[i] for i in indices[0]]
 # 📌 Génération de réponse avec MistralAI
-def generate_response(context, question):
-    """Génère une réponse basée sur le contexte extrait du corpus avec une basse température et un contrôle de probabilité."""
     messages = [
-        {"role": "system", "content": f"Voici des informations contextuelles à utiliser avec priorité : {context}"},
         {"role": "user", "content": question}
     ]
     response = client.chat.complete(model=model_chat, messages=messages, temperature=temperature)
-    return response.choices[0].message.content
 # 📌 Exécuter une requête utilisateur
-user_question = "Bonjour le Chat, je suis éléveur de poulets depuis plus de 20 ans et j'ai un doctorat de nutrition animale.Qu’est-ce qu’une protéine idéale en poule pondeuse ? Peux-tu suggérer une protéine idéale en pondeuse ? Merci d'être exhaustif et d'approfondir tes réponses et de ne pas survoler le sujet"
 relevant_chunks = retrieve_relevant_chunks(user_question)
-context = "\n".join(relevant_chunks)
-answer = generate_response(context, user_question)
-# 📊 Affichage de la réponse
 print("\n🔹 Réponse Mistral :")
 print(answer)
 # 💾 Sauvegarde des résultats
 with open("mistral_response_types.txt", "w", encoding="utf-8") as f:
     f.write(f"Question : {user_question}\n")
     f.write(f"Réponse :\n{answer}\n")
-print("\n✅ Réponse enregistrée dans 'mistral_response_types.txt'")

 import os
 import numpy as np
 import fitz  # PyMuPDF pour extraction PDF
 import faiss
 import pickle
 import matplotlib.pyplot as plt
+from concurrent.futures import ThreadPoolExecutor
 from mistralai import Mistral
 from sklearn.manifold import TSNE
 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
 model_embedding = "mistral-embed"
 model_chat = "ministral-8b-latest"
 temperature = 0.1  # Réduction de la température pour privilégier la RAG
 # 📌 Paramètres de segmentation
 chunk_size = 256  # Réduction du chunk size pour un meilleur contrôle du contexte
 # 📌 Définition des chemins de stockage
 index_path = "faiss_index.bin"
 chunks_path = "chunked_docs.pkl"
+metadata_path = "metadata.pkl"
+embeddings_path = "embeddings.npy"
 # 📌 Vérification et chargement des données
+if os.path.exists(index_path) and os.path.exists(chunks_path) and os.path.exists(metadata_path) and os.path.exists(embeddings_path):
     print("🔄 Chargement des données existantes...")
+    index = faiss.read_index(index_path)
     with open(chunks_path, "rb") as f:
+        chunked_docs = pickle.load(f)
+    with open(metadata_path, "rb") as f:
+        metadata_list = pickle.load(f)
+    embeddings = np.load(embeddings_path)
+    print("✅ Index, chunks, embeddings et métadonnées chargés avec succès !")
 else:
     print("⚡ Création et stockage d'un nouvel index FAISS...")
+    # 📌 Extraction des documents et métadonnées
+    def extract_and_chunk_pdfs(pdf_folder):
+        documents = SimpleDirectoryReader(pdf_folder, recursive=True).load_data()
+        chunked_docs, metadata_list = [], []
+        for doc in documents:
+            doc_text = doc.text
+            file_name = doc.metadata.get("file_name", "Inconnu")
+            title = doc.metadata.get("title") or os.path.splitext(file_name)[0]  # Utilisation du nom de fichier comme fallback
+            doc_metadata = {"source": file_name, "title": title}
+            for i in range(0, len(doc_text), chunk_size):
+                chunk = doc_text[i:i + chunk_size]
+                chunked_docs.append({"text": chunk, "metadata": doc_metadata})
+                metadata_list.append(doc_metadata)
+        return chunked_docs, metadata_list
     pdf_folder = 'C:/Users/MIPO10053340/OneDrive - Groupe Avril/Bureau/Salon_Agriculture_2024/Micka_API_Call/Docs_pdf/'
+    chunked_docs, metadata_list = extract_and_chunk_pdfs(pdf_folder)
+    # 📌 Génération des embeddings en parallèle
+    def get_embeddings_in_batches(text_chunks, batch_size=5):
+        embeddings = []
+        def process_batch(batch):
+            response = client.embeddings.create(model=model_embedding, inputs=[chunk["text"] for chunk in batch])
+            return [data.embedding for data in response.data]
+        with ThreadPoolExecutor(max_workers=5) as executor:
+            future_batches = [executor.submit(process_batch, text_chunks[i:i+batch_size]) for i in range(0, len(text_chunks), batch_size)]
+            for future in future_batches:
+                embeddings.extend(future.result())
+        return np.array(embeddings).astype('float32')
+    embeddings = get_embeddings_in_batches(chunked_docs)
     # 📌 Création et stockage de l'index FAISS
     dimension = embeddings.shape[1]
     index = faiss.IndexFlatL2(dimension)
     index.add(embeddings)
+    faiss.write_index(index, index_path)
+    # 📌 Sauvegarde des données
     with open(chunks_path, "wb") as f:
         pickle.dump(chunked_docs, f)
+    with open(metadata_path, "wb") as f:
+        pickle.dump(metadata_list, f)
+    np.save(embeddings_path, embeddings)  # Sauvegarde des embeddings
+    print("✅ Index, chunks, embeddings et métadonnées sauvegardés !")
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
     question_embedding_response = client.embeddings.create(
         model=model_embedding,
         inputs=[question],
     )
     question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
     distances, indices = index.search(question_embedding, k)
     if len(indices[0]) == 0:
         print("⚠️ Avertissement : Aucun chunk pertinent trouvé, réponse possible moins précise.")
+        return [], []
     return [chunked_docs[i] for i in indices[0]]
 # 📌 Génération de réponse avec MistralAI
+def generate_response(context, question, sources):
+    chunk_references = [f"[{i+1}]" for i in range(len(sources))]
+    chunk_texts = "\n\n".join([f"{chunk_references[i]} (Source: {src['metadata']['source']}) :\n{src['text']}" for i, src in enumerate(sources)])
     messages = [
+        {"role": "system", "content": f"Voici les informations extraites des documents :\n{chunk_texts}\n\nUtilise ces informations pour répondre."},
         {"role": "user", "content": question}
     ]
     response = client.chat.complete(model=model_chat, messages=messages, temperature=temperature)
+    return response.choices[0].message.content + " " + "".join(chunk_references), chunk_texts
 # 📌 Exécuter une requête utilisateur
+user_question = "Quels sont les besoins en protéines des poulets de chair en phase de croissance ?"
 relevant_chunks = retrieve_relevant_chunks(user_question)
+context = "\n".join([chunk["text"] for chunk in relevant_chunks])
+answer, citations = generate_response(context, user_question, relevant_chunks)
+# 📊 Affichage de la réponse avec sources
 print("\n🔹 Réponse Mistral :")
 print(answer)
+print("\n📌 **Chunks utilisés :**")
+print(citations)
 # 💾 Sauvegarde des résultats
 with open("mistral_response_types.txt", "w", encoding="utf-8") as f:
     f.write(f"Question : {user_question}\n")
     f.write(f"Réponse :\n{answer}\n")
+    f.write(f"{citations}\n")
+print("\n✅ Réponse enregistrée avec les chunks exacts et références dans 'mistral_response_types.txt'")

chunked_docs.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:002933b799b3b8d0824a2144045cd30f9a0bc3adcbbec594f3b3b0fab6f9b384
-size 1940652

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ddc15183eeb50de92b6dc9c84a4193e5072c4361d33ffefc71ffe0791dcfcac
+size 12882142

embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a02b23e8cbad7b58f6e5d5686b9d23359c1b4ed64241c04cf31ba976aa83eb
+size 193323136

faiss_index.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e097afeea3f73b331e09a0a81f4a09d920478ec100bb52c83ba550a6bf29600
-size 2293805

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1efc2f126ee5ddb4e851bcf0d56c7ea22ad109b88fbe3ce4c095737649e753d
+size 193323053

metadata.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:467ef98889c4aea1c16e8e967e49b5a6ca13f8f37db2628fc3d0a2e9bd6e656a
+size 463274