ConseillerAugmente

Running

App Files Files Community

[email protected] commited on Apr 4

Commit

e496d26

1 Parent(s): ff0c986

Add some FAISS reinitilisation strategy

Browse files

Files changed (1) hide show

rag.py +33 -8

rag.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from dotenv import load_dotenv
 from langchain_community.vectorstores import FAISS
@@ -10,6 +11,7 @@ from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema.runnable import RunnablePassthrough
 from langchain.prompts import PromptTemplate
 from langchain_community.vectorstores.utils import filter_complex_metadata
 from util import getYamlConfig
@@ -19,16 +21,15 @@ load_dotenv()
 env_api_key = os.environ.get("MISTRAL_API_KEY")
 class Rag:
-    document_vector_store = None
-    retriever = None
-    chain = None
-    readableModelName = ""
-    documents = []
     def __init__(self, vectore_store=None):
-        print(self.document_vector_store)
-        # self.model = ChatMistralAI(model=llm_model)
         self.embedding = MistralAIEmbeddings(model="mistral-embed", mistral_api_key=env_api_key)
         self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=300, separators="\n\n", length_function=len)
@@ -36,8 +37,24 @@ class Rag:
         base_template = getYamlConfig()['prompt_template']
         self.prompt = PromptTemplate.from_template(base_template)
         self.vector_store = vectore_store
     def setModel(self, model, readableModelName = ""):
         self.model = model
         self.readableModelName = readableModelName
@@ -66,9 +83,17 @@ class Rag:
         docs = PyPDFLoader(file_path=pdf_file_path).load()
         chunks = self.text_splitter.split_documents(docs)
         self.documents.extend(chunks)
         self.document_vector_store = FAISS.from_documents(self.documents, self.embedding)
         self.retriever = self.document_vector_store.as_retriever(

 import os
+import faiss
 from dotenv import load_dotenv
 from langchain_community.vectorstores import FAISS
 from langchain.schema.runnable import RunnablePassthrough
 from langchain.prompts import PromptTemplate
 from langchain_community.vectorstores.utils import filter_complex_metadata
+from langchain_core.documents import Document
 from util import getYamlConfig
 env_api_key = os.environ.get("MISTRAL_API_KEY")
 class Rag:
     def __init__(self, vectore_store=None):
+        print("Nouvelle instance de Rag créée")
+        self.document_vector_store = None
+        self.retriever = None
+        self.chain = None
+        self.readableModelName = ""
+        self.documents = []
         self.embedding = MistralAIEmbeddings(model="mistral-embed", mistral_api_key=env_api_key)
         self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=300, separators="\n\n", length_function=len)
         base_template = getYamlConfig()['prompt_template']
         self.prompt = PromptTemplate.from_template(base_template)
+        self.reset_faiss_store()
         self.vector_store = vectore_store
+    def reset_faiss_store(self):
+        """ Initialise un FAISS vide avec la bonne dimension """
+        # Ajouter un document à l'index FAISS
+        docs = [ Document(page_content=" ") ]
+        self.document_vector_store = FAISS.from_documents(docs, self.embedding)
+        # Vider l'index FAISS
+        self.document_vector_store.index.reset()
+        # Vérifier que l'index est vidé
+        print(f"Nombre de vecteurs après reset: {self.document_vector_store.index.ntotal}")
     def setModel(self, model, readableModelName = ""):
         self.model = model
         self.readableModelName = readableModelName
         docs = PyPDFLoader(file_path=pdf_file_path).load()
         chunks = self.text_splitter.split_documents(docs)
         self.documents.extend(chunks)
+        if self.document_vector_store:
+            print(f"Nombre de documents indexés dans FAISS : {self.document_vector_store.index.ntotal}")
+        else:
+            print("No document_vectore")
         self.document_vector_store = FAISS.from_documents(self.documents, self.embedding)
+        print(f"Après ingestion, FAISS contient {self.document_vector_store.index.ntotal} documents.")
         self.retriever = self.document_vector_store.as_retriever(