Spaces:

gaia-mistral
/

volAI_Avril

Sleeping

App Files Files Community

Florian.Moret commited on Feb 25

Commit

32660c3

1 Parent(s): dfe94ac

update medata context

Browse files

Files changed (1) hide show

app.py +28 -21

app.py CHANGED Viewed

@@ -25,39 +25,34 @@ chunk_overlap = 15
 # 📌 Définition des chemins de stockage
 index_path = "faiss_index.bin"
 chunks_path = "chunked_docs.pkl"
 print("🔄 Chargement des données existantes...")
-index = faiss.read_index(index_path)  # Charger l'index FAISS
 with open(chunks_path, "rb") as f:
-    chunked_docs = pickle.load(f)  # Charger les chunks de texte
-print("✅ Index et chunks chargés avec succès !")
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
-    """Recherche les chunks les plus pertinents en fonction de la similarité des embeddings."""
     question_embedding_response = mistral_client.embeddings.create(
         model=model_embedding,
         inputs=[question],
     )
     question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
-    # Vérification de la compatibilité des dimensions
-    dimension = index.d
-    if question_embedding.shape[1] != dimension:
-        raise ValueError(f"⚠️ ERREUR : La dimension de l'embedding de la question ({question_embedding.shape[1]}) ne correspond pas aux embeddings indexés ({dimension}).")
     distances, indices = index.search(question_embedding, k)
     if len(indices[0]) == 0:
         print("⚠️ Avertissement : Aucun chunk pertinent trouvé, réponse possible moins précise.")
-        return []
     return [chunked_docs[i] for i in indices[0]]
 #endregion
 #region# Définition des prompts
-def generate_prompts(score:str, type: str, annee_min: str, annee_max:str, context ) -> dict:
     """
     Genere les prefixes et suffixes des prompts pour Mistral en fonction du score de vulgarisation, du type d'espece, et les années des documents
     Args:
@@ -77,14 +72,14 @@ def generate_prompts(score:str, type: str, annee_min: str, annee_max:str, contex
     if score == "1":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
-        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici des informations contextuelles à utiliser avec priorité : {context}.
         Réponds en vulgarisant les informations.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}."""
         suffix_prompt = """Réponds en français et donne une réponse directe et claire.
         Fini par faire une bibliographie avec les références bibliographiquesque tu as utilisé."""
     elif score == "2":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
-        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici des informations contextuelles à utiliser avec priorité : {context}.
         Réponds en fournissant des explications claires et concises, adaptées à la question posée.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}.
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
@@ -94,7 +89,7 @@ def generate_prompts(score:str, type: str, annee_min: str, annee_max:str, contex
         Fini par faire une bibliographie avec les références bibliographiques que tu as utilisé."""
     elif score == "3":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
-        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici des informations contextuelles à utiliser avec priorité : {context}.
         Réponds en fournissant des explications détaillées et précises, adaptées à la complexité de la question posée.
         N'oublie pas de citer à la fin de ta réponse les références sur lesquelles tu t'es basé avec son année (entre {annee_min} et {annee_max}).
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
@@ -269,9 +264,9 @@ choix_vulgarisation = st.sidebar.pills(
 #Années de publication
 choix_annee = st.sidebar.slider("Années de publication",
-                                min_value=2015,
                                 max_value=2025,
-                                value=(2020,2025))
 #endregion
 #region# Interface utilisateur
@@ -284,7 +279,9 @@ if st.button("Envoyer la question..."):
             #todo mettre relevant chunks et context =
             relevant_chunks= retrieve_relevant_chunks(user_input)
-            context = "\n".join(relevant_chunks)
             response0 = prompt_pipeline(
             user_prompt = user_input,
@@ -315,6 +312,15 @@ if st.button("Envoyer la question..."):
             </div>
             """, unsafe_allow_html=True)
             response1 = prompt_pipeline(
             user_prompt = user_input,
             niveau_detail=choix_vulgarisation,
@@ -330,6 +336,7 @@ if st.button("Envoyer la question..."):
                 {response1['reponse_propre']}
             </div>
             """, unsafe_allow_html=True)
             #encadré sources
             # # Afficher un titre
             # st.subheader("Sources :")

 # 📌 Définition des chemins de stockage
 index_path = "faiss_index.bin"
 chunks_path = "chunked_docs.pkl"
+metadata_path = "metadata.pkl"
+embeddings_path = "embeddings.npy"
 print("🔄 Chargement des données existantes...")
+index = faiss.read_index(index_path)
 with open(chunks_path, "rb") as f:
+    chunked_docs = pickle.load(f)
+with open(metadata_path, "rb") as f:
+    metadata_list = pickle.load(f)
+embeddings = np.load(embeddings_path)
+print("✅ Index, chunks, embeddings et métadonnées chargés avec succès !")
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
     question_embedding_response = mistral_client.embeddings.create(
         model=model_embedding,
         inputs=[question],
     )
     question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
     distances, indices = index.search(question_embedding, k)
     if len(indices[0]) == 0:
         print("⚠️ Avertissement : Aucun chunk pertinent trouvé, réponse possible moins précise.")
+        return [], []
     return [chunked_docs[i] for i in indices[0]]
 #endregion
 #region# Définition des prompts
+def generate_prompts(score:str, type: str, annee_min: str, annee_max:str, context) -> dict:
     """
     Genere les prefixes et suffixes des prompts pour Mistral en fonction du score de vulgarisation, du type d'espece, et les années des documents
     Args:
     if score == "1":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
+        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici les informations extraites des documents à utiliser avec priorité : {context}.
         Réponds en vulgarisant les informations.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}."""
         suffix_prompt = """Réponds en français et donne une réponse directe et claire.
         Fini par faire une bibliographie avec les références bibliographiquesque tu as utilisé."""
     elif score == "2":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
+        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici les informations extraites des documents à utiliser avec priorité : {context}.
         Réponds en fournissant des explications claires et concises, adaptées à la question posée.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}.
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
         Fini par faire une bibliographie avec les références bibliographiques que tu as utilisé."""
     elif score == "3":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
+        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici les informations extraites des documents à utiliser avec priorité : {context}.
         Réponds en fournissant des explications détaillées et précises, adaptées à la complexité de la question posée.
         N'oublie pas de citer à la fin de ta réponse les références sur lesquelles tu t'es basé avec son année (entre {annee_min} et {annee_max}).
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
 #Années de publication
 choix_annee = st.sidebar.slider("Années de publication",
+                                min_value=1980,
                                 max_value=2025,
+                                value=(2010,2025))
 #endregion
 #region# Interface utilisateur
             #todo mettre relevant chunks et context =
             relevant_chunks= retrieve_relevant_chunks(user_input)
+            # context = "\n".join([chunk["text"] for chunk in relevant_chunks])
+            chunk_references = [f"[{i+1}]" for i in range(len(relevant_chunks))]
+            context = "\n\n".join([f"{chunk_references[i]} (Source: {src['metadata']['source']}) :\n{src['text']}" for i, src in enumerate(relevant_chunks)])
             response0 = prompt_pipeline(
             user_prompt = user_input,
             </div>
             """, unsafe_allow_html=True)
+            #print du contexte
+            st.subheader("Sources :")
+            st.markdown(f"""
+            <div style="border: 2px solid #453103; padding: 15px; border-radius: 10px;">
+                {context}
+            </div>
+            """, unsafe_allow_html=True)
+            #réponse sans contexte
             response1 = prompt_pipeline(
             user_prompt = user_input,
             niveau_detail=choix_vulgarisation,
                 {response1['reponse_propre']}
             </div>
             """, unsafe_allow_html=True)
             #encadré sources
             # # Afficher un titre
             # st.subheader("Sources :")