Spaces:

gaia-mistral
/

volAI_Avril

Sleeping

App Files Files Community

Florian.Moret commited on 24 days ago

Commit

4bf8063

1 Parent(s): 1d1d204

update app avec rag

Browse files

Files changed (2) hide show

app.py +68 -35
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,16 +1,68 @@
 #region# import libs
 import streamlit as st
 import os
 from mistralai import Mistral
 MISTRAL_API_KEY = os.getenv("api_mistral")
-model = 'mistral-large-latest'
 mistral_client = Mistral(api_key=MISTRAL_API_KEY)
 MAX_TOKENS = 1500
 #endregion
 #region# Définition des prompts
-def generate_prompts(score:str, type: str, annee_min: str, annee_max:str ) -> dict:
     """
     Genere les prefixes et suffixes des prompts pour Mistral en fonction du score de vulgarisation, du type d'espece, et les années des documents
     Args:
@@ -30,14 +82,14 @@ def generate_prompts(score:str, type: str, annee_min: str, annee_max:str ) -> di
     if score == "1":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
-        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}.
         Réponds en fournissant en vulgarisant les informations.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}."""
         suffix_prompt = """Réponds en français et donne une réponse directe et claire.
         Fini par faire une bibliographie avec les références bibliographiquesque tu as utilisé."""
     elif score == "2":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
-        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}.
         Réponds en fournissant des explications claires et concises, adaptées à la question posée.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}.
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
@@ -47,7 +99,7 @@ def generate_prompts(score:str, type: str, annee_min: str, annee_max:str ) -> di
         Fini par faire une bibliographie avec les références bibliographiques que tu as utilisé."""
     elif score == "3":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
-        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}.
         Réponds en fournissant des explications détaillées et précises, adaptées à la complexité de la question posée.
         N'oublie pas de citer à la fin de ta réponse les références sur lesquelles tu t'es basé avec son année (entre {annee_min} et {annee_max}).
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
@@ -171,7 +223,7 @@ def response_details(response, verbose=True):
     return details
-def prompt_pipeline(user_prompt: str, niveau_detail: str, type_reponse: str, souche: str, annee_publication_min: str, annee_publication_max: str) -> dict:
     """
     Fonction visible de l'application pour appeler un prompt et obtenir sa reponse
     Args:
@@ -182,12 +234,12 @@ def prompt_pipeline(user_prompt: str, niveau_detail: str, type_reponse: str, sou
         Dict
     """
-    prefix_prompt, suffix_prompt = generate_prompts(score=niveau_detail, type=type_reponse, annee_min=annee_publication_min, annee_max=annee_publication_max)
     reponse_mistral = send_prompt_to_mistral(
         type_reponse=type_reponse,
         user_prompt=user_prompt,
-        temperature=0.10,
         n_comp=1,
         verbose=False,
         prefix_prompt=prefix_prompt,
@@ -199,32 +251,7 @@ def prompt_pipeline(user_prompt: str, niveau_detail: str, type_reponse: str, sou
     to_return["details"] = response_details(reponse_mistral, verbose=False)
     return to_return
-    """
-    Fonction visible de l'application pour appeler un prompt et obtenir sa reponse
-    Args:
-        prompt (str): Prompt utilisateur
-        niveau_detail (str): Niveau de detail de la requete : 1, 2, 3. Plus haut = plus d'infos
-        type_reponse (str): 'Ponte', 'Chair'
-    """
-    prefix_prompt, suffix_prompt = generate_prompts(score=niveau_detail, type=type_reponse, annee_min=annee_publication_min, annee_max=annee_publication_max)
-    reponse_mistral = send_prompt_to_mistral(
-        type_reponse=type_reponse,
-        user_prompt=user_prompt,
-        temperature=0.10,
-        n_comp=1,
-        verbose=False,
-        prefix_prompt=prefix_prompt,
-        suffix_prompt=suffix_prompt
-    )
-    to_return = {}
-    to_return["reponse_propre"] = print_pretty_response(reponse_mistral, verbose=True)
-    to_return["details"] = response_details(reponse_mistral, verbose=False)
-    return to_return
 #endregion
 #region# Titre de l'application et mise en page
@@ -261,11 +288,17 @@ if st.button("Envoyer la question..."):
     if user_input and choix_prod and choix_vulgarisation and choix_annee :
         with st.spinner("Veuillez patienter quelques instants..."):
             # Génération de la réponse
             response0 = prompt_pipeline(
     user_prompt = user_input,
     niveau_detail=choix_vulgarisation,
     type_reponse=choix_prod,
     souche=None,
     annee_publication_max=max(choix_annee),
     annee_publication_min=min(choix_annee)
     )

 #region# import libs
 import streamlit as st
 import os
+from mistralai import Mistral
+import numpy as np
+# import fitz  # PyMuPDF pour extraction PDF
+import faiss
+import pickle
+import matplotlib.pyplot as plt
 from mistralai import Mistral
+from sklearn.manifold import TSNE
+from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
+from dotenv import load_dotenv
 MISTRAL_API_KEY = os.getenv("api_mistral")
+model = "ministral-8b-latest" # ancien model : 'mistral-large-latest'
 mistral_client = Mistral(api_key=MISTRAL_API_KEY)
 MAX_TOKENS = 1500
 #endregion
+#region# rag
+model_embedding = "mistral-embed"
+# 📌 Paramètres de segmentation
+chunk_size = 256  # Réduction du chunk size pour un meilleur contrôle du contexte
+chunk_overlap = 15
+# 📌 Définition des chemins de stockage
+index_path = "faiss_index.bin"
+chunks_path = "chunked_docs.pkl"
+print("🔄 Chargement des données existantes...")
+index = faiss.read_index(index_path)  # Charger l'index FAISS
+with open(chunks_path, "rb") as f:
+    chunked_docs = pickle.load(f)  # Charger les chunks de texte
+print("✅ Index et chunks chargés avec succès !")
+# 📌 Récupération des chunks les plus pertinents
+def retrieve_relevant_chunks(question, k=5):
+    """Recherche les chunks les plus pertinents en fonction de la similarité des embeddings."""
+    question_embedding_response = mistral_client.embeddings.create(
+        model=model_embedding,
+        inputs=[question],
+    )
+    question_embedding = np.array(question_embedding_response.data[0].embedding).astype('float32').reshape(1, -1)
+    # Vérification de la compatibilité des dimensions
+    dimension = index.d
+    if question_embedding.shape[1] != dimension:
+        raise ValueError(f"⚠️ ERREUR : La dimension de l'embedding de la question ({question_embedding.shape[1]}) ne correspond pas aux embeddings indexés ({dimension}).")
+    distances, indices = index.search(question_embedding, k)
+    if len(indices[0]) == 0:
+        print("⚠️ Avertissement : Aucun chunk pertinent trouvé, réponse possible moins précise.")
+        return []
+    return [chunked_docs[i] for i in indices[0]]
+#endregion
 #region# Définition des prompts
+def generate_prompts(score:str, type: str, annee_min: str, annee_max:str, context ) -> dict:
     """
     Genere les prefixes et suffixes des prompts pour Mistral en fonction du score de vulgarisation, du type d'espece, et les années des documents
     Args:
     if score == "1":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
+        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici des informations contextuelles à utiliser avec priorité : {context}.
         Réponds en fournissant en vulgarisant les informations.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}."""
         suffix_prompt = """Réponds en français et donne une réponse directe et claire.
         Fini par faire une bibliographie avec les références bibliographiquesque tu as utilisé."""
     elif score == "2":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
+        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici des informations contextuelles à utiliser avec priorité : {context}.
         Réponds en fournissant des explications claires et concises, adaptées à la question posée.
         Pour fournir la réponse, tu dois te baser sur des publications/articles qui ont une date de publication entre {annee_min} et {annee_max}.
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
         Fini par faire une bibliographie avec les références bibliographiques que tu as utilisé."""
     elif score == "3":
         prefix_prompt = f"""Tu es un assistant IA spécialisé en nutrition de la volaille. Ton utilisateur est un chercheur travaillant sur
+        l'amélioration des régimes alimentaires pour optimiser la santé et la croissance des {type_description}. Voici des informations contextuelles à utiliser avec priorité : {context}.
         Réponds en fournissant des explications détaillées et précises, adaptées à la complexité de la question posée.
         N'oublie pas de citer à la fin de ta réponse les références sur lesquelles tu t'es basé avec son année (entre {annee_min} et {annee_max}).
         Tes réponses doivent être structurées, complètes et adaptées aux professionnels du secteur."""
     return details
+def prompt_pipeline(user_prompt: str, niveau_detail: str, type_reponse: str, souche: str, annee_publication_min: str, annee_publication_max: str, context) -> dict:
     """
     Fonction visible de l'application pour appeler un prompt et obtenir sa reponse
     Args:
         Dict
     """
+    prefix_prompt, suffix_prompt = generate_prompts(score=niveau_detail, type=type_reponse, annee_min=annee_publication_min, annee_max=annee_publication_max, context= context)
     reponse_mistral = send_prompt_to_mistral(
         type_reponse=type_reponse,
         user_prompt=user_prompt,
+        temperature=0.1,
         n_comp=1,
         verbose=False,
         prefix_prompt=prefix_prompt,
     to_return["details"] = response_details(reponse_mistral, verbose=False)
     return to_return
 #endregion
 #region# Titre de l'application et mise en page
     if user_input and choix_prod and choix_vulgarisation and choix_annee :
         with st.spinner("Veuillez patienter quelques instants..."):
             # Génération de la réponse
+            #todo mettre relevant chunks et context =
+            relevant_chunks= retrieve_relevant_chunks(user_input)
+            context = "\n".join(relevant_chunks)
             response0 = prompt_pipeline(
     user_prompt = user_input,
     niveau_detail=choix_vulgarisation,
     type_reponse=choix_prod,
     souche=None,
+    context=context,
     annee_publication_max=max(choix_annee),
     annee_publication_min=min(choix_annee)
     )

requirements.txt CHANGED Viewed

@@ -43,3 +43,4 @@ typing_extensions==4.12.2
 tzdata==2025.1
 urllib3==2.3.0
 torch==2.6.0

 tzdata==2025.1
 urllib3==2.3.0
 torch==2.6.0
+faiss-cpu==1.10.0