Spaces:

gaia-mistral
/

volAI_Avril

Running

App Files Files Community

LostPikachu commited on Feb 25

Commit

385982e

verified ·

1 Parent(s): 87a24fa

Upload RAG_OpenAI.py

Browse files

Code fonctionnel Open AI (sans affichage des référence bibliographiques, step 2 à terminer)

Files changed (1) hide show

RAG_OpenAI.py +8 -7

RAG_OpenAI.py CHANGED Viewed

@@ -3,6 +3,7 @@ import numpy as np
 import fitz  # PyMuPDF pour extraction PDF
 import faiss
 import openai
 from sklearn.manifold import TSNE
 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
 from dotenv import load_dotenv
@@ -12,7 +13,7 @@ load_dotenv()
 OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
 # 📌 Initialisation du client OpenAI
-openai.api_key = OPENAI_API_KEY
 model_embedding = "text-embedding-ada-002"
 model_chat = "gpt-4-turbo"
@@ -33,11 +34,11 @@ def get_embeddings_in_batches(text_chunks, batch_size=5):
     embeddings = []
     for i in range(0, len(text_chunks), batch_size):
         batch = text_chunks[i:i + batch_size]
-        response = openai.Embedding.create(
             input=batch,
             model=model_embedding
         )
-        batch_embeddings = [data['embedding'] for data in response['data']]
         embeddings.extend(batch_embeddings)
     return np.array(embeddings).astype('float32')
@@ -55,11 +56,11 @@ index.add(embeddings)
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
     """Recherche les chunks les plus pertinents en fonction de la similarité des embeddings."""
-    response = openai.Embedding.create(
         input=[question],
         model=model_embedding
     )
-    question_embedding = np.array(response['data'][0]['embedding']).astype('float32').reshape(1, -1)
     distances, indices = index.search(question_embedding, k)
     return [chunked_docs[i] for i in indices[0]]
@@ -71,11 +72,11 @@ def generate_response(context, question):
         {"role": "user", "content": question}
     ]
-    response = openai.ChatCompletion.create(
         model=model_chat,
         messages=messages
     )
-    return response["choices"][0]["message"]["content"]
 # 📌 Exécuter une requête utilisateur
 user_question = "Quelles souches de poulet et poules se trouvent dans ce corpus de texte ?"

 import fitz  # PyMuPDF pour extraction PDF
 import faiss
 import openai
+from openai import OpenAI
 from sklearn.manifold import TSNE
 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
 from dotenv import load_dotenv
 OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
 # 📌 Initialisation du client OpenAI
+client = OpenAI(api_key='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')
 model_embedding = "text-embedding-ada-002"
 model_chat = "gpt-4-turbo"
     embeddings = []
     for i in range(0, len(text_chunks), batch_size):
         batch = text_chunks[i:i + batch_size]
+        response = client.embeddings.create(
             input=batch,
             model=model_embedding
         )
+        batch_embeddings = [data.embedding for data in response.data]
         embeddings.extend(batch_embeddings)
     return np.array(embeddings).astype('float32')
 # 📌 Récupération des chunks les plus pertinents
 def retrieve_relevant_chunks(question, k=5):
     """Recherche les chunks les plus pertinents en fonction de la similarité des embeddings."""
+    response = client.embeddings.create(
         input=[question],
         model=model_embedding
     )
+    question_embedding = np.array(response.data[0].embedding).astype('float32').reshape(1, -1)
     distances, indices = index.search(question_embedding, k)
     return [chunked_docs[i] for i in indices[0]]
         {"role": "user", "content": question}
     ]
+    response = client.chat.completions.create(
         model=model_chat,
         messages=messages
     )
+    return response.choices[0].message.content
 # 📌 Exécuter une requête utilisateur
 user_question = "Quelles souches de poulet et poules se trouvent dans ce corpus de texte ?"