Spaces:

xavierbarbier
/

rag_ngap

Sleeping

xavierbarbier commited on Aug 23, 2024

Commit

c88d72c

verified ·

1 Parent(s): 892786f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,53 +51,32 @@ chunk_size = 2048
 # creating a pdf reader object
-reader = PdfReader("./resource/NGAP 01042024.pdf")
-text = []
-for p in np.arange(0, len(reader.pages), 1):
-    page = reader.pages[int(p)]
-    # extracting text from page
-    text.append(page.extract_text())
-text = ' '.join(text)
-chunks = [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
-def get_text_embedding(text):
-    return embeddings.embed_query(text)
-text_embeddings = np.array([get_text_embedding(chunk) for chunk in chunks])
-d = text_embeddings.shape[1]
-index = faiss.IndexFlatL2(d)
-index.add(text_embeddings)
 print("Finish the model init process")
 def qa(question: str) -> str:
-    question_embeddings = np.array([get_text_embedding(question)])
-    D, I = index.search(question_embeddings, k=2) # distance, index
-    retrieved_chunk = [chunks[i] for i in I.tolist()[0]]
     prompt = f"""<s>[INST]
             Les informations contextuelles sont ci-dessous.
             ---------------------
-            {retrieved_chunk}
             ---------------------
             [/INST]
             Compte tenu des informations contextuelles et non des connaissances préalables, répondez à la requête.  </s>
             [INST] Requête: {question} [/INST]
             Réponse:
                 """
-    outputs = model.generate(prompt=prompt, temp=0.5, top_k = 40, top_p = 1, max_tokens = max_new_tokens)
-    return "".join(outputs)
 demo = gr.Interface(

 # creating a pdf reader object
+vectordb = Chroma(
+    persist_directory="./resource/chroma/",
+    embedding_function=embeddings
+)
 print("Finish the model init process")
 def qa(question: str) -> str:
+    docs = vectordb.max_marginal_relevance_search(question,k=1)
     prompt = f"""<s>[INST]
             Les informations contextuelles sont ci-dessous.
             ---------------------
+            {docs[0].page_content}
             ---------------------
             [/INST]
             Compte tenu des informations contextuelles et non des connaissances préalables, répondez à la requête.  </s>
             [INST] Requête: {question} [/INST]
             Réponse:
                 """
+    #outputs = model.generate(prompt=prompt, temp=0.5, top_k = 40, top_p = 1, max_tokens = max_new_tokens)
+    return prompt #"".join(outputs)
 demo = gr.Interface(