Spaces:

xavierbarbier
/

rag_ngap

Sleeping

App Files Files Community

xavierbarbier commited on Aug 22, 2024

Commit

4c8a6f3

verified ·

1 Parent(s): 28dbce4

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -13

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ import faiss
 #from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_huggingface import HuggingFaceEmbeddings
 import numpy as np
 title = "Mistral-7B-Instruct-GGUF Run On CPU-Basic Free Hardware"
@@ -26,6 +28,34 @@ hf_hub_download(repo_id="TheBloke/Mistral-7B-Instruct-v0.1-GGUF", filename=model
 print("Start the model init process")
 model = model = GPT4All(model_name, model_path, allow_download = False, device="cpu")
 print("Finish the model init process")
 model.config["promptTemplate"] = "[INST] {0} [/INST]"
@@ -44,28 +74,17 @@ embeddings = HuggingFaceEmbeddings(
 #index = faiss.load_local("resourse/embeddings_ngap.faiss")
-def get_text_embedding(text):
-    return embeddings.embed_query(text)
 def generater(message, history, temperature, top_p, top_k):
     prompt = "<s>"
     for user_message, assistant_message in history:
         prompt += model.config["promptTemplate"].format(user_message)
-        question = prompt
-        question_embeddings = np.array([get_text_embedding(prompt)])
-        D, I = index.search(question_embeddings, k=2) # distance, index
-        retrieved_chunk = [chunks[i] for i in I.tolist()[0]]
-        prompt += assistant_message + " Contexte:" + retrieved_chunk + "</s>"
     prompt += model.config["promptTemplate"].format(message)
     outputs = []
     for token in model.generate(prompt=prompt, temp=temperature, top_k = top_k, top_p = top_p, max_tokens = max_new_tokens, streaming=True):
         outputs.append(token)

 #from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_huggingface import HuggingFaceEmbeddings
 import numpy as np
+from pypdf import PdfReader
 title = "Mistral-7B-Instruct-GGUF Run On CPU-Basic Free Hardware"
 print("Start the model init process")
 model = model = GPT4All(model_name, model_path, allow_download = False, device="cpu")
+# creating a pdf reader object
+reader = PdfReader("resourse/NGAP 01042024.pdf")
+text = []
+for p in np.arange(0, len(reader.pages), 1):
+  page = reader.pages[int(p)]
+  # extracting text from page
+  text.append(page.extract_text())
+text = ' '.join(text)
+chunk_size = 2048
+chunks = [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
+def get_text_embedding(text):
+    return embeddings.embed_query(text)
+text_embeddings = np.array([get_text_embedding(chunk) for chunk in chunks])
+d = text_embeddings.shape[1]
+index = faiss.IndexFlatL2(d)
+index.add(text_embeddings)
 print("Finish the model init process")
 model.config["promptTemplate"] = "[INST] {0} [/INST]"
 #index = faiss.load_local("resourse/embeddings_ngap.faiss")
 def generater(message, history, temperature, top_p, top_k):
     prompt = "<s>"
     for user_message, assistant_message in history:
         prompt += model.config["promptTemplate"].format(user_message)
+        prompt += assistant_message "</s>"
     prompt += model.config["promptTemplate"].format(message)
     outputs = []
     for token in model.generate(prompt=prompt, temp=temperature, top_k = top_k, top_p = top_p, max_tokens = max_new_tokens, streaming=True):
         outputs.append(token)