Spaces:

xavierbarbier
/

rag_ngap

Sleeping

App Files Files Community

xavierbarbier commited on Aug 23, 2024

Commit

56abc69

verified ·

1 Parent(s): 62f2a2b

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -100

app.py CHANGED Viewed

@@ -6,7 +6,10 @@ import faiss
 from langchain_huggingface import HuggingFaceEmbeddings
 import numpy as np
 from pypdf import PdfReader
-from transformers import AutoTokenizer
 title = "Mistral-7B-Instruct-GGUF Run On CPU-Basic Free Hardware"
@@ -29,116 +32,35 @@ hf_hub_download(repo_id="TheBloke/Mistral-7B-Instruct-v0.1-GGUF", filename=model
 print("Start the model init process")
 model = model = GPT4All(model_name, model_path, allow_download = False, device="cpu")
-model_name = "HuggingFaceH4/zephyr-7b-beta"
-#model_name = "gpt2"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
 # creating a pdf reader object
-"""
-reader = PdfReader("./resource/NGAP 01042024.pdf")
-text = []
-for p in np.arange(0, len(reader.pages), 1):
-  page = reader.pages[int(p)]
-  # extracting text from page
-  text.append(page.extract_text())
-text = ' '.join(text)
-chunk_size = 2048
-chunks = [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
-model_kwargs = {'device': 'cpu'}
-encode_kwargs = {'normalize_embeddings': False}
-embeddings = HuggingFaceEmbeddings(
-    model_kwargs=model_kwargs,
-    encode_kwargs=encode_kwargs
-)
-def get_text_embedding(text):
-    return embeddings.embed_query(text)
-text_embeddings = np.array([get_text_embedding(chunk) for chunk in chunks])
-d = text_embeddings.shape[1]
-index = faiss.IndexFlatL2(d)
-index.add(text_embeddings)
-#index = faiss.read_index("./resourse/embeddings_ngap.faiss")
-"""
 print("Finish the model init process")
-def format_chat_prompt(message, chat_history):
-    prompt = ""
-    for turn in chat_history:
-        user_message, bot_message = turn
-        prompt = f"{prompt}\nUser: {user_message}\nAssistant: {bot_message}"
-    prompt = f"{prompt}\nUser: {message}\nAssistant:"
-    return prompt
-context = [
-    {
-        "role": "system",
-        "content": """Tu est un assitant virtuel et tu réponds en français.
-        """,
-    }
- ]
-max_new_tokens = 2048
-def respond(message, chat_history):
-        context.append({'role':'user', 'content':f"{message}"})
-        prompt = ""
-        for item in context:
-            for key, value in item.items():
-                prompt += f"{key}: {value}\n"
-        #tokenized_chat = tokenizer.apply_chat_template(context, tokenize=True, add_generation_prompt=True, return_tensors="pt")
-        bot_message = model.generate(prompt, temp=0.5, top_k = 40, top_p = 1, max_tokens = max_new_tokens)
-        #bot_message = tokenizer.decode(outputs[0]).split("<|assistant|>")[-1].replace("</s>","")
-        #bot_message = model.generate(prompt=prompt, temp=0.5, top_k = 40, top_p = 1, max_tokens = max_new_tokens, streaming=False)
-        context.append({'role':'assistant', 'content':f"{bot_message}"})
-        chat_history.append((message, bot_message))
-        return "", chat_history
-with gr.Blocks() as demo:
-    gr.Markdown("# Assistant virtuel Ameli")
-    gr.Markdown("Mes réponses sont générées par IA. Elles peuvent être fausses ou imprécises.")
-    with gr.Row():
-        with gr.Column(scale=1):
-          text = gr.Textbox(lines =5)
-          #msg = gr.Textbox(label="Posez votre question")
-          btn = gr.Button("Soumettre la question")
-        with gr.Column(scale=2, min_width=50):
-          chatbot = gr.Chatbot(height=700) #just to fit the notebook
-          clear = gr.ClearButton(components=[text, chatbot], value="Clear console")
-    btn.click(respond, inputs=[text, chatbot], outputs=[text, chatbot])
-    text.submit(respond, inputs=[text, chatbot], outputs=[text, chatbot]) #Press enter to submit
 if __name__ == "__main__":
     demo.queue(max_size=3).launch()

 from langchain_huggingface import HuggingFaceEmbeddings
 import numpy as np
 from pypdf import PdfReader
+from gradio_pdf import PDF
+from pdf2image import convert_from_path
+from transformers import pipeline
+from pathlib import Path
 title = "Mistral-7B-Instruct-GGUF Run On CPU-Basic Free Hardware"
 print("Start the model init process")
 model = model = GPT4All(model_name, model_path, allow_download = False, device="cpu")
+model.config["promptTemplate"] = "[INST] {0} [/INST]"
+model.config["systemPrompt"] = "Tu es un assitant et tu dois répondre en français"
+model._is_chat_session_activated = False
+max_new_tokens = 2048
 # creating a pdf reader object
 print("Finish the model init process")
+dir_ = Path(__file__).parent
+p = pipeline(
+    "document-question-answering",
+    model="impira/layoutlm-document-qa",
+)
+def qa(question: str, doc: str) -> str:
+    img = convert_from_path(doc)[0]
+    output = p(img, question)
+    return sorted(output, key=lambda x: x["score"], reverse=True)[0]['answer']
+demo = gr.Interface(
+    qa,
+    [gr.Textbox(label="Question"), PDF(label="Document")],
+    gr.Textbox()
+)
 if __name__ == "__main__":
     demo.queue(max_size=3).launch()