Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

2925149

verified ·

1 Parent(s): 03a5db9

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -23

app.py CHANGED Viewed

@@ -1,55 +1,79 @@
 import gradio as gr
-import pdfplumber
 import os
 from langchain.vectorstores import Chroma
-from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 def extract_text_from_pdf(pdf_path):
-    # Verwende pdfplumber, um den Text aus der PDF zu extrahieren
     with pdfplumber.open(pdf_path) as pdf:
-        full_text = ""
-        for page in pdf.pages:
-            full_text += page.extract_text()
-    return full_text
 def process_pdf_and_query(pdf_path, question):
-    text = extract_text_from_pdf(pdf_path)
-    # Extrahiere die Dokumente und erstelle einen Vektorstore
-    documents = [{"text": text}]
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vectordb = Chroma.from_documents(documents, embeddings)
     retriever = vectordb.as_retriever()
     prompt_template = "Beantworte die folgende Frage basierend auf dem Dokument: {context}\nFrage: {question}\nAntwort:"
     prompt = PromptTemplate(input_variables=["context", "question"], template=prompt_template)
     qa_chain = RetrievalQA.from_chain_type(llm=None, retriever=retriever, chain_type_kwargs={"prompt": prompt})
-    response = qa_chain.run(input_documents=documents, question=question)
-    return response
 def chatbot_response(pdf, question):
     # Gradio gibt uns die PDF als NamedString, wir extrahieren den Inhalt als Byte-Stream
     pdf_path = "/tmp/uploaded_pdf.pdf"
-    # Extrahiere den Inhalt der Datei als Bytes
-    pdf_content = pdf.read()  # Hier holen wir den Inhalt der PDF als Byte-Stream
     # Speichern des Byte-Streams von der Datei
     with open(pdf_path, "wb") as f:
-        f.write(pdf_content)
-    # Frage beantworten basierend auf der PDF und extrahiertem Text
-    answer = process_pdf_and_query(pdf_path, question)
     # Temporäre Datei löschen
     os.remove(pdf_path)
-    return answer
 # Gradio Interface
 pdf_input = gr.File(label="PDF-Datei hochladen")

 import gradio as gr
 import os
+import pdfplumber
 from langchain.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
+from langchain.document_loaders import TextLoader
+# Funktion zum Extrahieren von Text aus einer PDF mit pdfplumber
 def extract_text_from_pdf(pdf_path):
     with pdfplumber.open(pdf_path) as pdf:
+        text_pages = []
+        for page_num, page in enumerate(pdf.pages):
+            text = page.extract_text()
+            if text:
+                text_pages.append({'page': page_num + 1, 'text': text})
+    return text_pages
+# RAG Funktion zum Verarbeiten der PDF und Beantworten der Frage
 def process_pdf_and_query(pdf_path, question):
+    # Extrahiere den Text aus der PDF
+    text_pages = extract_text_from_pdf(pdf_path)
+    # Alle Seiten in einem Dokument zusammenführen
+    documents = [doc['text'] for doc in text_pages]
+    # Embedding mit Hugging Face Embeddings
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    # Chroma Vektor-Datenbank erstellen
     vectordb = Chroma.from_documents(documents, embeddings)
+    # Erstellen eines Retrievers
     retriever = vectordb.as_retriever()
+    # Prompt Template erstellen
     prompt_template = "Beantworte die folgende Frage basierend auf dem Dokument: {context}\nFrage: {question}\nAntwort:"
     prompt = PromptTemplate(input_variables=["context", "question"], template=prompt_template)
+    # RetrievalQA Chain erstellen
     qa_chain = RetrievalQA.from_chain_type(llm=None, retriever=retriever, chain_type_kwargs={"prompt": prompt})
+    # Antwort generieren
+    answer = qa_chain.run(input_documents=documents, question=question)
+    return answer, text_pages
+# Funktion für den Gradio Chatbot
 def chatbot_response(pdf, question):
     # Gradio gibt uns die PDF als NamedString, wir extrahieren den Inhalt als Byte-Stream
     pdf_path = "/tmp/uploaded_pdf.pdf"
     # Speichern des Byte-Streams von der Datei
     with open(pdf_path, "wb") as f:
+        f.write(pdf.read())
+    # Frage beantworten basierend auf der PDF und den extrahierten Inhalten
+    answer, text_pages = process_pdf_and_query(pdf_path, question)
+    # Ermitteln, auf welcher Seite der relevante Text gefunden wurde
+    # Wir können den relevanten Text aus der Antwort extrahieren und auf die Seite referenzieren
+    referenced_page = None
+    for doc in text_pages:
+        if doc['text'] in answer:
+            referenced_page = doc['page']
+            break
     # Temporäre Datei löschen
     os.remove(pdf_path)
+    # Antwort und Seitenreferenz zurückgeben
+    if referenced_page:
+        return f"Antwort: {answer}\n(Referenz zur Seite {referenced_page})"
+    else:
+        return f"Antwort: {answer}\n(Seitenreferenz nicht verfügbar)"
 # Gradio Interface
 pdf_input = gr.File(label="PDF-Datei hochladen")