Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

b2bbc8f

verified ·

1 Parent(s): b62f55c

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -31

app.py CHANGED Viewed

@@ -5,30 +5,30 @@ from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
-from pdf2image import convert_from_path
-from transformers import LayoutLMv3Processor, AutoModelForTokenClassification
-class LayoutLMv3OCR:
-    def __init__(self):
-        self.processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base")
-        self.model = AutoModelForTokenClassification.from_pretrained("microsoft/layoutlmv3-base")
-    def extract_text(self, pdf_path):
-        images = convert_from_path(pdf_path)
-        text_pages = []
-        for image in images:
-            inputs = self.processor(images=image, return_tensors="pt")
-            outputs = self.model(**inputs)
-            text = self.processor.batch_decode(outputs.logits, skip_special_tokens=True)[0]
-            text_pages.append(text)
-        return text_pages
-ocr_tool = LayoutLMv3OCR()
 def process_pdf_and_query(pdf_path, question):
-    loader = PyPDFLoader(pdf_path)
-    documents = loader.load()
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vectordb = Chroma.from_documents(documents, embeddings)
@@ -36,25 +36,23 @@ def process_pdf_and_query(pdf_path, question):
     prompt_template = "Beantworte die folgende Frage basierend auf dem Dokument: {context}\nFrage: {question}\nAntwort:"
     prompt = PromptTemplate(input_variables=["context", "question"], template=prompt_template)
     qa_chain = RetrievalQA.from_chain_type(llm=None, retriever=retriever, chain_type_kwargs={"prompt": prompt})
     response = qa_chain.run(input_documents=documents, question=question)
     return response
 def chatbot_response(pdf, question):
-    # Gradio gibt uns die PDF als NamedString, wir extrahieren den Inhalt als Byte-Stream
     pdf_path = "/tmp/uploaded_pdf.pdf"
-    # Extrahiere den Inhalt der Datei als Bytes
-    pdf_content = pdf.read()  # Hier holen wir den Inhalt der PDF als Byte-Stream
-    # Speichern des Byte-Streams von der Datei
     with open(pdf_path, "wb") as f:
         f.write(pdf_content)
-    # OCR-Text extrahieren
-    extracted_text = ocr_tool.extract_text(pdf_path)
-    # Frage beantworten basierend auf der PDF und OCR-Inhalten
     answer = process_pdf_and_query(pdf_path, question)
     # Temporäre Datei löschen
@@ -62,11 +60,12 @@ def chatbot_response(pdf, question):
     return answer
-# Gradio Interface
 pdf_input = gr.File(label="PDF-Datei hochladen")
 question_input = gr.Textbox(label="Frage eingeben")
 response_output = gr.Textbox(label="Antwort")
 interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],

 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
+import fitz  # PyMuPDF für das Extrahieren von Text aus PDFs
+# Funktion zum Extrahieren von Text aus einer PDF
+def extract_text_from_pdf(pdf_path):
+    doc = fitz.open(pdf_path)  # Öffnen der PDF-Datei
+    text_pages = []
+    # Durch alle Seiten der PDF iterieren und Text extrahieren
+    for page_num in range(doc.page_count):
+        page = doc.load_page(page_num)
+        text = page.get_text("text")  # Extrahiert den Text als "plain text"
+        text_pages.append(text)
+    return text_pages
+# Frage-Antwort-Funktion mit Langchain und Chroma
 def process_pdf_and_query(pdf_path, question):
+    # Extrahiere Text aus der PDF
+    extracted_text = extract_text_from_pdf(pdf_path)
+    # Dokumente für Langchain laden
+    documents = [{"text": page_text} for page_text in extracted_text]
+    # Embedding und Vektorstore vorbereiten
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vectordb = Chroma.from_documents(documents, embeddings)
     prompt_template = "Beantworte die folgende Frage basierend auf dem Dokument: {context}\nFrage: {question}\nAntwort:"
     prompt = PromptTemplate(input_variables=["context", "question"], template=prompt_template)
+    # Erstellung der RetrievalQA-Kette
     qa_chain = RetrievalQA.from_chain_type(llm=None, retriever=retriever, chain_type_kwargs={"prompt": prompt})
     response = qa_chain.run(input_documents=documents, question=question)
     return response
+# Gradio Antwortfunktion
 def chatbot_response(pdf, question):
+    # Speichern der hochgeladenen PDF-Datei
     pdf_path = "/tmp/uploaded_pdf.pdf"
+    pdf_content = pdf.read()  # Hole den Inhalt der PDF als Byte-Stream
+    # Speichern des Byte-Streams in einer Datei
     with open(pdf_path, "wb") as f:
         f.write(pdf_content)
+    # Frage beantworten basierend auf der extrahierten PDF und der Frage
     answer = process_pdf_and_query(pdf_path, question)
     # Temporäre Datei löschen
     return answer
+# Gradio Interface erstellen
 pdf_input = gr.File(label="PDF-Datei hochladen")
 question_input = gr.Textbox(label="Frage eingeben")
 response_output = gr.Textbox(label="Antwort")
+# Gradio Interface starten
 interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],