Spaces:

la04
/

RAG_test_1

Sleeping

la04 commited on Jan 9

Commit

c106446

verified ·

1 Parent(s): 692eafb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,12 @@
 import gradio as gr
 from langchain.vectorstores import Chroma
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
-from transformers import LayoutLMv3Processor, AutoModelForTokenClassification
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from pdf2image import convert_from_path
-import os
 class LayoutLMv3OCR:
     def __init__(self):
@@ -41,10 +41,12 @@ def process_pdf_and_query(pdf_path, question):
     return response
 def chatbot_response(pdf, question):
-    # Wir speichern die hochgeladene PDF-Datei als temporäre Datei
     pdf_path = "/tmp/uploaded_pdf.pdf"
     with open(pdf_path, "wb") as f:
-        f.write(pdf.read())  # PDF-Inhalt als Byte-Stream speichern
     # OCR-Text extrahieren
     extracted_text = ocr_tool.extract_text(pdf_path)
@@ -57,7 +59,7 @@ def chatbot_response(pdf, question):
     return answer
-# Ändere 'inputs' und 'outputs' zur neuen Gradio API
 pdf_input = gr.File(label="PDF-Datei hochladen")
 question_input = gr.Textbox(label="Frage eingeben")
 response_output = gr.Textbox(label="Antwort")

 import gradio as gr
+import os
 from langchain.vectorstores import Chroma
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from pdf2image import convert_from_path
+from transformers import LayoutLMv3Processor, AutoModelForTokenClassification
 class LayoutLMv3OCR:
     def __init__(self):
     return response
 def chatbot_response(pdf, question):
+    # Gradio gibt uns das PDF als NamedString, wir speichern es als temporäre Datei
     pdf_path = "/tmp/uploaded_pdf.pdf"
+    # Speichern des Byte-Streams von der Datei
     with open(pdf_path, "wb") as f:
+        f.write(pdf)  # pdf ist bereits als Byte-Stream verfügbar
     # OCR-Text extrahieren
     extracted_text = ocr_tool.extract_text(pdf_path)
     return answer
+# Gradio Interface
 pdf_input = gr.File(label="PDF-Datei hochladen")
 question_input = gr.Textbox(label="Frage eingeben")
 response_output = gr.Textbox(label="Antwort")