Spaces:

la04
/

RAG_test_1

Sleeping

la04 commited on Jan 9

Commit

1d58bcf

verified ·

1 Parent(s): 598dc04

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,6 @@
 import gradio as gr
-import easyocr
-from pdf2image import convert_from_path
 from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
-import os
-# Initialisiere EasyOCR für Deutsch
-reader = easyocr.Reader(['de'])  # für die deutsche Sprache
 # Initialisiere das deutsche Modell und den Tokenizer für RAG
 model_name = "deepset/gbert-base"  # Beispiel für ein deutsches Modell
@@ -13,23 +8,22 @@ tokenizer = RagTokenizer.from_pretrained(model_name)
 model = RagSequenceForGeneration.from_pretrained(model_name)
 retriever = RagRetriever.from_pretrained(model_name, index_name="exact", use_dummy_dataset=True)
-# OCR-Funktion: Konvertiert PDF zu Bildern und extrahiert Text mit EasyOCR
 def extract_text_from_pdf(file):
-    # Konvertiere PDF-Seiten in Bilder
-    images = convert_from_path(file.name, 300)  # 300 DPI für bessere Qualität
     text = ""
-    # Extrahiere Text aus jedem Bild mit EasyOCR
-    for image in images:
-        ocr_result = reader.readtext(image)
-        for detection in ocr_result:
-            text += detection[1] + "\n"
     return text
 # Funktion zur Generierung einer Antwort basierend auf dem hochgeladenen Dokument
 def get_rag_answer(input_message, uploaded_file):
-    # Extrahiere den Text aus dem hochgeladenen PDF-Dokument mit OCR
     document_text = extract_text_from_pdf(uploaded_file)
     # Simuliere den Retrieval-Mechanismus, indem wir den extrahierten Text verwenden

 import gradio as gr
+import fitz  # PyMuPDF
 from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
 # Initialisiere das deutsche Modell und den Tokenizer für RAG
 model_name = "deepset/gbert-base"  # Beispiel für ein deutsches Modell
 model = RagSequenceForGeneration.from_pretrained(model_name)
 retriever = RagRetriever.from_pretrained(model_name, index_name="exact", use_dummy_dataset=True)
+# Funktion zur Textextraktion aus PDF (ohne OCR)
 def extract_text_from_pdf(file):
+    # Öffne die PDF-Datei mit PyMuPDF
+    doc = fitz.open(file.name)
+    # Extrahiere Text aus jeder Seite der PDF
     text = ""
+    for page_num in range(len(doc)):
+        page = doc.load_page(page_num)
+        text += page.get_text("text")  # Extrahiert den Text der Seite
     return text
 # Funktion zur Generierung einer Antwort basierend auf dem hochgeladenen Dokument
 def get_rag_answer(input_message, uploaded_file):
+    # Extrahiere den Text aus dem hochgeladenen PDF-Dokument
     document_text = extract_text_from_pdf(uploaded_file)
     # Simuliere den Retrieval-Mechanismus, indem wir den extrahierten Text verwenden