Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

803ac17

verified ·

1 Parent(s): 1d58bcf

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -7

app.py CHANGED Viewed

@@ -1,14 +1,14 @@
 import gradio as gr
-import fitz  # PyMuPDF
 from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
-# Initialisiere das deutsche Modell und den Tokenizer für RAG
-model_name = "deepset/gbert-base"  # Beispiel für ein deutsches Modell
 tokenizer = RagTokenizer.from_pretrained(model_name)
 model = RagSequenceForGeneration.from_pretrained(model_name)
 retriever = RagRetriever.from_pretrained(model_name, index_name="exact", use_dummy_dataset=True)
-# Funktion zur Textextraktion aus PDF (ohne OCR)
 def extract_text_from_pdf(file):
     # Öffne die PDF-Datei mit PyMuPDF
     doc = fitz.open(file.name)
@@ -21,16 +21,18 @@ def extract_text_from_pdf(file):
     return text
-# Funktion zur Generierung einer Antwort basierend auf dem hochgeladenen Dokument
 def get_rag_answer(input_message, uploaded_file):
     # Extrahiere den Text aus dem hochgeladenen PDF-Dokument
     document_text = extract_text_from_pdf(uploaded_file)
-    # Simuliere den Retrieval-Mechanismus, indem wir den extrahierten Text verwenden
     inputs = tokenizer(input_message, return_tensors="pt")
     retrieved_docs = retriever.retrieve(input_ids=inputs["input_ids"])
-    # Kombiniere die extrahierten Dokumente und frage das Modell zur Generierung einer Antwort
     input_ids = tokenizer(input_message, return_tensors="pt").input_ids
     generated_ids = model.generate(input_ids=input_ids,
                                    decoder_start_token_id=model.config.pad_token_id,

 import gradio as gr
 from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
+import fitz  # PyMuPDF
+# Lade das RAG-Modell, Tokenizer und Retriever
+model_name = "facebook/rag-token-nq"  # Funktionierendes RAG-Modell mit Encoder und Generator
 tokenizer = RagTokenizer.from_pretrained(model_name)
 model = RagSequenceForGeneration.from_pretrained(model_name)
 retriever = RagRetriever.from_pretrained(model_name, index_name="exact", use_dummy_dataset=True)
+# Funktion zur Textextraktion aus PDF
 def extract_text_from_pdf(file):
     # Öffne die PDF-Datei mit PyMuPDF
     doc = fitz.open(file.name)
     return text
+# Funktion zur Beantwortung der Frage durch das Modell
 def get_rag_answer(input_message, uploaded_file):
     # Extrahiere den Text aus dem hochgeladenen PDF-Dokument
     document_text = extract_text_from_pdf(uploaded_file)
+    # Hier verwenden wir den extrahierten Text für das Abrufen von Informationen
     inputs = tokenizer(input_message, return_tensors="pt")
+    # Abrufen von relevanten Dokumenten mit dem RagRetriever
     retrieved_docs = retriever.retrieve(input_ids=inputs["input_ids"])
+    # Kombiniere die abgerufenen Dokumente und frage das Modell zur Generierung einer Antwort
     input_ids = tokenizer(input_message, return_tensors="pt").input_ids
     generated_ids = model.generate(input_ids=input_ids,
                                    decoder_start_token_id=model.config.pad_token_id,