Spaces:

la04
/

RAG_test_1

Sleeping

la04 commited on Jan 9

Commit

c545813

verified ·

1 Parent(s): bd2041d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 from langchain.vectorstores import Chroma
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
-from transformers import LayoutLMv3Processor, AutoModelForSeq2SeqLM
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from pdf2image import convert_from_path
@@ -11,15 +11,19 @@ import os
 class LayoutLMv3OCR:
     def __init__(self):
         self.processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base")
-        self.model = AutoModelForSeq2SeqLM.from_pretrained("microsoft/layoutlmv3-base")
     def extract_text(self, pdf_path):
         images = convert_from_path(pdf_path)
         text_pages = []
         for image in images:
             inputs = self.processor(images=image, return_tensors="pt")
-            outputs = self.model.generate(**inputs)
-            text = self.processor.batch_decode(outputs, skip_special_tokens=True)[0]
             text_pages.append(text)
         return text_pages

 from langchain.vectorstores import Chroma
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
+from transformers import LayoutLMv3Processor, AutoModelForTokenClassification
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from pdf2image import convert_from_path
 class LayoutLMv3OCR:
     def __init__(self):
         self.processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base")
+        # Ändere AutoModelForSeq2SeqLM zu AutoModelForTokenClassification
+        self.model = AutoModelForTokenClassification.from_pretrained("microsoft/layoutlmv3-base")
     def extract_text(self, pdf_path):
         images = convert_from_path(pdf_path)
         text_pages = []
         for image in images:
+            # Bilder werden für die OCR-Prozesse vorbereitet
             inputs = self.processor(images=image, return_tensors="pt")
+            # Modell wird zur Textextraktion genutzt
+            outputs = self.model(**inputs)
+            # Hier wird der dekodierte Text extrahiert
+            text = self.processor.batch_decode(outputs.logits, skip_special_tokens=True)[0]
             text_pages.append(text)
         return text_pages