Spaces:

kryman27
/

pdf-extractor

Sleeping

kryman27 commited on Feb 5

Commit

159c760

verified ·

1 Parent(s): 10213d3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,22 +2,29 @@ import gradio as gr
 import pdfplumber
 from transformers import pipeline
-# Inicjalizacja modelu LayoutLM do ekstrakcji tekstu
-extractor = pipeline("ner", model="microsoft/layoutlmv3-base", aggregation_strategy="simple")
 def extract_seller(pdf_file):
     with pdfplumber.open(pdf_file) as pdf:
-        text = "\n".join(page.extract_text() for page in pdf.pages if page.extract_text())
-    # Przetwarzanie tekstu modelem NLP
-    entities = extractor(text)
     seller_name = None
-    for entity in entities:
-        if "ORG" in entity["entity_group"]:  # Szukamy nazw organizacji
-            seller_name = entity["word"]
-            break  # Pobieramy pierwszą wykrytą firmę jako sprzedawcę
     return {"Sprzedawca": seller_name if seller_name else "Nie znaleziono"}

 import pdfplumber
 from transformers import pipeline
+# Lżejszy model NER
+extractor = pipeline("ner", model="xlm-roberta-large-finetuned-conll03", aggregation_strategy="simple")
 def extract_seller(pdf_file):
     with pdfplumber.open(pdf_file) as pdf:
+        # Pobranie tekstu ze wszystkich stron
+        full_text = "\n".join(page.extract_text() for page in pdf.pages if page.extract_text())
+    # Podział na krótkie fragmenty (maks. 512 znaków, aby model działał szybciej)
+    chunks = [full_text[i:i+512] for i in range(0, len(full_text), 512)]
     seller_name = None
+    for chunk in chunks:
+        entities = extractor(chunk)
+        for entity in entities:
+            if "ORG" in entity["entity_group"]:  # Szukamy nazw organizacji
+                seller_name = entity["word"]
+                break  # Pobieramy pierwszą wykrytą firmę jako sprzedawcę
+        if seller_name:  # Jeśli znaleziono sprzedawcę, przerywamy pętlę
+            break
     return {"Sprzedawca": seller_name if seller_name else "Nie znaleziono"}