Spaces:

kryman27
/

pdf-extractor

Running

kryman27 commited on Feb 5

Commit

db576bd

verified ·

1 Parent(s): 814c19e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,25 +2,25 @@ import gradio as gr
 import pdfplumber
 from transformers import pipeline
-# Inicjalizacja modelu do ekstrakcji informacji
-extractor = pipeline("ner", model="dslim/bert-base-NER")
 def extract_info(pdf_file):
     with pdfplumber.open(pdf_file) as pdf:
-        text = ""
-        for page in pdf.pages:
-            text += page.extract_text() + "\n"
     # Przetwarzanie tekstu modelem NLP
     entities = extractor(text)
-    # Filtrowanie i formatowanie wyników
     extracted_data = {}
     for entity in entities:
-        label = entity['entity']
-        word = entity['word']
         if label not in extracted_data:
             extracted_data[label] = []
         extracted_data[label].append(word)
     return extracted_data

 import pdfplumber
 from transformers import pipeline
+# Inicjalizacja modelu NER
+extractor = pipeline("ner", model="dslim/bert-base-NER", aggregation_strategy="simple")
 def extract_info(pdf_file):
     with pdfplumber.open(pdf_file) as pdf:
+        text = "\n".join(page.extract_text() for page in pdf.pages if page.extract_text())
     # Przetwarzanie tekstu modelem NLP
     entities = extractor(text)
+    # Formatowanie wyników
     extracted_data = {}
     for entity in entities:
+        label = entity["entity_group"]
+        word = entity["word"]
         if label not in extracted_data:
             extracted_data[label] = []
         extracted_data[label].append(word)
     return extracted_data