Spaces:

CosmickVisions
/

Data-Vision

Running

App Files Files Community

CosmickVisions commited on Mar 3

Commit

5b5d383

verified ·

1 Parent(s): c5f2730

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -31

app.py CHANGED Viewed

@@ -17,6 +17,10 @@ import shap
 import pdfplumber
 import pytesseract
 from pdf2image import convert_from_path
 # Machine Learning
 from sklearn.impute import SimpleImputer
@@ -55,16 +59,14 @@ from transformers import TFBertForSequenceClassification
 # --------------------------
 pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'  # Update this path if Tesseract is installed elsewhere
-def extract_text_from_pdf(pdf_path, ocr_enabled=False):
     text = ""
-    if ocr_enabled:
-        images = convert_from_path(pdf_path)
-        for image in images:
-            text += pytesseract.image_to_string(image)
-    else:
-        with pdfplumber.open(pdf_path) as pdf:
-            for page in pdf.pages:
-                text += page.extract_text()
     return text
@@ -347,30 +349,9 @@ def prediction_input_form(features, default_values=None):
         input_data[feature] = st.number_input(f"{feature}:", value=default_value)
     return input_data
-# Enhanced Helper Functions
-def extract_text_from_pdf(pdf_file, use_ocr=False):
-    """Extract text with OCR support"""
-    try:
-        import pdfplumber
-        with pdfplumber.open(pdf_file) as pdf:
-            text = "\n".join([page.extract_text() for page in pdf.pages])
-            if use_ocr or len(text) < 50:  # Fallback to OCR
-                import fitz  # PyMuPDF
-                doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
-                text = ""
-                for page in doc:
-                    text += page.get_text("text")
-                if len(text) < 50:
-                    raise ValueError("Likely scanned document - enable OCR")
-        return text
-    except Exception as e:
-        raise RuntimeError(f"Text extraction failed: {str(e)}")
 def visualize_entities(text):
     """Create interactive entity visualization"""
-    import spacy
-    from spacy import displacy
     nlp = spacy.load("en_core_web_sm")
     doc = nlp(text)
     html = displacy.render(doc, style="ent", page=True)
@@ -384,7 +365,6 @@ def generate_embeddings(text):
 def extract_metadata(pdf_file):
     """Extract PDF metadata"""
-    import fitz
     doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
     return {
         "author": doc.metadata.get("author"),

 import pdfplumber
 import pytesseract
 from pdf2image import convert_from_path
+import fitz
+import spacy
+from spacy import displacy
+from sentence_transformers import SentenceTransformer
 # Machine Learning
 from sklearn.impute import SimpleImputer
 # --------------------------
 pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'  # Update this path if Tesseract is installed elsewhere
+def extract_text_from_pdf(pdf, ocr_enabled):
+    pages = convert_from_path(pdf, 500)
     text = ""
+    for page in pages:
+        if ocr_enabled:
+            text += pytesseract.image_to_string(page)
+        else:
+            text += page.get_text()
     return text
         input_data[feature] = st.number_input(f"{feature}:", value=default_value)
     return input_data
 def visualize_entities(text):
     """Create interactive entity visualization"""
     nlp = spacy.load("en_core_web_sm")
     doc = nlp(text)
     html = displacy.render(doc, style="ent", page=True)
 def extract_metadata(pdf_file):
     """Extract PDF metadata"""
     doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
     return {
         "author": doc.metadata.get("author"),