Spaces:

samyak152002
/

texmetrics-regex-checks-gradio-1

Sleeping

App Files Files Community

samyak152002 commited on Mar 13

Commit

184c6f9

verified ·

1 Parent(s): 2859d26

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -12

app.py CHANGED Viewed

@@ -29,34 +29,55 @@ os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'
 #             return [page.get_text("text") for page in doc]
 def extract_pdf_text(file) -> str:
-    """Extracts full text from a PDF file using PyMuPDF."""
     try:
         print(f"Opening PDF file: {file}")
         if isinstance(file, str):
             print(f"Opening file by path: {file}")
-            doc = fitz.open(file)
         else:
             print(f"Opening file from stream")
-            doc = fitz.open(stream=file.read(), filetype="pdf")
-        print(f"PDF opened successfully with {len(doc)} pages")
-        full_text = ""
-        for page_number in range(len(doc)):
-            page = doc[page_number]
-            words = page.get_text("markdown")  # Change to "text" instead of "word"
-            full_text += words
-            print(f"Extracted {len(words)} characters from page {page_number+1}")
         doc.close()
         print(f"Total extracted text length: {len(full_text)} characters.")
         return full_text
     except Exception as e:
         print(f"Error extracting text from PDF: {str(e)}")
         print(traceback.format_exc())
         return ""
 def check_text_presence(full_text: str, search_terms: List[str]) -> Dict[str, bool]:
     """Checks for the presence of required terms in the text."""
     return {term: term.lower() in full_text.lower() for term in search_terms}

 #             return [page.get_text("text") for page in doc]
 def extract_pdf_text(file) -> str:
+    """Extracts full text from a PDF file using PyMuPDF4LLM."""
     try:
         print(f"Opening PDF file: {file}")
+        # Handle file path vs stream
+        temp_file_path = None
         if isinstance(file, str):
             print(f"Opening file by path: {file}")
+            file_path = file
         else:
             print(f"Opening file from stream")
+            import tempfile
+            import os
+            temp_file = tempfile.NamedTemporaryFile(suffix=".pdf", delete=False)
+            temp_file_path = temp_file.name
+            temp_file.write(file.read())
+            temp_file.close()
+            file_path = temp_file_path
+        # Get page count with PyMuPDF for logging purposes
+        doc = fitz.open(file_path)
+        page_count = len(doc)
         doc.close()
+        print(f"PDF opened successfully with {page_count} pages")
+        # Process with pymupdf4llm
+        import pymupdf4llm
+        full_text = pymupdf4llm.to_markdown(file_path)
+        # Log extraction info for each page (approximating per-page counts)
+        avg_chars_per_page = len(full_text) // page_count if page_count > 0 else 0
+        for page_number in range(page_count):
+            print(f"Extracted {avg_chars_per_page} characters from page {page_number+1}")
+        # Clean up temporary file if created
+        if temp_file_path:
+            os.remove(temp_file_path)
         print(f"Total extracted text length: {len(full_text)} characters.")
+        print(full_text)
         return full_text
     except Exception as e:
         print(f"Error extracting text from PDF: {str(e)}")
+        import traceback
         print(traceback.format_exc())
         return ""
 def check_text_presence(full_text: str, search_terms: List[str]) -> Dict[str, bool]:
     """Checks for the presence of required terms in the text."""
     return {term: term.lower() in full_text.lower() for term in search_terms}