Spaces:

richardprobe
/

pdf_upload

Build error

Richard Hsu commited on Jul 26, 2024

Commit

f5be035

1 Parent(s): df0d3a5

push

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,15 +1,15 @@
 import gradio as gr
-import fitz  # PyMuPDF
 def extract_text_from_pdf(pdf_file):
-    # Open the PDF file
-    pdf_document = fitz.open(pdf_file.name)
     text = ""
-    # Extract text from each page
-    for page_num in range(len(pdf_document)):
-        page = pdf_document.load_page(page_num)
-        text += page.get_text()
     return text

 import gradio as gr
+from langchain.document_loaders import PyPDFLoader
 def extract_text_from_pdf(pdf_file):
+    # Load the PDF file using PyPDFLoader
+    loader = PyPDFLoader(pdf_file.name)
+    documents = loader.load()
     text = ""
+    # Extract text from each document
+    for document in documents:
+        text += document.page_content
     return text

requirements.txt CHANGED Viewed

@@ -66,5 +66,5 @@ urllib3==2.0.3
 uvicorn==0.22.0
 websockets==11.0.3
 yarl==1.9.2
-pypdf
 pypdf2

 uvicorn==0.22.0
 websockets==11.0.3
 yarl==1.9.2
+pypdf==3.10.0
 pypdf2