Spaces:

MoslemBot
/

kajibuku

Running

Bofandra commited on Jun 29

Commit

80f0ff1

verified ·

1 Parent(s): 2828f4b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import pickle
 from PyPDF2 import PdfReader
 from sentence_transformers import SentenceTransformer
 from huggingface_hub import InferenceClient, HfApi
 # Hugging Face Space persistence
 HF_REPO_ID = "MoslemBot/kajibuku"  # e.g., "username/your-space-name"
@@ -37,8 +38,14 @@ def save_pdf(file, title):
     os.makedirs(folder, exist_ok=True)
     # Extract text
-    reader = PdfReader(file.name)
-    full_text = "\n".join(p.extract_text() for p in reader.pages if p.extract_text())
     print(full_text)
     # Chunk text

 from PyPDF2 import PdfReader
 from sentence_transformers import SentenceTransformer
 from huggingface_hub import InferenceClient, HfApi
+import pdfplumber
 # Hugging Face Space persistence
 HF_REPO_ID = "MoslemBot/kajibuku"  # e.g., "username/your-space-name"
     os.makedirs(folder, exist_ok=True)
     # Extract text
+    # reader = PdfReader(file.name)
+    # full_text = "\n".join(p.extract_text() for p in reader.pages if p.extract_text())
+    with pdfplumber.open(file.name) as pdf:
+    full_text = ""
+    for page in pdf.pages:
+        full_text += page.extract_text() + "\n"
     print(full_text)
     # Chunk text