Spaces:

MoslemBot
/

kajibuku

Running

Bofandra commited on Jun 29

Commit

2828f4b

verified ·

1 Parent(s): 8aea9a4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -39,12 +39,18 @@ def save_pdf(file, title):
     # Extract text
     reader = PdfReader(file.name)
     full_text = "\n".join(p.extract_text() for p in reader.pages if p.extract_text())
     # Chunk text
     chunks = [full_text[i:i+500] for i in range(0, len(full_text), 500)]
     # Embed and index
     embeddings = embedder.encode(chunks)
     index = faiss.IndexFlatL2(embeddings.shape[1])
     index.add(embeddings)
@@ -59,7 +65,7 @@ def save_pdf(file, title):
     upload_to_hub(index_path, f"data/{title}/index.faiss")
     upload_to_hub(chunks_path, f"data/{title}/chunks.pkl")
-    return f"✅ Saved and indexed '{title}', and uploaded to Hub."
 # Return all available PDF titles
 def list_titles():

     # Extract text
     reader = PdfReader(file.name)
     full_text = "\n".join(p.extract_text() for p in reader.pages if p.extract_text())
+    print(full_text)
     # Chunk text
     chunks = [full_text[i:i+500] for i in range(0, len(full_text), 500)]
     # Embed and index
     embeddings = embedder.encode(chunks)
+    print("Embeddings shape:", embeddings.shape)
+    if len(embeddings.shape) != 2:
+        raise ValueError(f"Expected 2D embeddings, got shape {embeddings.shape}")
     index = faiss.IndexFlatL2(embeddings.shape[1])
     index.add(embeddings)
     upload_to_hub(index_path, f"data/{title}/index.faiss")
     upload_to_hub(chunks_path, f"data/{title}/chunks.pkl")
+    return f"✅ Saved and indexed '{title}', and uploaded to Hub. Please reload (refresh) the page."
 # Return all available PDF titles
 def list_titles():