Spaces:

SuperCanvasAI
/

xyz

Sleeping

akshayp commited on Apr 27

Commit

403cbcd

1 Parent(s): 20d179d

text split per page

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from fastapi import FastAPI, Query, HTTPException
 from extractous import Extractor, TesseractOcrConfig
 app = FastAPI()
@@ -8,6 +9,9 @@ def accepts_pdf_link(link: str = Query(..., description="The URL to pdf file")):
     if not link.startswith(("http://", "https://")):
         raise HTTPException(status_code=400, detail="Invalid URL format")
     extractor = Extractor().set_ocr_config(TesseractOcrConfig())
-    extractor = extractor.set_xml_output(False)
     content, metadata  = extractor.extract_url_to_string(link)
-    return {"received_link": link, "content": content}

 from fastapi import FastAPI, Query, HTTPException
 from extractous import Extractor, TesseractOcrConfig
+from bs4 import BeautifulSoup
 app = FastAPI()
     if not link.startswith(("http://", "https://")):
         raise HTTPException(status_code=400, detail="Invalid URL format")
     extractor = Extractor().set_ocr_config(TesseractOcrConfig())
+    extractor = extractor.set_xml_output(True)
     content, metadata  = extractor.extract_url_to_string(link)
+    soup = BeautifulSoup(content, 'html.parser')
+    pages = soup.find_all('div', class_='page')
+    pages_text = [p.get_text() for p in pages]
+    return {"received_link": link, "content": pages_text}