async_pdf_chunck_api

Paused

Arafath10 commited on Aug 10, 2024

Commit

9c62372

verified ·

1 Parent(s): 41655a4

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -1,8 +1,3 @@
-from fastapi import FastAPI, HTTPException
-from fastapi.middleware.cors import CORSMiddleware
-from scraper import Scraper
 try: from pip._internal.operations import freeze
 except ImportError: # pip < 10.0
     from pip.operations import freeze
@@ -10,7 +5,12 @@ except ImportError: # pip < 10.0
 pkgs = freeze.freeze()
 for pkg in pkgs: print(pkg)
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -18,22 +18,22 @@ app.add_middleware(
     allow_methods=["*"],
     allow_headers=["*"],
 )
-import time
-@app.get("/get_scraped_data")
-async def get_data(url: str):
-        # Start time
-            start_time = time.time()
-        #try:
-            data = await Scraper.scrape(url)
-            # End time
-            end_time = time.time()
-            # Calculate the elapsed time
-            elapsed_time = end_time - start_time
-            print(f"Time taken for the process: {elapsed_time:.2f} seconds")
-            return data
-        #except Exception as e:
-            #raise HTTPException(status_code=500, detail=str(e))

 try: from pip._internal.operations import freeze
 except ImportError: # pip < 10.0
     from pip.operations import freeze
 pkgs = freeze.freeze()
 for pkg in pkgs: print(pkg)
+from fastapi import FastAPI, HTTPException, File, UploadFile
+from fastapi.middleware.cors import CORSMiddleware
+from PyPDF2 import PdfReader
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     allow_methods=["*"],
     allow_headers=["*"],
 )
+@app.post("/get_ocr_data/")
+async def get_data(pdf: UploadFile = File(...)):
+    try:
+        # Read PDF file using PyPDF2
+        pdf_reader = PdfReader(pdf.file)
+        text = ""
+        # Extract text from each page
+        for page in pdf_reader.pages:
+            text += page.extract_text()
+        # Return extracted text
+        return {"text": text.strip()}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Error processing PDF: {str(e)}")