dhwani-server

Running on CPU Upgrade

App Files Files Community

sachin commited on 29 days ago

Commit

d441356

1 Parent(s): 8047b25

test

Browse files

Files changed (1) hide show

src/server/main.py +88 -0

src/server/main.py CHANGED Viewed

@@ -710,6 +710,94 @@ async def translate(
         logger.error(f"Invalid JSON response: {str(e)}")
         raise HTTPException(status_code=500, detail="Invalid response format from translation service")
 @app.post("/v1/visual_query",
           response_model=VisualQueryResponse,
           summary="Visual Query with Image",

         logger.error(f"Invalid JSON response: {str(e)}")
         raise HTTPException(status_code=500, detail="Invalid response format from translation service")
+class PDFTextExtractionResponse(BaseModel):
+    page_content: str = Field(..., description="Extracted text from the specified PDF page")
+    class Config:
+        schema_extra = {
+            "example": {
+                "page_content": "Google Interview Preparation Guide\nCustomer Engineer Specialist\n\nOur hiring process\n..."
+            }
+        }
+@app.post("/v1/extract-text/",
+          response_model=PDFTextExtractionResponse,
+          summary="Extract Text from PDF",
+          description="Extract text from a specified page of an encrypted PDF file by calling an external API. Rate limited to 100 requests per minute per user. Requires authentication and X-Session-Key header.",
+          tags=["PDF"],
+          responses={
+              200: {"description": "Extracted text", "model": PDFTextExtractionResponse},
+              400: {"description": "Invalid encrypted PDF or page number"},
+              401: {"description": "Unauthorized - Token required"},
+              429: {"description": "Rate limit exceeded"},
+              500: {"description": "External API error"},
+              504: {"description": "External API timeout"}
+          })
+@limiter.limit(settings.chat_rate_limit)
+async def extract_text(
+    request: Request,
+    file: UploadFile = File(..., description="Encrypted PDF file to extract text from"),
+    page_number: int = Query(1, description="Page number to extract text from (1-based indexing)"),
+    credentials: HTTPAuthorizationCredentials = Depends(bearer_scheme),
+    x_session_key: str = Header(..., alias="X-Session-Key")
+):
+    user_id = await get_current_user(credentials)
+    session_key = base64.b64decode(x_session_key)
+    # Validate page number
+    if page_number < 1:
+        raise HTTPException(status_code=400, detail="Page number must be at least 1")
+    # Decrypt PDF content
+    try:
+        encrypted_content = await file.read()
+        decrypted_content = decrypt_data(encrypted_content, session_key)
+    except Exception as e:
+        logger.error(f"PDF decryption failed: {str(e)}")
+        raise HTTPException(status_code=400, detail="Invalid encrypted PDF")
+    logger.info("Processing PDF text extraction request", extra={
+        "endpoint": "/v1/extract-text",
+        "filename": file.filename,
+        "page_number": page_number,
+        "client_ip": get_remote_address(request),
+        "user_id": user_id
+    })
+    start_time = time()
+    try:
+        # Call external API
+        external_url = f"http://144.24.122.208:7860/extract-text/?page_number={page_number}"
+        files = {"file": (file.filename, decrypted_content, file.content_type)}
+        response = requests.post(
+            external_url,
+            files=files,
+            headers={"accept": "application/json"},
+            timeout=60
+        )
+        response.raise_for_status()
+        response_data = response.json()
+        extracted_text = response_data.get("page_content", "")
+        if not extracted_text:
+            logger.warning("No page_content found in external API response")
+            extracted_text = ""
+        logger.info(f"PDF text extraction completed in {time() - start_time:.2f} seconds")
+        return PDFTextExtractionResponse(page_content=extracted_text.strip())
+    except requests.Timeout:
+        logger.error("External PDF extraction API timed out")
+        raise HTTPException(status_code=504, detail="External API timeout")
+    except requests.RequestException as e:
+        logger.error(f"External PDF extraction API error: {str(e)}")
+        raise HTTPException(status_code=500, detail=f"External API error: {str(e)}")
+    except ValueError as e:
+        logger.error(f"Invalid JSON response from external API: {str(e)}")
+        raise HTTPException(status_code=500, detail="Invalid response format from external API")
 @app.post("/v1/visual_query",
           response_model=VisualQueryResponse,
           summary="Visual Query with Image",