Spaces:

ikraamkb
/

qtAnswering

Running

App Files Files Community

ikraamkb commited on Mar 23

Commit

dbe3ba4

verified ·

1 Parent(s): 59b31a4

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -6

app.py CHANGED Viewed

@@ -1,10 +1,12 @@
 from fastapi import FastAPI, File, UploadFile
 import pdfplumber
 import docx
 import openpyxl
 from pptx import Presentation
-import easyocr
 from transformers import pipeline
 import gradio as gr
 from fastapi.responses import RedirectResponse
@@ -15,6 +17,15 @@ app = FastAPI()
 # Load AI Model for Question Answering
 qa_pipeline = pipeline("text2text-generation", model="google/flan-t5-large", tokenizer="google/flan-t5-large", use_fast=True)
 # Function to truncate text to 450 tokens
 def truncate_text(text, max_tokens=450):
     words = text.split()
@@ -49,10 +60,20 @@ def extract_text_from_excel(excel_file):
             text.append(" ".join(map(str, row)))
     return "\n".join(text)
 def extract_text_from_image(image_file):
-    reader = easyocr.Reader(["en"])
-    result = reader.readtext(image_file)
-    return " ".join([res[1] for res in result])
 # Function to answer questions based on document content
 def answer_question_from_document(file, question):
@@ -82,7 +103,7 @@ def answer_question_from_document(file, question):
 def answer_question_from_image(image, question):
     image_text = extract_text_from_image(image)
     if not image_text:
-        return "No text detected in the image."
     truncated_text = truncate_text(image_text)
     input_text = f"Question: {question} Context: {truncated_text}"

 from fastapi import FastAPI, File, UploadFile
 import pdfplumber
 import docx
 import openpyxl
 from pptx import Presentation
+import torch
+from torchvision import transforms
+from torchvision.models.detection import fasterrcnn_resnet50_fpn
+from PIL import Image
 from transformers import pipeline
 import gradio as gr
 from fastapi.responses import RedirectResponse
 # Load AI Model for Question Answering
 qa_pipeline = pipeline("text2text-generation", model="google/flan-t5-large", tokenizer="google/flan-t5-large", use_fast=True)
+# Load Pretrained Object Detection Model (Torchvision)
+model = fasterrcnn_resnet50_fpn(pretrained=True)
+model.eval()
+# Image Transformations
+transform = transforms.Compose([
+    transforms.ToTensor()
+])
 # Function to truncate text to 450 tokens
 def truncate_text(text, max_tokens=450):
     words = text.split()
             text.append(" ".join(map(str, row)))
     return "\n".join(text)
+# Function to perform object detection using Torchvision
 def extract_text_from_image(image_file):
+    image = Image.open(image_file).convert("RGB")
+    image_tensor = transform(image).unsqueeze(0)
+    with torch.no_grad():
+        predictions = model(image_tensor)
+    detected_objects = []
+    for label, score in zip(predictions[0]['labels'], predictions[0]['scores']):
+        if score > 0.7:
+            detected_objects.append(f"Object {label.item()} detected with confidence {score.item():.2f}")
+    return "\n".join(detected_objects) if detected_objects else "No objects detected."
 # Function to answer questions based on document content
 def answer_question_from_document(file, question):
 def answer_question_from_image(image, question):
     image_text = extract_text_from_image(image)
     if not image_text:
+        return "No meaningful content detected in the image."
     truncated_text = truncate_text(image_text)
     input_text = f"Question: {question} Context: {truncated_text}"