Spaces:

Omnibus
/

pdf-reader

Running

App Files Files Community

Omnibus commited on Jul 22, 2023

Commit

9774c1c

1 Parent(s): 1c5b68c

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -2

app.py CHANGED Viewed

@@ -1,6 +1,97 @@
 import gradio as gr
 import requests
 from pypdf import PdfReader
 def scrape(instring):
     html_src=(f'''
@@ -10,7 +101,7 @@ def scrape(instring):
     </div>''')
     return gr.HTML.update(f'''{html_src}''')
-def scrape00(instring, page_num):
     response = requests.get(instring, stream=True)
     if response.status_code == 200:
@@ -31,6 +122,7 @@ def scrape00(instring, page_num):
         summarizer = gr.Interface.load("huggingface/facebook/bart-large-cnn")
         sum_out = summarizer(text)
     except Exception:
         sum_out = "Error"
     return text, sum_out
@@ -42,10 +134,12 @@ with gr.Blocks() as app:
     with gr.Row():
         go_btn = gr.Button("Load PDF")
         sum_btn = gr.Button("Summarize")
     outp = gr.HTML()
     with gr.Row():
         text_out = gr.Textbox()
         sum_out = gr.Textbox()
     go_btn.click(scrape,inp,outp)
-    sum_btn.click(scrape00,[inp,pg_num],[text_out,sum_out])
 app.queue(concurrency_count=10).launch()

 import gradio as gr
 import requests
 from pypdf import PdfReader
+import pypdfium2 as pdfium
+import easyocr
+ocr_id = {
+    "Afrikaans": "af",
+    "Albanian": "sq",
+    "Arabic": "ar",
+    "Azerbaijani": "az",
+    "Belarusian": "be",
+    "Bulgarian": "bg",
+    "Bengali": "bn",
+    "Bosnian": "bs",
+    "Chinese (simplified)": "ch_sim",
+    "Chinese (traditional)": "ch_tra",
+    "Croatian": "hr",
+    "Czech": "cs",
+    "Danish": "da",
+    "Dutch": "nl",
+    "English": "en",
+    "Estonian": "et",
+    "French": "fr",
+    "German": "de",
+    "Irish": "ga",
+    "Hindi": "hi",
+    "Hungarian": "hu",
+    "Indonesian": "id",
+    "Icelandic": "is",
+    "Italian": "it",
+    "Japanese": "ja",
+    "Kannada": "kn",
+    "Korean": "ko",
+    "Lithuanian": "lt",
+    "Latvian": "lv",
+    "Mongolian": "mn",
+    "Marathi": "mr",
+    "Malay": "ms",
+    "Nepali": "ne",
+    "Norwegian": "no",
+    "Occitan": "oc",
+    "Polish": "pl",
+    "Portuguese": "pt",
+    "Romanian": "ro",
+    "Russian": "ru",
+    "Serbian (cyrillic)": "rs_cyrillic",
+    "Serbian (latin)": "rs_latin",
+    "Slovak": "sk",
+    "Slovenian": "sl",
+    "Spanish": "es",
+    "Swedish": "sv",
+    "Swahili": "sw",
+    "Tamil": "ta",
+    "Thai": "th",
+    "Tagalog": "tl",
+    "Turkish": "tr",
+    "Ukrainian": "uk",
+    "Urdu": "ur",
+    "Uzbek": "uz",
+    "Vietnamese": "vi",
+    "Welsh": "cy",
+    "Zulu": "zu",
+}
+def pdf_pil(file_path,page_num):
+    pdf = pdfium.PdfDocument(f"{file_path}")
+    #n_pages = len(pdf)
+    #for page_number in range(n_pages):
+    page = pdf.get_page(page_num)
+    pil_image = page.render_topil(
+        scale=1,
+        rotation=0,
+        crop=(0, 0, 0, 0),
+        colour=(255, 255, 255, 255),
+        annotations=True,
+        greyscale=False,
+        optimise_mode=pdfium.OptimiseMode.NONE,
+    )
+    #pil_image.save(f"image_{page_num}.png")
+    return pil_image
+def ocrpdf(file_path,pdf_lang,page_num):
+    img1=pdf_pil(file_path,page_num)
+    lang=[f"{ocr_id[pdf_lang]}"]
+    reader = easyocr.Reader(lang)
+    bounds = reader.readtext(img1)
+    for bound in bounds:
+        print(bound[1])
 def scrape(instring):
     html_src=(f'''
     </div>''')
     return gr.HTML.update(f'''{html_src}''')
+def scrape00(instring, page_num,pdf_lang):
     response = requests.get(instring, stream=True)
     if response.status_code == 200:
         summarizer = gr.Interface.load("huggingface/facebook/bart-large-cnn")
         sum_out = summarizer(text)
     except Exception:
+        ocr_pdf(data.pdf,pdf_lang,page_num)
         sum_out = "Error"
     return text, sum_out
     with gr.Row():
         go_btn = gr.Button("Load PDF")
         sum_btn = gr.Button("Summarize")
+        target_lang = gr.Dropdown(label="PDF Language", choices=list(ocr_id.keys()),value="English")
     outp = gr.HTML()
     with gr.Row():
         text_out = gr.Textbox()
         sum_out = gr.Textbox()
     go_btn.click(scrape,inp,outp)
+    sum_btn.click(scrape00,[inp,pg_num,target_lang],[text_out,sum_out])
 app.queue(concurrency_count=10).launch()