Spaces:

cogcorp
/

assignment1

Sleeping

App Files Files Community

cogcorp commited on May 24, 2023

Commit

5f07ce9

1 Parent(s): 0b87fda

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -37

app.py CHANGED Viewed

@@ -1,39 +1,54 @@
 import os
 import io
-import zipfile
-from pdf2image import convert_from_path
-import easyocr
-import gradio as gr
-def convert_pdf_to_text(input_zip):
-    if not input_zip.name.endswith(".zip"):
-        return "Please upload a .zip file."
-    text_contents = ''
-    reader = easyocr.Reader(['en']) # Specify the language(s)
-    with zipfile.ZipFile(input_zip.name, 'r') as zip_ref:
-        for file_name in zip_ref.namelist():
-            if file_name.endswith('.pdf'):
-                pdf_file_path = zip_ref.extract(file_name)
-                # Convert PDF to a list of images
-                images = convert_from_path(pdf_file_path)
-                # Iterate through each image and perform OCR using easyocr
-                for image in images:
-                    result = reader.readtext(image, detail=0)  # detail=0 for only the OCR'd text
-                    text_contents += ' '.join(result)
-                # Clean up the extracted pdf file
-                os.remove(pdf_file_path)
-    return text_contents
-iface = gr.Interface(
-    fn=convert_pdf_to_text,
-    inputs=gr.inputs.File(),
-    outputs="text"
-)
-iface.launch()

+import gradio as gr
+from PyPDF2 import PdfReader
+import zipfile
 import os
 import io
+import nltk
+import openai
+# Put your OpenAI API key here
+openai.api_key = os.getenv('OpenAPI')
+def pdf_to_text(file, user_prompt):
+    z = zipfile.ZipFile(file.name, 'r')
+    texts = []
+    for filename in z.namelist():
+        if filename.endswith('.pdf'):
+            pdf_file_data = z.read(filename)
+            pdf_file_io = io.BytesIO(pdf_file_data)
+            pdf = PdfReader(pdf_file_io)
+            text = ''
+            for page in pdf.pages:
+                text += page.extract_text()
+            # Tokenize text
+            tokens = nltk.word_tokenize(text)
+            # If tokens are more than 2000, split into chunks
+            if len(tokens) > 2000:
+                for i in range(0, len(tokens), 2000):
+                    chunk = tokens[i:i + 2000]
+                    chunk_str = ' '.join(chunk)
+                    # Using OpenAI API
+                    response = openai.ChatCompletion.create(
+                      model="gpt-3.5-turbo",
+                      messages=[
+                            {"role": "system", "content": "You are a helpful assistant."},
+                            {"role": "user", "content": user_prompt},
+                            {"role": "user", "content": chunk_str},
+                      ]
+                    )
+                    texts.append(response['choices'][0]['message']['content'])
+            else:
+                # Using OpenAI API
+                response = openai.ChatCompletion.create(
+                  model="gpt-3.5-turbo",
+                  messages=[
+                        {"role": "system", "content": "You are a helpful assistant."},
+                        {"role": "user", "content": user_prompt},
+                        {"role": "user", "content": text},
+                  ]
+                )
+                texts.append(response['choices'][0]['message']['content'])
+    return '\n'.join(texts)
+iface = gr.Interface(fn=pdf_to_text, inputs=["file", "text"], outputs="text")
+iface.launch(share=True)