Spaces:

bisoye
/

voice-based-pdf-summarizer

Sleeping

App Files Files Community

bisoye commited on Aug 16, 2024

Commit

132646e

verified ·

1 Parent(s): fe4489c

Upload 3 files

Browse files

Files changed (3) hide show

app.py +43 -0
helper_fns.py +30 -0
summarizer.py +33 -0

app.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import gradio as gr
+from helper_fns import process_files, get_summarization_method
+from summarizer import summarize_files
+with gr.Blocks() as demo:
+    with gr.Row():
+        with gr.Column():
+            files = gr.UploadButton(
+                            label='Upload Files For Summarization',
+                            file_count='multiple',
+                            file_types=["pdf", "docx", "pptx"]
+                            )
+            summarization_method_radio = gr.Radio(choices=['map_reduce', 'stuff', 'refine'],
+                                                  value='map_reduce',
+                                                  label='Select Summarization Method',
+                                                  interactive=False)
+            generate_summaries_button = gr.Button(value='Generate Summaries',
+                                       interactive=False,
+                                       elem_id='summary_button')
+            files.upload(process_files, None, outputs=[generate_summaries_button,
+                                                        summarization_method_radio])
+            summarization_method_radio.input(fn = get_summarization_method,
+                                            inputs=summarization_method_radio)
+        with gr.Column():
+            summary_text = gr.Textbox(label='Summarized Text: ',
+                                      interactive=False)
+    generate_summaries_button.click(
+        fn = summarize_files,
+        inputs=[summarization_method_radio, files],
+        outputs=[summary_text]#, audio_file]
+    )

helper_fns.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import gradio as gr
+from transformers import pipeline
+def process_files():
+    return (gr.update(interactive=True,
+                      elem_id='summary_button'),
+    gr.update(interactive = True, elem_id = 'summarization_method')
+    )
+def get_summarization_method(option):
+    return option
+def text_to_audio(text, model_name="facebook/fastspeech2-en-ljspeech"):
+    # Initialize the TTS pipeline
+    tts_pipeline = pipeline("text-to-speech", model=model_name)
+    # Generate the audio from text
+    audio = tts_pipeline(text)
+    # Save the audio to a file
+    audio_path = "output.wav"
+    with open(audio_path, "wb") as file:
+        file.write(audio["wav"])
+    return audio_path

summarizer.py ADDED Viewed

	@@ -0,0 +1,33 @@

+from langchain.document_loaders import PyPDFLoader
+from langchain_community.document_loaders import Docx2txtLoader
+from langchain_community.document_loaders import UnstructuredPowerPointLoader
+from langchain_cohere.llms import Cohere
+from langchain.chains.summarize import load_summarize_chain
+from pathlib import Path
+import os
+def summarize_files(method, files):
+    # Initialize the LLM
+    llm = Cohere(temperature=0)
+    summaries = []
+    # Load and read each file
+    for file in os.listdir(files):
+        file_path = os.path.join(files, file)
+        ext = Path(file_path).suffix.lower()
+        if ext == '.pdf':
+            loader = PyPDFLoader(file_path)
+        elif ext == '.docx':
+            loader = Docx2txtLoader(file_path)
+        elif ext == '.pptx':
+            loader = UnstructuredPowerPointLoader(file_path)
+        else:
+            raise ValueError(f"Unsupported file extension: {ext}")
+        docs = loader.load_and_split()
+        # Initialize a summarization chain with the specified method
+        summarization_chain = load_summarize_chain(llm=llm, chain_type=method)
+        summary = summarization_chain.run(docs)
+        summaries.append(summary)
+    return summaries