Spaces:

Alioth86
/

SpeechAbstractor

Runtime error

App Files Files Community

Alioth86 commited on Dec 2, 2023

Commit

ebcff18

1 Parent(s): d09359a

Add application file

Browse files

Files changed (1) hide show

app.py +33 -20

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from IPython.display import Audio
 import numpy as np
 from datasets import load_dataset
 import sentencepiece as spm
@@ -145,32 +147,43 @@ def extract_abstract(text_per_pagy):
     return abstract_text
-# Importazioni e definizioni delle funzioni come prima...
-def main_function(pdf_file):
-    # Converti il PDF in testo
-    text_per_pagy = read_pdf(pdf_file.name)
-    # Pulisci il testo e estrai l'abstract
-    for key, value in text_per_pagy.items():
-        cleaned_text = clean_text(' '.join(value[0]))
-        text_per_pagy[key] = cleaned_text
-    abstract_text = extract_abstract(text_per_pagy)
-    # Riassumi l'abstract
-    summarizer = pipeline("summarization", model="pszemraj/long-t5-tglobal-base-sci-simplify-elife")
-    summary = summarizer(abstract_text, max_length=50, min_length=30, do_sample=False)[0]['summary_text']
-    # Genera l'audio dal riassunto
-    synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
-    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-    speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-    speech = synthesiser(summary, forward_params={"speaker_embeddings": speaker_embedding})
-    # Salva l'audio in un file temporaneo
-    audio_file_path = "summary.wav"
-    sf.write(audio_file_path, speech["audio"], samplerate=speech["sampling_rate"])
     # Restituisci testo e audio
     return summary, audio_file_path

 import numpy as np
 from datasets import load_dataset
 import sentencepiece as spm
+import os
+import tempfile
     return abstract_text
+def main_function(uploaded_file):
+    # Controlla se un file è stato effettivamente caricato
+    if uploaded_file is None:
+        return "No file loaded", None
+    # Crea un file temporaneo per salvare il PDF caricato
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_pdf:
+        temp_pdf.write(uploaded_file.read())
+        temp_pdf_path = temp_pdf.name
+    # Utilizza il percorso del file temporaneo per leggere e processare il PDF
+    try:
+        text_per_pagy = read_pdf(temp_pdf_path)
+        # Pulisci il testo e estrai l'abstract
+        for key, value in text_per_pagy.items():
+            cleaned_text = clean_text(' '.join(value[0]))
+            text_per_pagy[key] = cleaned_text
+        abstract_text = extract_abstract(text_per_pagy)
+        # Riassumi l'abstract
+        summarizer = pipeline("summarization", model="pszemraj/long-t5-tglobal-base-sci-simplify-elife")
+        summary = summarizer(abstract_text, max_length=50, min_length=30, do_sample=False)[0]['summary_text']
+        # Genera l'audio dal riassunto
+        synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
+        embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+        speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+        speech = synthesiser(summary, forward_params={"speaker_embeddings": speaker_embedding})
+        # Salva l'audio in un file temporaneo
+        audio_file_path = "summary.wav"
+        sf.write(audio_file_path, speech["audio"], samplerate=speech["sampling_rate"])
+    finally:
+        # Elimina il file temporaneo
+        os.remove(temp_pdf_path)
     # Restituisci testo e audio
     return summary, audio_file_path