Spaces:

cfc-tech
/

summary_tube

Runtime error

App Files Files Community

cfc-tech commited on Apr 1, 2024

Commit

5f2b8c4

verified ·

1 Parent(s): 00844ce

aa

Browse files

Files changed (1) hide show

app.py +42 -43

app.py CHANGED Viewed

@@ -1,44 +1,43 @@
 import gradio as gr
-from pytube import YouTube
-import subprocess
-import torch
-from huggingsound import SpeechRecognitionModel
-import librosa
-import soundfile as sf
-from transformers import pipeline
-def summarize_video(youtube_link):
-    # Download YouTube video's audio
-    yt = YouTube(youtube_link)
-    yt.streams.filter(only_audio=True, file_extension='mp4').first().download(filename='ytaudio.mp4')
-    # Convert to WAV format
-    subprocess.run(['ffmpeg', '-i', 'ytaudio.mp4', '-acodec', 'pcm_s16le', '-ar', '16000', 'ytaudio.wav'], check=True)
-    # Initialize speech recognition model
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english", device=device)
-    # Process audio file and transcribe
-    input_file = 'ytaudio.wav'
-    stream = librosa.stream(input_file, block_length=30, frame_length=16000, hop_length=16000)
-    full_transcript = ''
-    for i, speech in enumerate(stream):
-        sf.write(f'{i}.wav', speech, 16000)
-        transcription = model.transcribe([f'{i}.wav'])
-        full_transcript += ' '.join([item['transcription'] for item in transcription])
-    # Summarize the transcript
-    summarizer = pipeline('summarization')
-    summarized_text = summarizer(full_transcript, max_length=130, min_length=30, do_sample=False)
-    return summarized_text[0]['summary_text']
-# Set up the Gradio interface
-iface = gr.Interface(fn=summarize_video,
-                     inputs=gr.inputs.Textbox(lines=2, placeholder="Enter YouTube Video Link Here..."),
-                     outputs="text",
-                     title="YouTube Video Text Summarizer",
-                     description="This tool summarizes the text extracted from a given YouTube video. Please enter the video link below.")
-if __name__ == "__main__":
-    iface.launch()

 import gradio as gr
+from transformers import BartForConditionalGeneration, BartTokenizer
+from youtube_transcript_api import YouTubeTranscriptApi
+# Load BART model and tokenizer
+model_name = 'facebook/bart-large-cnn'
+tokenizer = BartTokenizer.from_pretrained(model_name)
+model = BartForConditionalGeneration.from_pretrained(model_name)
+def get_transcript(url):
+    try:
+        video_id = url.split('=')[1]
+        transcript_list = YouTubeTranscriptApi.get_transcript(video_id)
+        transcript_text = ""
+        for item in transcript_list:
+            transcript_text += item['text'] + "\n"
+        return transcript_text
+    except Exception as e:
+        return "Error fetching transcript: " + str(e)
+def summarize_transcript(transcript):
+    input_ids = tokenizer.encode("summarize: " + transcript, return_tensors="pt", max_length=1024, truncation=True)
+    summary_ids = model.generate(input_ids, num_beams=4, min_length=30, max_length=200, early_stopping=True)
+    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    return summary
+def summarize_video_url(video_url):
+    transcript = get_transcript(video_url)
+    if not transcript:
+        return "Error fetching transcript."
+    else:
+        summary = summarize_transcript(transcript)
+        return summary
+inputs = gr.inputs.Textbox(lines=5, label="Enter YouTube Video URL")
+output = gr.outputs.Textbox(label="Summary")
+title = "YouTube Video Transcription Summarizer"
+description = "Enter a YouTube Video URL to get a summary of its transcript."
+iface = gr.Interface(fn=summarize_video_url, inputs=inputs, outputs=output, title=title, description=description)
+iface.launch(share=True)