Spaces:

cfc-tech
/

youtube_summarizer

Sleeping

App Files Files Community

cfc-tech commited on Apr 1, 2024

Commit

ee8c3b8

verified ·

1 Parent(s): 296eb4c

first commit

Browse files

Files changed (1) hide show

app.py +42 -68

app.py CHANGED Viewed

@@ -1,71 +1,45 @@
 import streamlit as st
 from pytube import YouTube
 from moviepy.editor import *
-import torch
-from transformers import Wav2Vec2ForCTC, Wav2Vec2CTCTokenizer, pipeline, logging
-import librosa
-# Suppress warnings from transformers
-logging.set_verbosity_error()
-# Streamlit interface setup
-st.title("YouTube Video Summarizer")
-youtube_link = st.text_input("Enter YouTube Video Link:")
-if st.button('Summarize'):
-    if not youtube_link:
-        st.warning("Please enter a valid YouTube link.")
-    else:
-        with st.spinner("Processing..."):
-            try:
-                # Download YouTube Video
-                yt = YouTube(youtube_link)
-                video = yt.streams.filter(only_audio=True).first()
-                download_path = video.download()
-                # Show progress
-                st.progress(25)
-                # Extract Audio
-                video_clip = AudioFileClip(download_path)
-                audio_path = download_path.replace('.mp4', '.wav')
-                video_clip.write_audiofile(audio_path)
-                # Show progress
-                st.progress(50)
-                # Speech to Text
-                tokenizer = Wav2Vec2CTCTokenizer.from_pretrained("facebook/bart-large-cnn")
-                model = Wav2Vec2ForCTC.from_pretrained("facebook/bart-large-cnn")
-                # Load and process the audio
-                speech, _ = librosa.load(audio_path, sr=16000)
-                input_values = tokenizer(speech, return_tensors="pt").input_values
-                logits = model(input_values).logits
-                predicted_ids = torch.argmax(logits, dim=-1)
-                # Decode the speech
-                transcription = tokenizer.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-                # Ensure transcription is a string, not empty, and not too short
-                if isinstance(transcription, str) and transcription.strip() and len(transcription) > 50:
-                    # Show progress
-                    st.progress(75)
-                    # Initialize the summarizer
-                    summarizer = pipeline("summarization")
-                    # Summarization
-                    summary = summarizer(transcription, max_length=130, min_length=30, do_sample=False)
-                    st.success("Done!")
-                    st.write("### Summary:")
-                    st.write(summary[0]['summary_text'])
-                    # Final progress
-                    st.progress(100)
-                else:
-                    st.error("Transcription result is empty, too short, or not a string.")
-            except Exception as e:
-                st.error(f"An error occurred: {e}")

 import streamlit as st
 from pytube import YouTube
 from moviepy.editor import *
+import speech_recognition as sr
+from transformers import pipeline
+def download_and_extract_audio(youtube_link):
+    yt = YouTube(youtube_link)
+    video = yt.streams.filter(only_audio=True).first()
+    out_file = video.download(output_path=".")
+    base, ext = os.path.splitext(out_file)
+    new_file = base + '.mp3'
+    os.rename(out_file, new_file)
+    return new_file
+def transcribe_audio(audio_path):
+    recognizer = sr.Recognizer()
+    with sr.AudioFile(audio_path) as source:
+        audio_data = recognizer.record(source)
+        text = recognizer.recognize_google(audio_data)
+    return text
+def summarize_text(text):
+    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+    summary = summarizer(text, max_length=130, min_length=30, do_sample=False)
+    return summary[0]['summary_text']
+def main():
+    st.title("YouTube Video Summary")
+    youtube_link = st.text_input("Enter YouTube Video Link:")
+    if st.button("Summarize"):
+        with st.spinner('Downloading and extracting audio...'):
+            audio_path = download_and_extract_audio(youtube_link)
+        with st.spinner('Transcribing audio to text...'):
+            transcription = transcribe_audio(audio_path)
+        with st.spinner('Summarizing transcription...'):
+            summary = summarize_text(transcription)
+        st.subheader("Transcription:")
+        st.write(transcription)
+        st.subheader("Summary:")
+        st.write(summary)
+if __name__ == '__main__':
+    main()