Spaces:

cfc-tech
/

youtube_summarizer

Sleeping

cfc-tech commited on Apr 1, 2024

Commit

7b1110c

verified ·

1 Parent(s): b2e37a3

d

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ from pytube import YouTube
 from moviepy.editor import AudioFileClip
 import speech_recognition as sr
 from transformers import pipeline
 import os
 def download_and_extract_audio(youtube_link):
@@ -27,10 +28,24 @@ def download_and_extract_audio(youtube_link):
 def transcribe_audio(audio_path):
     try:
         recognizer = sr.Recognizer()
-        with sr.AudioFile(audio_path) as source:
-            audio_data = recognizer.record(source)
-            text = recognizer.recognize_google(audio_data)
-        return text
     except Exception as e:
         st.error(f"Error transcribing audio: {e}")
         return None

 from moviepy.editor import AudioFileClip
 import speech_recognition as sr
 from transformers import pipeline
+from pydub import AudioSegment, silence
 import os
 def download_and_extract_audio(youtube_link):
 def transcribe_audio(audio_path):
     try:
         recognizer = sr.Recognizer()
+        audio = AudioSegment.from_wav(audio_path)
+        # Split the audio into non-silent chunks
+        audio_chunks = silence.split_on_silence(audio, min_silence_len=1000, silence_thresh=-40)
+        full_text = ""
+        for i, chunk in enumerate(audio_chunks):
+            chunk.export(f"/tmp/chunk{i}.wav", format="wav")
+            with sr.AudioFile(f"/tmp/chunk{i}.wav") as source:
+                audio_data = recognizer.record(source)
+                try:
+                    text = recognizer.recognize_google(audio_data)
+                    full_text += " " + text
+                except sr.UnknownValueError:
+                    # Skip segments that the recognizer can't understand
+                    continue
+        return full_text.strip()
     except Exception as e:
         st.error(f"Error transcribing audio: {e}")
         return None