Spaces:

younes21000
/

DAI_Project

Sleeping

younes21000 commited on Oct 10, 2024

Commit

73c9093

verified ·

1 Parent(s): 9c779fd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import librosa
 import numpy as np
 from transformers import pipeline
 from concurrent.futures import ThreadPoolExecutor
 # Load Whisper model for speech-to-text
 asr = pipeline("automatic-speech-recognition", model="openai/whisper-large")
@@ -43,18 +44,24 @@ def generate_subtitles(video_file, language_name):
         # Load the video and extract audio directly
         video = mp.VideoFileClip(video_path)
         audio = video.audio
-        waveform, sr = librosa.load(audio.reader, sr=16000)  # Load directly from audio reader
-        print("Starting speech-to-text transcription")
-        # Process audio in chunks
-        chunk_duration = 15  # seconds
-        chunk_size = sr * chunk_duration  # number of samples per chunk
-        chunks = [waveform[i:i + chunk_size] for i in range(0, len(waveform), chunk_size) if len(waveform[i:i + chunk_size]) > 0]
-        # Use ThreadPoolExecutor for parallel processing
-        with ThreadPoolExecutor() as executor:
-            transcriptions = list(executor.map(transcribe_audio, chunks))
         # Combine all transcriptions into a single string
         full_transcription = " ".join(transcriptions)

 import numpy as np
 from transformers import pipeline
 from concurrent.futures import ThreadPoolExecutor
+import tempfile
 # Load Whisper model for speech-to-text
 asr = pipeline("automatic-speech-recognition", model="openai/whisper-large")
         # Load the video and extract audio directly
         video = mp.VideoFileClip(video_path)
         audio = video.audio
+        # Use a temporary file to hold the audio data
+        with tempfile.NamedTemporaryFile(delete=True) as tmp_audio_file:
+            audio.write_audiofile(tmp_audio_file.name, codec='pcm_s16le')
+            print("Starting speech-to-text transcription")
+            # Load the audio file as a waveform using librosa
+            waveform, sr = librosa.load(tmp_audio_file.name, sr=16000)  # sr=16000 for Whisper
+            # Process audio in chunks
+            chunk_duration = 15  # seconds
+            chunk_size = sr * chunk_duration  # number of samples per chunk
+            chunks = [waveform[i:i + chunk_size] for i in range(0, len(waveform), chunk_size) if len(waveform[i:i + chunk_size]) > 0]
+            # Use ThreadPoolExecutor for parallel processing
+            with ThreadPoolExecutor() as executor:
+                transcriptions = list(executor.map(transcribe_audio, chunks))
         # Combine all transcriptions into a single string
         full_transcription = " ".join(transcriptions)