Spaces:

Ngoufack
/

verbalens

Running

Ngoufack commited on Mar 4

Commit

77b9813

1 Parent(s): 8a85641

hotfix 2.3

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,11 +1,17 @@
 import spaces
 import torch
 import gradio as gr
 import yt_dlp as youtube_dl
 from faster_whisper import WhisperModel
 from transformers.pipelines.audio_utils import ffmpeg_read
 import tempfile
 import os
 MODEL_NAME = "large-v3"
 BATCH_SIZE = 8
@@ -15,6 +21,9 @@ YT_LENGTH_LIMIT_S = 3600  # limit to 1 hour YouTube files
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = WhisperModel(MODEL_NAME, device=device, compute_type="float16" if torch.cuda.is_available() else "int8")
 @spaces.GPU
 def transcribe(inputs, task):
     if inputs is None:
@@ -22,6 +31,13 @@ def transcribe(inputs, task):
     segments, _ = model.transcribe(inputs, task=task)
     text = " ".join([segment.text for segment in segments])
     return text
 def _return_yt_html_embed(yt_url):
@@ -110,5 +126,4 @@ yt_transcribe = gr.Interface(
 with demo:
     gr.TabbedInterface([mf_transcribe, file_transcribe, yt_transcribe], ["Microphone", "Audio file", "YouTube"])
-demo.queue().launch(ssr_mode=False)

 import spaces
 import torch
+import torchaudio
 import gradio as gr
 import yt_dlp as youtube_dl
 from faster_whisper import WhisperModel
 from transformers.pipelines.audio_utils import ffmpeg_read
 import tempfile
 import os
+from pyannote.audio.pipelines.speaker_diarization import SpeakerDiarization
+from pyannote.audio import Model
+from pyannote.core import Segment
+from transformers.pipelines.audio_utils import ffmpeg_read
 MODEL_NAME = "large-v3"
 BATCH_SIZE = 8
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = WhisperModel(MODEL_NAME, device=device, compute_type="float16" if torch.cuda.is_available() else "int8")
+model_pyannote = Model.from_pretrained("pyannote/speaker-diarization")
+pipeline = SpeakerDiarization(model_pyannote)
 @spaces.GPU
 def transcribe(inputs, task):
     if inputs is None:
     segments, _ = model.transcribe(inputs, task=task)
     text = " ".join([segment.text for segment in segments])
+    waveform, sample_rate = torchaudio.load(audio_path)
+    if sample_rate != 16000:
+        transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
+        waveform = transform(waveform)
+    diarization = pipeline({"uri": "audio", "audio": audio_path})
+    speaker_segments = []
     return text
 def _return_yt_html_embed(yt_url):
 with demo:
     gr.TabbedInterface([mf_transcribe, file_transcribe, yt_transcribe], ["Microphone", "Audio file", "YouTube"])
+demo.queue().launch(ssr_mode=False)

requirements.txt CHANGED Viewed

@@ -4,4 +4,9 @@ torch
 torchvision
 torchaudio
 nemo_toolkit
-faster-whisper

 torchvision
 torchaudio
 nemo_toolkit
+faster-whisper
+ctranslate2
+intervaltree
+srt
+torch
+https://github.com/pyannote/pyannote-audio/archive/refs/heads/develop.zip