Spaces:

Ngoufack
/

verbalens

Running

Ngoufack commited on Mar 4

Commit

e0dc9fc

1 Parent(s): e285f0a

tert

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ from pyannote.audio.pipelines.speaker_diarization import SpeakerDiarization
 from pyannote.audio import Model
 from pyannote.core import Segment
 from transformers.pipelines.audio_utils import ffmpeg_read
 MODEL_NAME = "medium"
 BATCH_SIZE = 8
@@ -21,8 +21,10 @@ YT_LENGTH_LIMIT_S = 3600  # limit to 1 hour YouTube files
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = WhisperModel(MODEL_NAME, device=device, compute_type="float16" if torch.cuda.is_available() else "int8")
-model_pyannote = Model.from_pretrained("pyannote/speaker-diarization")
-pipeline = SpeakerDiarization(model_pyannote)
 @spaces.GPU
 def transcribe(inputs, task):
@@ -31,11 +33,13 @@ def transcribe(inputs, task):
     segments, _ = model.transcribe(inputs, task=task)
     text = " ".join([segment.text for segment in segments])
-    waveform, sample_rate = torchaudio.load(audio_path)
-    if sample_rate != 16000:
-        transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
-        waveform = transform(waveform)
     #diarization = pipeline({"uri": "audio", "audio": audio_path})
     #speaker_segments = []
     return text

 from pyannote.audio import Model
 from pyannote.core import Segment
 from transformers.pipelines.audio_utils import ffmpeg_read
+from pyannote.audio import Pipeline
 MODEL_NAME = "medium"
 BATCH_SIZE = 8
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = WhisperModel(MODEL_NAME, device=device, compute_type="float16" if torch.cuda.is_available() else "int8")
+#model_pyannote = Model.from_pretrained("pyannote/speaker-diarization")
+pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization")
+#pipeline = SpeakerDiarization(model_pyannote)
 @spaces.GPU
 def transcribe(inputs, task):
     segments, _ = model.transcribe(inputs, task=task)
     text = " ".join([segment.text for segment in segments])
+    diarization = pipeline(inputs)
+    speaker_segments = []
+    for segment, _, speaker in diarization.itertracks(yield_label=True):
+        speaker_segments.append((segment.start, segment.end, speaker))
+    # Associer les segments de transcription aux locuteurs
+    speaker_texts = []
     #diarization = pipeline({"uri": "audio", "audio": audio_path})
     #speaker_segments = []
     return text