rbiojout
/

whisperX-endpoint

Model card Files Files and versions

raphaelbiojout commited on Nov 23, 2023

Commit

38217d8

·

1 Parent(s): d9a0ef6

cpu for dia

Files changed (1) hide show

handler.py +7 -7

handler.py CHANGED Viewed

@@ -179,7 +179,7 @@ class EndpointHandler():
         self.diarize_model = whisperx.DiarizationPipeline(
                 "pyannote/speaker-diarization-3.0",
-                use_auth_token="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", device=device)
         logger.info(f"Model for diarization initialized")
@@ -233,8 +233,8 @@ class EndpointHandler():
             logger.info(f"device: {device}, batch_size: {batch_size}, compute_type:{compute_type}, whisper_model: {whisper_model}")
             transcription = self.model.transcribe(audio_nparray, batch_size=batch_size,language=language)
             if info:
-                print(transcription["segments"]) # before alignment
-            logger.info(transcription["segments"])
             # 3. align
             if alignment:
@@ -244,8 +244,8 @@ class EndpointHandler():
                 transcription = whisperx.align(
                     transcription["segments"], model_a, metadata, audio_nparray, device, return_char_alignments=False)
                 if info:
-                    print(transcription["segments"])
-                logger.info(transcription["segments"])
             # 4. Assign speaker labels
             logger.info("--------------- STARTING DIARIZATION ------------------------")
@@ -258,8 +258,8 @@ class EndpointHandler():
             transcription = whisperx.assign_word_speakers(diarize_segments, transcription)
             if info:
-                print(transcription["segments"])
-            logger.info(transcription["segments"])  # segments are now assigned speaker IDs
             if torch.cuda.is_available():
                 logger.info("--------------- GPU ------------------------")

         self.diarize_model = whisperx.DiarizationPipeline(
                 "pyannote/speaker-diarization-3.0",
+                use_auth_token="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", device="cpu")
         logger.info(f"Model for diarization initialized")
             logger.info(f"device: {device}, batch_size: {batch_size}, compute_type:{compute_type}, whisper_model: {whisper_model}")
             transcription = self.model.transcribe(audio_nparray, batch_size=batch_size,language=language)
             if info:
+                print(transcription["segments"][0:10000]) # before alignment
+            logger.info(transcription["segments"][0:10000])
             # 3. align
             if alignment:
                 transcription = whisperx.align(
                     transcription["segments"], model_a, metadata, audio_nparray, device, return_char_alignments=False)
                 if info:
+                    print(transcription["segments"][0:10000])
+                logger.info(transcription["segments"][0:10000])
             # 4. Assign speaker labels
             logger.info("--------------- STARTING DIARIZATION ------------------------")
             transcription = whisperx.assign_word_speakers(diarize_segments, transcription)
             if info:
+                print(transcription["segments"][0:10000])
+            logger.info(transcription["segments"][0:10000])  # segments are now assigned speaker IDs
             if torch.cuda.is_available():
                 logger.info("--------------- GPU ------------------------")