rbiojout
/

whisperX-endpoint

Model card Files Files and versions Community

raphaelbiojout commited on Nov 27, 2023

Commit

8c6a1ad

1 Parent(s): 14c99c5

update

Browse files

Files changed (1) hide show

handler.py +28 -23

handler.py CHANGED Viewed

@@ -212,14 +212,18 @@ class EndpointHandler():
             parameters = data.pop("parameters", None)
             options = data.pop("options", None)
-            # OPTIONS
             info = False
-            if options and "info" in options.keys() and info:
                 info = True
             alignment = False
-            if options and "alignment" in options.keys() and alignment:
-                info = True
             language = "fr"
             if parameters and "language" in parameters.keys():
@@ -288,26 +292,27 @@ class EndpointHandler():
                     print(f"TIME for alignment : {elapsed_time:.2f} seconds")
             # 4. Assign speaker labels
-            logger.info("--------------- STARTING DIARIZATION ------------------------")
-            # add min/max number of speakers if known
-            diarize_segments = self.diarize_model(audio_nparray)
-            if info:
-                print(diarize_segments)
-            logger.info(diarize_segments)
-            # diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)
-            transcription = whisperx.assign_word_speakers(diarize_segments, transcription)
-            if info:
-                print(transcription["segments"][0:10000])
-            logger.info(transcription["segments"][0:10000])  # segments are now assigned speaker IDs
-            # get the execution time
-            et = time.time()
-            elapsed_time = et - st
-            st = time.time()
-            logger.info(f"TIME for audio diarization : {elapsed_time:.2f} seconds")
-            if info:
-                print(f"TIME for audio diarization : {elapsed_time:.2f} seconds")
             # results_json = json.dumps(results)
             # return {"results": results_json}

             parameters = data.pop("parameters", None)
             options = data.pop("options", None)
+            # OPTIONS are given as parameters
             info = False
+            if options and "info" in options.keys() and options['info']:
                 info = True
             alignment = False
+            if options and "alignment" in options.keys() and options['alignment']:
+                alignment = True
+            diarization = True
+            if options and "diarization" in options.keys() and not options['diarization']:
+                diarization = False
             language = "fr"
             if parameters and "language" in parameters.keys():
                     print(f"TIME for alignment : {elapsed_time:.2f} seconds")
             # 4. Assign speaker labels
+            if diarization:
+                logger.info("--------------- STARTING DIARIZATION ------------------------")
+                # add min/max number of speakers if known
+                diarize_segments = self.diarize_model(audio_nparray)
+                if info:
+                    print(diarize_segments)
+                logger.info(diarize_segments)
+                # diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)
+                transcription = whisperx.assign_word_speakers(diarize_segments, transcription)
+                if info:
+                    print(transcription["segments"][0:10000])
+                logger.info(transcription["segments"][0:10000])  # segments are now assigned speaker IDs
+                # get the execution time
+                et = time.time()
+                elapsed_time = et - st
+                st = time.time()
+                logger.info(f"TIME for audio diarization : {elapsed_time:.2f} seconds")
+                if info:
+                    print(f"TIME for audio diarization : {elapsed_time:.2f} seconds")
             # results_json = json.dumps(results)
             # return {"results": results_json}