ManBib
/

faster-whisper-readme

Transformers

Model card Files Files and versions Community

ManBib commited on Dec 26, 2023

Commit

ab0e749

1 Parent(s): 7406982

reset to only audio processing

Browse files

Files changed (1) hide show

handler.py +13 -73

handler.py CHANGED Viewed

@@ -1,30 +1,9 @@
-import argparse
-import base64
 import io
-import logging
-import os
 from faster_whisper import WhisperModel
-from pydub import AudioSegment
-from file_processor import process_video
-logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
-def is_cdn_link(link_or_bytes):
-    logging.info("Checking if the provided link is a CDN link...")
-    if isinstance(link_or_bytes, bytes):
-        return False
-    return True
-def get_audio_bytes(audio_path):
-    audio = AudioSegment.from_file(audio_path)
-    buffer = io.BytesIO()
-    audio.export(buffer, format='mp3')
-    buffer.seek(0)
-    return buffer
 class EndpointHandler:
@@ -32,26 +11,21 @@ class EndpointHandler:
         self.model = WhisperModel("large-v3", num_workers=30)
     def __call__(self, data: dict[str, str]):
-        inputs = data.pop("inputs")
         language = data.pop("language", "de")
         task = data.pop("task", "transcribe")
-        response = {}
-        audio_path = None
-        if is_cdn_link(inputs):
-            slides, audio_path = process_video(inputs)
-            audio_bytes = get_audio_bytes(audio_path)
-            slides_list = [slide.to_dict() for slide in slides]
-            response.update({"slides": slides_list})
-        else:
-            audio_bytes_decoded = base64.b64decode(inputs)
-            logging.debug(f"Decoded Bytes Length: {len(audio_bytes_decoded)}")
-            audio_bytes = io.BytesIO(audio_bytes_decoded)
         logging.info("Running inference...")
-        segments, info = self.model.transcribe(audio_bytes, language=language, task=task, )
         full_text = []
         for segment in segments:
             full_text.append({"segmentId": segment.id,
@@ -66,38 +40,4 @@ class EndpointHandler:
                 logging.info("segment " + str(segment.id) + " transcribed")
         logging.info("Inference completed.")
-        response.update({"audios": full_text})
-        logging.debug(response)
-        if audio_path:
-            os.remove(audio_path)
-        return response
-if __name__ == '__main__':
-    Parser = argparse.ArgumentParser(description="EndpointHandler")
-    Parser.add_argument("-p", "--path")
-    Parser.add_argument("-l", "--language", default="de")
-    Parser.add_argument("-t", "--task", default="transcribe")
-    Parser.add_argument("--type", default="video")
-    Args = Parser.parse_args()
-    handler = EndpointHandler()
-    # if is_cdn_link(Args.path):
-    #     test_inputs = Args.path
-    # else:
-    audio = AudioSegment.from_mp3(r"C:\Users\mbabu\AppData\Local\Temp\tmpsezkw2i5.mp3")
-    buffer = io.BytesIO()
-    audio.export(buffer, format="mp3")
-    mp3_bytes = buffer.getvalue()
-    test_inputs = base64.b64encode(mp3_bytes)
-    sample_data = {
-        "inputs": test_inputs,
-        "language": Args.language,
-        "task": Args.task,
-    }
-    test = handler(sample_data)
-    print(test)

 import io
+import base64
 from faster_whisper import WhisperModel
+import logging
+logging.basicConfig(level=logging.DEBUG)
 class EndpointHandler:
         self.model = WhisperModel("large-v3", num_workers=30)
     def __call__(self, data: dict[str, str]):
+        # process inputs
+        inputs = data.pop("inputs", data)
         language = data.pop("language", "de")
         task = data.pop("task", "transcribe")
+        # Decode base64 string to bytes
+        audio_bytes_decoded = base64.b64decode(inputs)
+        logging.debug(f"Decoded Bytes Length: {len(audio_bytes_decoded)}")
+        audio_bytes = io.BytesIO(audio_bytes_decoded)
+        # run inference pipeline
         logging.info("Running inference...")
+        segments, info = self.model.transcribe(audio_bytes, language=language, task=task)
+        # postprocess the prediction
         full_text = []
         for segment in segments:
             full_text.append({"segmentId": segment.id,
                 logging.info("segment " + str(segment.id) + " transcribed")
         logging.info("Inference completed.")
+        return full_text