Spaces:

AkitoP
/

whisper-japanese-phone-demo

Running

AkitoP commited on Oct 15, 2024

Commit

ed09f01

1 Parent(s): 0dfaf3b

3

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,20 +27,13 @@ pipe = pipeline(
 @spaces.GPU
-def transcribe(audio: str, model: str) -> tuple[str, float]:
-    if not audio:
-        return "No audio file", 0
     filename = Path(audio).name
-    logger.info(f"Model: {model}")
-    logger.info(f"Audio: {filename}")
     # Read and resample audio to 16kHz
     y, sr = librosa.load(audio, mono=True, sr=16000)
     # Get duration of audio
-    duration = librosa.get_duration(y=y, sr=sr)
-    logger.info(f"Duration: {duration:.2f}s")
-    start_time = time.time()
     result = pipe(y, generate_kwargs=generate_kwargs)["text"]
-    end_time = time.time()
     return result
@@ -53,9 +46,8 @@ A Whisper model fine-tuned to transcribe Japanese speech into Katakana with pitc
 with gr.Blocks() as app:
     gr.Markdown(initial_md)
     audio = gr.Audio(type="filepath")
-    transcript = gr.Button("Transcribe with Galgame-Whisper (WIP)")
     output = gr.Textbox(label="Result")
-    transcript.click(transcribe(audio=audio, model="AkitoP/whisper-large-v3-japense-phone_accent"), outputs=[output])
     # app.load(warmup, inputs=[], outputs=[warmup_result], queue=True)

 @spaces.GPU
+def transcribe(audio: str) -> tuple[str, float]:
     filename = Path(audio).name
     # Read and resample audio to 16kHz
     y, sr = librosa.load(audio, mono=True, sr=16000)
     # Get duration of audio
     result = pipe(y, generate_kwargs=generate_kwargs)["text"]
+    print(result)
     return result
 with gr.Blocks() as app:
     gr.Markdown(initial_md)
     audio = gr.Audio(type="filepath")
     output = gr.Textbox(label="Result")
+    transcript.click(transcribe(audio=audio),inputs=[audio], outputs=[output])
     # app.load(warmup, inputs=[], outputs=[warmup_result], queue=True)