Spaces:

Kevin676
/

ChatGPT-with-Speech-Enhancement

Runtime error

Kevin676 commited on Apr 1, 2023

Commit

8c3abca

1 Parent(s): fb5cdad

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -68,7 +68,13 @@ def transcribe(apikey, upload, audio, choice1):
     tts.tts_to_file(chat_response, speaker_wav = upload, language="en", file_path="output.wav")
-    audio_in = "output.wav"
     enhance_model = SpectralMaskEnhancement.from_hparams(
     source="speechbrain/metricgan-plus-voicebank",
@@ -77,21 +83,13 @@ def transcribe(apikey, upload, audio, choice1):
     )
     noisy = enhance_model.load_audio(
-    audio_in
     ).unsqueeze(0)
     enhanced = enhance_model.enhance_batch(noisy, lengths=torch.tensor([1.]))
     torchaudio.save("enhanced.wav", enhanced.cpu(), 16000)
-    rate, data = wavfile.read("enhanced.wav")
-    reduced_noise = nr.reduce_noise(y=data, sr=rate, prop_decrease= 0.95, stationary=True)
-    #reduced_noise = nr.reduce_noise(y = data, sr=rate, prop_decrease= 0.85)
-    #reduced_noise = nr.reduce_noise(y = data, sr=rate, thresh_n_mult_nonstationary=2, stationary=False)
-    wavfile.write("audio1.wav", rate, reduced_noise)
-    return [result.text, chat_response, "audio1.wav"]
 output_1 = gr.Textbox(label="Speech to Text")
 output_2 = gr.Textbox(label="ChatGPT Output")

     tts.tts_to_file(chat_response, speaker_wav = upload, language="en", file_path="output.wav")
+    rate, data = wavfile.read("output.wav")
+    reduced_noise = nr.reduce_noise(y=data, sr=rate, prop_decrease= 0.95, stationary=True)
+    #reduced_noise = nr.reduce_noise(y = data, sr=rate, prop_decrease= 0.85)
+    #reduced_noise = nr.reduce_noise(y = data, sr=rate, thresh_n_mult_nonstationary=2, stationary=False)
+    wavfile.write("audio1.wav", rate, reduced_noise)
     enhance_model = SpectralMaskEnhancement.from_hparams(
     source="speechbrain/metricgan-plus-voicebank",
     )
     noisy = enhance_model.load_audio(
+    "audio1.wav"
     ).unsqueeze(0)
     enhanced = enhance_model.enhance_batch(noisy, lengths=torch.tensor([1.]))
     torchaudio.save("enhanced.wav", enhanced.cpu(), 16000)
+    return [result.text, chat_response, "enhanced.wav"]
 output_1 = gr.Textbox(label="Speech to Text")
 output_2 = gr.Textbox(label="ChatGPT Output")