ChatGPT-Assistant

Runtime error

hushell commited on Sep 22, 2023

Commit

4064286

1 Parent(s): 38d8edb

refine recording

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,10 +22,7 @@ WHISPER_MODEL.to(device)
 def transcribe(aud_inp):
     if aud_inp is None:
         return ""
-    if isinstance(aud_inp, str):
-        aud = whisper.load_audio(aud_inp)
-    elif isinstance(aud_inp, bytes): # if st_audiorec
-        aud = np.frombuffer(aud_inp, dtype=np.uint8).flatten().astype(np.float32) / 255.0
     aud = whisper.pad_or_trim(aud)
     mel = whisper.log_mel_spectrogram(aud).to(device)
     _, probs = WHISPER_MODEL.detect_language(mel)
@@ -43,6 +40,22 @@ def transcribe(aud_inp):
     return result_text
 st.set_page_config(page_title='ChatGPT Assistant', layout='wide', page_icon='🤖')
 # 自定义元素样式
 st.markdown(css_code, unsafe_allow_html=True)
@@ -232,6 +245,7 @@ with tap_input:
         wav_audio_data = st_audiorec()
         if wav_audio_data is not None:
             st.audio(wav_audio_data, format='audio/wav')
             user_input = transcribe(wav_audio_data)
     if submitted or wav_audio_data is not None:

 def transcribe(aud_inp):
     if aud_inp is None:
         return ""
+    aud = whisper.load_audio(aud_inp)
     aud = whisper.pad_or_trim(aud)
     mel = whisper.log_mel_spectrogram(aud).to(device)
     _, probs = WHISPER_MODEL.detect_language(mel)
     return result_text
+def bytes_to_wav(wav_bytes, output_wav_file = "output.wav",
+                 sample_width = 1,  # 1 byte per sample
+                 sample_rate = 44100,  # Sample rate in Hz
+                 num_channels = 1,  # Mono audio
+):
+    # Create a WAV file in pcm_s16le format using the wave module
+    with wave.open(output_wav_file, 'wb') as wav_file:
+        wav_file.setnchannels(num_channels)
+        wav_file.setsampwidth(sample_width)
+        wav_file.setframerate(sample_rate)
+        wav_file.setcomptype('NONE', 'not compressed')
+        # Write the audio data from wav_bytes to the WAV file
+        wav_file.writeframes(wav_bytes)
+######################################################################################
 st.set_page_config(page_title='ChatGPT Assistant', layout='wide', page_icon='🤖')
 # 自定义元素样式
 st.markdown(css_code, unsafe_allow_html=True)
         wav_audio_data = st_audiorec()
         if wav_audio_data is not None:
             st.audio(wav_audio_data, format='audio/wav')
+            bytes_to_wav(wav_audio_data, sample_rate=16000)
             user_input = transcribe(wav_audio_data)
     if submitted or wav_audio_data is not None: