Spaces:

Zw07
/

test1

Sleeping

App Files Files Community

Zw07 commited on Oct 14, 2024

Commit

768647a

verified ·

1 Parent(s): 50abadb

add read_single_channel function

Browse files

Files changed (1) hide show

app.py +51 -0

app.py CHANGED Viewed

@@ -28,6 +28,56 @@ from pydub import AudioSegment
 #     for p in predictions:
 #         col2.subheader(f"{ p['label'] }: { round(p['score'] * 100, 1)}%")
 def create_default_value():
     if "def_value" not in st.session_state:
         def_val_npy = np.random.choice([0, 1], size=32 - len_start_bit)
@@ -97,6 +147,7 @@ def main():
             if add_watermark_button:  # 点击按钮后执行的
                 if audio_file and watermark_text:
                     with st.spinner("Adding Watermark..."):
                         watermark = model.get_watermark(wav, default_sr)
                         # watermarked_audio, encode_time_cost = add_watermark(tmp_input_audio_file, watermark_text)
 #                         st.write("Watermarked Audio:")

 #     for p in predictions:
 #         col2.subheader(f"{ p['label'] }: { round(p['score'] * 100, 1)}%")
+def read_as_single_channel_16k(audio_file, def_sr=16000, verbose=True, aim_second=None):
+    assert os.path.exists(audio_file)
+    file_extension = os.path.splitext(audio_file)[1].lower()
+    if file_extension == ".mp3":
+        data, origin_sr = librosa.load(audio_file, sr=None)
+    elif file_extension in [".wav", ".flac"]:
+        data, origin_sr = soundfile.read(audio_file)
+    else:
+        raise Exception("unsupported file:" + file_extension)
+    # channel check
+    if len(data.shape) == 2:
+        left_channel = data[:, 0]
+        if verbose:
+            print("Warning! the input audio has multiple chanel, this tool only use the first channel!")
+        data = left_channel
+    # sample rate check
+    if origin_sr != def_sr:
+        data = resampy.resample(data, origin_sr, def_sr)
+        if verbose:
+            print("Warning! The original samplerate is not 16Khz; the watermarked audio will be re-sampled to 16KHz")
+    sr = def_sr
+    audio_length_second = 1.0 * len(data) / sr
+    # if verbose:
+    #     print("input length :%d second" % audio_length_second)
+    if aim_second is not None:
+        signal = data
+        assert len(signal) > 0
+        current_second = len(signal) / sr
+        if current_second < aim_second:
+            repeat_count = int(aim_second / current_second) + 1
+            signal = np.repeat(signal, repeat_count)
+        data = signal[0:sr * aim_second]
+    return data, sr, audio_length_second
+def my_read_file(audio_path, max_second):
+    signal, sr, audio_length_second = read_as_single_channel_16k(audio_path, default_sr)
+    if audio_length_second > max_second:
+        signal = signal[0:default_sr * max_second]
+        audio_length_second = max_second
+    return signal, sr, audio_length_second
 def create_default_value():
     if "def_value" not in st.session_state:
         def_val_npy = np.random.choice([0, 1], size=32 - len_start_bit)
             if add_watermark_button:  # 点击按钮后执行的
                 if audio_file and watermark_text:
                     with st.spinner("Adding Watermark..."):
+                        wav = my_read_file(wav,max_second_encode)
                         watermark = model.get_watermark(wav, default_sr)
                         # watermarked_audio, encode_time_cost = add_watermark(tmp_input_audio_file, watermark_text)
 #                         st.write("Watermarked Audio:")