Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
@@ -349,13 +349,19 @@ description = ("Zero-shot音声変換モデル(学習不要)。ローカル
|
|
349 |
"また、元音声と参考音声の合計時間が30秒を超える場合、元音声は分割処理されます。")
|
350 |
|
351 |
# ギャラリーで選択された音声を `voice_conversion` に渡すプロキシ関数
|
|
|
352 |
def proxy_voice_conversion(source, selected_gallery_item, diffusion_steps, length_adjust, inference_cfg_rate, f0_condition, auto_f0_adjust, pitch_shift):
|
353 |
if not source or not os.path.isfile(source):
|
354 |
raise ValueError(f"音声ファイルが見つかりません: {source}")
|
355 |
|
356 |
-
#
|
|
|
|
|
|
|
|
|
|
|
357 |
reference_file = os.path.join(default_dir, f"{selected_gallery_item}.mp3")
|
358 |
-
|
359 |
if not os.path.isfile(reference_file):
|
360 |
raise ValueError(f"参照音声ファイルが見つかりません: {reference_file}")
|
361 |
|
@@ -367,7 +373,6 @@ def proxy_voice_conversion(source, selected_gallery_item, diffusion_steps, lengt
|
|
367 |
return outputs[0], outputs[1]
|
368 |
|
369 |
|
370 |
-
|
371 |
inputs = [
|
372 |
gr.Audio(type="filepath", label="元音声"),
|
373 |
gr.Gallery(label="参照音声を選択", value=gallery_items, columns=5, interactive=True),
|
|
|
349 |
"また、元音声と参考音声の合計時間が30秒を超える場合、元音声は分割処理されます。")
|
350 |
|
351 |
# ギャラリーで選択された音声を `voice_conversion` に渡すプロキシ関数
|
352 |
+
# ギャラリーで選択されたアイテムから名前を抽出
|
353 |
def proxy_voice_conversion(source, selected_gallery_item, diffusion_steps, length_adjust, inference_cfg_rate, f0_condition, auto_f0_adjust, pitch_shift):
|
354 |
if not source or not os.path.isfile(source):
|
355 |
raise ValueError(f"音声ファイルが見つかりません: {source}")
|
356 |
|
357 |
+
# 選択されたギャラリーアイテムからファイル名を正しく抽出
|
358 |
+
if isinstance(selected_gallery_item, list) and len(selected_gallery_item) > 0:
|
359 |
+
selected_gallery_item = selected_gallery_item[0][1] # 名前部分だけ取り出す
|
360 |
+
else:
|
361 |
+
raise ValueError("無効なギャラリー選択項目です。")
|
362 |
+
|
363 |
reference_file = os.path.join(default_dir, f"{selected_gallery_item}.mp3")
|
364 |
+
|
365 |
if not os.path.isfile(reference_file):
|
366 |
raise ValueError(f"参照音声ファイルが見つかりません: {reference_file}")
|
367 |
|
|
|
373 |
return outputs[0], outputs[1]
|
374 |
|
375 |
|
|
|
376 |
inputs = [
|
377 |
gr.Audio(type="filepath", label="元音声"),
|
378 |
gr.Gallery(label="参照音声を選択", value=gallery_items, columns=5, interactive=True),
|