soiz1 commited on
Commit
3b4e246
·
verified ·
1 Parent(s): 03054ef

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +8 -3
app.py CHANGED
@@ -349,13 +349,19 @@ description = ("Zero-shot音声変換モデル(学習不要)。ローカル
349
  "また、元音声と参考音声の合計時間が30秒を超える場合、元音声は分割処理されます。")
350
 
351
  # ギャラリーで選択された音声を `voice_conversion` に渡すプロキシ関数
 
352
  def proxy_voice_conversion(source, selected_gallery_item, diffusion_steps, length_adjust, inference_cfg_rate, f0_condition, auto_f0_adjust, pitch_shift):
353
  if not source or not os.path.isfile(source):
354
  raise ValueError(f"音声ファイルが見つかりません: {source}")
355
 
356
- # ギャラリーで選択された音声のファイルパスを取得
 
 
 
 
 
357
  reference_file = os.path.join(default_dir, f"{selected_gallery_item}.mp3")
358
-
359
  if not os.path.isfile(reference_file):
360
  raise ValueError(f"参照音声ファイルが見つかりません: {reference_file}")
361
 
@@ -367,7 +373,6 @@ def proxy_voice_conversion(source, selected_gallery_item, diffusion_steps, lengt
367
  return outputs[0], outputs[1]
368
 
369
 
370
-
371
  inputs = [
372
  gr.Audio(type="filepath", label="元音声"),
373
  gr.Gallery(label="参照音声を選択", value=gallery_items, columns=5, interactive=True),
 
349
  "また、元音声と参考音声の合計時間が30秒を超える場合、元音声は分割処理されます。")
350
 
351
  # ギャラリーで選択された音声を `voice_conversion` に渡すプロキシ関数
352
+ # ギャラリーで選択されたアイテムから名前を抽出
353
  def proxy_voice_conversion(source, selected_gallery_item, diffusion_steps, length_adjust, inference_cfg_rate, f0_condition, auto_f0_adjust, pitch_shift):
354
  if not source or not os.path.isfile(source):
355
  raise ValueError(f"音声ファイルが見つかりません: {source}")
356
 
357
+ # 選択されたギャラリーアイテムからファイル名を正しく抽出
358
+ if isinstance(selected_gallery_item, list) and len(selected_gallery_item) > 0:
359
+ selected_gallery_item = selected_gallery_item[0][1] # 名前部分だけ取り出す
360
+ else:
361
+ raise ValueError("無効なギャラリー選択項目です。")
362
+
363
  reference_file = os.path.join(default_dir, f"{selected_gallery_item}.mp3")
364
+
365
  if not os.path.isfile(reference_file):
366
  raise ValueError(f"参照音声ファイルが見つかりません: {reference_file}")
367
 
 
373
  return outputs[0], outputs[1]
374
 
375
 
 
376
  inputs = [
377
  gr.Audio(type="filepath", label="元音声"),
378
  gr.Gallery(label="参照音声を選択", value=gallery_items, columns=5, interactive=True),