--- license: mit datasets: - ThePioneer/Ver0_voice_dataset language: - en - ja - zh tags: - music - voice --- アニメ声のようなわざとらしい声でもなく、ボカロなどのソフトを使ったいかにも合成の音声でもなく、クラスに一人くらいいそうな、自然で親しみやすい美少女の声を…。 本モデルは、そういうコンセプトで開発された[So-vits-svc 4.0](https://github.com/svc-develop-team/so-vits-svc)のモデルです。 一次音声は私自身の肉声から合成し、その素材をElevenLabsで1時間程度まで水増しし、[水増しした音声データセット](https://huggingface.co/datasets/ThePioneer/Ver0_voice_dataset)を学習させました。 innnky氏がG_0.pth、D_0.pthのあったrepoを削除してしまったようなので、学習用のベースとなった[G_0.pth](https://huggingface.co/ThePioneer/NaturalGirlyVoice/blob/main/G_0.pth)、[D_0.pth](https://huggingface.co/ThePioneer/NaturalGirlyVoice/blob/main/D_0.pth)および[hubertのチェックポイント](https://huggingface.co/ThePioneer/NaturalGirlyVoice/blob/main/checkpoint_best_legacy_500.pt)も同梱しています。 また、推論や学習ができるように、[notebook](https://huggingface.co/ThePioneer/NaturalGirlyVoice/blob/main/sovits4_0_for_training_and_inference.ipynb)も同梱しています(利用時はconfig.jsonを置き換えることも必要です)。 ## 注意 - Sovitsの仕様で、音声の直前の無音部でノイズが発生することがあります。 - 中国由来のモデルなので、日本語や英語の発音はたまにおかしくなります。 - 自然な音声を目指したので、(もしかすると)実在人物の音声に類似している可能性があります。「歌わせてみた」など、平和的な内容での利用を推奨します。 - (おそらく日本では)違法ではないですが、例えばどこかの4chan民のように『我が闘争』を読ませる使い方や、nsfw音声としての利用は推奨されません。 ## サンプル God knows...