ルナイトネイルさんが公開されているITAコーパスでファインチューニングした音声合成モデルです。事前学習にはReazonSpeechデータセットと、みんなで作るJSUTコーパスを用いました。詳しくは、https://zenn.dev/offtoung/articles/034d98bd397527 をご覧ください。 下記に記載の利用規約の範囲内でご自由に利用いただけます。 ※独自の日本語トークナイザを利用しているため、実行には ez-chat-llm パッケージ (https://github.com/offtoung/ez-chat-llm) 内の eztts モジュールが必要です。

モデル構造:

VITS (Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech)

https://github.com/jaywalnut310/vits

学習データ:

ReazonSpeechデータセット (https://huggingface.co/datasets/reazon-research/reazonspeech)

みんなで作るJSUTコーパス (https://tyc.rei-yumesaki.net/material/minnade-jsut)

ルナイトネイルITAコーパス (https://runaitoneiru.fanbox.cc/posts/3786422)

利用規約:

ルナイトネイルITAコーパス利用規約

https://runaitoneiru.fanbox.cc/posts/3786422

本音声モデルから生成された音声を用いた動画等を公開する場合は、本モデルの名称あるいは本モデルを含むソフトウェアの名称 (ez-chat-llm) と音声モデル名をクレジットすることが必須です。 また、音声合成モデルの改変・再配布を行う場合は、ルナイトネイルITAコーパス利用規約 (https://runaitoneiru.fanbox.cc/posts/3786422) に従うことが必須です。

Downloads last month
2
Safetensors
Model size
39.6M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support