Spaces:

Akjava
/

Matcha-TTS-Japanese

Running

App Files Files Community

Akjava commited on Sep 16, 2024

Commit

1214256

verified ·

1 Parent(s): 90a3def

Update README.md

Browse files

Files changed (1) hide show

README.md +18 -4

README.md CHANGED Viewed

@@ -21,16 +21,30 @@ some onnx codes help english-tts
 - Focus on Dataset/Model
 # Matcha-TTS 日本語
 ## 違い
-- 日本語特化 - (クリーナーを組み込みます)
 - Onnx特化 ブラウザーとUnity(C#)
 - データー/モデル を作ります
 ## モデル
 出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
-### Single Speaker
 - ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
-### Multi Speaker
 - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
 - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。

 - Focus on Dataset/Model
 # Matcha-TTS 日本語
+ Matcha-TTSは比較的新しいTTSエンジンです。
+ これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。
+データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。
+そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。
 ## 違い
+- 日本語特化 - (そのうち、クリーナーを組み込みます)
 - Onnx特化 ブラウザーとUnity(C#)
 - データー/モデル を作ります
 ## モデル
 出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
+正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。
+　ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。
+### Speakerの違い
+#### Single Speaker
 - ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
+#### Multi Speaker
 - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
 - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
+### 品質
+結果的に、イントネーションが怪しいものが多数です。
+### Phonemize
+Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
+- openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない)
+- julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある)