Akjava commited on
Commit
1214256
·
verified ·
1 Parent(s): 90a3def

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +18 -4
README.md CHANGED
@@ -21,16 +21,30 @@ some onnx codes help english-tts
21
  - Focus on Dataset/Model
22
 
23
  # Matcha-TTS 日本語
 
 
 
 
 
24
  ## 違い
25
- - 日本語特化 - (クリーナーを組み込みます)
26
  - Onnx特化 ブラウザーとUnity(C#)
27
  - データー/モデル を作ります
28
 
29
  ## モデル
30
  出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
31
- ### Single Speaker
 
 
 
32
  - ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
33
-
34
- ### Multi Speaker
35
  - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
36
  - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
 
 
 
 
 
 
 
 
21
  - Focus on Dataset/Model
22
 
23
  # Matcha-TTS 日本語
24
+ Matcha-TTSは比較的新しいTTSエンジンです。
25
+ これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。
26
+ データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。
27
+ そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。
28
+
29
  ## 違い
30
+ - 日本語特化 - (そのうち、クリーナーを組み込みます)
31
  - Onnx特化 ブラウザーとUnity(C#)
32
  - データー/モデル を作ります
33
 
34
  ## モデル
35
  出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
36
+ 正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。
37
+  ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。
38
+ ### Speakerの違い
39
+ #### Single Speaker
40
  - ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
41
+ #### Multi Speaker
 
42
  - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
43
  - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
44
+ ### 品質
45
+ 結果的に、イントネーションが怪しいものが多数です。
46
+ ### Phonemize
47
+ Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
48
+
49
+ - openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない)
50
+ - julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある)