Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
@@ -21,16 +21,30 @@ some onnx codes help english-tts
|
|
21 |
- Focus on Dataset/Model
|
22 |
|
23 |
# Matcha-TTS 日本語
|
|
|
|
|
|
|
|
|
|
|
24 |
## 違い
|
25 |
-
- 日本語特化 - (
|
26 |
- Onnx特化 ブラウザーとUnity(C#)
|
27 |
- データー/モデル を作ります
|
28 |
|
29 |
## モデル
|
30 |
出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
|
31 |
-
|
|
|
|
|
|
|
32 |
- ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
|
33 |
-
|
34 |
-
### Multi Speaker
|
35 |
- VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
|
36 |
- 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
21 |
- Focus on Dataset/Model
|
22 |
|
23 |
# Matcha-TTS 日本語
|
24 |
+
Matcha-TTSは比較的新しいTTSエンジンです。
|
25 |
+
これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。
|
26 |
+
データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。
|
27 |
+
そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。
|
28 |
+
|
29 |
## 違い
|
30 |
+
- 日本語特化 - (そのうち、クリーナーを組み込みます)
|
31 |
- Onnx特化 ブラウザーとUnity(C#)
|
32 |
- データー/モデル を作ります
|
33 |
|
34 |
## モデル
|
35 |
出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
|
36 |
+
正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。
|
37 |
+
ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。
|
38 |
+
### Speakerの違い
|
39 |
+
#### Single Speaker
|
40 |
- ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
|
41 |
+
#### Multi Speaker
|
|
|
42 |
- VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
|
43 |
- 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
|
44 |
+
### 品質
|
45 |
+
結果的に、イントネーションが怪しいものが多数です。
|
46 |
+
### Phonemize
|
47 |
+
Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
|
48 |
+
|
49 |
+
- openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない)
|
50 |
+
- julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある)
|