Spaces:

Akjava
/

Matcha-TTS-Japanese

Running

App Files Files Community

Matcha-TTS-Japanese / README.md

Akjava

Update README.md

b7868a4 verified 7 months ago

preview code

raw

history blame contribute delete

5.04 kB

	---
	title: Matcha TTS Japanese
	emoji: 🏃
	colorFrom: indigo
	colorTo: red
	sdk: static
	pinned: true
	license: mit
	short_description: Description of Matcha TTS Japanese
	---

	<div style="height: 15px;"></div>

	# Match-TTS-Japanese Spaces
	<div><a href="https://github.com/akjava/Matcha-TTS-Japanese/" target="_new">Github</a></div>

	a not official fork of matcha-tts for japanese language.

	some onnx codes help english-tts

	## Difference
	- Focus on Japanese Language
	- Focus on onnx
	- Focus on Dataset/Model

	<div><b>Models</b></div>
	<div><a href="https://huggingface.co/Akjava/matcha_tts_common_voice_01_en_001/" target="_new">EN001</a> - English trained single speaker. <br></div>
	<div id="footer">
	<b>Example Spaces</b><br>
	<a href="/spaces/Akjava/matcha-tts_vctk-onnx" style="font-size: 12px" target="link">Match-TTS VCTK-ONNX</a> \|
	<a href="/spaces/Akjava/matcha-tts-onnx-benchmarks" style="font-size: 12px" target="link">Match-TTS ONNX-Benchmark</a> \|
	<a href="https://akjava.github.io/Matcha-TTS-Japanese/" target="link" style="font-size: 12px">Onnx Github Example page</a> \|
	<br>
	</div>
	<div> </div><br>

	# Matcha-TTS 日本語
	Matcha-TTSは比較的新しいTTSエンジンです。
	これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。
	データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。
	そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。

	## 違い
	- 日本語特化 - (そのうち、クリーナーを組み込みます)
	- Onnx特化ブラウザーとUnity(C#)
	- データー/モデルを作ります

	## モデル
	出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
	正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。
	ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。
	### Speakerの違い
	#### Single Speaker
	- ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
	#### Multi Speaker
	- VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
	- 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
	### 最終品質

	音質とイントネーションのバランスで苦労しています。

	- 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい
	- 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる
	- カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明
	- シンプルなPhonemizeでは難しいのでは考えています。英語までとはいわないが、センテンスで分割マークを入れたい（ブラウザーでも動く入れ方を検討中)

	品質検出ツールがない

	- ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので、単独で評価できない
	- Roboticな出力はMore-all 出力すればある程度わかります。（人間が聞く必要あるけど)
	- 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。

	### Phonemize
	Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。

	- openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない)
	- julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある)

	### シングルスピーカーモデル

	まだブラウザーで動く、Phonemizerが出来ていないので、正式にはモデルは非公開中

	#### モデル制作の感想
	大きいモデルは、いきなり作るとイントネーションが残念なことになるので、以前作っていたモデルをベースに継続している。代わりに音が残念なことになっている。