YU310takuto's picture
Create README.md
e7c6a13 verified

Hugging faceのモデルのファインチューニングのテスト。Ver0.2
使用したデータセットは、「声優統計コーパス:日本声優統計学会( https://voice-statistics.github.io/ )」を全て入れたものになります。
CLAPを学習する際の、音声に付随するキャプションは、「Japanese female actor's (感情) voice」で固定したところ、 ファインチューニングしたモデルを用いてクラス分類したときに["happy", "angry", "normal"]と["happy voice", "angry voice", "normal voice"]で結果が変わりました。
原因はまだ謎です。

また、先日アップしたVer0.1はそのうち削除します。

Hugging Faceやclapのモデルを使っている日本人の有識者がいれば、ぜひ色々教えていただきたいです。


Fine-tuning test of the hugging face model. Ver0.2

The dataset used was the entire "Voice Actor Statistical Corpus: Japan Voice Actor Statistical Association (https://voice-statistics.github.io/)".

When learning CLAP, the captions accompanying the voice were fixed to "Japanese female actor's (emotion) voice",

and when classifying using the fine-tuned model, the results changed between ["happy", "angry", "normal"] and ["happy voice", "angry voice", "normal voice"].

The cause is still a mystery.

Also, I will delete Ver0.1 that was uploaded the other day.

If there are experts who use Hugging Face, or "clap model", I would love to hear more about it.


base_model: - laion/larger_clap_music_and_speech tags: - CLAP