当モデルの精度や精度を算出する際に実際に使用したモデルの情報について
こんにちは。素晴らしいプロジェクトの成果を提供いただき、ありがとうございます。
質問がありましてdiscussionを開きました。
https://rinna.co.jp/news/2023/04/20230428.html
貴社のニュースページにおいて
・日本語話し言葉コーパス (CSJ) を用いて、当モデルを日本語の音素を認識する音声認識タスクに適応したところ単語誤り率6.34%を達成しました。Metaが公開している英語音声コーパスから事前学習されたHuBERT (hubert-base-ls960) に対して、同様に日本語話し言葉コーパスを用いて日本語の音声認識タスクに適応した際の単語誤り率は11.59%であることから、日本語音声コーパスから学習された当モデルの有用性が確認されました。
との記述がありますが、この単語誤り率を算出する際に使用したモデルの構成情報(出力層をどうしたか、中間層を埋め込み情報として使用したならばどの層を使用した場合の結果か、もしくはESP-Netなどのライブラリを介したか、など)が知りたいです。
もし開示が可能でしたら、可能な範囲で公開いただけるととても参考になり、また情報の確度が上がると思います。
以上、よろしくお願い致します。
ご質問ありがとうございます。
HuBERT元論文における、音声認識のファインチューニング実験を参考にしております。
https://ieeexplore.ieee.org/document/9585401
After HuBERT pre-training, We use the connectionist temporal classification (CTC) [41] loss for ASR fine-tuning of the whole model weights except the convolutional audio encoder, which remains frozen. The projection layer(s) is removed and replaced with a randomly initialized softmax layer.
著者実装のスクリプトに基づき実験しておりますので、詳細は以下もご参照ください。
https://github.com/facebookresearch/fairseq/tree/main/examples/hubert#fine-tune-a-hubert-model-with-a-ctc-loss
ご返信いただき、ありがとうございます。
HuBERTの元論文にあるファインチューニング実験の方法と同様の方法で、HuBERTの本家実装があるfairseqのスクリプトを用いて、データセットとして日本語音声(ReazonSpeech)を使用したもの、ということですね。
論文のリンクやソースコードの場所リンクも、ありがとうございます。参考にいたします。