wav2vec2-xls-r-300m-ja-cv-14_4

This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on the audiofolder dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2072
  • Wer: 0.0564

Model description

More information needed

Usage

The model can be used directly (without a language model) as follows...

Using the HuggingSound library:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("pinot/wav2vec2-xls-r-300m-ja-cv-14_4")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.0001
  • train_batch_size: 2
  • eval_batch_size: 1
  • seed: 42
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 8
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 30

Training results

Training Loss Epoch Step Validation Loss Wer
8.3105 0.37 2000 1.9407 0.5234
1.6271 0.75 4000 1.1355 0.3500
1.1075 1.12 6000 0.8428 0.2740
0.8659 1.49 8000 0.7523 0.2491
0.7568 1.87 10000 0.6115 0.2097
0.6269 2.24 12000 0.5771 0.1973
0.5631 2.61 14000 0.5204 0.1713
0.5197 2.99 16000 0.4896 0.1635
0.4218 3.36 18000 0.4506 0.1554
0.4069 3.73 20000 0.4684 0.1579
0.3629 4.1 22000 0.4190 0.1408
0.324 4.48 24000 0.3981 0.1337
0.3168 4.85 26000 0.3947 0.1310
0.2845 5.22 28000 0.3974 0.1266
0.2714 5.6 30000 0.3703 0.1166
0.2626 5.97 32000 0.3711 0.1173
0.2274 6.34 34000 0.3991 0.1254
0.2251 6.72 36000 0.3844 0.1159
0.2132 7.09 38000 0.3480 0.1088
0.1867 7.46 40000 0.3330 0.1045
0.1929 7.84 42000 0.3320 0.1054
0.1663 8.21 44000 0.3492 0.1116
0.1668 8.58 46000 0.3580 0.1045
0.1641 8.96 48000 0.2957 0.0920
0.1494 9.33 50000 0.3281 0.0990
0.1495 9.7 52000 0.3155 0.0948
0.1454 10.07 54000 0.3297 0.0994
0.1323 10.45 56000 0.3151 0.0946
0.1321 10.82 58000 0.3073 0.0901
0.1263 11.19 60000 0.2979 0.0887
0.1165 11.57 62000 0.3122 0.0968
0.1179 11.94 64000 0.2941 0.0892
0.107 12.31 66000 0.2907 0.0847
0.1037 12.69 68000 0.2964 0.0851
0.105 13.06 70000 0.2777 0.0820
0.0942 13.43 72000 0.2758 0.0783
0.0977 13.81 74000 0.2706 0.0768
0.0931 14.18 76000 0.2638 0.0755
0.0881 14.55 78000 0.2835 0.0771
0.0861 14.93 80000 0.2704 0.0776
0.0834 15.3 82000 0.2619 0.0765
0.079 15.67 84000 0.2583 0.0759
0.0783 16.04 86000 0.2459 0.0724
0.0753 16.42 88000 0.2647 0.0793
0.0739 16.79 90000 0.2375 0.0696
0.0721 17.16 92000 0.2432 0.0702
0.0687 17.54 94000 0.2269 0.0675
0.0685 17.91 96000 0.2516 0.0724
0.066 18.28 98000 0.2372 0.0679
0.0631 18.66 100000 0.2417 0.0670
0.0626 19.03 102000 0.2416 0.0676
0.0583 19.4 104000 0.2491 0.0696
0.0575 19.78 106000 0.2445 0.0675
0.0545 20.15 108000 0.2320 0.0635
0.0517 20.52 110000 0.2312 0.0647
0.0514 20.9 112000 0.2511 0.0676
0.0499 21.27 114000 0.2299 0.0663
0.0486 21.64 116000 0.2400 0.0635
0.0467 22.01 118000 0.2318 0.0624
0.0441 22.39 120000 0.2221 0.0599
0.0441 22.76 122000 0.2359 0.0630
0.0427 23.13 124000 0.2220 0.0603
0.0412 23.51 126000 0.2345 0.0608
0.041 23.88 128000 0.2292 0.0598
0.0386 24.25 130000 0.2342 0.0615
0.0376 24.63 132000 0.2291 0.0612
0.0385 25.0 134000 0.2231 0.0631
0.0347 25.37 136000 0.2196 0.0616
0.035 25.75 138000 0.2147 0.0608
0.0328 26.12 140000 0.2216 0.0616
0.0318 26.49 142000 0.2195 0.0587
0.0315 26.87 144000 0.2216 0.0594
0.0303 27.24 146000 0.2126 0.0591
0.0292 27.61 148000 0.2126 0.0563
0.0291 27.99 150000 0.2134 0.0574
0.0275 28.36 152000 0.2187 0.0583
0.0281 28.73 154000 0.2098 0.0571
0.0257 29.1 156000 0.2086 0.0564
0.0261 29.48 158000 0.2071 0.0568
0.0247 29.85 160000 0.2072 0.0564
Reference Prediction
木村 さん は わたし に 写真 を 見せ て くれ まし た 木村 さん は わたし に 写真 を 見せ て くれ まし た
田中 さん の 奥さん は 大学 の 先生 です 田中 さん の 奥さん は 大学 の 先生 です
わたし は 松井 さん が 書い た 作文 を 読み まし た わたし は 松井 さん が 書い た 作文 を 読み まし た
木村 さん に 電話 を 貸し て もらい まし た 木村 さん に 電話 を 貸し て もらい まし た
森永 の おいしい 牛乳 は 濃い 青色 に 牛乳 瓶 を あしらっ た デザイン の パック 牛乳 で ある 森永 の おいしい 牛乳 は 濃い 青色 に 牛乳 瓶 を あしらっ た デザイン の パック 牛乳 で ある
きのう は 八 時間 寝 まし た きのう は 八 時間 寝 まし た
田中 さん の 右 に 山田 さん が い ます 田中 さん の 右 に 山田 さん が い ます
日本人 は 決して ユーモア と 無縁 な 人種 で は なかっ た 日本人 は 決して ユーモア と 無縁 な 人種 で は なかっ た
ユーモア と は 高慢 この うえ ない 解毒 剤 だ ユーモア と は 高慢 この うえ ない 解毒 剤 だ
わたし は 静か で きれい な 所 に 住み たい です わたし は 静か で きれい な 所 に 住み たい です

Evaluation

The model can be evaluated as follows on the Japanese test data of Common Voice.

Test Result:

In the table below I report the Word Error Rate (WER) and the Character Error Rate (CER) of the model.

test data WER CER
Common Voice 8.0 5.7% 3.0%

Framework versions

  • Transformers 4.31.0
  • Pytorch 2.0.1+cu117
  • Datasets 2.14.3
  • Tokenizers 0.13.3
Downloads last month
32
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for pinot/wav2vec2-xls-r-300m-ja-cv-14_4

Finetuned
(524)
this model
Finetunes
1 model

Evaluation results