pinot's picture
Update README.md
0558665
metadata
license: apache-2.0
base_model: facebook/wav2vec2-xls-r-300m
tags:
  - generated_from_trainer
datasets:
  - audiofolder
metrics:
  - wer
model-index:
  - name: wav2vec2-xls-r-300m-ja-syllable-cv-14
    results:
      - task:
          name: Automatic Speech Recognition
          type: automatic-speech-recognition
        dataset:
          name: audiofolder
          type: audiofolder
          config: default
          split: train[:20%]
          args: default
        metrics:
          - name: Wer
            type: wer
            value: 0.04376879385232209

wav2vec2-xls-r-300m-ja-syllable-cv-14

This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on Japanese using the train, dev, and validation splits of Common Voice 14.0. It achieves the following results on the evaluation set:

  • Loss: 0.2005
  • Wer: 0.0438

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

Training: Common Voice 14.0 ja train, dev, validated

Test: Common Voice 14.0 ja test[:20%]

Training procedure

Reference Prediction
オヤ ノ セダイイ カラ スル ト ドンナ ギキ モ カミコン ダ オヤ ノ セダイ カラ スル ト ドンナ ゲーム キ モ ファミコン ダ
ソコデ キミ ト シリアッ タ ソコデ キミ ト シリアッ タ
ケイサツ ガ マエ ノ コト サガシ テル ヨ ケイサツ ガ オマエ ノ コト サガシ テル ヨ
デカケル トキ ハンカチ ヲ モッ テ イキ マス デカケル トキ ハンカチ ヲ モッ テ イキ マス
ソー ナ ン デス ソー ナ ン デス
タナカ サン ニ テガミ ヲ ダシ マス タナカ サン ニ テガミ ヲ ダシ マス
イモート ワ チチ ニ オ ベント ヲ ツクッ テ アゲ マシ タ イモート ワ チチ ニ オ ベントー ヲ ツクッ テ アゲ マシ タ
イエ ニ ツイ タラ レンラク シ マス イエ ニ ツイ タラ レンラク シ マス
クセ ノ ナイ シカイ ガ ナツ アズ ニ ナッ テ クセ ノ ナイ シカイ ガ モチアジ ニ ナッ テル
バカ デ イミ バカ デ イイ ン ダ ヨ

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.0001
  • train_batch_size: 2
  • eval_batch_size: 1
  • seed: 42
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 8
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 30

Training results

Training Loss Epoch Step Validation Loss Wer
3.9103 0.37 2000 0.6143 0.1658
0.5883 0.75 4000 0.4720 0.1340
0.4759 1.12 6000 0.4080 0.1193
0.4115 1.49 8000 0.3758 0.1173
0.3833 1.87 10000 0.3591 0.1134
0.3351 2.24 12000 0.3440 0.1011
0.3129 2.61 14000 0.3550 0.1001
0.3016 2.99 16000 0.3041 0.0949
0.262 3.36 18000 0.2885 0.0853
0.2571 3.73 20000 0.2825 0.0874
0.2382 4.1 22000 0.2816 0.0848
0.2171 4.48 24000 0.2732 0.0770
0.2116 4.85 26000 0.2665 0.0773
0.1964 5.22 28000 0.2703 0.0819
0.1905 5.6 30000 0.2748 0.0822
0.1855 5.97 32000 0.2572 0.0757
0.1653 6.34 34000 0.2964 0.0803
0.1684 6.72 36000 0.2744 0.0745
0.1661 7.09 38000 0.2640 0.0790
0.1504 7.46 40000 0.2803 0.0785
0.1555 7.84 42000 0.2459 0.0703
0.1408 8.21 44000 0.2666 0.0736
0.1343 8.58 46000 0.2546 0.0711
0.1358 8.96 48000 0.2582 0.0691
0.1256 9.33 50000 0.2616 0.0709
0.1245 9.7 52000 0.2621 0.0712
0.1195 10.07 54000 0.2819 0.0692
0.1122 10.45 56000 0.2666 0.0699
0.1094 10.82 58000 0.2504 0.0666
0.1062 11.19 60000 0.2610 0.0666
0.1023 11.57 62000 0.2586 0.0656
0.1036 11.94 64000 0.2463 0.0646
0.096 12.31 66000 0.2677 0.0676
0.0942 12.69 68000 0.2284 0.0607
0.0939 13.06 70000 0.2663 0.0658
0.0857 13.43 72000 0.2583 0.0653
0.0889 13.81 74000 0.2215 0.0616
0.0832 14.18 76000 0.2502 0.0631
0.0813 14.55 78000 0.2472 0.0638
0.0796 14.93 80000 0.2218 0.0600
0.0774 15.3 82000 0.2376 0.0600
0.0754 15.67 84000 0.2361 0.0588
0.0745 16.04 86000 0.2578 0.0618
0.0722 16.42 88000 0.2468 0.0604
0.0709 16.79 90000 0.2268 0.0597
0.0688 17.16 92000 0.2270 0.0555
0.0665 17.54 94000 0.2320 0.0565
0.0651 17.91 96000 0.2408 0.0600
0.062 18.28 98000 0.2286 0.0550
0.0609 18.66 100000 0.2314 0.0558
0.0598 19.03 102000 0.2275 0.0547
0.057 19.4 104000 0.2359 0.0547
0.0559 19.78 106000 0.2501 0.0565
0.0557 20.15 108000 0.2186 0.0530
0.0519 20.52 110000 0.2281 0.0520
0.0532 20.9 112000 0.2342 0.0525
0.0521 21.27 114000 0.2265 0.0527
0.0513 21.64 116000 0.2263 0.0528
0.0485 22.01 118000 0.2343 0.0535
0.0454 22.39 120000 0.2393 0.0517
0.0454 22.76 122000 0.2314 0.0520
0.0448 23.13 124000 0.2395 0.0493
0.0444 23.51 126000 0.2299 0.0509
0.0434 23.88 128000 0.2300 0.0499
0.0402 24.25 130000 0.2314 0.0498
0.0395 24.63 132000 0.2259 0.0478
0.0383 25.0 134000 0.2202 0.0481
0.0374 25.37 136000 0.2158 0.0484
0.0375 25.75 138000 0.2165 0.0471
0.0366 26.12 140000 0.2142 0.0469
0.0347 26.49 142000 0.2139 0.0468
0.0337 26.87 144000 0.2152 0.0477
0.0343 27.24 146000 0.2059 0.0463
0.0328 27.61 148000 0.2108 0.0469
0.0324 27.99 150000 0.2061 0.0453
0.0302 28.36 152000 0.2026 0.0450
0.0316 28.73 154000 0.2057 0.0450
0.0298 29.1 156000 0.2005 0.0439
0.0301 29.48 158000 0.1983 0.0440
0.0296 29.85 160000 0.2005 0.0438

Framework versions

  • Transformers 4.31.0
  • Pytorch 2.0.1+cu117
  • Datasets 2.14.3
  • Tokenizers 0.13.3