End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.toi.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Jan03_15-39-30_srvrocgpu011.uct.ac.za/events.out.tfevents.1735916999.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +515 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-toigen-combined-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3150
-- Wer: 0.3762
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- toigen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-toigen-combined-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the TOIGEN - TOI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3149
+- Wer: 0.3760
 ## Model description

adapter.toi.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1c91861b4875db1563aca6aa233d91b866b475faaa6912bab5b7f8f8ac8f80a
+size 8793408

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 12.94854586129754,
+    "eval_loss": 0.31494516134262085,
+    "eval_runtime": 37.9016,
+    "eval_samples": 413,
+    "eval_samples_per_second": 10.897,
+    "eval_steps_per_second": 2.744,
+    "eval_wer": 0.37600736817867836,
+    "total_flos": 1.916331767234902e+19,
+    "train_loss": 1.512242957805765,
+    "train_runtime": 5075.2895,
+    "train_samples": 1785,
+    "train_samples_per_second": 10.551,
+    "train_steps_per_second": 1.318
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 12.94854586129754,
+    "eval_loss": 0.31494516134262085,
+    "eval_runtime": 37.9016,
+    "eval_samples": 413,
+    "eval_samples_per_second": 10.897,
+    "eval_steps_per_second": 2.744,
+    "eval_wer": 0.37600736817867836
+}

runs/Jan03_15-39-30_srvrocgpu011.uct.ac.za/events.out.tfevents.1735916999.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd8ed2ad4508427e6ebce1191a76fbde34b2fe765076c0314dd6cbd750f3e899
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 12.94854586129754,
+    "total_flos": 1.916331767234902e+19,
+    "train_loss": 1.512242957805765,
+    "train_runtime": 5075.2895,
+    "train_samples": 1785,
+    "train_samples_per_second": 10.551,
+    "train_steps_per_second": 1.318
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,515 @@

+{
+  "best_metric": 0.3137281537055969,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-toigen-combined-model/checkpoint-2500",
+  "epoch": 12.94854586129754,
+  "eval_steps": 100,
+  "global_step": 2900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.44742729306487694,
+      "grad_norm": 4.276019096374512,
+      "learning_rate": 0.000285,
+      "loss": 15.204,
+      "step": 100
+    },
+    {
+      "epoch": 0.44742729306487694,
+      "eval_loss": 3.586716651916504,
+      "eval_runtime": 37.7917,
+      "eval_samples_per_second": 10.928,
+      "eval_steps_per_second": 2.752,
+      "eval_wer": 1.0672346304397882,
+      "step": 100
+    },
+    {
+      "epoch": 0.8948545861297539,
+      "grad_norm": 3.4514918327331543,
+      "learning_rate": 0.0002956752655538695,
+      "loss": 4.2355,
+      "step": 200
+    },
+    {
+      "epoch": 0.8948545861297539,
+      "eval_loss": 0.5745174288749695,
+      "eval_runtime": 37.6254,
+      "eval_samples_per_second": 10.977,
+      "eval_steps_per_second": 2.764,
+      "eval_wer": 0.5648169468109602,
+      "step": 200
+    },
+    {
+      "epoch": 1.3400447427293065,
+      "grad_norm": 1.3078416585922241,
+      "learning_rate": 0.00029112291350531105,
+      "loss": 1.4309,
+      "step": 300
+    },
+    {
+      "epoch": 1.3400447427293065,
+      "eval_loss": 0.4451114535331726,
+      "eval_runtime": 37.5628,
+      "eval_samples_per_second": 10.995,
+      "eval_steps_per_second": 2.769,
+      "eval_wer": 0.5084043288049735,
+      "step": 300
+    },
+    {
+      "epoch": 1.7874720357941833,
+      "grad_norm": 2.0819265842437744,
+      "learning_rate": 0.00028657056145675266,
+      "loss": 1.1797,
+      "step": 400
+    },
+    {
+      "epoch": 1.7874720357941833,
+      "eval_loss": 0.4035033583641052,
+      "eval_runtime": 37.4523,
+      "eval_samples_per_second": 11.027,
+      "eval_steps_per_second": 2.777,
+      "eval_wer": 0.4828459590145061,
+      "step": 400
+    },
+    {
+      "epoch": 2.232662192393736,
+      "grad_norm": 1.5729206800460815,
+      "learning_rate": 0.0002820182094081942,
+      "loss": 1.1218,
+      "step": 500
+    },
+    {
+      "epoch": 2.232662192393736,
+      "eval_loss": 0.3912412226200104,
+      "eval_runtime": 37.719,
+      "eval_samples_per_second": 10.949,
+      "eval_steps_per_second": 2.757,
+      "eval_wer": 0.46626755698825695,
+      "step": 500
+    },
+    {
+      "epoch": 2.680089485458613,
+      "grad_norm": 2.3895416259765625,
+      "learning_rate": 0.0002774658573596358,
+      "loss": 1.0287,
+      "step": 600
+    },
+    {
+      "epoch": 2.680089485458613,
+      "eval_loss": 0.3837586045265198,
+      "eval_runtime": 37.3967,
+      "eval_samples_per_second": 11.044,
+      "eval_steps_per_second": 2.781,
+      "eval_wer": 0.4552152889707575,
+      "step": 600
+    },
+    {
+      "epoch": 3.1252796420581657,
+      "grad_norm": 1.5206655263900757,
+      "learning_rate": 0.0002729135053110774,
+      "loss": 0.9773,
+      "step": 700
+    },
+    {
+      "epoch": 3.1252796420581657,
+      "eval_loss": 0.37507927417755127,
+      "eval_runtime": 37.546,
+      "eval_samples_per_second": 11.0,
+      "eval_steps_per_second": 2.77,
+      "eval_wer": 0.4480773658761225,
+      "step": 700
+    },
+    {
+      "epoch": 3.5727069351230423,
+      "grad_norm": 2.374558448791504,
+      "learning_rate": 0.00026836115326251894,
+      "loss": 1.038,
+      "step": 800
+    },
+    {
+      "epoch": 3.5727069351230423,
+      "eval_loss": 0.36651042103767395,
+      "eval_runtime": 37.4792,
+      "eval_samples_per_second": 11.019,
+      "eval_steps_per_second": 2.775,
+      "eval_wer": 0.44209072069997696,
+      "step": 800
+    },
+    {
+      "epoch": 4.017897091722595,
+      "grad_norm": 2.0145270824432373,
+      "learning_rate": 0.00026380880121396055,
+      "loss": 0.9878,
+      "step": 900
+    },
+    {
+      "epoch": 4.017897091722595,
+      "eval_loss": 0.35713937878608704,
+      "eval_runtime": 37.7259,
+      "eval_samples_per_second": 10.947,
+      "eval_steps_per_second": 2.757,
+      "eval_wer": 0.43564356435643564,
+      "step": 900
+    },
+    {
+      "epoch": 4.465324384787472,
+      "grad_norm": 1.52614164352417,
+      "learning_rate": 0.0002592564491654021,
+      "loss": 0.9888,
+      "step": 1000
+    },
+    {
+      "epoch": 4.465324384787472,
+      "eval_loss": 0.35100919008255005,
+      "eval_runtime": 37.6548,
+      "eval_samples_per_second": 10.968,
+      "eval_steps_per_second": 2.762,
+      "eval_wer": 0.4358738199401335,
+      "step": 1000
+    },
+    {
+      "epoch": 4.912751677852349,
+      "grad_norm": 1.7655729055404663,
+      "learning_rate": 0.00025470409711684367,
+      "loss": 0.8904,
+      "step": 1100
+    },
+    {
+      "epoch": 4.912751677852349,
+      "eval_loss": 0.3498484194278717,
+      "eval_runtime": 37.5797,
+      "eval_samples_per_second": 10.99,
+      "eval_steps_per_second": 2.767,
+      "eval_wer": 0.41722311766060327,
+      "step": 1100
+    },
+    {
+      "epoch": 5.357941834451902,
+      "grad_norm": 2.1046483516693115,
+      "learning_rate": 0.0002501517450682852,
+      "loss": 0.8178,
+      "step": 1200
+    },
+    {
+      "epoch": 5.357941834451902,
+      "eval_loss": 0.34563127160072327,
+      "eval_runtime": 37.6354,
+      "eval_samples_per_second": 10.974,
+      "eval_steps_per_second": 2.763,
+      "eval_wer": 0.4151508174073221,
+      "step": 1200
+    },
+    {
+      "epoch": 5.805369127516778,
+      "grad_norm": 2.459388494491577,
+      "learning_rate": 0.00024559939301972683,
+      "loss": 0.9608,
+      "step": 1300
+    },
+    {
+      "epoch": 5.805369127516778,
+      "eval_loss": 0.33835238218307495,
+      "eval_runtime": 37.9136,
+      "eval_samples_per_second": 10.893,
+      "eval_steps_per_second": 2.743,
+      "eval_wer": 0.4183743955790928,
+      "step": 1300
+    },
+    {
+      "epoch": 6.250559284116331,
+      "grad_norm": 4.638967514038086,
+      "learning_rate": 0.00024104704097116842,
+      "loss": 0.9166,
+      "step": 1400
+    },
+    {
+      "epoch": 6.250559284116331,
+      "eval_loss": 0.34155401587486267,
+      "eval_runtime": 37.6783,
+      "eval_samples_per_second": 10.961,
+      "eval_steps_per_second": 2.76,
+      "eval_wer": 0.4098549389822703,
+      "step": 1400
+    },
+    {
+      "epoch": 6.697986577181208,
+      "grad_norm": 1.7996180057525635,
+      "learning_rate": 0.00023649468892261,
+      "loss": 0.8623,
+      "step": 1500
+    },
+    {
+      "epoch": 6.697986577181208,
+      "eval_loss": 0.33514168858528137,
+      "eval_runtime": 37.6459,
+      "eval_samples_per_second": 10.971,
+      "eval_steps_per_second": 2.763,
+      "eval_wer": 0.403407782638729,
+      "step": 1500
+    },
+    {
+      "epoch": 7.143176733780761,
+      "grad_norm": 1.3787713050842285,
+      "learning_rate": 0.00023194233687405159,
+      "loss": 0.823,
+      "step": 1600
+    },
+    {
+      "epoch": 7.143176733780761,
+      "eval_loss": 0.3305976688861847,
+      "eval_runtime": 37.6795,
+      "eval_samples_per_second": 10.961,
+      "eval_steps_per_second": 2.76,
+      "eval_wer": 0.3976513930462814,
+      "step": 1600
+    },
+    {
+      "epoch": 7.590604026845638,
+      "grad_norm": 1.2738311290740967,
+      "learning_rate": 0.00022738998482549317,
+      "loss": 0.8495,
+      "step": 1700
+    },
+    {
+      "epoch": 7.590604026845638,
+      "eval_loss": 0.3321482837200165,
+      "eval_runtime": 37.8989,
+      "eval_samples_per_second": 10.897,
+      "eval_steps_per_second": 2.744,
+      "eval_wer": 0.393737048123417,
+      "step": 1700
+    },
+    {
+      "epoch": 8.03579418344519,
+      "grad_norm": 2.3098723888397217,
+      "learning_rate": 0.00022283763277693473,
+      "loss": 0.8691,
+      "step": 1800
+    },
+    {
+      "epoch": 8.03579418344519,
+      "eval_loss": 0.3243669867515564,
+      "eval_runtime": 37.6551,
+      "eval_samples_per_second": 10.968,
+      "eval_steps_per_second": 2.762,
+      "eval_wer": 0.39857241538107296,
+      "step": 1800
+    },
+    {
+      "epoch": 8.483221476510067,
+      "grad_norm": 2.650418281555176,
+      "learning_rate": 0.0002182852807283763,
+      "loss": 0.8225,
+      "step": 1900
+    },
+    {
+      "epoch": 8.483221476510067,
+      "eval_loss": 0.32606178522109985,
+      "eval_runtime": 37.8584,
+      "eval_samples_per_second": 10.909,
+      "eval_steps_per_second": 2.747,
+      "eval_wer": 0.39557909279300024,
+      "step": 1900
+    },
+    {
+      "epoch": 8.930648769574944,
+      "grad_norm": 1.043278694152832,
+      "learning_rate": 0.0002137329286798179,
+      "loss": 0.8193,
+      "step": 2000
+    },
+    {
+      "epoch": 8.930648769574944,
+      "eval_loss": 0.32239243388175964,
+      "eval_runtime": 37.9035,
+      "eval_samples_per_second": 10.896,
+      "eval_steps_per_second": 2.744,
+      "eval_wer": 0.39212525903753165,
+      "step": 2000
+    },
+    {
+      "epoch": 9.375838926174497,
+      "grad_norm": 1.5510300397872925,
+      "learning_rate": 0.00020918057663125948,
+      "loss": 0.79,
+      "step": 2100
+    },
+    {
+      "epoch": 9.375838926174497,
+      "eval_loss": 0.3181034028530121,
+      "eval_runtime": 38.1472,
+      "eval_samples_per_second": 10.826,
+      "eval_steps_per_second": 2.726,
+      "eval_wer": 0.3884411696983652,
+      "step": 2100
+    },
+    {
+      "epoch": 9.823266219239374,
+      "grad_norm": 2.215151071548462,
+      "learning_rate": 0.00020462822458270106,
+      "loss": 0.8035,
+      "step": 2200
+    },
+    {
+      "epoch": 9.823266219239374,
+      "eval_loss": 0.3272099196910858,
+      "eval_runtime": 37.6966,
+      "eval_samples_per_second": 10.956,
+      "eval_steps_per_second": 2.759,
+      "eval_wer": 0.3886714252820631,
+      "step": 2200
+    },
+    {
+      "epoch": 10.268456375838927,
+      "grad_norm": 2.966920852661133,
+      "learning_rate": 0.00020007587253414265,
+      "loss": 0.8391,
+      "step": 2300
+    },
+    {
+      "epoch": 10.268456375838927,
+      "eval_loss": 0.31765347719192505,
+      "eval_runtime": 37.7253,
+      "eval_samples_per_second": 10.948,
+      "eval_steps_per_second": 2.757,
+      "eval_wer": 0.3893621920331568,
+      "step": 2300
+    },
+    {
+      "epoch": 10.715883668903803,
+      "grad_norm": 21.085424423217773,
+      "learning_rate": 0.00019556904400606977,
+      "loss": 0.8055,
+      "step": 2400
+    },
+    {
+      "epoch": 10.715883668903803,
+      "eval_loss": 0.32548072934150696,
+      "eval_runtime": 37.805,
+      "eval_samples_per_second": 10.924,
+      "eval_steps_per_second": 2.751,
+      "eval_wer": 0.3790006907667511,
+      "step": 2400
+    },
+    {
+      "epoch": 11.161073825503356,
+      "grad_norm": 1.2982721328735352,
+      "learning_rate": 0.00019101669195751135,
+      "loss": 0.7124,
+      "step": 2500
+    },
+    {
+      "epoch": 11.161073825503356,
+      "eval_loss": 0.3137281537055969,
+      "eval_runtime": 38.012,
+      "eval_samples_per_second": 10.865,
+      "eval_steps_per_second": 2.736,
+      "eval_wer": 0.39120423670274,
+      "step": 2500
+    },
+    {
+      "epoch": 11.608501118568233,
+      "grad_norm": 4.419574737548828,
+      "learning_rate": 0.00018646433990895294,
+      "loss": 0.7747,
+      "step": 2600
+    },
+    {
+      "epoch": 11.608501118568233,
+      "eval_loss": 0.32637959718704224,
+      "eval_runtime": 37.8933,
+      "eval_samples_per_second": 10.899,
+      "eval_steps_per_second": 2.745,
+      "eval_wer": 0.38498733594289664,
+      "step": 2600
+    },
+    {
+      "epoch": 12.053691275167786,
+      "grad_norm": 6.3560638427734375,
+      "learning_rate": 0.00018191198786039452,
+      "loss": 0.795,
+      "step": 2700
+    },
+    {
+      "epoch": 12.053691275167786,
+      "eval_loss": 0.3149665594100952,
+      "eval_runtime": 37.7892,
+      "eval_samples_per_second": 10.929,
+      "eval_steps_per_second": 2.752,
+      "eval_wer": 0.3852175915265945,
+      "step": 2700
+    },
+    {
+      "epoch": 12.501118568232663,
+      "grad_norm": 9.020240783691406,
+      "learning_rate": 0.0001773596358118361,
+      "loss": 0.7749,
+      "step": 2800
+    },
+    {
+      "epoch": 12.501118568232663,
+      "eval_loss": 0.3177170157432556,
+      "eval_runtime": 37.7963,
+      "eval_samples_per_second": 10.927,
+      "eval_steps_per_second": 2.752,
+      "eval_wer": 0.3806124798526364,
+      "step": 2800
+    },
+    {
+      "epoch": 12.94854586129754,
+      "grad_norm": 1.3808608055114746,
+      "learning_rate": 0.0001728072837632777,
+      "loss": 0.7364,
+      "step": 2900
+    },
+    {
+      "epoch": 12.94854586129754,
+      "eval_loss": 0.3149511516094208,
+      "eval_runtime": 38.0376,
+      "eval_samples_per_second": 10.858,
+      "eval_steps_per_second": 2.734,
+      "eval_wer": 0.37623762376237624,
+      "step": 2900
+    },
+    {
+      "epoch": 12.94854586129754,
+      "step": 2900,
+      "total_flos": 1.916331767234902e+19,
+      "train_loss": 1.512242957805765,
+      "train_runtime": 5075.2895,
+      "train_samples_per_second": 10.551,
+      "train_steps_per_second": 1.318
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 6690,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 4,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.916331767234902e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}