End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.toi.safetensors +1 -1
all_results.json +13 -13
eval_results.json +7 -7
runs/Jan03_15-37-18_srvrocgpu011.uct.ac.za/events.out.tfevents.1735915299.srvrocgpu011.uct.ac.za +3 -0
train_results.json +7 -7
trainer_state.json +257 -305

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-toigen-balanced-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3314
-- Wer: 0.3856
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- toigen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-toigen-balanced-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the TOIGEN - TOI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3234
+- Wer: 0.3755
 ## Model description

adapter.toi.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92c459e7b229b8b12b75b104db63cdcae0a13dfde2053a2dbaaf47ec6f45d4a9
 size 8793408

 version https://git-lfs.github.com/spec/v1
+oid sha256:4acdbd02780dbdbd87b295da519d4ebe4f7dcdb96a76aa54751353fc32048525
 size 8793408

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 12.053571428571429,
-    "eval_loss": 0.37403130531311035,
-    "eval_runtime": 17.8093,
-    "eval_samples": 204,
-    "eval_samples_per_second": 11.455,
-    "eval_steps_per_second": 2.864,
-    "eval_wer": 0.39895882631329865,
-    "total_flos": 9.163482510982138e+18,
-    "train_loss": 0.8344545293737341,
-    "train_runtime": 2390.0152,
-    "train_samples": 894,
-    "train_samples_per_second": 11.222,
-    "train_steps_per_second": 2.812
 }

 {
+    "epoch": 21.238938053097346,
+    "eval_loss": 0.32341432571411133,
+    "eval_runtime": 18.8763,
+    "eval_samples": 208,
+    "eval_samples_per_second": 11.019,
+    "eval_steps_per_second": 2.755,
+    "eval_wer": 0.37546296296296294,
+    "total_flos": 1.5969122077347269e+19,
+    "train_loss": 1.5763085651397706,
+    "train_runtime": 3424.9125,
+    "train_samples": 901,
+    "train_samples_per_second": 657.681,
+    "train_steps_per_second": 82.484
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 12.053571428571429,
-    "eval_loss": 0.37403130531311035,
-    "eval_runtime": 17.8093,
-    "eval_samples": 204,
-    "eval_samples_per_second": 11.455,
-    "eval_steps_per_second": 2.864,
-    "eval_wer": 0.39895882631329865
 }

 {
+    "epoch": 21.238938053097346,
+    "eval_loss": 0.32341432571411133,
+    "eval_runtime": 18.8763,
+    "eval_samples": 208,
+    "eval_samples_per_second": 11.019,
+    "eval_steps_per_second": 2.755,
+    "eval_wer": 0.37546296296296294
 }

runs/Jan03_15-37-18_srvrocgpu011.uct.ac.za/events.out.tfevents.1735915299.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92c30fc276364b2ab520b67a01f32b5ae9db7f3b55bf8ec65723bab0383e1cb6
+size 40

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 12.053571428571429,
-    "total_flos": 9.163482510982138e+18,
-    "train_loss": 0.8344545293737341,
-    "train_runtime": 2390.0152,
-    "train_samples": 894,
-    "train_samples_per_second": 11.222,
-    "train_steps_per_second": 2.812
 }

 {
+    "epoch": 21.238938053097346,
+    "total_flos": 1.5969122077347269e+19,
+    "train_loss": 1.5763085651397706,
+    "train_runtime": 3424.9125,
+    "train_samples": 901,
+    "train_samples_per_second": 657.681,
+    "train_steps_per_second": 82.484
 }

trainer_state.json CHANGED Viewed

@@ -1,468 +1,420 @@
 {
-  "best_metric": 0.3741886615753174,
-  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-toigen-balanced-model/checkpoint-2400",
-  "epoch": 12.053571428571429,
   "eval_steps": 100,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.44642857142857145,
-      "grad_norm": 3.282467842102051,
-      "learning_rate": 0.00028199999999999997,
-      "loss": 7.7726,
       "step": 100
     },
     {
-      "epoch": 0.44642857142857145,
-      "eval_loss": 3.8109493255615234,
-      "eval_runtime": 17.8235,
-      "eval_samples_per_second": 11.446,
-      "eval_steps_per_second": 2.861,
-      "eval_wer": 0.9938476100331283,
       "step": 100
     },
     {
-      "epoch": 0.8928571428571429,
-      "grad_norm": 2.164923667907715,
-      "learning_rate": 0.00029574018126888213,
-      "loss": 2.5726,
       "step": 200
     },
     {
-      "epoch": 0.8928571428571429,
-      "eval_loss": 0.8106288313865662,
-      "eval_runtime": 17.6933,
-      "eval_samples_per_second": 11.53,
-      "eval_steps_per_second": 2.882,
-      "eval_wer": 0.616658778987222,
       "step": 200
     },
     {
-      "epoch": 1.3392857142857144,
-      "grad_norm": 1.3534202575683594,
-      "learning_rate": 0.0002912084592145015,
-      "loss": 0.7986,
       "step": 300
     },
     {
-      "epoch": 1.3392857142857144,
-      "eval_loss": 0.5409455299377441,
-      "eval_runtime": 17.7815,
-      "eval_samples_per_second": 11.473,
-      "eval_steps_per_second": 2.868,
-      "eval_wer": 0.5257927117841931,
       "step": 300
     },
     {
-      "epoch": 1.7857142857142856,
-      "grad_norm": 0.9854668378829956,
-      "learning_rate": 0.00028667673716012085,
-      "loss": 0.6324,
       "step": 400
     },
     {
-      "epoch": 1.7857142857142856,
-      "eval_loss": 0.5256258845329285,
-      "eval_runtime": 17.7084,
-      "eval_samples_per_second": 11.52,
-      "eval_steps_per_second": 2.88,
-      "eval_wer": 0.5054424988168481,
       "step": 400
     },
     {
-      "epoch": 2.232142857142857,
-      "grad_norm": 18.835981369018555,
-      "learning_rate": 0.00028214501510574015,
-      "loss": 0.603,
       "step": 500
     },
     {
-      "epoch": 2.232142857142857,
-      "eval_loss": 0.4854464828968048,
-      "eval_runtime": 17.7046,
-      "eval_samples_per_second": 11.522,
-      "eval_steps_per_second": 2.881,
-      "eval_wer": 0.4831992427827733,
       "step": 500
     },
     {
-      "epoch": 2.678571428571429,
-      "grad_norm": 32.54256820678711,
-      "learning_rate": 0.0002776132930513595,
-      "loss": 0.59,
       "step": 600
     },
     {
-      "epoch": 2.678571428571429,
-      "eval_loss": 0.47332894802093506,
-      "eval_runtime": 17.6431,
-      "eval_samples_per_second": 11.563,
-      "eval_steps_per_second": 2.891,
-      "eval_wer": 0.4846190250828206,
       "step": 600
     },
     {
-      "epoch": 3.125,
-      "grad_norm": 1.3252086639404297,
-      "learning_rate": 0.0002730815709969788,
-      "loss": 0.5489,
       "step": 700
     },
     {
-      "epoch": 3.125,
-      "eval_loss": 0.4439888894557953,
-      "eval_runtime": 17.8297,
-      "eval_samples_per_second": 11.442,
-      "eval_steps_per_second": 2.86,
-      "eval_wer": 0.46568859441552296,
       "step": 700
     },
     {
-      "epoch": 3.571428571428571,
-      "grad_norm": 0.5452375411987305,
-      "learning_rate": 0.00026854984894259817,
-      "loss": 0.5173,
       "step": 800
     },
     {
-      "epoch": 3.571428571428571,
-      "eval_loss": 0.43219566345214844,
-      "eval_runtime": 17.6382,
-      "eval_samples_per_second": 11.566,
-      "eval_steps_per_second": 2.891,
-      "eval_wer": 0.45764316138192146,
       "step": 800
     },
     {
-      "epoch": 4.017857142857143,
-      "grad_norm": 0.7151035070419312,
-      "learning_rate": 0.0002640181268882175,
-      "loss": 0.5315,
       "step": 900
     },
     {
-      "epoch": 4.017857142857143,
-      "eval_loss": 0.4285721480846405,
-      "eval_runtime": 17.7542,
-      "eval_samples_per_second": 11.49,
-      "eval_steps_per_second": 2.873,
-      "eval_wer": 0.44533838144817794,
       "step": 900
     },
     {
-      "epoch": 4.464285714285714,
-      "grad_norm": 1.8268319368362427,
-      "learning_rate": 0.0002594864048338368,
-      "loss": 0.4912,
       "step": 1000
     },
     {
-      "epoch": 4.464285714285714,
-      "eval_loss": 0.42536306381225586,
-      "eval_runtime": 17.765,
-      "eval_samples_per_second": 11.483,
-      "eval_steps_per_second": 2.871,
-      "eval_wer": 0.4458116422148604,
       "step": 1000
     },
     {
-      "epoch": 4.910714285714286,
-      "grad_norm": 0.850709080696106,
-      "learning_rate": 0.0002549546827794562,
-      "loss": 0.4728,
       "step": 1100
     },
     {
-      "epoch": 4.910714285714286,
-      "eval_loss": 0.43455594778060913,
-      "eval_runtime": 17.7563,
-      "eval_samples_per_second": 11.489,
-      "eval_steps_per_second": 2.872,
-      "eval_wer": 0.44297207761476576,
       "step": 1100
     },
     {
-      "epoch": 5.357142857142857,
-      "grad_norm": 0.7361202836036682,
-      "learning_rate": 0.00025042296072507554,
-      "loss": 0.4989,
       "step": 1200
     },
     {
-      "epoch": 5.357142857142857,
-      "eval_loss": 0.40502411127090454,
-      "eval_runtime": 17.6139,
-      "eval_samples_per_second": 11.582,
-      "eval_steps_per_second": 2.895,
-      "eval_wer": 0.42924751538097494,
       "step": 1200
     },
     {
-      "epoch": 5.803571428571429,
-      "grad_norm": 1.305498719215393,
-      "learning_rate": 0.00024589123867069484,
-      "loss": 0.4661,
       "step": 1300
     },
     {
-      "epoch": 5.803571428571429,
-      "eval_loss": 0.4019148647785187,
-      "eval_runtime": 17.792,
-      "eval_samples_per_second": 11.466,
-      "eval_steps_per_second": 2.866,
-      "eval_wer": 0.4254614292475154,
       "step": 1300
     },
     {
-      "epoch": 6.25,
-      "grad_norm": 1.875386357307434,
-      "learning_rate": 0.00024135951661631417,
-      "loss": 0.4755,
       "step": 1400
     },
     {
-      "epoch": 6.25,
-      "eval_loss": 0.4128676652908325,
-      "eval_runtime": 17.7386,
-      "eval_samples_per_second": 11.5,
-      "eval_steps_per_second": 2.875,
-      "eval_wer": 0.44486512068149553,
       "step": 1400
     },
     {
-      "epoch": 6.696428571428571,
-      "grad_norm": 1.3318761587142944,
-      "learning_rate": 0.0002368277945619335,
-      "loss": 0.4603,
       "step": 1500
     },
     {
-      "epoch": 6.696428571428571,
-      "eval_loss": 0.40455254912376404,
-      "eval_runtime": 17.8115,
-      "eval_samples_per_second": 11.453,
-      "eval_steps_per_second": 2.863,
-      "eval_wer": 0.4254614292475154,
       "step": 1500
     },
     {
-      "epoch": 7.142857142857143,
-      "grad_norm": 1.7303593158721924,
-      "learning_rate": 0.00023229607250755283,
-      "loss": 0.4229,
       "step": 1600
     },
     {
-      "epoch": 7.142857142857143,
-      "eval_loss": 0.3939039707183838,
-      "eval_runtime": 17.7505,
-      "eval_samples_per_second": 11.493,
-      "eval_steps_per_second": 2.873,
-      "eval_wer": 0.41504969238050166,
       "step": 1600
     },
     {
-      "epoch": 7.589285714285714,
-      "grad_norm": 0.9812105894088745,
-      "learning_rate": 0.0002277643504531722,
-      "loss": 0.455,
       "step": 1700
     },
     {
-      "epoch": 7.589285714285714,
-      "eval_loss": 0.41328728199005127,
-      "eval_runtime": 17.7719,
-      "eval_samples_per_second": 11.479,
-      "eval_steps_per_second": 2.87,
-      "eval_wer": 0.41552295314718407,
       "step": 1700
     },
     {
-      "epoch": 8.035714285714286,
-      "grad_norm": 0.6829022765159607,
-      "learning_rate": 0.00022323262839879152,
-      "loss": 0.4501,
       "step": 1800
     },
     {
-      "epoch": 8.035714285714286,
-      "eval_loss": 0.3978167176246643,
-      "eval_runtime": 17.743,
-      "eval_samples_per_second": 11.497,
-      "eval_steps_per_second": 2.874,
-      "eval_wer": 0.4065309985802177,
       "step": 1800
     },
     {
-      "epoch": 8.482142857142858,
-      "grad_norm": 1.3150678873062134,
-      "learning_rate": 0.00021870090634441088,
-      "loss": 0.45,
       "step": 1900
     },
     {
-      "epoch": 8.482142857142858,
-      "eval_loss": 0.3925248682498932,
-      "eval_runtime": 17.6795,
-      "eval_samples_per_second": 11.539,
-      "eval_steps_per_second": 2.885,
-      "eval_wer": 0.42309512541410316,
       "step": 1900
     },
     {
-      "epoch": 8.928571428571429,
-      "grad_norm": 1.0976217985153198,
-      "learning_rate": 0.0002141691842900302,
-      "loss": 0.4226,
       "step": 2000
     },
     {
-      "epoch": 8.928571428571429,
-      "eval_loss": 0.3901020586490631,
-      "eval_runtime": 17.7714,
-      "eval_samples_per_second": 11.479,
-      "eval_steps_per_second": 2.87,
-      "eval_wer": 0.4098438239469948,
       "step": 2000
     },
     {
-      "epoch": 9.375,
-      "grad_norm": 0.727407693862915,
-      "learning_rate": 0.00020963746223564954,
-      "loss": 0.3973,
       "step": 2100
     },
     {
-      "epoch": 9.375,
-      "eval_loss": 0.38098010420799255,
-      "eval_runtime": 17.825,
-      "eval_samples_per_second": 11.445,
-      "eval_steps_per_second": 2.861,
-      "eval_wer": 0.4055844770468528,
       "step": 2100
     },
     {
-      "epoch": 9.821428571428571,
-      "grad_norm": 2.031233072280884,
-      "learning_rate": 0.00020510574018126884,
-      "loss": 0.4038,
       "step": 2200
     },
     {
-      "epoch": 9.821428571428571,
-      "eval_loss": 0.41775575280189514,
-      "eval_runtime": 17.8559,
-      "eval_samples_per_second": 11.425,
-      "eval_steps_per_second": 2.856,
-      "eval_wer": 0.4117368670137246,
       "step": 2200
     },
     {
-      "epoch": 10.267857142857142,
-      "grad_norm": 1.3557627201080322,
-      "learning_rate": 0.0002005740181268882,
-      "loss": 0.4559,
       "step": 2300
     },
     {
-      "epoch": 10.267857142857142,
-      "eval_loss": 0.38752201199531555,
-      "eval_runtime": 17.7454,
-      "eval_samples_per_second": 11.496,
-      "eval_steps_per_second": 2.874,
-      "eval_wer": 0.40747752011358257,
       "step": 2300
     },
     {
-      "epoch": 10.714285714285714,
-      "grad_norm": 0.7480702996253967,
-      "learning_rate": 0.00019604229607250753,
-      "loss": 0.4399,
       "step": 2400
     },
     {
-      "epoch": 10.714285714285714,
-      "eval_loss": 0.3741886615753174,
-      "eval_runtime": 17.7283,
-      "eval_samples_per_second": 11.507,
-      "eval_steps_per_second": 2.877,
-      "eval_wer": 0.39895882631329865,
       "step": 2400
     },
     {
-      "epoch": 11.160714285714286,
-      "grad_norm": 1.065514087677002,
-      "learning_rate": 0.00019151057401812688,
-      "loss": 0.3545,
-      "step": 2500
-    },
-    {
-      "epoch": 11.160714285714286,
-      "eval_loss": 0.38181087374687195,
-      "eval_runtime": 17.8745,
-      "eval_samples_per_second": 11.413,
-      "eval_steps_per_second": 2.853,
-      "eval_wer": 0.40132513014671084,
-      "step": 2500
-    },
-    {
-      "epoch": 11.607142857142858,
-      "grad_norm": 1.19502854347229,
-      "learning_rate": 0.0001869788519637462,
-      "loss": 0.4452,
-      "step": 2600
-    },
-    {
-      "epoch": 11.607142857142858,
-      "eval_loss": 0.3905617594718933,
-      "eval_runtime": 17.8748,
-      "eval_samples_per_second": 11.413,
-      "eval_steps_per_second": 2.853,
-      "eval_wer": 0.39801230477993377,
-      "step": 2600
-    },
-    {
-      "epoch": 12.053571428571429,
-      "grad_norm": 0.8653120994567871,
-      "learning_rate": 0.00018244712990936554,
-      "loss": 0.4014,
-      "step": 2700
-    },
-    {
-      "epoch": 12.053571428571429,
-      "eval_loss": 0.3751629889011383,
-      "eval_runtime": 17.7431,
-      "eval_samples_per_second": 11.497,
-      "eval_steps_per_second": 2.874,
-      "eval_wer": 0.39990534784666354,
-      "step": 2700
-    },
-    {
-      "epoch": 12.053571428571429,
-      "step": 2700,
-      "total_flos": 9.163482510982138e+18,
-      "train_loss": 0.8344545293737341,
-      "train_runtime": 2390.0152,
-      "train_samples_per_second": 11.222,
-      "train_steps_per_second": 2.812
     }
   ],
   "logging_steps": 100,
-  "max_steps": 6720,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
   "save_steps": 400,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
-        "early_stopping_patience": 3,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -471,12 +423,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.163482510982138e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.32343700528144836,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-toigen-balanced-model/checkpoint-2000",
+  "epoch": 21.238938053097346,
   "eval_steps": 100,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.8849557522123894,
+      "grad_norm": 3.8822503089904785,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 14.2297,
       "step": 100
     },
     {
+      "epoch": 0.8849557522123894,
+      "eval_loss": 3.483584403991699,
+      "eval_runtime": 18.7703,
+      "eval_samples_per_second": 11.081,
+      "eval_steps_per_second": 2.77,
+      "eval_wer": 1.0055555555555555,
       "step": 100
     },
     {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 3.1678736209869385,
+      "learning_rate": 0.0002998980169971671,
+      "loss": 4.1389,
       "step": 200
     },
     {
+      "epoch": 1.7699115044247788,
+      "eval_loss": 0.5561802983283997,
+      "eval_runtime": 18.75,
+      "eval_samples_per_second": 11.093,
+      "eval_steps_per_second": 2.773,
+      "eval_wer": 0.5694444444444444,
       "step": 200
     },
     {
+      "epoch": 2.6548672566371683,
+      "grad_norm": 1.6712620258331299,
+      "learning_rate": 0.00029979178470254956,
+      "loss": 1.3643,
       "step": 300
     },
     {
+      "epoch": 2.6548672566371683,
+      "eval_loss": 0.4360348582267761,
+      "eval_runtime": 18.7668,
+      "eval_samples_per_second": 11.083,
+      "eval_steps_per_second": 2.771,
+      "eval_wer": 0.49583333333333335,
       "step": 300
     },
     {
+      "epoch": 3.5398230088495577,
+      "grad_norm": 1.3147025108337402,
+      "learning_rate": 0.00029968555240793195,
+      "loss": 1.1715,
       "step": 400
     },
     {
+      "epoch": 3.5398230088495577,
+      "eval_loss": 0.3980385661125183,
+      "eval_runtime": 18.8024,
+      "eval_samples_per_second": 11.062,
+      "eval_steps_per_second": 2.766,
+      "eval_wer": 0.4824074074074074,
       "step": 400
     },
     {
+      "epoch": 4.424778761061947,
+      "grad_norm": 1.7749208211898804,
+      "learning_rate": 0.00029957932011331445,
+      "loss": 1.1309,
       "step": 500
     },
     {
+      "epoch": 4.424778761061947,
+      "eval_loss": 0.37851694226264954,
+      "eval_runtime": 19.1098,
+      "eval_samples_per_second": 10.884,
+      "eval_steps_per_second": 2.721,
+      "eval_wer": 0.4583333333333333,
       "step": 500
     },
     {
+      "epoch": 5.3097345132743365,
+      "grad_norm": 1.853244662284851,
+      "learning_rate": 0.0002994730878186969,
+      "loss": 1.0283,
       "step": 600
     },
     {
+      "epoch": 5.3097345132743365,
+      "eval_loss": 0.37413156032562256,
+      "eval_runtime": 18.6437,
+      "eval_samples_per_second": 11.157,
+      "eval_steps_per_second": 2.789,
+      "eval_wer": 0.4476851851851852,
       "step": 600
     },
     {
+      "epoch": 6.1946902654867255,
+      "grad_norm": 1.4990218877792358,
+      "learning_rate": 0.0002993668555240793,
+      "loss": 1.0148,
       "step": 700
     },
     {
+      "epoch": 6.1946902654867255,
+      "eval_loss": 0.36694276332855225,
+      "eval_runtime": 18.6699,
+      "eval_samples_per_second": 11.141,
+      "eval_steps_per_second": 2.785,
+      "eval_wer": 0.44027777777777777,
       "step": 700
     },
     {
+      "epoch": 7.079646017699115,
+      "grad_norm": 2.7431230545043945,
+      "learning_rate": 0.0002992606232294617,
+      "loss": 0.9961,
       "step": 800
     },
     {
+      "epoch": 7.079646017699115,
+      "eval_loss": 0.36071425676345825,
+      "eval_runtime": 18.6525,
+      "eval_samples_per_second": 11.151,
+      "eval_steps_per_second": 2.788,
+      "eval_wer": 0.4356481481481482,
       "step": 800
     },
     {
+      "epoch": 7.964601769911504,
+      "grad_norm": 2.0985348224639893,
+      "learning_rate": 0.00029915439093484416,
+      "loss": 0.9248,
       "step": 900
     },
     {
+      "epoch": 7.964601769911504,
+      "eval_loss": 0.3580877482891083,
+      "eval_runtime": 18.871,
+      "eval_samples_per_second": 11.022,
+      "eval_steps_per_second": 2.756,
+      "eval_wer": 0.4236111111111111,
       "step": 900
     },
     {
+      "epoch": 8.849557522123893,
+      "grad_norm": 1.3972795009613037,
+      "learning_rate": 0.0002990481586402266,
+      "loss": 0.9482,
       "step": 1000
     },
     {
+      "epoch": 8.849557522123893,
+      "eval_loss": 0.3462725281715393,
+      "eval_runtime": 18.815,
+      "eval_samples_per_second": 11.055,
+      "eval_steps_per_second": 2.764,
+      "eval_wer": 0.4356481481481482,
       "step": 1000
     },
     {
+      "epoch": 9.734513274336283,
+      "grad_norm": 3.017667293548584,
+      "learning_rate": 0.00029894192634560905,
+      "loss": 0.8815,
       "step": 1100
     },
     {
+      "epoch": 9.734513274336283,
+      "eval_loss": 0.3487873673439026,
+      "eval_runtime": 18.8526,
+      "eval_samples_per_second": 11.033,
+      "eval_steps_per_second": 2.758,
+      "eval_wer": 0.4273148148148148,
       "step": 1100
     },
     {
+      "epoch": 10.619469026548673,
+      "grad_norm": 1.357649803161621,
+      "learning_rate": 0.0002988356940509915,
+      "loss": 0.8209,
       "step": 1200
     },
     {
+      "epoch": 10.619469026548673,
+      "eval_loss": 0.33840110898017883,
+      "eval_runtime": 18.6886,
+      "eval_samples_per_second": 11.13,
+      "eval_steps_per_second": 2.782,
+      "eval_wer": 0.4,
       "step": 1200
     },
     {
+      "epoch": 11.504424778761061,
+      "grad_norm": 1.8951735496520996,
+      "learning_rate": 0.00029872946175637393,
+      "loss": 0.8754,
       "step": 1300
     },
     {
+      "epoch": 11.504424778761061,
+      "eval_loss": 0.3459264636039734,
+      "eval_runtime": 18.8754,
+      "eval_samples_per_second": 11.02,
+      "eval_steps_per_second": 2.755,
+      "eval_wer": 0.4050925925925926,
       "step": 1300
     },
     {
+      "epoch": 12.389380530973451,
+      "grad_norm": 1.3216720819473267,
+      "learning_rate": 0.0002986232294617563,
+      "loss": 0.8454,
       "step": 1400
     },
     {
+      "epoch": 12.389380530973451,
+      "eval_loss": 0.33166107535362244,
+      "eval_runtime": 18.7736,
+      "eval_samples_per_second": 11.079,
+      "eval_steps_per_second": 2.77,
+      "eval_wer": 0.38842592592592595,
       "step": 1400
     },
     {
+      "epoch": 13.274336283185841,
+      "grad_norm": 2.39943528175354,
+      "learning_rate": 0.00029851699716713876,
+      "loss": 0.8164,
       "step": 1500
     },
     {
+      "epoch": 13.274336283185841,
+      "eval_loss": 0.33193060755729675,
+      "eval_runtime": 18.8153,
+      "eval_samples_per_second": 11.055,
+      "eval_steps_per_second": 2.764,
+      "eval_wer": 0.40324074074074073,
       "step": 1500
     },
     {
+      "epoch": 14.15929203539823,
+      "grad_norm": 6.335964202880859,
+      "learning_rate": 0.00029841076487252126,
+      "loss": 0.7673,
       "step": 1600
     },
     {
+      "epoch": 14.15929203539823,
+      "eval_loss": 0.33113545179367065,
+      "eval_runtime": 18.711,
+      "eval_samples_per_second": 11.116,
+      "eval_steps_per_second": 2.779,
+      "eval_wer": 0.3921296296296296,
       "step": 1600
     },
     {
+      "epoch": 15.044247787610619,
+      "grad_norm": 1.1695411205291748,
+      "learning_rate": 0.00029830559490084984,
+      "loss": 0.7953,
       "step": 1700
     },
     {
+      "epoch": 15.044247787610619,
+      "eval_loss": 0.33329564332962036,
+      "eval_runtime": 18.8623,
+      "eval_samples_per_second": 11.027,
+      "eval_steps_per_second": 2.757,
+      "eval_wer": 0.39444444444444443,
       "step": 1700
     },
     {
+      "epoch": 15.929203539823009,
+      "grad_norm": 13.718667030334473,
+      "learning_rate": 0.0002981993626062323,
+      "loss": 0.7527,
       "step": 1800
     },
     {
+      "epoch": 15.929203539823009,
+      "eval_loss": 0.3312545120716095,
+      "eval_runtime": 18.8046,
+      "eval_samples_per_second": 11.061,
+      "eval_steps_per_second": 2.765,
+      "eval_wer": 0.39166666666666666,
       "step": 1800
     },
     {
+      "epoch": 16.8141592920354,
+      "grad_norm": 1.9348554611206055,
+      "learning_rate": 0.0002980931303116147,
+      "loss": 0.763,
       "step": 1900
     },
     {
+      "epoch": 16.8141592920354,
+      "eval_loss": 0.3277539610862732,
+      "eval_runtime": 18.7599,
+      "eval_samples_per_second": 11.087,
+      "eval_steps_per_second": 2.772,
+      "eval_wer": 0.39305555555555555,
       "step": 1900
     },
     {
+      "epoch": 17.699115044247787,
+      "grad_norm": 18.476669311523438,
+      "learning_rate": 0.0002979868980169971,
+      "loss": 0.7319,
       "step": 2000
     },
     {
+      "epoch": 17.699115044247787,
+      "eval_loss": 0.32343700528144836,
+      "eval_runtime": 18.8597,
+      "eval_samples_per_second": 11.029,
+      "eval_steps_per_second": 2.757,
+      "eval_wer": 0.37546296296296294,
       "step": 2000
     },
     {
+      "epoch": 18.58407079646018,
+      "grad_norm": 2.2555744647979736,
+      "learning_rate": 0.00029788066572237955,
+      "loss": 0.7352,
       "step": 2100
     },
     {
+      "epoch": 18.58407079646018,
+      "eval_loss": 0.3248392343521118,
+      "eval_runtime": 18.8863,
+      "eval_samples_per_second": 11.013,
+      "eval_steps_per_second": 2.753,
+      "eval_wer": 0.38055555555555554,
       "step": 2100
     },
     {
+      "epoch": 19.469026548672566,
+      "grad_norm": 2.2022745609283447,
+      "learning_rate": 0.00029777443342776205,
+      "loss": 0.7017,
       "step": 2200
     },
     {
+      "epoch": 19.469026548672566,
+      "eval_loss": 0.3333507776260376,
+      "eval_runtime": 18.7742,
+      "eval_samples_per_second": 11.079,
+      "eval_steps_per_second": 2.77,
+      "eval_wer": 0.3851851851851852,
       "step": 2200
     },
     {
+      "epoch": 20.353982300884955,
+      "grad_norm": 7.710162162780762,
+      "learning_rate": 0.00029766820113314444,
+      "loss": 0.6902,
       "step": 2300
     },
     {
+      "epoch": 20.353982300884955,
+      "eval_loss": 0.330443412065506,
+      "eval_runtime": 18.756,
+      "eval_samples_per_second": 11.09,
+      "eval_steps_per_second": 2.772,
+      "eval_wer": 0.3888888888888889,
       "step": 2300
     },
     {
+      "epoch": 21.238938053097346,
+      "grad_norm": 3.896944522857666,
+      "learning_rate": 0.0002975619688385269,
+      "loss": 0.707,
       "step": 2400
     },
     {
+      "epoch": 21.238938053097346,
+      "eval_loss": 0.3313958942890167,
+      "eval_runtime": 18.7923,
+      "eval_samples_per_second": 11.068,
+      "eval_steps_per_second": 2.767,
+      "eval_wer": 0.38564814814814813,
       "step": 2400
     },
     {
+      "epoch": 21.238938053097346,
+      "step": 2400,
+      "total_flos": 1.5969122077347269e+19,
+      "train_loss": 1.5763085651397706,
+      "train_runtime": 3424.9125,
+      "train_samples_per_second": 657.681,
+      "train_steps_per_second": 82.484
     }
   ],
   "logging_steps": 100,
+  "max_steps": 282500,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2500,
   "save_steps": 400,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
+        "early_stopping_patience": 4,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 4
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.5969122077347269e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null