tuanio
/

w2v2_ablation_with_ling_head-drop0.1-not-load-best-wer-best_on_tp0.025_tl10_fp0.001_fl16

Transformers

Safetensors

wav2vec2

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

tuanio commited on Nov 23, 2023

Commit

9422758

1 Parent(s): db13ac1

End of training

Browse files

Files changed (1) hide show

trainer_state.json +1618 -0

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1618 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 100.0,
+  "eval_steps": 100,
+  "global_step": 10600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.3396226415094341e-06,
+      "loss": 119.415,
+      "step": 100
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 91.51124572753906,
+      "eval_runtime": 2.4593,
+      "eval_samples_per_second": 291.548,
+      "eval_steps_per_second": 4.879,
+      "eval_wer": 18.636386386386388,
+      "step": 100
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3.2264150943396226e-06,
+      "loss": 74.7916,
+      "step": 200
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 12.292832374572754,
+      "eval_runtime": 1.6185,
+      "eval_samples_per_second": 443.014,
+      "eval_steps_per_second": 7.414,
+      "eval_wer": 0.9950784117450784,
+      "step": 200
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 5.1132075471698114e-06,
+      "loss": 6.9068,
+      "step": 300
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 5.234492301940918,
+      "eval_runtime": 1.5874,
+      "eval_samples_per_second": 451.676,
+      "eval_steps_per_second": 7.559,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 7e-06,
+      "loss": 5.1207,
+      "step": 400
+    },
+    {
+      "epoch": 3.77,
+      "eval_loss": 5.036521911621094,
+      "eval_runtime": 1.6963,
+      "eval_samples_per_second": 422.679,
+      "eval_steps_per_second": 7.074,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 8.88679245283019e-06,
+      "loss": 4.7306,
+      "step": 500
+    },
+    {
+      "epoch": 4.72,
+      "eval_loss": 4.915191650390625,
+      "eval_runtime": 1.5665,
+      "eval_samples_per_second": 457.698,
+      "eval_steps_per_second": 7.66,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 1.077358490566038e-05,
+      "loss": 4.4974,
+      "step": 600
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 4.9314799308776855,
+      "eval_runtime": 1.6678,
+      "eval_samples_per_second": 429.898,
+      "eval_steps_per_second": 7.195,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 1.2660377358490568e-05,
+      "loss": 4.3923,
+      "step": 700
+    },
+    {
+      "epoch": 6.6,
+      "eval_loss": 4.791795253753662,
+      "eval_runtime": 1.6083,
+      "eval_samples_per_second": 445.801,
+      "eval_steps_per_second": 7.461,
+      "eval_wer": 1.0,
+      "step": 700
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 1.4547169811320756e-05,
+      "loss": 4.3447,
+      "step": 800
+    },
+    {
+      "epoch": 7.55,
+      "eval_loss": 4.644739627838135,
+      "eval_runtime": 1.551,
+      "eval_samples_per_second": 462.283,
+      "eval_steps_per_second": 7.737,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 1.6433962264150943e-05,
+      "loss": 4.225,
+      "step": 900
+    },
+    {
+      "epoch": 8.49,
+      "eval_loss": 4.6060686111450195,
+      "eval_runtime": 1.5063,
+      "eval_samples_per_second": 476.004,
+      "eval_steps_per_second": 7.967,
+      "eval_wer": 1.0,
+      "step": 900
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 1.832075471698113e-05,
+      "loss": 3.9805,
+      "step": 1000
+    },
+    {
+      "epoch": 9.43,
+      "eval_loss": 3.642165422439575,
+      "eval_runtime": 1.5007,
+      "eval_samples_per_second": 477.771,
+      "eval_steps_per_second": 7.996,
+      "eval_wer": 0.87328995662329,
+      "step": 1000
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 1.99999343918343e-05,
+      "loss": 2.8303,
+      "step": 1100
+    },
+    {
+      "epoch": 10.38,
+      "eval_loss": 1.782403588294983,
+      "eval_runtime": 1.6315,
+      "eval_samples_per_second": 439.485,
+      "eval_steps_per_second": 7.355,
+      "eval_wer": 0.34893226559893226,
+      "step": 1100
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 1.999332009015375e-05,
+      "loss": 1.5807,
+      "step": 1200
+    },
+    {
+      "epoch": 11.32,
+      "eval_loss": 1.090773105621338,
+      "eval_runtime": 1.5184,
+      "eval_samples_per_second": 472.209,
+      "eval_steps_per_second": 7.903,
+      "eval_wer": 0.21621621621621623,
+      "step": 1200
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 1.9975869674932303e-05,
+      "loss": 1.1284,
+      "step": 1300
+    },
+    {
+      "epoch": 12.26,
+      "eval_loss": 0.8473044037818909,
+      "eval_runtime": 1.6911,
+      "eval_samples_per_second": 423.989,
+      "eval_steps_per_second": 7.096,
+      "eval_wer": 0.16399733066399733,
+      "step": 1300
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 1.9947602068277822e-05,
+      "loss": 0.8703,
+      "step": 1400
+    },
+    {
+      "epoch": 13.21,
+      "eval_loss": 0.7322315573692322,
+      "eval_runtime": 1.5817,
+      "eval_samples_per_second": 453.303,
+      "eval_steps_per_second": 7.587,
+      "eval_wer": 0.142308975642309,
+      "step": 1400
+    },
+    {
+      "epoch": 14.15,
+      "learning_rate": 1.9908547921764814e-05,
+      "loss": 0.7576,
+      "step": 1500
+    },
+    {
+      "epoch": 14.15,
+      "eval_loss": 0.6551467180252075,
+      "eval_runtime": 1.5088,
+      "eval_samples_per_second": 475.207,
+      "eval_steps_per_second": 7.953,
+      "eval_wer": 0.13254921588254923,
+      "step": 1500
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 1.985874958319781e-05,
+      "loss": 0.6256,
+      "step": 1600
+    },
+    {
+      "epoch": 15.09,
+      "eval_loss": 0.6027040481567383,
+      "eval_runtime": 1.5077,
+      "eval_samples_per_second": 475.558,
+      "eval_steps_per_second": 7.959,
+      "eval_wer": 0.13872205538872207,
+      "step": 1600
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 1.9798261050692154e-05,
+      "loss": 0.594,
+      "step": 1700
+    },
+    {
+      "epoch": 16.04,
+      "eval_loss": 0.5549562573432922,
+      "eval_runtime": 1.5493,
+      "eval_samples_per_second": 462.792,
+      "eval_steps_per_second": 7.745,
+      "eval_wer": 0.13004671338004672,
+      "step": 1700
+    },
+    {
+      "epoch": 16.98,
+      "learning_rate": 1.9727147914121905e-05,
+      "loss": 0.5492,
+      "step": 1800
+    },
+    {
+      "epoch": 16.98,
+      "eval_loss": 0.5200316309928894,
+      "eval_runtime": 1.5968,
+      "eval_samples_per_second": 449.021,
+      "eval_steps_per_second": 7.515,
+      "eval_wer": 0.11594928261594928,
+      "step": 1800
+    },
+    {
+      "epoch": 17.92,
+      "learning_rate": 1.96454872839984e-05,
+      "loss": 0.476,
+      "step": 1900
+    },
+    {
+      "epoch": 17.92,
+      "eval_loss": 0.5012216567993164,
+      "eval_runtime": 1.6883,
+      "eval_samples_per_second": 424.678,
+      "eval_steps_per_second": 7.108,
+      "eval_wer": 0.1091091091091091,
+      "step": 1900
+    },
+    {
+      "epoch": 18.87,
+      "learning_rate": 1.9553367707856575e-05,
+      "loss": 0.4822,
+      "step": 2000
+    },
+    {
+      "epoch": 18.87,
+      "eval_loss": 0.5111868977546692,
+      "eval_runtime": 1.579,
+      "eval_samples_per_second": 454.084,
+      "eval_steps_per_second": 7.6,
+      "eval_wer": 0.10735735735735735,
+      "step": 2000
+    },
+    {
+      "epoch": 19.81,
+      "learning_rate": 1.9450889074239728e-05,
+      "loss": 0.4351,
+      "step": 2100
+    },
+    {
+      "epoch": 19.81,
+      "eval_loss": 0.4985233247280121,
+      "eval_runtime": 1.6359,
+      "eval_samples_per_second": 438.301,
+      "eval_steps_per_second": 7.336,
+      "eval_wer": 0.11786786786786786,
+      "step": 2100
+    },
+    {
+      "epoch": 20.75,
+      "learning_rate": 1.9338162504386778e-05,
+      "loss": 0.4169,
+      "step": 2200
+    },
+    {
+      "epoch": 20.75,
+      "eval_loss": 0.47119975090026855,
+      "eval_runtime": 1.6934,
+      "eval_samples_per_second": 423.414,
+      "eval_steps_per_second": 7.086,
+      "eval_wer": 0.1061061061061061,
+      "step": 2200
+    },
+    {
+      "epoch": 21.7,
+      "learning_rate": 1.9216588448323045e-05,
+      "loss": 0.3957,
+      "step": 2300
+    },
+    {
+      "epoch": 21.7,
+      "eval_loss": 0.461343377828598,
+      "eval_runtime": 1.5127,
+      "eval_samples_per_second": 473.993,
+      "eval_steps_per_second": 7.933,
+      "eval_wer": 0.09876543209876543,
+      "step": 2300
+    },
+    {
+      "epoch": 22.64,
+      "learning_rate": 1.908384291577325e-05,
+      "loss": 0.3885,
+      "step": 2400
+    },
+    {
+      "epoch": 22.64,
+      "eval_loss": 0.4609617590904236,
+      "eval_runtime": 1.6911,
+      "eval_samples_per_second": 423.997,
+      "eval_steps_per_second": 7.096,
+      "eval_wer": 0.10251918585251918,
+      "step": 2400
+    },
+    {
+      "epoch": 23.58,
+      "learning_rate": 1.8941247448233386e-05,
+      "loss": 0.3827,
+      "step": 2500
+    },
+    {
+      "epoch": 23.58,
+      "eval_loss": 0.4508582353591919,
+      "eval_runtime": 1.6027,
+      "eval_samples_per_second": 447.383,
+      "eval_steps_per_second": 7.488,
+      "eval_wer": 0.09784784784784785,
+      "step": 2500
+    },
+    {
+      "epoch": 24.53,
+      "learning_rate": 1.878895666705679e-05,
+      "loss": 0.3468,
+      "step": 2600
+    },
+    {
+      "epoch": 24.53,
+      "eval_loss": 0.45491451025009155,
+      "eval_runtime": 1.5761,
+      "eval_samples_per_second": 454.906,
+      "eval_steps_per_second": 7.613,
+      "eval_wer": 0.09509509509509509,
+      "step": 2600
+    },
+    {
+      "epoch": 25.47,
+      "learning_rate": 1.8627135706571312e-05,
+      "loss": 0.3451,
+      "step": 2700
+    },
+    {
+      "epoch": 25.47,
+      "eval_loss": 0.4556306004524231,
+      "eval_runtime": 1.5067,
+      "eval_samples_per_second": 475.867,
+      "eval_steps_per_second": 7.964,
+      "eval_wer": 0.10185185185185185,
+      "step": 2700
+    },
+    {
+      "epoch": 26.42,
+      "learning_rate": 1.845596003501826e-05,
+      "loss": 0.3234,
+      "step": 2800
+    },
+    {
+      "epoch": 26.42,
+      "eval_loss": 0.4554463028907776,
+      "eval_runtime": 1.5115,
+      "eval_samples_per_second": 474.37,
+      "eval_steps_per_second": 7.939,
+      "eval_wer": 0.11036036036036036,
+      "step": 2800
+    },
+    {
+      "epoch": 27.36,
+      "learning_rate": 1.827746346507147e-05,
+      "loss": 0.31,
+      "step": 2900
+    },
+    {
+      "epoch": 27.36,
+      "eval_loss": 0.45678067207336426,
+      "eval_runtime": 1.6353,
+      "eval_samples_per_second": 438.463,
+      "eval_steps_per_second": 7.338,
+      "eval_wer": 0.09876543209876543,
+      "step": 2900
+    },
+    {
+      "epoch": 28.3,
+      "learning_rate": 1.808823388475444e-05,
+      "loss": 0.3026,
+      "step": 3000
+    },
+    {
+      "epoch": 28.3,
+      "eval_loss": 0.42110905051231384,
+      "eval_runtime": 1.5124,
+      "eval_samples_per_second": 474.068,
+      "eval_steps_per_second": 7.934,
+      "eval_wer": 0.09651317984651318,
+      "step": 3000
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 1.7890233943843542e-05,
+      "loss": 0.2905,
+      "step": 3100
+    },
+    {
+      "epoch": 29.25,
+      "eval_loss": 0.4305020570755005,
+      "eval_runtime": 1.7063,
+      "eval_samples_per_second": 420.202,
+      "eval_steps_per_second": 7.033,
+      "eval_wer": 0.09109109109109109,
+      "step": 3100
+    },
+    {
+      "epoch": 30.19,
+      "learning_rate": 1.7683678340739462e-05,
+      "loss": 0.2964,
+      "step": 3200
+    },
+    {
+      "epoch": 30.19,
+      "eval_loss": 0.4379400908946991,
+      "eval_runtime": 1.587,
+      "eval_samples_per_second": 451.796,
+      "eval_steps_per_second": 7.561,
+      "eval_wer": 0.09901568234901569,
+      "step": 3200
+    },
+    {
+      "epoch": 31.13,
+      "learning_rate": 1.7468791051052658e-05,
+      "loss": 0.302,
+      "step": 3300
+    },
+    {
+      "epoch": 31.13,
+      "eval_loss": 0.4378632605075836,
+      "eval_runtime": 1.53,
+      "eval_samples_per_second": 468.64,
+      "eval_steps_per_second": 7.843,
+      "eval_wer": 0.09434434434434434,
+      "step": 3300
+    },
+    {
+      "epoch": 32.08,
+      "learning_rate": 1.724580508473864e-05,
+      "loss": 0.2576,
+      "step": 3400
+    },
+    {
+      "epoch": 32.08,
+      "eval_loss": 0.4293440580368042,
+      "eval_runtime": 1.5058,
+      "eval_samples_per_second": 476.172,
+      "eval_steps_per_second": 7.969,
+      "eval_wer": 0.09325992659325992,
+      "step": 3400
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 1.701496223343694e-05,
+      "loss": 0.2771,
+      "step": 3500
+    },
+    {
+      "epoch": 33.02,
+      "eval_loss": 0.4239462912082672,
+      "eval_runtime": 1.6211,
+      "eval_samples_per_second": 442.284,
+      "eval_steps_per_second": 7.402,
+      "eval_wer": 0.09284284284284285,
+      "step": 3500
+    },
+    {
+      "epoch": 33.96,
+      "learning_rate": 1.6776512808287824e-05,
+      "loss": 0.268,
+      "step": 3600
+    },
+    {
+      "epoch": 33.96,
+      "eval_loss": 0.4228218197822571,
+      "eval_runtime": 1.5118,
+      "eval_samples_per_second": 474.255,
+      "eval_steps_per_second": 7.937,
+      "eval_wer": 0.08942275608942275,
+      "step": 3600
+    },
+    {
+      "epoch": 34.91,
+      "learning_rate": 1.653071536851099e-05,
+      "loss": 0.2458,
+      "step": 3700
+    },
+    {
+      "epoch": 34.91,
+      "eval_loss": 0.42878738045692444,
+      "eval_runtime": 1.6354,
+      "eval_samples_per_second": 438.42,
+      "eval_steps_per_second": 7.338,
+      "eval_wer": 0.08992325658992326,
+      "step": 3700
+    },
+    {
+      "epoch": 35.85,
+      "learning_rate": 1.627783644104057e-05,
+      "loss": 0.2553,
+      "step": 3800
+    },
+    {
+      "epoch": 35.85,
+      "eval_loss": 0.4312421977519989,
+      "eval_runtime": 1.6977,
+      "eval_samples_per_second": 422.341,
+      "eval_steps_per_second": 7.068,
+      "eval_wer": 0.0965965965965966,
+      "step": 3800
+    },
+    {
+      "epoch": 36.79,
+      "learning_rate": 1.6018150231520486e-05,
+      "loss": 0.2424,
+      "step": 3900
+    },
+    {
+      "epoch": 36.79,
+      "eval_loss": 0.4162088632583618,
+      "eval_runtime": 1.5323,
+      "eval_samples_per_second": 467.924,
+      "eval_steps_per_second": 7.831,
+      "eval_wer": 0.09167500834167501,
+      "step": 3900
+    },
+    {
+      "epoch": 37.74,
+      "learning_rate": 1.575193832697346e-05,
+      "loss": 0.2501,
+      "step": 4000
+    },
+    {
+      "epoch": 37.74,
+      "eval_loss": 0.4087802469730377,
+      "eval_runtime": 1.6438,
+      "eval_samples_per_second": 436.174,
+      "eval_steps_per_second": 7.3,
+      "eval_wer": 0.08400066733400066,
+      "step": 4000
+    },
+    {
+      "epoch": 38.68,
+      "learning_rate": 1.5479489390466186e-05,
+      "loss": 0.2498,
+      "step": 4100
+    },
+    {
+      "epoch": 38.68,
+      "eval_loss": 0.4144260585308075,
+      "eval_runtime": 1.6935,
+      "eval_samples_per_second": 423.382,
+      "eval_steps_per_second": 7.086,
+      "eval_wer": 0.0920920920920921,
+      "step": 4100
+    },
+    {
+      "epoch": 39.62,
+      "learning_rate": 1.520109884810164e-05,
+      "loss": 0.2273,
+      "step": 4200
+    },
+    {
+      "epoch": 39.62,
+      "eval_loss": 0.415446400642395,
+      "eval_runtime": 1.5219,
+      "eval_samples_per_second": 471.115,
+      "eval_steps_per_second": 7.885,
+      "eval_wer": 0.08633633633633633,
+      "step": 4200
+    },
+    {
+      "epoch": 40.57,
+      "learning_rate": 1.4917068568678037e-05,
+      "loss": 0.23,
+      "step": 4300
+    },
+    {
+      "epoch": 40.57,
+      "eval_loss": 0.4157298505306244,
+      "eval_runtime": 1.689,
+      "eval_samples_per_second": 424.522,
+      "eval_steps_per_second": 7.105,
+      "eval_wer": 0.08675342008675342,
+      "step": 4300
+    },
+    {
+      "epoch": 41.51,
+      "learning_rate": 1.4627706536361717e-05,
+      "loss": 0.2409,
+      "step": 4400
+    },
+    {
+      "epoch": 41.51,
+      "eval_loss": 0.4032723009586334,
+      "eval_runtime": 1.5687,
+      "eval_samples_per_second": 457.076,
+      "eval_steps_per_second": 7.65,
+      "eval_wer": 0.08258258258258258,
+      "step": 4400
+    },
+    {
+      "epoch": 42.45,
+      "learning_rate": 1.4333326516728909e-05,
+      "loss": 0.248,
+      "step": 4500
+    },
+    {
+      "epoch": 42.45,
+      "eval_loss": 0.4121722877025604,
+      "eval_runtime": 1.6325,
+      "eval_samples_per_second": 439.195,
+      "eval_steps_per_second": 7.351,
+      "eval_wer": 0.08466800133466801,
+      "step": 4500
+    },
+    {
+      "epoch": 43.4,
+      "learning_rate": 1.4034247716538545e-05,
+      "loss": 0.218,
+      "step": 4600
+    },
+    {
+      "epoch": 43.4,
+      "eval_loss": 0.40519294142723083,
+      "eval_runtime": 1.5316,
+      "eval_samples_per_second": 468.141,
+      "eval_steps_per_second": 7.835,
+      "eval_wer": 0.08475141808475142,
+      "step": 4600
+    },
+    {
+      "epoch": 44.34,
+      "learning_rate": 1.373079443760497e-05,
+      "loss": 0.1979,
+      "step": 4700
+    },
+    {
+      "epoch": 44.34,
+      "eval_loss": 0.4063194692134857,
+      "eval_runtime": 1.6002,
+      "eval_samples_per_second": 448.081,
+      "eval_steps_per_second": 7.499,
+      "eval_wer": 0.088672005338672,
+      "step": 4700
+    },
+    {
+      "epoch": 45.28,
+      "learning_rate": 1.3423295725145908e-05,
+      "loss": 0.2091,
+      "step": 4800
+    },
+    {
+      "epoch": 45.28,
+      "eval_loss": 0.40777409076690674,
+      "eval_runtime": 1.5155,
+      "eval_samples_per_second": 473.123,
+      "eval_steps_per_second": 7.918,
+      "eval_wer": 0.08233233233233234,
+      "step": 4800
+    },
+    {
+      "epoch": 46.23,
+      "learning_rate": 1.3112085010987002e-05,
+      "loss": 0.2097,
+      "step": 4900
+    },
+    {
+      "epoch": 46.23,
+      "eval_loss": 0.4176665246486664,
+      "eval_runtime": 1.5191,
+      "eval_samples_per_second": 471.983,
+      "eval_steps_per_second": 7.899,
+      "eval_wer": 0.08933933933933934,
+      "step": 4900
+    },
+    {
+      "epoch": 47.17,
+      "learning_rate": 1.279749975200978e-05,
+      "loss": 0.2017,
+      "step": 5000
+    },
+    {
+      "epoch": 47.17,
+      "eval_loss": 0.4294622540473938,
+      "eval_runtime": 1.6751,
+      "eval_samples_per_second": 428.045,
+      "eval_steps_per_second": 7.164,
+      "eval_wer": 0.088672005338672,
+      "step": 5000
+    },
+    {
+      "epoch": 48.11,
+      "learning_rate": 1.247988106423513e-05,
+      "loss": 0.1899,
+      "step": 5100
+    },
+    {
+      "epoch": 48.11,
+      "eval_loss": 0.4177272915840149,
+      "eval_runtime": 1.5405,
+      "eval_samples_per_second": 465.436,
+      "eval_steps_per_second": 7.79,
+      "eval_wer": 0.09192525859192525,
+      "step": 5100
+    },
+    {
+      "epoch": 49.06,
+      "learning_rate": 1.2159573352939014e-05,
+      "loss": 0.195,
+      "step": 5200
+    },
+    {
+      "epoch": 49.06,
+      "eval_loss": 0.41085565090179443,
+      "eval_runtime": 1.5321,
+      "eval_samples_per_second": 467.995,
+      "eval_steps_per_second": 7.833,
+      "eval_wer": 0.08800467133800467,
+      "step": 5200
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.1836923939201543e-05,
+      "loss": 0.179,
+      "step": 5300
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.4089372456073761,
+      "eval_runtime": 1.5066,
+      "eval_samples_per_second": 475.915,
+      "eval_steps_per_second": 7.965,
+      "eval_wer": 0.08792125458792126,
+      "step": 5300
+    },
+    {
+      "epoch": 50.94,
+      "learning_rate": 1.1512282683294342e-05,
+      "loss": 0.1773,
+      "step": 5400
+    },
+    {
+      "epoch": 50.94,
+      "eval_loss": 0.40705129504203796,
+      "eval_runtime": 1.5026,
+      "eval_samples_per_second": 477.179,
+      "eval_steps_per_second": 7.986,
+      "eval_wer": 0.08425091758425092,
+      "step": 5400
+    },
+    {
+      "epoch": 51.89,
+      "learning_rate": 1.1186001605314571e-05,
+      "loss": 0.1889,
+      "step": 5500
+    },
+    {
+      "epoch": 51.89,
+      "eval_loss": 0.40717387199401855,
+      "eval_runtime": 1.6838,
+      "eval_samples_per_second": 425.834,
+      "eval_steps_per_second": 7.127,
+      "eval_wer": 0.08850517183850518,
+      "step": 5500
+    },
+    {
+      "epoch": 52.83,
+      "learning_rate": 1.0858434503476969e-05,
+      "loss": 0.1987,
+      "step": 5600
+    },
+    {
+      "epoch": 52.83,
+      "eval_loss": 0.403276652097702,
+      "eval_runtime": 1.6752,
+      "eval_samples_per_second": 428.011,
+      "eval_steps_per_second": 7.163,
+      "eval_wer": 0.08733733733733734,
+      "step": 5600
+    },
+    {
+      "epoch": 53.77,
+      "learning_rate": 1.052993657047783e-05,
+      "loss": 0.1979,
+      "step": 5700
+    },
+    {
+      "epoch": 53.77,
+      "eval_loss": 0.403276652097702,
+      "eval_runtime": 1.5889,
+      "eval_samples_per_second": 451.268,
+      "eval_steps_per_second": 7.553,
+      "eval_wer": 0.09275942609275943,
+      "step": 5700
+    },
+    {
+      "epoch": 54.72,
+      "learning_rate": 1.02008640083469e-05,
+      "loss": 0.1777,
+      "step": 5800
+    },
+    {
+      "epoch": 54.72,
+      "eval_loss": 0.4077288806438446,
+      "eval_runtime": 1.4993,
+      "eval_samples_per_second": 478.216,
+      "eval_steps_per_second": 8.004,
+      "eval_wer": 0.08975642308975643,
+      "step": 5800
+    },
+    {
+      "epoch": 55.66,
+      "learning_rate": 9.871573642204777e-06,
+      "loss": 0.1742,
+      "step": 5900
+    },
+    {
+      "epoch": 55.66,
+      "eval_loss": 0.3968764543533325,
+      "eval_runtime": 1.6766,
+      "eval_samples_per_second": 427.66,
+      "eval_steps_per_second": 7.157,
+      "eval_wer": 0.08383383383383383,
+      "step": 5900
+    },
+    {
+      "epoch": 56.6,
+      "learning_rate": 9.545712182877714e-06,
+      "loss": 0.1678,
+      "step": 6000
+    },
+    {
+      "epoch": 56.6,
+      "eval_loss": 0.39965710043907166,
+      "eval_runtime": 1.5536,
+      "eval_samples_per_second": 461.501,
+      "eval_steps_per_second": 7.724,
+      "eval_wer": 0.08058058058058058,
+      "step": 6000
+    },
+    {
+      "epoch": 57.55,
+      "learning_rate": 9.21705051465562e-06,
+      "loss": 0.1726,
+      "step": 6100
+    },
+    {
+      "epoch": 57.55,
+      "eval_loss": 0.3978481888771057,
+      "eval_runtime": 1.5144,
+      "eval_samples_per_second": 473.444,
+      "eval_steps_per_second": 7.924,
+      "eval_wer": 0.08850517183850518,
+      "step": 6100
+    },
+    {
+      "epoch": 58.49,
+      "learning_rate": 8.889237826496551e-06,
+      "loss": 0.1602,
+      "step": 6200
+    },
+    {
+      "epoch": 58.49,
+      "eval_loss": 0.39665135741233826,
+      "eval_runtime": 1.5277,
+      "eval_samples_per_second": 469.328,
+      "eval_steps_per_second": 7.855,
+      "eval_wer": 0.08600266933600267,
+      "step": 6200
+    },
+    {
+      "epoch": 59.43,
+      "learning_rate": 8.562629577394817e-06,
+      "loss": 0.1681,
+      "step": 6300
+    },
+    {
+      "epoch": 59.43,
+      "eval_loss": 0.4038829207420349,
+      "eval_runtime": 1.5785,
+      "eval_samples_per_second": 454.223,
+      "eval_steps_per_second": 7.602,
+      "eval_wer": 0.09009009009009009,
+      "step": 6300
+    },
+    {
+      "epoch": 60.38,
+      "learning_rate": 8.237579920328478e-06,
+      "loss": 0.1594,
+      "step": 6400
+    },
+    {
+      "epoch": 60.38,
+      "eval_loss": 0.3992190361022949,
+      "eval_runtime": 1.5157,
+      "eval_samples_per_second": 473.056,
+      "eval_steps_per_second": 7.917,
+      "eval_wer": 0.08558558558558559,
+      "step": 6400
+    },
+    {
+      "epoch": 61.32,
+      "learning_rate": 7.91444131823864e-06,
+      "loss": 0.171,
+      "step": 6500
+    },
+    {
+      "epoch": 61.32,
+      "eval_loss": 0.4058407247066498,
+      "eval_runtime": 1.5604,
+      "eval_samples_per_second": 459.498,
+      "eval_steps_per_second": 7.69,
+      "eval_wer": 0.08900567233900568,
+      "step": 6500
+    },
+    {
+      "epoch": 62.26,
+      "learning_rate": 7.593564161841318e-06,
+      "loss": 0.1691,
+      "step": 6600
+    },
+    {
+      "epoch": 62.26,
+      "eval_loss": 0.40775159001350403,
+      "eval_runtime": 1.6471,
+      "eval_samples_per_second": 435.301,
+      "eval_steps_per_second": 7.285,
+      "eval_wer": 0.0841675008341675,
+      "step": 6600
+    },
+    {
+      "epoch": 63.21,
+      "learning_rate": 7.275296389686258e-06,
+      "loss": 0.1724,
+      "step": 6700
+    },
+    {
+      "epoch": 63.21,
+      "eval_loss": 0.4161495268344879,
+      "eval_runtime": 1.5379,
+      "eval_samples_per_second": 466.219,
+      "eval_steps_per_second": 7.803,
+      "eval_wer": 0.09025692359025693,
+      "step": 6700
+    },
+    {
+      "epoch": 64.15,
+      "learning_rate": 6.959983110874782e-06,
+      "loss": 0.172,
+      "step": 6800
+    },
+    {
+      "epoch": 64.15,
+      "eval_loss": 0.4121454358100891,
+      "eval_runtime": 1.5882,
+      "eval_samples_per_second": 451.46,
+      "eval_steps_per_second": 7.556,
+      "eval_wer": 0.08992325658992326,
+      "step": 6800
+    },
+    {
+      "epoch": 65.09,
+      "learning_rate": 6.647966230845655e-06,
+      "loss": 0.1717,
+      "step": 6900
+    },
+    {
+      "epoch": 65.09,
+      "eval_loss": 0.4110967218875885,
+      "eval_runtime": 1.6285,
+      "eval_samples_per_second": 440.291,
+      "eval_steps_per_second": 7.369,
+      "eval_wer": 0.08783783783783784,
+      "step": 6900
+    },
+    {
+      "epoch": 66.04,
+      "learning_rate": 6.339584080634824e-06,
+      "loss": 0.1775,
+      "step": 7000
+    },
+    {
+      "epoch": 66.04,
+      "eval_loss": 0.4108857810497284,
+      "eval_runtime": 1.6369,
+      "eval_samples_per_second": 438.022,
+      "eval_steps_per_second": 7.331,
+      "eval_wer": 0.09259259259259259,
+      "step": 7000
+    },
+    {
+      "epoch": 66.98,
+      "learning_rate": 6.03517105001101e-06,
+      "loss": 0.1607,
+      "step": 7100
+    },
+    {
+      "epoch": 66.98,
+      "eval_loss": 0.40803730487823486,
+      "eval_runtime": 1.5893,
+      "eval_samples_per_second": 451.133,
+      "eval_steps_per_second": 7.55,
+      "eval_wer": 0.09075742409075742,
+      "step": 7100
+    },
+    {
+      "epoch": 67.92,
+      "learning_rate": 5.735057224884939e-06,
+      "loss": 0.1606,
+      "step": 7200
+    },
+    {
+      "epoch": 67.92,
+      "eval_loss": 0.4069909453392029,
+      "eval_runtime": 1.52,
+      "eval_samples_per_second": 471.701,
+      "eval_steps_per_second": 7.895,
+      "eval_wer": 0.09300967634300968,
+      "step": 7200
+    },
+    {
+      "epoch": 68.87,
+      "learning_rate": 5.439568029385422e-06,
+      "loss": 0.1801,
+      "step": 7300
+    },
+    {
+      "epoch": 68.87,
+      "eval_loss": 0.4096461832523346,
+      "eval_runtime": 1.5795,
+      "eval_samples_per_second": 453.931,
+      "eval_steps_per_second": 7.597,
+      "eval_wer": 0.09075742409075742,
+      "step": 7300
+    },
+    {
+      "epoch": 69.81,
+      "learning_rate": 5.14902387299036e-06,
+      "loss": 0.16,
+      "step": 7400
+    },
+    {
+      "epoch": 69.81,
+      "eval_loss": 0.4029737114906311,
+      "eval_runtime": 1.6293,
+      "eval_samples_per_second": 440.075,
+      "eval_steps_per_second": 7.365,
+      "eval_wer": 0.09325992659325992,
+      "step": 7400
+    },
+    {
+      "epoch": 70.75,
+      "learning_rate": 4.863739803095299e-06,
+      "loss": 0.1433,
+      "step": 7500
+    },
+    {
+      "epoch": 70.75,
+      "eval_loss": 0.40587371587753296,
+      "eval_runtime": 1.5048,
+      "eval_samples_per_second": 476.48,
+      "eval_steps_per_second": 7.975,
+      "eval_wer": 0.09200867534200867,
+      "step": 7500
+    },
+    {
+      "epoch": 71.7,
+      "learning_rate": 4.584025163396323e-06,
+      "loss": 0.1473,
+      "step": 7600
+    },
+    {
+      "epoch": 71.7,
+      "eval_loss": 0.4119517207145691,
+      "eval_runtime": 1.5044,
+      "eval_samples_per_second": 476.615,
+      "eval_steps_per_second": 7.977,
+      "eval_wer": 0.09793126459793126,
+      "step": 7600
+    },
+    {
+      "epoch": 72.64,
+      "learning_rate": 4.310183258457632e-06,
+      "loss": 0.1396,
+      "step": 7700
+    },
+    {
+      "epoch": 72.64,
+      "eval_loss": 0.4061850905418396,
+      "eval_runtime": 1.5615,
+      "eval_samples_per_second": 459.166,
+      "eval_steps_per_second": 7.685,
+      "eval_wer": 0.09217550884217551,
+      "step": 7700
+    },
+    {
+      "epoch": 73.58,
+      "learning_rate": 4.0451562485624955e-06,
+      "loss": 0.1429,
+      "step": 7800
+    },
+    {
+      "epoch": 73.58,
+      "eval_loss": 0.40794309973716736,
+      "eval_runtime": 1.6245,
+      "eval_samples_per_second": 441.376,
+      "eval_steps_per_second": 7.387,
+      "eval_wer": 0.08992325658992326,
+      "step": 7800
+    },
+    {
+      "epoch": 74.53,
+      "learning_rate": 3.7838779196384036e-06,
+      "loss": 0.1332,
+      "step": 7900
+    },
+    {
+      "epoch": 74.53,
+      "eval_loss": 0.4055492877960205,
+      "eval_runtime": 1.5063,
+      "eval_samples_per_second": 475.996,
+      "eval_steps_per_second": 7.966,
+      "eval_wer": 0.08508508508508508,
+      "step": 7900
+    },
+    {
+      "epoch": 75.47,
+      "learning_rate": 3.5293399536806903e-06,
+      "loss": 0.1429,
+      "step": 8000
+    },
+    {
+      "epoch": 75.47,
+      "eval_loss": 0.40807628631591797,
+      "eval_runtime": 1.5786,
+      "eval_samples_per_second": 454.202,
+      "eval_steps_per_second": 7.602,
+      "eval_wer": 0.09217550884217551,
+      "step": 8000
+    },
+    {
+      "epoch": 76.42,
+      "learning_rate": 3.2818183552879e-06,
+      "loss": 0.1528,
+      "step": 8100
+    },
+    {
+      "epoch": 76.42,
+      "eval_loss": 0.40834707021713257,
+      "eval_runtime": 1.516,
+      "eval_samples_per_second": 472.942,
+      "eval_steps_per_second": 7.915,
+      "eval_wer": 0.08533533533533534,
+      "step": 8100
+    },
+    {
+      "epoch": 77.36,
+      "learning_rate": 3.041581520960881e-06,
+      "loss": 0.1547,
+      "step": 8200
+    },
+    {
+      "epoch": 77.36,
+      "eval_loss": 0.41393765807151794,
+      "eval_runtime": 1.5089,
+      "eval_samples_per_second": 475.178,
+      "eval_steps_per_second": 7.953,
+      "eval_wer": 0.09451117784451117,
+      "step": 8200
+    },
+    {
+      "epoch": 78.3,
+      "learning_rate": 2.8088899480708677e-06,
+      "loss": 0.1384,
+      "step": 8300
+    },
+    {
+      "epoch": 78.3,
+      "eval_loss": 0.4110879600048065,
+      "eval_runtime": 1.5103,
+      "eval_samples_per_second": 474.75,
+      "eval_steps_per_second": 7.946,
+      "eval_wer": 0.09325992659325992,
+      "step": 8300
+    },
+    {
+      "epoch": 79.25,
+      "learning_rate": 2.5839959523929126e-06,
+      "loss": 0.1696,
+      "step": 8400
+    },
+    {
+      "epoch": 79.25,
+      "eval_loss": 0.41319677233695984,
+      "eval_runtime": 1.6749,
+      "eval_samples_per_second": 428.087,
+      "eval_steps_per_second": 7.165,
+      "eval_wer": 0.09434434434434434,
+      "step": 8400
+    },
+    {
+      "epoch": 80.19,
+      "learning_rate": 2.3671433945108712e-06,
+      "loss": 0.1483,
+      "step": 8500
+    },
+    {
+      "epoch": 80.19,
+      "eval_loss": 0.4139257073402405,
+      "eval_runtime": 1.5694,
+      "eval_samples_per_second": 456.87,
+      "eval_steps_per_second": 7.646,
+      "eval_wer": 0.09059059059059059,
+      "step": 8500
+    },
+    {
+      "epoch": 81.13,
+      "learning_rate": 2.15856741539067e-06,
+      "loss": 0.1547,
+      "step": 8600
+    },
+    {
+      "epoch": 81.13,
+      "eval_loss": 0.4156300127506256,
+      "eval_runtime": 1.6731,
+      "eval_samples_per_second": 428.558,
+      "eval_steps_per_second": 7.173,
+      "eval_wer": 0.09592926259592927,
+      "step": 8600
+    },
+    {
+      "epoch": 82.08,
+      "learning_rate": 1.9584941814085756e-06,
+      "loss": 0.149,
+      "step": 8700
+    },
+    {
+      "epoch": 82.08,
+      "eval_loss": 0.411948025226593,
+      "eval_runtime": 1.5259,
+      "eval_samples_per_second": 469.893,
+      "eval_steps_per_second": 7.864,
+      "eval_wer": 0.09050717384050717,
+      "step": 8700
+    },
+    {
+      "epoch": 83.02,
+      "learning_rate": 1.7671406391109204e-06,
+      "loss": 0.1294,
+      "step": 8800
+    },
+    {
+      "epoch": 83.02,
+      "eval_loss": 0.41449442505836487,
+      "eval_runtime": 1.6397,
+      "eval_samples_per_second": 437.287,
+      "eval_steps_per_second": 7.319,
+      "eval_wer": 0.09451117784451117,
+      "step": 8800
+    },
+    {
+      "epoch": 83.96,
+      "learning_rate": 1.5847142799712112e-06,
+      "loss": 0.1383,
+      "step": 8900
+    },
+    {
+      "epoch": 83.96,
+      "eval_loss": 0.415103554725647,
+      "eval_runtime": 1.5828,
+      "eval_samples_per_second": 452.985,
+      "eval_steps_per_second": 7.581,
+      "eval_wer": 0.09167500834167501,
+      "step": 8900
+    },
+    {
+      "epoch": 84.91,
+      "learning_rate": 1.4114129153997401e-06,
+      "loss": 0.1356,
+      "step": 9000
+    },
+    {
+      "epoch": 84.91,
+      "eval_loss": 0.4164859354496002,
+      "eval_runtime": 1.5707,
+      "eval_samples_per_second": 456.48,
+      "eval_steps_per_second": 7.64,
+      "eval_wer": 0.09517851184517852,
+      "step": 9000
+    },
+    {
+      "epoch": 85.85,
+      "learning_rate": 1.2490176555326306e-06,
+      "loss": 0.1491,
+      "step": 9100
+    },
+    {
+      "epoch": 85.85,
+      "eval_loss": 0.41879215836524963,
+      "eval_runtime": 1.681,
+      "eval_samples_per_second": 426.538,
+      "eval_steps_per_second": 7.139,
+      "eval_wer": 0.09501167834501167,
+      "step": 9100
+    },
+    {
+      "epoch": 86.79,
+      "learning_rate": 1.0944241784701025e-06,
+      "loss": 0.1395,
+      "step": 9200
+    },
+    {
+      "epoch": 86.79,
+      "eval_loss": 0.4173920154571533,
+      "eval_runtime": 1.568,
+      "eval_samples_per_second": 457.261,
+      "eval_steps_per_second": 7.653,
+      "eval_wer": 0.09501167834501167,
+      "step": 9200
+    },
+    {
+      "epoch": 87.74,
+      "learning_rate": 9.508883783214695e-07,
+      "loss": 0.1439,
+      "step": 9300
+    },
+    {
+      "epoch": 87.74,
+      "eval_loss": 0.41514286398887634,
+      "eval_runtime": 1.6196,
+      "eval_samples_per_second": 442.706,
+      "eval_steps_per_second": 7.409,
+      "eval_wer": 0.09192525859192525,
+      "step": 9300
+    },
+    {
+      "epoch": 88.68,
+      "learning_rate": 8.156664476124932e-07,
+      "loss": 0.1421,
+      "step": 9400
+    },
+    {
+      "epoch": 88.68,
+      "eval_loss": 0.4151535630226135,
+      "eval_runtime": 1.5673,
+      "eval_samples_per_second": 457.489,
+      "eval_steps_per_second": 7.657,
+      "eval_wer": 0.09309309309309309,
+      "step": 9400
+    },
+    {
+      "epoch": 89.62,
+      "learning_rate": 6.904034174764318e-07,
+      "loss": 0.1443,
+      "step": 9500
+    },
+    {
+      "epoch": 89.62,
+      "eval_loss": 0.4160225987434387,
+      "eval_runtime": 1.6255,
+      "eval_samples_per_second": 441.086,
+      "eval_steps_per_second": 7.382,
+      "eval_wer": 0.09442776109442776,
+      "step": 9500
+    },
+    {
+      "epoch": 90.57,
+      "learning_rate": 5.752351150863133e-07,
+      "loss": 0.1429,
+      "step": 9600
+    },
+    {
+      "epoch": 90.57,
+      "eval_loss": 0.41378459334373474,
+      "eval_runtime": 1.6157,
+      "eval_samples_per_second": 443.764,
+      "eval_steps_per_second": 7.427,
+      "eval_wer": 0.09284284284284285,
+      "step": 9600
+    },
+    {
+      "epoch": 91.51,
+      "learning_rate": 4.702864215416847e-07,
+      "loss": 0.1397,
+      "step": 9700
+    },
+    {
+      "epoch": 91.51,
+      "eval_loss": 0.4148540794849396,
+      "eval_runtime": 1.499,
+      "eval_samples_per_second": 478.314,
+      "eval_steps_per_second": 8.005,
+      "eval_wer": 0.09184184184184184,
+      "step": 9700
+    },
+    {
+      "epoch": 92.45,
+      "learning_rate": 3.7567113645558537e-07,
+      "loss": 0.155,
+      "step": 9800
+    },
+    {
+      "epoch": 92.45,
+      "eval_loss": 0.4144271910190582,
+      "eval_runtime": 1.6208,
+      "eval_samples_per_second": 442.371,
+      "eval_steps_per_second": 7.404,
+      "eval_wer": 0.09150817484150818,
+      "step": 9800
+    },
+    {
+      "epoch": 93.4,
+      "learning_rate": 2.914918545575618e-07,
+      "loss": 0.1406,
+      "step": 9900
+    },
+    {
+      "epoch": 93.4,
+      "eval_loss": 0.41388100385665894,
+      "eval_runtime": 1.5267,
+      "eval_samples_per_second": 469.648,
+      "eval_steps_per_second": 7.86,
+      "eval_wer": 0.0920920920920921,
+      "step": 9900
+    },
+    {
+      "epoch": 94.34,
+      "learning_rate": 2.1852399266194312e-07,
+      "loss": 0.1328,
+      "step": 10000
+    },
+    {
+      "epoch": 94.34,
+      "eval_loss": 0.414026141166687,
+      "eval_runtime": 1.566,
+      "eval_samples_per_second": 457.869,
+      "eval_steps_per_second": 7.663,
+      "eval_wer": 0.09292625959292626,
+      "step": 10000
+    },
+    {
+      "epoch": 95.28,
+      "learning_rate": 1.5537270875273348e-07,
+      "loss": 0.1461,
+      "step": 10100
+    },
+    {
+      "epoch": 95.28,
+      "eval_loss": 0.41416749358177185,
+      "eval_runtime": 1.6735,
+      "eval_samples_per_second": 428.446,
+      "eval_steps_per_second": 7.171,
+      "eval_wer": 0.09142475809142475,
+      "step": 10100
+    },
+    {
+      "epoch": 96.23,
+      "learning_rate": 1.028963054771226e-07,
+      "loss": 0.1455,
+      "step": 10200
+    },
+    {
+      "epoch": 96.23,
+      "eval_loss": 0.41422799229621887,
+      "eval_runtime": 1.6192,
+      "eval_samples_per_second": 442.819,
+      "eval_steps_per_second": 7.411,
+      "eval_wer": 0.09134134134134134,
+      "step": 10200
+    },
+    {
+      "epoch": 97.17,
+      "learning_rate": 6.115168487157097e-08,
+      "loss": 0.155,
+      "step": 10300
+    },
+    {
+      "epoch": 97.17,
+      "eval_loss": 0.4138621985912323,
+      "eval_runtime": 1.5571,
+      "eval_samples_per_second": 460.473,
+      "eval_steps_per_second": 7.707,
+      "eval_wer": 0.09142475809142475,
+      "step": 10300
+    },
+    {
+      "epoch": 98.11,
+      "learning_rate": 3.018411211767158e-08,
+      "loss": 0.147,
+      "step": 10400
+    },
+    {
+      "epoch": 98.11,
+      "eval_loss": 0.4140460193157196,
+      "eval_runtime": 1.6844,
+      "eval_samples_per_second": 425.677,
+      "eval_steps_per_second": 7.124,
+      "eval_wer": 0.09184184184184184,
+      "step": 10400
+    },
+    {
+      "epoch": 99.06,
+      "learning_rate": 1.002716645950197e-08,
+      "loss": 0.1298,
+      "step": 10500
+    },
+    {
+      "epoch": 99.06,
+      "eval_loss": 0.41404303908348083,
+      "eval_runtime": 1.6696,
+      "eval_samples_per_second": 429.449,
+      "eval_steps_per_second": 7.187,
+      "eval_wer": 0.09167500834167501,
+      "step": 10500
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 7.027047924512698e-10,
+      "loss": 0.1508,
+      "step": 10600
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 0.41406112909317017,
+      "eval_runtime": 1.6217,
+      "eval_samples_per_second": 442.135,
+      "eval_steps_per_second": 7.4,
+      "eval_wer": 0.09142475809142475,
+      "step": 10600
+    },
+    {
+      "epoch": 100.0,
+      "step": 10600,
+      "total_flos": 2.842046364754798e+19,
+      "train_loss": 2.4498984623855016,
+      "train_runtime": 3716.1555,
+      "train_samples_per_second": 91.062,
+      "train_steps_per_second": 2.852
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10600,
+  "num_train_epochs": 100,
+  "save_steps": 100,
+  "total_flos": 2.842046364754798e+19,
+  "trial_name": null,
+  "trial_params": null
+}