tuanio
/

w2v2_ablation_with_ling_head-0drop-load-best-per-best_on_tp0.025_tl10_fp0.001_fl16

Transformers

Safetensors

wav2vec2

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

tuanio commited on Nov 23, 2023

Commit

f14d6e3

1 Parent(s): f7f73eb

End of training

Browse files

Files changed (1) hide show

trainer_state.json +1618 -0

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1618 @@

+{
+  "best_metric": 0.17242242242242242,
+  "best_model_checkpoint": "w2v2_ablation_with_ling_head-0drop-load-best-per-best_on_tp0.025_tl10_fp0.001_fl16/checkpoint-3000",
+  "epoch": 100.0,
+  "eval_steps": 100,
+  "global_step": 10600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.3396226415094341e-06,
+      "loss": 114.032,
+      "step": 100
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 98.52102661132812,
+      "eval_runtime": 2.516,
+      "eval_samples_per_second": 284.973,
+      "eval_steps_per_second": 2.385,
+      "eval_wer": 21.496663329996665,
+      "step": 100
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3.2264150943396226e-06,
+      "loss": 63.4912,
+      "step": 200
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 9.89896011352539,
+      "eval_runtime": 1.6869,
+      "eval_samples_per_second": 425.031,
+      "eval_steps_per_second": 3.557,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 5.1132075471698114e-06,
+      "loss": 5.9426,
+      "step": 300
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 5.290933132171631,
+      "eval_runtime": 1.6725,
+      "eval_samples_per_second": 428.701,
+      "eval_steps_per_second": 3.587,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 7e-06,
+      "loss": 5.0183,
+      "step": 400
+    },
+    {
+      "epoch": 3.77,
+      "eval_loss": 5.248229503631592,
+      "eval_runtime": 1.8648,
+      "eval_samples_per_second": 384.484,
+      "eval_steps_per_second": 3.217,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 8.88679245283019e-06,
+      "loss": 4.6782,
+      "step": 500
+    },
+    {
+      "epoch": 4.72,
+      "eval_loss": 5.53143835067749,
+      "eval_runtime": 1.7224,
+      "eval_samples_per_second": 416.275,
+      "eval_steps_per_second": 3.483,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 1.077358490566038e-05,
+      "loss": 4.4732,
+      "step": 600
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 5.225007057189941,
+      "eval_runtime": 1.775,
+      "eval_samples_per_second": 403.947,
+      "eval_steps_per_second": 3.38,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 1.2660377358490568e-05,
+      "loss": 4.4059,
+      "step": 700
+    },
+    {
+      "epoch": 6.6,
+      "eval_loss": 5.148309230804443,
+      "eval_runtime": 1.6042,
+      "eval_samples_per_second": 446.945,
+      "eval_steps_per_second": 3.74,
+      "eval_wer": 1.0,
+      "step": 700
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 1.4547169811320756e-05,
+      "loss": 4.3368,
+      "step": 800
+    },
+    {
+      "epoch": 7.55,
+      "eval_loss": 4.927549362182617,
+      "eval_runtime": 1.7761,
+      "eval_samples_per_second": 403.7,
+      "eval_steps_per_second": 3.378,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 1.6433962264150943e-05,
+      "loss": 4.2178,
+      "step": 900
+    },
+    {
+      "epoch": 8.49,
+      "eval_loss": 4.898721694946289,
+      "eval_runtime": 1.7092,
+      "eval_samples_per_second": 419.491,
+      "eval_steps_per_second": 3.51,
+      "eval_wer": 1.0,
+      "step": 900
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 1.832075471698113e-05,
+      "loss": 3.913,
+      "step": 1000
+    },
+    {
+      "epoch": 9.43,
+      "eval_loss": 3.700657606124878,
+      "eval_runtime": 1.878,
+      "eval_samples_per_second": 381.786,
+      "eval_steps_per_second": 3.195,
+      "eval_wer": 0.880714047380714,
+      "step": 1000
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 1.99999343918343e-05,
+      "loss": 2.7998,
+      "step": 1100
+    },
+    {
+      "epoch": 10.38,
+      "eval_loss": 2.129572629928589,
+      "eval_runtime": 1.7878,
+      "eval_samples_per_second": 401.044,
+      "eval_steps_per_second": 3.356,
+      "eval_wer": 0.5331164497831165,
+      "step": 1100
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 1.999332009015375e-05,
+      "loss": 1.8405,
+      "step": 1200
+    },
+    {
+      "epoch": 11.32,
+      "eval_loss": 1.487300992012024,
+      "eval_runtime": 1.6519,
+      "eval_samples_per_second": 434.046,
+      "eval_steps_per_second": 3.632,
+      "eval_wer": 0.4636302969636303,
+      "step": 1200
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 1.9975869674932303e-05,
+      "loss": 1.2987,
+      "step": 1300
+    },
+    {
+      "epoch": 12.26,
+      "eval_loss": 1.0532265901565552,
+      "eval_runtime": 1.65,
+      "eval_samples_per_second": 434.557,
+      "eval_steps_per_second": 3.636,
+      "eval_wer": 0.3337504170837504,
+      "step": 1300
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 1.9947602068277822e-05,
+      "loss": 1.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 13.21,
+      "eval_loss": 0.8758745193481445,
+      "eval_runtime": 1.8254,
+      "eval_samples_per_second": 392.793,
+      "eval_steps_per_second": 3.287,
+      "eval_wer": 0.3347514180847514,
+      "step": 1400
+    },
+    {
+      "epoch": 14.15,
+      "learning_rate": 1.9908547921764814e-05,
+      "loss": 0.851,
+      "step": 1500
+    },
+    {
+      "epoch": 14.15,
+      "eval_loss": 0.7742961645126343,
+      "eval_runtime": 1.8016,
+      "eval_samples_per_second": 397.975,
+      "eval_steps_per_second": 3.33,
+      "eval_wer": 0.36036036036036034,
+      "step": 1500
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 1.985874958319781e-05,
+      "loss": 0.7128,
+      "step": 1600
+    },
+    {
+      "epoch": 15.09,
+      "eval_loss": 0.6522524952888489,
+      "eval_runtime": 1.8083,
+      "eval_samples_per_second": 396.509,
+      "eval_steps_per_second": 3.318,
+      "eval_wer": 0.279612946279613,
+      "step": 1600
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 1.9798261050692154e-05,
+      "loss": 0.605,
+      "step": 1700
+    },
+    {
+      "epoch": 16.04,
+      "eval_loss": 0.6352096199989319,
+      "eval_runtime": 1.7571,
+      "eval_samples_per_second": 408.049,
+      "eval_steps_per_second": 3.415,
+      "eval_wer": 0.29946613279946616,
+      "step": 1700
+    },
+    {
+      "epoch": 16.98,
+      "learning_rate": 1.9727147914121905e-05,
+      "loss": 0.5315,
+      "step": 1800
+    },
+    {
+      "epoch": 16.98,
+      "eval_loss": 0.591980516910553,
+      "eval_runtime": 1.9144,
+      "eval_samples_per_second": 374.536,
+      "eval_steps_per_second": 3.134,
+      "eval_wer": 0.2602602602602603,
+      "step": 1800
+    },
+    {
+      "epoch": 17.92,
+      "learning_rate": 1.96454872839984e-05,
+      "loss": 0.4845,
+      "step": 1900
+    },
+    {
+      "epoch": 17.92,
+      "eval_loss": 0.547610342502594,
+      "eval_runtime": 1.7229,
+      "eval_samples_per_second": 416.168,
+      "eval_steps_per_second": 3.483,
+      "eval_wer": 0.2502502502502503,
+      "step": 1900
+    },
+    {
+      "epoch": 18.87,
+      "learning_rate": 1.9553367707856575e-05,
+      "loss": 0.4257,
+      "step": 2000
+    },
+    {
+      "epoch": 18.87,
+      "eval_loss": 0.5397851467132568,
+      "eval_runtime": 1.7936,
+      "eval_samples_per_second": 399.759,
+      "eval_steps_per_second": 3.345,
+      "eval_wer": 0.2284784784784785,
+      "step": 2000
+    },
+    {
+      "epoch": 19.81,
+      "learning_rate": 1.9450889074239728e-05,
+      "loss": 0.4124,
+      "step": 2100
+    },
+    {
+      "epoch": 19.81,
+      "eval_loss": 0.5378283262252808,
+      "eval_runtime": 1.6565,
+      "eval_samples_per_second": 432.846,
+      "eval_steps_per_second": 3.622,
+      "eval_wer": 0.2763596930263597,
+      "step": 2100
+    },
+    {
+      "epoch": 20.75,
+      "learning_rate": 1.9338162504386778e-05,
+      "loss": 0.3595,
+      "step": 2200
+    },
+    {
+      "epoch": 20.75,
+      "eval_loss": 0.5108717679977417,
+      "eval_runtime": 1.6671,
+      "eval_samples_per_second": 430.078,
+      "eval_steps_per_second": 3.599,
+      "eval_wer": 0.2147147147147147,
+      "step": 2200
+    },
+    {
+      "epoch": 21.7,
+      "learning_rate": 1.9215310231739557e-05,
+      "loss": 0.3958,
+      "step": 2300
+    },
+    {
+      "epoch": 21.7,
+      "eval_loss": 0.4824822247028351,
+      "eval_runtime": 1.6672,
+      "eval_samples_per_second": 430.059,
+      "eval_steps_per_second": 3.599,
+      "eval_wer": 0.23423423423423423,
+      "step": 2300
+    },
+    {
+      "epoch": 22.64,
+      "learning_rate": 1.908246546940074e-05,
+      "loss": 0.3546,
+      "step": 2400
+    },
+    {
+      "epoch": 22.64,
+      "eval_loss": 0.46492278575897217,
+      "eval_runtime": 1.7896,
+      "eval_samples_per_second": 400.656,
+      "eval_steps_per_second": 3.353,
+      "eval_wer": 0.2250583917250584,
+      "step": 2400
+    },
+    {
+      "epoch": 23.58,
+      "learning_rate": 1.8939772265686102e-05,
+      "loss": 0.304,
+      "step": 2500
+    },
+    {
+      "epoch": 23.58,
+      "eval_loss": 0.47007447481155396,
+      "eval_runtime": 1.7987,
+      "eval_samples_per_second": 398.616,
+      "eval_steps_per_second": 3.336,
+      "eval_wer": 0.21146146146146147,
+      "step": 2500
+    },
+    {
+      "epoch": 24.53,
+      "learning_rate": 1.8787385347927804e-05,
+      "loss": 0.291,
+      "step": 2600
+    },
+    {
+      "epoch": 24.53,
+      "eval_loss": 0.45151692628860474,
+      "eval_runtime": 1.6672,
+      "eval_samples_per_second": 430.07,
+      "eval_steps_per_second": 3.599,
+      "eval_wer": 0.21796796796796797,
+      "step": 2600
+    },
+    {
+      "epoch": 25.47,
+      "learning_rate": 1.862546995469802e-05,
+      "loss": 0.2946,
+      "step": 2700
+    },
+    {
+      "epoch": 25.47,
+      "eval_loss": 0.4536628723144531,
+      "eval_runtime": 1.6788,
+      "eval_samples_per_second": 427.101,
+      "eval_steps_per_second": 3.574,
+      "eval_wer": 0.2012012012012012,
+      "step": 2700
+    },
+    {
+      "epoch": 26.42,
+      "learning_rate": 1.8454201656634855e-05,
+      "loss": 0.2588,
+      "step": 2800
+    },
+    {
+      "epoch": 26.42,
+      "eval_loss": 0.4422895014286041,
+      "eval_runtime": 1.7609,
+      "eval_samples_per_second": 407.179,
+      "eval_steps_per_second": 3.407,
+      "eval_wer": 0.19394394394394393,
+      "step": 2800
+    },
+    {
+      "epoch": 27.36,
+      "learning_rate": 1.827376616606485e-05,
+      "loss": 0.2625,
+      "step": 2900
+    },
+    {
+      "epoch": 27.36,
+      "eval_loss": 0.4493175745010376,
+      "eval_runtime": 1.7755,
+      "eval_samples_per_second": 403.826,
+      "eval_steps_per_second": 3.379,
+      "eval_wer": 0.19235902569235902,
+      "step": 2900
+    },
+    {
+      "epoch": 28.3,
+      "learning_rate": 1.8084359135628468e-05,
+      "loss": 0.2385,
+      "step": 3000
+    },
+    {
+      "epoch": 28.3,
+      "eval_loss": 0.4364318549633026,
+      "eval_runtime": 1.7248,
+      "eval_samples_per_second": 415.701,
+      "eval_steps_per_second": 3.479,
+      "eval_wer": 0.17242242242242242,
+      "step": 3000
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 1.7886185946126956e-05,
+      "loss": 0.2327,
+      "step": 3100
+    },
+    {
+      "epoch": 29.25,
+      "eval_loss": 0.4382227957248688,
+      "eval_runtime": 1.6032,
+      "eval_samples_per_second": 447.241,
+      "eval_steps_per_second": 3.743,
+      "eval_wer": 0.1966966966966967,
+      "step": 3100
+    },
+    {
+      "epoch": 30.19,
+      "learning_rate": 1.7679461483820617e-05,
+      "loss": 0.26,
+      "step": 3200
+    },
+    {
+      "epoch": 30.19,
+      "eval_loss": 0.44537273049354553,
+      "eval_runtime": 1.7618,
+      "eval_samples_per_second": 406.97,
+      "eval_steps_per_second": 3.406,
+      "eval_wer": 0.1822655989322656,
+      "step": 3200
+    },
+    {
+      "epoch": 31.13,
+      "learning_rate": 1.7464409907419976e-05,
+      "loss": 0.2151,
+      "step": 3300
+    },
+    {
+      "epoch": 31.13,
+      "eval_loss": 0.4423553943634033,
+      "eval_runtime": 1.75,
+      "eval_samples_per_second": 409.725,
+      "eval_steps_per_second": 3.429,
+      "eval_wer": 0.1986986986986987,
+      "step": 3300
+    },
+    {
+      "epoch": 32.08,
+      "learning_rate": 1.7241264405022477e-05,
+      "loss": 0.2213,
+      "step": 3400
+    },
+    {
+      "epoch": 32.08,
+      "eval_loss": 0.43766045570373535,
+      "eval_runtime": 1.7931,
+      "eval_samples_per_second": 399.865,
+      "eval_steps_per_second": 3.346,
+      "eval_wer": 0.20845845845845845,
+      "step": 3400
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 1.701026694125833e-05,
+      "loss": 0.2226,
+      "step": 3500
+    },
+    {
+      "epoch": 33.02,
+      "eval_loss": 0.43748462200164795,
+      "eval_runtime": 1.7241,
+      "eval_samples_per_second": 415.872,
+      "eval_steps_per_second": 3.48,
+      "eval_wer": 0.20945945945945946,
+      "step": 3500
+    },
+    {
+      "epoch": 33.96,
+      "learning_rate": 1.6771667994919608e-05,
+      "loss": 0.208,
+      "step": 3600
+    },
+    {
+      "epoch": 33.96,
+      "eval_loss": 0.43581297993659973,
+      "eval_runtime": 1.7973,
+      "eval_samples_per_second": 398.933,
+      "eval_steps_per_second": 3.338,
+      "eval_wer": 0.19944944944944945,
+      "step": 3600
+    },
+    {
+      "epoch": 34.91,
+      "learning_rate": 1.6528221181905217e-05,
+      "loss": 0.2061,
+      "step": 3700
+    },
+    {
+      "epoch": 34.91,
+      "eval_loss": 0.43082377314567566,
+      "eval_runtime": 1.717,
+      "eval_samples_per_second": 417.6,
+      "eval_steps_per_second": 3.495,
+      "eval_wer": 0.19185852519185853,
+      "step": 3700
+    },
+    {
+      "epoch": 35.85,
+      "learning_rate": 1.6275272811746063e-05,
+      "loss": 0.1929,
+      "step": 3800
+    },
+    {
+      "epoch": 35.85,
+      "eval_loss": 0.4298331141471863,
+      "eval_runtime": 1.7015,
+      "eval_samples_per_second": 421.396,
+      "eval_steps_per_second": 3.526,
+      "eval_wer": 0.19052385719052387,
+      "step": 3800
+    },
+    {
+      "epoch": 36.79,
+      "learning_rate": 1.6015519939371957e-05,
+      "loss": 0.1786,
+      "step": 3900
+    },
+    {
+      "epoch": 36.79,
+      "eval_loss": 0.4138873815536499,
+      "eval_runtime": 1.5956,
+      "eval_samples_per_second": 449.369,
+      "eval_steps_per_second": 3.76,
+      "eval_wer": 0.19744744744744744,
+      "step": 3900
+    },
+    {
+      "epoch": 37.74,
+      "learning_rate": 1.5749244224090537e-05,
+      "loss": 0.172,
+      "step": 4000
+    },
+    {
+      "epoch": 37.74,
+      "eval_loss": 0.4183307886123657,
+      "eval_runtime": 1.8563,
+      "eval_samples_per_second": 386.257,
+      "eval_steps_per_second": 3.232,
+      "eval_wer": 0.1822655989322656,
+      "step": 4000
+    },
+    {
+      "epoch": 38.68,
+      "learning_rate": 1.5476734398160752e-05,
+      "loss": 0.1769,
+      "step": 4100
+    },
+    {
+      "epoch": 38.68,
+      "eval_loss": 0.42518991231918335,
+      "eval_runtime": 1.7858,
+      "eval_samples_per_second": 401.502,
+      "eval_steps_per_second": 3.36,
+      "eval_wer": 0.18902235568902234,
+      "step": 4100
+    },
+    {
+      "epoch": 39.62,
+      "learning_rate": 1.5198285953710154e-05,
+      "loss": 0.1813,
+      "step": 4200
+    },
+    {
+      "epoch": 39.62,
+      "eval_loss": 0.4359680712223053,
+      "eval_runtime": 1.708,
+      "eval_samples_per_second": 419.781,
+      "eval_steps_per_second": 3.513,
+      "eval_wer": 0.18802135468802136,
+      "step": 4200
+    },
+    {
+      "epoch": 40.57,
+      "learning_rate": 1.4914200822322255e-05,
+      "loss": 0.1676,
+      "step": 4300
+    },
+    {
+      "epoch": 40.57,
+      "eval_loss": 0.4325263500213623,
+      "eval_runtime": 1.7629,
+      "eval_samples_per_second": 406.719,
+      "eval_steps_per_second": 3.404,
+      "eval_wer": 0.17701034367701035,
+      "step": 4300
+    },
+    {
+      "epoch": 41.51,
+      "learning_rate": 1.462478704764133e-05,
+      "loss": 0.1581,
+      "step": 4400
+    },
+    {
+      "epoch": 41.51,
+      "eval_loss": 0.43861034512519836,
+      "eval_runtime": 1.6659,
+      "eval_samples_per_second": 430.388,
+      "eval_steps_per_second": 3.602,
+      "eval_wer": 0.17550884217550886,
+      "step": 4400
+    },
+    {
+      "epoch": 42.45,
+      "learning_rate": 1.4330358451349708e-05,
+      "loss": 0.17,
+      "step": 4500
+    },
+    {
+      "epoch": 42.45,
+      "eval_loss": 0.4374006986618042,
+      "eval_runtime": 1.6606,
+      "eval_samples_per_second": 431.774,
+      "eval_steps_per_second": 3.613,
+      "eval_wer": 0.19794794794794796,
+      "step": 4500
+    },
+    {
+      "epoch": 43.4,
+      "learning_rate": 1.4031234292879726e-05,
+      "loss": 0.1778,
+      "step": 4600
+    },
+    {
+      "epoch": 43.4,
+      "eval_loss": 0.43595173954963684,
+      "eval_runtime": 1.8676,
+      "eval_samples_per_second": 383.907,
+      "eval_steps_per_second": 3.213,
+      "eval_wer": 0.17258925592258925,
+      "step": 4600
+    },
+    {
+      "epoch": 44.34,
+      "learning_rate": 1.3727738923229319e-05,
+      "loss": 0.162,
+      "step": 4700
+    },
+    {
+      "epoch": 44.34,
+      "eval_loss": 0.44236594438552856,
+      "eval_runtime": 1.7683,
+      "eval_samples_per_second": 405.482,
+      "eval_steps_per_second": 3.393,
+      "eval_wer": 0.18218218218218218,
+      "step": 4700
+    },
+    {
+      "epoch": 45.28,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.1605,
+      "step": 4800
+    },
+    {
+      "epoch": 45.28,
+      "eval_loss": 0.45002317428588867,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 410.616,
+      "eval_steps_per_second": 3.436,
+      "eval_wer": 0.20645645645645647,
+      "step": 4800
+    },
+    {
+      "epoch": 46.23,
+      "learning_rate": 1.3108955296835313e-05,
+      "loss": 0.1472,
+      "step": 4900
+    },
+    {
+      "epoch": 46.23,
+      "eval_loss": 0.4555417597293854,
+      "eval_runtime": 1.7133,
+      "eval_samples_per_second": 418.491,
+      "eval_steps_per_second": 3.502,
+      "eval_wer": 0.21021021021021022,
+      "step": 4900
+    },
+    {
+      "epoch": 47.17,
+      "learning_rate": 1.2794338009256353e-05,
+      "loss": 0.1428,
+      "step": 5000
+    },
+    {
+      "epoch": 47.17,
+      "eval_loss": 0.4357749819755554,
+      "eval_runtime": 1.7755,
+      "eval_samples_per_second": 403.823,
+      "eval_steps_per_second": 3.379,
+      "eval_wer": 0.17334000667334,
+      "step": 5000
+    },
+    {
+      "epoch": 48.11,
+      "learning_rate": 1.2476690721270442e-05,
+      "loss": 0.1393,
+      "step": 5100
+    },
+    {
+      "epoch": 48.11,
+      "eval_loss": 0.44057783484458923,
+      "eval_runtime": 1.7855,
+      "eval_samples_per_second": 401.567,
+      "eval_steps_per_second": 3.36,
+      "eval_wer": 0.19035702369035704,
+      "step": 5100
+    },
+    {
+      "epoch": 49.06,
+      "learning_rate": 1.2156357869165771e-05,
+      "loss": 0.1444,
+      "step": 5200
+    },
+    {
+      "epoch": 49.06,
+      "eval_loss": 0.4481334090232849,
+      "eval_runtime": 1.8611,
+      "eval_samples_per_second": 385.26,
+      "eval_steps_per_second": 3.224,
+      "eval_wer": 0.20303636970303637,
+      "step": 5200
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.1833686801283536e-05,
+      "loss": 0.1401,
+      "step": 5300
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.4507039785385132,
+      "eval_runtime": 1.8047,
+      "eval_samples_per_second": 397.291,
+      "eval_steps_per_second": 3.325,
+      "eval_wer": 0.19519519519519518,
+      "step": 5300
+    },
+    {
+      "epoch": 50.94,
+      "learning_rate": 1.1509027401375717e-05,
+      "loss": 0.1311,
+      "step": 5400
+    },
+    {
+      "epoch": 50.94,
+      "eval_loss": 0.43529531359672546,
+      "eval_runtime": 1.841,
+      "eval_samples_per_second": 389.468,
+      "eval_steps_per_second": 3.259,
+      "eval_wer": 0.1856856856856857,
+      "step": 5400
+    },
+    {
+      "epoch": 51.89,
+      "learning_rate": 1.1182731709213658e-05,
+      "loss": 0.1337,
+      "step": 5500
+    },
+    {
+      "epoch": 51.89,
+      "eval_loss": 0.44389182329177856,
+      "eval_runtime": 1.814,
+      "eval_samples_per_second": 395.264,
+      "eval_steps_per_second": 3.308,
+      "eval_wer": 0.20178511845178512,
+      "step": 5500
+    },
+    {
+      "epoch": 52.83,
+      "learning_rate": 1.0855153538858787e-05,
+      "loss": 0.1289,
+      "step": 5600
+    },
+    {
+      "epoch": 52.83,
+      "eval_loss": 0.44612860679626465,
+      "eval_runtime": 1.8003,
+      "eval_samples_per_second": 398.261,
+      "eval_steps_per_second": 3.333,
+      "eval_wer": 0.19461127794461128,
+      "step": 5600
+    },
+    {
+      "epoch": 53.77,
+      "learning_rate": 1.0526648095009385e-05,
+      "loss": 0.1234,
+      "step": 5700
+    },
+    {
+      "epoch": 53.77,
+      "eval_loss": 0.4394504427909851,
+      "eval_runtime": 1.8352,
+      "eval_samples_per_second": 390.687,
+      "eval_steps_per_second": 3.269,
+      "eval_wer": 0.2047881214547881,
+      "step": 5700
+    },
+    {
+      "epoch": 54.72,
+      "learning_rate": 1.0197571587839466e-05,
+      "loss": 0.1301,
+      "step": 5800
+    },
+    {
+      "epoch": 54.72,
+      "eval_loss": 0.45898574590682983,
+      "eval_runtime": 1.7706,
+      "eval_samples_per_second": 404.955,
+      "eval_steps_per_second": 3.389,
+      "eval_wer": 0.21137804471137805,
+      "step": 5800
+    },
+    {
+      "epoch": 55.66,
+      "learning_rate": 9.868280846747396e-06,
+      "loss": 0.1378,
+      "step": 5900
+    },
+    {
+      "epoch": 55.66,
+      "eval_loss": 0.45482325553894043,
+      "eval_runtime": 1.7006,
+      "eval_samples_per_second": 421.624,
+      "eval_steps_per_second": 3.528,
+      "eval_wer": 0.21438104771438105,
+      "step": 5900
+    },
+    {
+      "epoch": 56.6,
+      "learning_rate": 9.539132933433002e-06,
+      "loss": 0.1251,
+      "step": 6000
+    },
+    {
+      "epoch": 56.6,
+      "eval_loss": 0.4476557672023773,
+      "eval_runtime": 1.7851,
+      "eval_samples_per_second": 401.663,
+      "eval_steps_per_second": 3.361,
+      "eval_wer": 0.18768768768768768,
+      "step": 6000
+    },
+    {
+      "epoch": 57.55,
+      "learning_rate": 9.213767592058406e-06,
+      "loss": 0.1224,
+      "step": 6100
+    },
+    {
+      "epoch": 57.55,
+      "eval_loss": 0.4477730989456177,
+      "eval_runtime": 1.9021,
+      "eval_samples_per_second": 376.95,
+      "eval_steps_per_second": 3.154,
+      "eval_wer": 0.1932766099432766,
+      "step": 6100
+    },
+    {
+      "epoch": 58.49,
+      "learning_rate": 8.885965190625207e-06,
+      "loss": 0.1233,
+      "step": 6200
+    },
+    {
+      "epoch": 58.49,
+      "eval_loss": 0.44666004180908203,
+      "eval_runtime": 1.7327,
+      "eval_samples_per_second": 413.795,
+      "eval_steps_per_second": 3.463,
+      "eval_wer": 0.18410076743410075,
+      "step": 6200
+    },
+    {
+      "epoch": 59.43,
+      "learning_rate": 8.559370776885191e-06,
+      "loss": 0.1237,
+      "step": 6300
+    },
+    {
+      "epoch": 59.43,
+      "eval_loss": 0.43989476561546326,
+      "eval_runtime": 1.7589,
+      "eval_samples_per_second": 407.647,
+      "eval_steps_per_second": 3.411,
+      "eval_wer": 0.18343343343343343,
+      "step": 6300
+    },
+    {
+      "epoch": 60.38,
+      "learning_rate": 8.234338488814236e-06,
+      "loss": 0.1176,
+      "step": 6400
+    },
+    {
+      "epoch": 60.38,
+      "eval_loss": 0.44714105129241943,
+      "eval_runtime": 1.7645,
+      "eval_samples_per_second": 406.356,
+      "eval_steps_per_second": 3.4,
+      "eval_wer": 0.2097097097097097,
+      "step": 6400
+    },
+    {
+      "epoch": 61.32,
+      "learning_rate": 7.91122077051963e-06,
+      "loss": 0.1117,
+      "step": 6500
+    },
+    {
+      "epoch": 61.32,
+      "eval_loss": 0.458738774061203,
+      "eval_runtime": 2.0653,
+      "eval_samples_per_second": 347.168,
+      "eval_steps_per_second": 2.905,
+      "eval_wer": 0.19703036369703036,
+      "step": 6500
+    },
+    {
+      "epoch": 62.26,
+      "learning_rate": 7.59036799007234e-06,
+      "loss": 0.111,
+      "step": 6600
+    },
+    {
+      "epoch": 62.26,
+      "eval_loss": 0.4706852436065674,
+      "eval_runtime": 1.9076,
+      "eval_samples_per_second": 375.871,
+      "eval_steps_per_second": 3.145,
+      "eval_wer": 0.21021021021021022,
+      "step": 6600
+    },
+    {
+      "epoch": 63.21,
+      "learning_rate": 7.272128059590406e-06,
+      "loss": 0.1239,
+      "step": 6700
+    },
+    {
+      "epoch": 63.21,
+      "eval_loss": 0.45181193947792053,
+      "eval_runtime": 1.7149,
+      "eval_samples_per_second": 418.099,
+      "eval_steps_per_second": 3.499,
+      "eval_wer": 0.1922756089422756,
+      "step": 6700
+    },
+    {
+      "epoch": 64.15,
+      "learning_rate": 6.956846057985423e-06,
+      "loss": 0.1152,
+      "step": 6800
+    },
+    {
+      "epoch": 64.15,
+      "eval_loss": 0.4502814710140228,
+      "eval_runtime": 1.6787,
+      "eval_samples_per_second": 427.117,
+      "eval_steps_per_second": 3.574,
+      "eval_wer": 0.1966966966966967,
+      "step": 6800
+    },
+    {
+      "epoch": 65.09,
+      "learning_rate": 6.647966230845655e-06,
+      "loss": 0.1121,
+      "step": 6900
+    },
+    {
+      "epoch": 65.09,
+      "eval_loss": 0.4467299282550812,
+      "eval_runtime": 1.9525,
+      "eval_samples_per_second": 367.225,
+      "eval_steps_per_second": 3.073,
+      "eval_wer": 0.19444444444444445,
+      "step": 6900
+    },
+    {
+      "epoch": 66.04,
+      "learning_rate": 6.339584080634824e-06,
+      "loss": 0.1175,
+      "step": 7000
+    },
+    {
+      "epoch": 66.04,
+      "eval_loss": 0.44862234592437744,
+      "eval_runtime": 1.8062,
+      "eval_samples_per_second": 396.962,
+      "eval_steps_per_second": 3.322,
+      "eval_wer": 0.19135802469135801,
+      "step": 7000
+    },
+    {
+      "epoch": 66.98,
+      "learning_rate": 6.03517105001101e-06,
+      "loss": 0.1242,
+      "step": 7100
+    },
+    {
+      "epoch": 66.98,
+      "eval_loss": 0.4537147581577301,
+      "eval_runtime": 1.7725,
+      "eval_samples_per_second": 404.517,
+      "eval_steps_per_second": 3.385,
+      "eval_wer": 0.1972806139472806,
+      "step": 7100
+    },
+    {
+      "epoch": 67.92,
+      "learning_rate": 5.735057224884939e-06,
+      "loss": 0.111,
+      "step": 7200
+    },
+    {
+      "epoch": 67.92,
+      "eval_loss": 0.45872873067855835,
+      "eval_runtime": 1.7013,
+      "eval_samples_per_second": 421.444,
+      "eval_steps_per_second": 3.527,
+      "eval_wer": 0.20078411745078412,
+      "step": 7200
+    },
+    {
+      "epoch": 68.87,
+      "learning_rate": 5.439568029385422e-06,
+      "loss": 0.1063,
+      "step": 7300
+    },
+    {
+      "epoch": 68.87,
+      "eval_loss": 0.4550780951976776,
+      "eval_runtime": 1.6746,
+      "eval_samples_per_second": 428.162,
+      "eval_steps_per_second": 3.583,
+      "eval_wer": 0.19285952619285954,
+      "step": 7300
+    },
+    {
+      "epoch": 69.81,
+      "learning_rate": 5.14902387299036e-06,
+      "loss": 0.1133,
+      "step": 7400
+    },
+    {
+      "epoch": 69.81,
+      "eval_loss": 0.4546915590763092,
+      "eval_runtime": 1.7468,
+      "eval_samples_per_second": 410.464,
+      "eval_steps_per_second": 3.435,
+      "eval_wer": 0.19285952619285954,
+      "step": 7400
+    },
+    {
+      "epoch": 70.75,
+      "learning_rate": 4.863739803095299e-06,
+      "loss": 0.1098,
+      "step": 7500
+    },
+    {
+      "epoch": 70.75,
+      "eval_loss": 0.4511526823043823,
+      "eval_runtime": 1.8195,
+      "eval_samples_per_second": 394.06,
+      "eval_steps_per_second": 3.298,
+      "eval_wer": 0.1981981981981982,
+      "step": 7500
+    },
+    {
+      "epoch": 71.7,
+      "learning_rate": 4.584025163396323e-06,
+      "loss": 0.1123,
+      "step": 7600
+    },
+    {
+      "epoch": 71.7,
+      "eval_loss": 0.45775842666625977,
+      "eval_runtime": 1.7257,
+      "eval_samples_per_second": 415.482,
+      "eval_steps_per_second": 3.477,
+      "eval_wer": 0.19552886219552887,
+      "step": 7600
+    },
+    {
+      "epoch": 72.64,
+      "learning_rate": 4.310183258457632e-06,
+      "loss": 0.1144,
+      "step": 7700
+    },
+    {
+      "epoch": 72.64,
+      "eval_loss": 0.4533255994319916,
+      "eval_runtime": 1.8276,
+      "eval_samples_per_second": 392.326,
+      "eval_steps_per_second": 3.283,
+      "eval_wer": 0.18301634968301636,
+      "step": 7700
+    },
+    {
+      "epoch": 73.58,
+      "learning_rate": 4.042511024827573e-06,
+      "loss": 0.1113,
+      "step": 7800
+    },
+    {
+      "epoch": 73.58,
+      "eval_loss": 0.45449498295783997,
+      "eval_runtime": 1.8744,
+      "eval_samples_per_second": 382.518,
+      "eval_steps_per_second": 3.201,
+      "eval_wer": 0.1788455121788455,
+      "step": 7800
+    },
+    {
+      "epoch": 74.53,
+      "learning_rate": 3.7812987090597696e-06,
+      "loss": 0.0968,
+      "step": 7900
+    },
+    {
+      "epoch": 74.53,
+      "eval_loss": 0.4584340453147888,
+      "eval_runtime": 1.9007,
+      "eval_samples_per_second": 377.222,
+      "eval_steps_per_second": 3.157,
+      "eval_wer": 0.17250583917250584,
+      "step": 7900
+    },
+    {
+      "epoch": 75.47,
+      "learning_rate": 3.5268295529884077e-06,
+      "loss": 0.0951,
+      "step": 8000
+    },
+    {
+      "epoch": 75.47,
+      "eval_loss": 0.4645984172821045,
+      "eval_runtime": 1.7512,
+      "eval_samples_per_second": 409.43,
+      "eval_steps_per_second": 3.426,
+      "eval_wer": 0.18593593593593594,
+      "step": 8000
+    },
+    {
+      "epoch": 76.42,
+      "learning_rate": 3.2793794865990092e-06,
+      "loss": 0.0982,
+      "step": 8100
+    },
+    {
+      "epoch": 76.42,
+      "eval_loss": 0.4557442367076874,
+      "eval_runtime": 1.7832,
+      "eval_samples_per_second": 402.096,
+      "eval_steps_per_second": 3.365,
+      "eval_wer": 0.1812645979312646,
+      "step": 8100
+    },
+    {
+      "epoch": 77.36,
+      "learning_rate": 3.039216828827717e-06,
+      "loss": 0.0959,
+      "step": 8200
+    },
+    {
+      "epoch": 77.36,
+      "eval_loss": 0.4565584659576416,
+      "eval_runtime": 1.9633,
+      "eval_samples_per_second": 365.201,
+      "eval_steps_per_second": 3.056,
+      "eval_wer": 0.17417417417417416,
+      "step": 8200
+    },
+    {
+      "epoch": 78.3,
+      "learning_rate": 2.8066019966134907e-06,
+      "loss": 0.093,
+      "step": 8300
+    },
+    {
+      "epoch": 78.3,
+      "eval_loss": 0.46041345596313477,
+      "eval_runtime": 1.8183,
+      "eval_samples_per_second": 394.333,
+      "eval_steps_per_second": 3.3,
+      "eval_wer": 0.18802135468802136,
+      "step": 8300
+    },
+    {
+      "epoch": 79.25,
+      "learning_rate": 2.58178722251872e-06,
+      "loss": 0.103,
+      "step": 8400
+    },
+    {
+      "epoch": 79.25,
+      "eval_loss": 0.4613533020019531,
+      "eval_runtime": 1.7006,
+      "eval_samples_per_second": 421.607,
+      "eval_steps_per_second": 3.528,
+      "eval_wer": 0.1907741074407741,
+      "step": 8400
+    },
+    {
+      "epoch": 80.19,
+      "learning_rate": 2.3650162812244725e-06,
+      "loss": 0.1101,
+      "step": 8500
+    },
+    {
+      "epoch": 80.19,
+      "eval_loss": 0.45864978432655334,
+      "eval_runtime": 1.8618,
+      "eval_samples_per_second": 385.101,
+      "eval_steps_per_second": 3.223,
+      "eval_wer": 0.18051384718051386,
+      "step": 8500
+    },
+    {
+      "epoch": 81.13,
+      "learning_rate": 2.1565242251969022e-06,
+      "loss": 0.1046,
+      "step": 8600
+    },
+    {
+      "epoch": 81.13,
+      "eval_loss": 0.4590305984020233,
+      "eval_runtime": 1.7322,
+      "eval_samples_per_second": 413.924,
+      "eval_steps_per_second": 3.464,
+      "eval_wer": 0.18251584918251584,
+      "step": 8600
+    },
+    {
+      "epoch": 82.08,
+      "learning_rate": 1.9565371298114666e-06,
+      "loss": 0.0979,
+      "step": 8700
+    },
+    {
+      "epoch": 82.08,
+      "eval_loss": 0.4555116593837738,
+      "eval_runtime": 1.9155,
+      "eval_samples_per_second": 374.321,
+      "eval_steps_per_second": 3.132,
+      "eval_wer": 0.17617617617617617,
+      "step": 8700
+    },
+    {
+      "epoch": 83.02,
+      "learning_rate": 1.7652718482113417e-06,
+      "loss": 0.103,
+      "step": 8800
+    },
+    {
+      "epoch": 83.02,
+      "eval_loss": 0.4572655260562897,
+      "eval_runtime": 1.7332,
+      "eval_samples_per_second": 413.676,
+      "eval_steps_per_second": 3.462,
+      "eval_wer": 0.17801134467801136,
+      "step": 8800
+    },
+    {
+      "epoch": 83.96,
+      "learning_rate": 1.5829357761658214e-06,
+      "loss": 0.0958,
+      "step": 8900
+    },
+    {
+      "epoch": 83.96,
+      "eval_loss": 0.4574595093727112,
+      "eval_runtime": 1.7971,
+      "eval_samples_per_second": 398.975,
+      "eval_steps_per_second": 3.339,
+      "eval_wer": 0.1802635969302636,
+      "step": 8900
+    },
+    {
+      "epoch": 84.91,
+      "learning_rate": 1.4097266271836695e-06,
+      "loss": 0.0948,
+      "step": 9000
+    },
+    {
+      "epoch": 84.91,
+      "eval_loss": 0.45812544226646423,
+      "eval_runtime": 2.0018,
+      "eval_samples_per_second": 358.171,
+      "eval_steps_per_second": 2.997,
+      "eval_wer": 0.18143143143143142,
+      "step": 9000
+    },
+    {
+      "epoch": 85.85,
+      "learning_rate": 1.245832218125328e-06,
+      "loss": 0.1003,
+      "step": 9100
+    },
+    {
+      "epoch": 85.85,
+      "eval_loss": 0.4599616527557373,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 410.601,
+      "eval_steps_per_second": 3.436,
+      "eval_wer": 0.18301634968301636,
+      "step": 9100
+    },
+    {
+      "epoch": 86.79,
+      "learning_rate": 1.0914302655463837e-06,
+      "loss": 0.1066,
+      "step": 9200
+    },
+    {
+      "epoch": 86.79,
+      "eval_loss": 0.46090590953826904,
+      "eval_runtime": 1.7826,
+      "eval_samples_per_second": 402.218,
+      "eval_steps_per_second": 3.366,
+      "eval_wer": 0.18702035368702036,
+      "step": 9200
+    },
+    {
+      "epoch": 87.74,
+      "learning_rate": 9.466881929931582e-07,
+      "loss": 0.0887,
+      "step": 9300
+    },
+    {
+      "epoch": 87.74,
+      "eval_loss": 0.4614775776863098,
+      "eval_runtime": 1.7973,
+      "eval_samples_per_second": 398.922,
+      "eval_steps_per_second": 3.338,
+      "eval_wer": 0.18335001668335002,
+      "step": 9300
+    },
+    {
+      "epoch": 88.68,
+      "learning_rate": 8.117629494594015e-07,
+      "loss": 0.0936,
+      "step": 9400
+    },
+    {
+      "epoch": 88.68,
+      "eval_loss": 0.4609696865081787,
+      "eval_runtime": 1.8908,
+      "eval_samples_per_second": 379.212,
+      "eval_steps_per_second": 3.173,
+      "eval_wer": 0.18193193193193194,
+      "step": 9400
+    },
+    {
+      "epoch": 89.62,
+      "learning_rate": 6.86800839200884e-07,
+      "loss": 0.0892,
+      "step": 9500
+    },
+    {
+      "epoch": 89.62,
+      "eval_loss": 0.4594886898994446,
+      "eval_runtime": 1.7755,
+      "eval_samples_per_second": 403.82,
+      "eval_steps_per_second": 3.379,
+      "eval_wer": 0.18009676343009676,
+      "step": 9500
+    },
+    {
+      "epoch": 90.57,
+      "learning_rate": 5.719373630924741e-07,
+      "loss": 0.1039,
+      "step": 9600
+    },
+    {
+      "epoch": 90.57,
+      "eval_loss": 0.461166113615036,
+      "eval_runtime": 1.8202,
+      "eval_samples_per_second": 393.913,
+      "eval_steps_per_second": 3.296,
+      "eval_wer": 0.18368368368368368,
+      "step": 9600
+    },
+    {
+      "epoch": 91.51,
+      "learning_rate": 4.672970716997094e-07,
+      "loss": 0.097,
+      "step": 9700
+    },
+    {
+      "epoch": 91.51,
+      "eval_loss": 0.4609868824481964,
+      "eval_runtime": 1.8574,
+      "eval_samples_per_second": 386.029,
+      "eval_steps_per_second": 3.23,
+      "eval_wer": 0.18343343343343343,
+      "step": 9700
+    },
+    {
+      "epoch": 92.45,
+      "learning_rate": 3.73884955111915e-07,
+      "loss": 0.0969,
+      "step": 9800
+    },
+    {
+      "epoch": 92.45,
+      "eval_loss": 0.4604853093624115,
+      "eval_runtime": 1.8926,
+      "eval_samples_per_second": 378.848,
+      "eval_steps_per_second": 3.17,
+      "eval_wer": 0.18435101768435103,
+      "step": 9800
+    },
+    {
+      "epoch": 93.4,
+      "learning_rate": 2.8991536219946546e-07,
+      "loss": 0.0946,
+      "step": 9900
+    },
+    {
+      "epoch": 93.4,
+      "eval_loss": 0.4596187174320221,
+      "eval_runtime": 1.7445,
+      "eval_samples_per_second": 411.004,
+      "eval_steps_per_second": 3.439,
+      "eval_wer": 0.1842676009342676,
+      "step": 9900
+    },
+    {
+      "epoch": 94.34,
+      "learning_rate": 2.164747605209294e-07,
+      "loss": 0.0947,
+      "step": 10000
+    },
+    {
+      "epoch": 94.34,
+      "eval_loss": 0.4604862630367279,
+      "eval_runtime": 1.8793,
+      "eval_samples_per_second": 381.515,
+      "eval_steps_per_second": 3.193,
+      "eval_wer": 0.18501835168501835,
+      "step": 10000
+    },
+    {
+      "epoch": 95.28,
+      "learning_rate": 1.5364278434110592e-07,
+      "loss": 0.095,
+      "step": 10100
+    },
+    {
+      "epoch": 95.28,
+      "eval_loss": 0.46158939599990845,
+      "eval_runtime": 1.9246,
+      "eval_samples_per_second": 372.547,
+      "eval_steps_per_second": 3.118,
+      "eval_wer": 0.18610276943610277,
+      "step": 10100
+    },
+    {
+      "epoch": 96.23,
+      "learning_rate": 1.0148756461364706e-07,
+      "loss": 0.0856,
+      "step": 10200
+    },
+    {
+      "epoch": 96.23,
+      "eval_loss": 0.4610789716243744,
+      "eval_runtime": 1.7548,
+      "eval_samples_per_second": 408.584,
+      "eval_steps_per_second": 3.419,
+      "eval_wer": 0.1852686019352686,
+      "step": 10200
+    },
+    {
+      "epoch": 97.17,
+      "learning_rate": 6.006565510423112e-08,
+      "loss": 0.0983,
+      "step": 10300
+    },
+    {
+      "epoch": 97.17,
+      "eval_loss": 0.4602554440498352,
+      "eval_runtime": 1.7944,
+      "eval_samples_per_second": 399.587,
+      "eval_steps_per_second": 3.344,
+      "eval_wer": 0.18501835168501835,
+      "step": 10300
+    },
+    {
+      "epoch": 98.11,
+      "learning_rate": 2.942197106729383e-08,
+      "loss": 0.0947,
+      "step": 10400
+    },
+    {
+      "epoch": 98.11,
+      "eval_loss": 0.460513710975647,
+      "eval_runtime": 1.9261,
+      "eval_samples_per_second": 372.264,
+      "eval_steps_per_second": 3.115,
+      "eval_wer": 0.1852686019352686,
+      "step": 10400
+    },
+    {
+      "epoch": 99.06,
+      "learning_rate": 9.589740542820247e-09,
+      "loss": 0.0948,
+      "step": 10500
+    },
+    {
+      "epoch": 99.06,
+      "eval_loss": 0.46040719747543335,
+      "eval_runtime": 1.8213,
+      "eval_samples_per_second": 393.677,
+      "eval_steps_per_second": 3.294,
+      "eval_wer": 0.1852686019352686,
+      "step": 10500
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 5.904683259938537e-10,
+      "loss": 0.0917,
+      "step": 10600
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 0.4603355824947357,
+      "eval_runtime": 2.1628,
+      "eval_samples_per_second": 331.521,
+      "eval_steps_per_second": 2.774,
+      "eval_wer": 0.18493493493493493,
+      "step": 10600
+    },
+    {
+      "epoch": 100.0,
+      "step": 10600,
+      "total_flos": 2.842046364754798e+19,
+      "train_loss": 2.246708391477477,
+      "train_runtime": 3748.9999,
+      "train_samples_per_second": 90.264,
+      "train_steps_per_second": 2.827
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10600,
+  "num_train_epochs": 100,
+  "save_steps": 100,
+  "total_flos": 2.842046364754798e+19,
+  "trial_name": null,
+  "trial_params": null
+}