End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +7 -7
logs/events.out.tfevents.1685683737.serv-9215.2249698.2 +3 -0
train_results.json +5 -5
trainer_state.json +680 -1349

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 1.68,
-    "eval_accuracy": 0.04649617638874198,
-    "eval_loss": 7.248337268829346,
-    "eval_runtime": 1089.9778,
     "eval_samples": 308356,
-    "eval_samples_per_second": 282.901,
-    "eval_steps_per_second": 4.421,
-    "perplexity": 1405.7654937797597,
-    "train_loss": 7.267765480606534,
-    "train_runtime": 107993.7891,
     "train_samples": 5858758,
-    "train_samples_per_second": 271.254,
-    "train_steps_per_second": 4.238
 }

 {
+    "epoch": 0.83,
+    "eval_accuracy": 0.40697412606335615,
+    "eval_loss": 3.4868204593658447,
+    "eval_runtime": 1888.0775,
     "eval_samples": 308356,
+    "eval_samples_per_second": 163.317,
+    "eval_steps_per_second": 3.403,
+    "perplexity": 32.68186900218674,
+    "train_loss": 5.001880543803223,
+    "train_runtime": 107986.7352,
     "train_samples": 5858758,
+    "train_samples_per_second": 271.272,
+    "train_steps_per_second": 5.652
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 1.68,
-    "eval_accuracy": 0.04649617638874198,
-    "eval_loss": 7.248337268829346,
-    "eval_runtime": 1089.9778,
     "eval_samples": 308356,
-    "eval_samples_per_second": 282.901,
-    "eval_steps_per_second": 4.421,
-    "perplexity": 1405.7654937797597
 }

 {
+    "epoch": 0.83,
+    "eval_accuracy": 0.40697412606335615,
+    "eval_loss": 3.4868204593658447,
+    "eval_runtime": 1888.0775,
     "eval_samples": 308356,
+    "eval_samples_per_second": 163.317,
+    "eval_steps_per_second": 3.403,
+    "perplexity": 32.68186900218674
 }

logs/events.out.tfevents.1685683737.serv-9215.2249698.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d102a9cd5cdc2ca795a72f1ac64a288ed7c904ee0daa86b005f62850978fd9b3
+size 369

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.68,
-    "train_loss": 7.267765480606534,
-    "train_runtime": 107993.7891,
     "train_samples": 5858758,
-    "train_samples_per_second": 271.254,
-    "train_steps_per_second": 4.238
 }

 {
+    "epoch": 0.83,
+    "train_loss": 5.001880543803223,
+    "train_runtime": 107986.7352,
     "train_samples": 5858758,
+    "train_samples_per_second": 271.272,
+    "train_steps_per_second": 5.652
 }

trainer_state.json CHANGED Viewed

@@ -1,2002 +1,1333 @@
 {
-  "best_metric": 7.248694896697998,
-  "best_model_checkpoint": "bert_12_layer_model_v1_complete_training_new_wt_init/checkpoint-10000",
-  "epoch": 1.6785370969151447,
-  "global_step": 153660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
-      "learning_rate": 0.0006747425010840046,
-      "loss": 7.3457,
       "step": 500
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0007499999999999999,
-      "loss": 7.2893,
       "step": 1000
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 0.0007940228147639202,
-      "loss": 7.2584,
       "step": 1500
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0008252574989159952,
-      "loss": 7.2503,
       "step": 2000
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 0.0008494850021680092,
-      "loss": 7.2516,
       "step": 2500
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 0.0008692803136799154,
-      "loss": 7.2459,
       "step": 3000
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 0.0008860170110875688,
-      "loss": 7.2518,
       "step": 3500
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 0.0009005149978319905,
-      "loss": 7.2467,
       "step": 4000
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 0.0009133031284438358,
-      "loss": 7.2471,
       "step": 4500
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 0.0009247425010840047,
-      "loss": 7.2529,
       "step": 5000
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 0.0009350906723735609,
-      "loss": 7.2436,
       "step": 5500
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 0.0009445378125959107,
-      "loss": 7.2508,
       "step": 6000
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 0.0009532283391607137,
-      "loss": 7.2413,
       "step": 6500
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 0.000961274510003564,
-      "loss": 7.2417,
       "step": 7000
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 0.000968765315847925,
-      "loss": 7.2471,
       "step": 7500
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 0.0009757724967479857,
-      "loss": 7.2455,
       "step": 8000
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 0.000982354731428573,
-      "loss": 7.2509,
       "step": 8500
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 0.000988560627359831,
-      "loss": 7.2504,
       "step": 9000
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 0.0009944309013222117,
-      "loss": 7.2441,
       "step": 9500
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 0.0009999999999999998,
-      "loss": 7.2428,
       "step": 10000
     },
     {
-      "epoch": 0.11,
-      "eval_accuracy": 0.046582492639500865,
-      "eval_loss": 7.248694896697998,
-      "eval_runtime": 1091.4066,
-      "eval_samples_per_second": 282.531,
-      "eval_steps_per_second": 4.415,
       "step": 10000
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 0.0009988854641293666,
-      "loss": 7.2491,
       "step": 10500
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 0.0009977686947199142,
-      "loss": 7.2456,
       "step": 11000
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 0.0009966519253104618,
-      "loss": 7.241,
       "step": 11500
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 0.0009955351559010096,
-      "loss": 7.2411,
       "step": 12000
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 0.0009944183864915572,
-      "loss": 7.2474,
       "step": 12500
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 0.0009933016170821049,
-      "loss": 7.2471,
       "step": 13000
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 0.0009921848476726527,
-      "loss": 7.2493,
       "step": 13500
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 0.0009910680782632003,
-      "loss": 7.2503,
       "step": 14000
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.000989951308853748,
-      "loss": 7.249,
       "step": 14500
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.0009888345394442955,
-      "loss": 7.2511,
       "step": 15000
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 0.0009877177700348431,
-      "loss": 7.2494,
       "step": 15500
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 0.000986601000625391,
-      "loss": 7.2477,
       "step": 16000
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 0.0009854842312159386,
-      "loss": 7.2449,
       "step": 16500
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 0.0009843674618064862,
-      "loss": 7.3275,
       "step": 17000
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 0.000983250692397034,
-      "loss": 7.2854,
       "step": 17500
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.0009821339229875816,
-      "loss": 7.2771,
       "step": 18000
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.0009810171535781292,
-      "loss": 7.2762,
       "step": 18500
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.0009799003841686768,
-      "loss": 7.2704,
       "step": 19000
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.0009787836147592244,
-      "loss": 7.2752,
       "step": 19500
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 0.0009776668453497723,
-      "loss": 7.2794,
       "step": 20000
     },
     {
-      "epoch": 0.22,
-      "eval_accuracy": 0.042795053620331966,
-      "eval_loss": 7.274324893951416,
-      "eval_runtime": 1087.5047,
-      "eval_samples_per_second": 283.545,
-      "eval_steps_per_second": 4.431,
       "step": 20000
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 0.0009765500759403199,
-      "loss": 7.2712,
       "step": 20500
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 0.0009754333065308675,
-      "loss": 7.2747,
       "step": 21000
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 0.0009743165371214152,
-      "loss": 7.2696,
       "step": 21500
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.0009731997677119628,
-      "loss": 7.2696,
       "step": 22000
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.0009720829983025105,
-      "loss": 7.2731,
       "step": 22500
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.0009709662288930582,
-      "loss": 7.279,
       "step": 23000
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.0009698494594836058,
-      "loss": 7.2766,
       "step": 23500
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.0009687326900741536,
-      "loss": 7.2746,
       "step": 24000
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.0009676159206647012,
-      "loss": 7.2709,
       "step": 24500
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.0009664991512552488,
-      "loss": 7.2734,
       "step": 25000
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.0009653823818457965,
-      "loss": 7.2698,
       "step": 25500
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.0009642656124363441,
-      "loss": 7.2707,
       "step": 26000
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.0009631488430268918,
-      "loss": 7.2745,
       "step": 26500
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.0009620320736174395,
-      "loss": 7.2758,
       "step": 27000
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.0009609153042079872,
-      "loss": 7.2743,
       "step": 27500
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 0.0009597985347985349,
-      "loss": 7.2691,
       "step": 28000
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 0.0009586817653890825,
-      "loss": 7.274,
       "step": 28500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.0009575649959796301,
-      "loss": 7.2672,
       "step": 29000
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.0009564482265701778,
-      "loss": 7.271,
       "step": 29500
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 0.0009553314571607254,
-      "loss": 7.2728,
       "step": 30000
     },
     {
-      "epoch": 0.33,
-      "eval_accuracy": 0.04657237483272306,
-      "eval_loss": 7.2698187828063965,
-      "eval_runtime": 1086.2524,
-      "eval_samples_per_second": 283.871,
-      "eval_steps_per_second": 4.436,
       "step": 30000
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 0.0009542146877512731,
-      "loss": 7.2713,
       "step": 30500
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.0009530979183418209,
-      "loss": 7.2724,
       "step": 31000
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.0009519811489323685,
-      "loss": 7.2695,
       "step": 31500
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 0.0009508643795229162,
-      "loss": 7.2689,
       "step": 32000
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.0009497476101134638,
-      "loss": 7.2713,
       "step": 32500
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.0009486308407040115,
-      "loss": 7.2706,
       "step": 33000
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.0009475140712945591,
-      "loss": 7.2713,
       "step": 33500
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.0009463973018851067,
-      "loss": 7.2701,
       "step": 34000
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.0009452805324756544,
-      "loss": 7.2678,
       "step": 34500
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.0009441637630662021,
-      "loss": 7.2679,
       "step": 35000
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 0.0009430469936567498,
-      "loss": 7.2654,
       "step": 35500
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 0.0009419302242472975,
-      "loss": 7.2714,
       "step": 36000
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.0009408134548378451,
-      "loss": 7.2653,
       "step": 36500
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.0009396966854283928,
-      "loss": 7.2719,
       "step": 37000
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.0009385799160189404,
-      "loss": 7.2651,
       "step": 37500
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.000937463146609488,
-      "loss": 7.2615,
       "step": 38000
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.0009363463772000358,
-      "loss": 7.2741,
       "step": 38500
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.0009352296077905834,
-      "loss": 7.2687,
       "step": 39000
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.0009341128383811311,
-      "loss": 7.2716,
       "step": 39500
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.0009329960689716788,
-      "loss": 7.2677,
       "step": 40000
     },
     {
-      "epoch": 0.44,
-      "eval_accuracy": 0.04655514477110356,
-      "eval_loss": 7.268786907196045,
-      "eval_runtime": 1084.8951,
-      "eval_samples_per_second": 284.227,
-      "eval_steps_per_second": 4.442,
       "step": 40000
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.0009318792995622264,
-      "loss": 7.2671,
       "step": 40500
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 0.0009307625301527741,
-      "loss": 7.2686,
       "step": 41000
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 0.0009296457607433217,
-      "loss": 7.2737,
       "step": 41500
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.0009285289913338693,
-      "loss": 7.2704,
       "step": 42000
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.0009274122219244171,
-      "loss": 7.2717,
       "step": 42500
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.0009262954525149647,
-      "loss": 7.2626,
       "step": 43000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0009251786831055124,
-      "loss": 7.2748,
       "step": 43500
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0009240619136960601,
-      "loss": 7.2737,
       "step": 44000
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.0009229451442866077,
-      "loss": 7.2714,
       "step": 44500
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.0009218283748771554,
-      "loss": 7.2675,
       "step": 45000
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.000920711605467703,
-      "loss": 7.2699,
       "step": 45500
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.0009195948360582507,
-      "loss": 7.2672,
       "step": 46000
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.0009184780666487984,
-      "loss": 7.2701,
       "step": 46500
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.000917361297239346,
-      "loss": 7.2675,
       "step": 47000
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.0009162445278298936,
-      "loss": 7.2725,
       "step": 47500
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.0009151277584204414,
-      "loss": 7.2702,
       "step": 48000
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.000914010989010989,
-      "loss": 7.2685,
       "step": 48500
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.0009128942196015367,
-      "loss": 7.2693,
       "step": 49000
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.0009117774501920844,
-      "loss": 7.2752,
       "step": 49500
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 0.000910660680782632,
-      "loss": 7.2689,
       "step": 50000
     },
     {
-      "epoch": 0.55,
-      "eval_accuracy": 0.046565208288623344,
-      "eval_loss": 7.272010326385498,
-      "eval_runtime": 1088.5631,
-      "eval_samples_per_second": 283.269,
-      "eval_steps_per_second": 4.427,
       "step": 50000
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 0.0009095439113731797,
-      "loss": 7.2674,
       "step": 50500
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 0.0009084271419637273,
-      "loss": 7.2741,
       "step": 51000
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 0.000907310372554275,
-      "loss": 7.2729,
       "step": 51500
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 0.0009061936031448227,
-      "loss": 7.2733,
       "step": 52000
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 0.0009050768337353703,
-      "loss": 7.2743,
       "step": 52500
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 0.0009039600643259181,
-      "loss": 7.2686,
       "step": 53000
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 0.0009028432949164657,
-      "loss": 7.2707,
       "step": 53500
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 0.0009017265255070133,
-      "loss": 7.2664,
       "step": 54000
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 0.000900609756097561,
-      "loss": 7.2751,
       "step": 54500
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 0.0008994929866881086,
-      "loss": 7.2689,
       "step": 55000
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 0.0008983762172786563,
-      "loss": 7.2719,
       "step": 55500
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 0.000897259447869204,
-      "loss": 7.2722,
       "step": 56000
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.0008961426784597516,
-      "loss": 7.268,
       "step": 56500
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.0008950259090502994,
-      "loss": 7.2691,
       "step": 57000
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 0.000893909139640847,
-      "loss": 7.2717,
       "step": 57500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 0.0008927923702313946,
-      "loss": 7.2607,
       "step": 58000
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.0008916756008219423,
-      "loss": 7.2684,
       "step": 58500
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.0008905588314124899,
-      "loss": 7.2717,
       "step": 59000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 0.0008894420620030376,
-      "loss": 7.2674,
       "step": 59500
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 0.0008883252925935854,
-      "loss": 7.272,
       "step": 60000
     },
     {
-      "epoch": 0.66,
-      "eval_accuracy": 0.046516656493005064,
-      "eval_loss": 7.2692131996154785,
-      "eval_runtime": 1088.6486,
-      "eval_samples_per_second": 283.247,
-      "eval_steps_per_second": 4.427,
       "step": 60000
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 0.000887208523184133,
-      "loss": 7.2717,
       "step": 60500
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 0.0008860917537746807,
-      "loss": 7.2654,
       "step": 61000
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 0.0008849749843652283,
-      "loss": 7.2754,
       "step": 61500
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 0.0008838582149557759,
-      "loss": 7.2691,
       "step": 62000
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 0.0008827414455463236,
-      "loss": 7.2702,
       "step": 62500
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 0.0008816246761368712,
-      "loss": 7.2658,
       "step": 63000
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 0.0008805079067274189,
-      "loss": 7.2613,
       "step": 63500
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 0.0008793911373179666,
-      "loss": 7.2707,
       "step": 64000
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 0.0008782743679085143,
-      "loss": 7.2716,
       "step": 64500
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 0.000877157598499062,
-      "loss": 7.2707,
       "step": 65000
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.0008760408290896096,
-      "loss": 7.2655,
       "step": 65500
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.0008749240596801573,
-      "loss": 7.272,
       "step": 66000
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 0.0008738072902707049,
-      "loss": 7.2674,
       "step": 66500
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 0.0008726905208612525,
-      "loss": 7.2663,
       "step": 67000
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 0.0008715737514518003,
-      "loss": 7.2679,
       "step": 67500
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 0.0008704569820423479,
-      "loss": 7.2722,
       "step": 68000
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 0.0008693402126328956,
-      "loss": 7.2663,
       "step": 68500
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 0.0008682234432234433,
-      "loss": 7.266,
       "step": 69000
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.0008671066738139909,
-      "loss": 7.2673,
       "step": 69500
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.0008659899044045386,
-      "loss": 7.2686,
       "step": 70000
     },
     {
-      "epoch": 0.76,
-      "eval_accuracy": 0.04650451752608111,
-      "eval_loss": 7.268359661102295,
-      "eval_runtime": 1090.6641,
-      "eval_samples_per_second": 282.723,
-      "eval_steps_per_second": 4.418,
       "step": 70000
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 0.0008648731349950862,
-      "loss": 7.2689,
       "step": 70500
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 0.0008637563655856338,
-      "loss": 7.2682,
       "step": 71000
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 0.0008626395961761816,
-      "loss": 7.2702,
       "step": 71500
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 0.0008615228267667292,
-      "loss": 7.2701,
       "step": 72000
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 0.0008604060573572769,
-      "loss": 7.2738,
       "step": 72500
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.0008592892879478246,
-      "loss": 7.2648,
       "step": 73000
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.0008581725185383722,
-      "loss": 7.2679,
       "step": 73500
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 0.0008570557491289199,
-      "loss": 7.2697,
       "step": 74000
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 0.0008559389797194675,
-      "loss": 7.2714,
       "step": 74500
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 0.0008548222103100152,
-      "loss": 7.2637,
       "step": 75000
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 0.0008537054409005629,
-      "loss": 7.2676,
       "step": 75500
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 0.0008525886714911105,
-      "loss": 7.2704,
       "step": 76000
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.0008514719020816582,
-      "loss": 7.2661,
       "step": 76500
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.0008503551326722059,
-      "loss": 7.274,
       "step": 77000
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 0.0008492383632627535,
-      "loss": 7.2696,
       "step": 77500
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 0.0008481215938533012,
-      "loss": 7.2673,
       "step": 78000
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 0.0008470048244438489,
-      "loss": 7.2704,
       "step": 78500
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 0.0008458880550343965,
-      "loss": 7.2714,
       "step": 79000
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 0.0008447712856249442,
-      "loss": 7.2675,
       "step": 79500
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 0.0008436545162154918,
-      "loss": 7.2649,
       "step": 80000
     },
     {
-      "epoch": 0.87,
-      "eval_accuracy": 0.04651641092958247,
-      "eval_loss": 7.267496109008789,
-      "eval_runtime": 1088.4541,
-      "eval_samples_per_second": 283.297,
-      "eval_steps_per_second": 4.427,
       "step": 80000
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.0008425377468060394,
-      "loss": 7.2678,
       "step": 80500
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.0008414209773965872,
-      "loss": 7.2682,
       "step": 81000
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 0.0008403042079871348,
-      "loss": 7.2695,
       "step": 81500
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 0.0008391874385776826,
-      "loss": 7.2648,
       "step": 82000
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 0.0008380706691682302,
-      "loss": 7.2695,
       "step": 82500
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 0.0008369538997587778,
-      "loss": 7.2685,
       "step": 83000
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 0.0008358371303493255,
-      "loss": 7.2704,
       "step": 83500
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 0.0008347203609398731,
-      "loss": 7.2661,
       "step": 84000
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 0.0008336035915304208,
-      "loss": 7.2687,
       "step": 84500
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 0.0008324868221209685,
-      "loss": 7.2683,
       "step": 85000
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 0.0008313700527115161,
-      "loss": 7.2707,
       "step": 85500
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 0.0008302532833020639,
-      "loss": 7.2769,
       "step": 86000
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 0.0008291365138926115,
-      "loss": 7.2631,
       "step": 86500
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 0.0008280197444831591,
-      "loss": 7.2708,
       "step": 87000
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 0.0008269029750737068,
-      "loss": 7.2678,
       "step": 87500
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 0.0008257862056642544,
-      "loss": 7.2681,
       "step": 88000
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.0008246694362548021,
-      "loss": 7.2667,
       "step": 88500
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.0008235526668453498,
-      "loss": 7.2678,
       "step": 89000
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 0.0008224358974358975,
-      "loss": 7.2671,
       "step": 89500
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 0.0008213191280264452,
-      "loss": 7.2713,
       "step": 90000
     },
     {
-      "epoch": 0.98,
-      "eval_accuracy": 0.04652993661252105,
-      "eval_loss": 7.270524024963379,
-      "eval_runtime": 1088.8596,
-      "eval_samples_per_second": 283.192,
-      "eval_steps_per_second": 4.426,
       "step": 90000
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 0.0008202023586169928,
-      "loss": 7.2683,
       "step": 90500
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 0.0008190855892075404,
-      "loss": 7.2668,
       "step": 91000
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 0.0008179688197980881,
-      "loss": 7.2698,
       "step": 91500
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 0.0008168520503886357,
-      "loss": 7.2664,
       "step": 92000
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 0.0008157352809791834,
-      "loss": 7.2677,
       "step": 92500
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 0.0008146185115697312,
-      "loss": 7.2617,
       "step": 93000
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 0.0008135017421602788,
-      "loss": 7.2698,
       "step": 93500
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.0008123849727508265,
-      "loss": 7.2706,
       "step": 94000
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.0008112682033413741,
-      "loss": 7.2693,
       "step": 94500
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 0.0008101514339319217,
-      "loss": 7.273,
       "step": 95000
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 0.0008090346645224694,
-      "loss": 7.2719,
       "step": 95500
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 0.000807917895113017,
-      "loss": 7.2714,
       "step": 96000
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 0.0008068011257035647,
-      "loss": 7.2701,
       "step": 96500
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 0.0008056843562941124,
-      "loss": 7.2703,
       "step": 97000
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.0008045675868846601,
-      "loss": 7.267,
       "step": 97500
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.0008034508174752078,
-      "loss": 7.2736,
       "step": 98000
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 0.0008023340480657554,
-      "loss": 7.2707,
       "step": 98500
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 0.0008012172786563031,
-      "loss": 7.2649,
       "step": 99000
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 0.0008001005092468507,
-      "loss": 7.2702,
       "step": 99500
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 0.0007989837398373983,
-      "loss": 7.2728,
       "step": 100000
     },
     {
-      "epoch": 1.09,
-      "eval_accuracy": 0.04651211896143458,
-      "eval_loss": 7.270782947540283,
-      "eval_runtime": 1094.1225,
-      "eval_samples_per_second": 281.829,
-      "eval_steps_per_second": 4.404,
       "step": 100000
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 0.0007978669704279461,
-      "loss": 7.2731,
       "step": 100500
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 0.0007967502010184937,
-      "loss": 7.2706,
       "step": 101000
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.0007956334316090414,
-      "loss": 7.2676,
       "step": 101500
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.0007945166621995891,
-      "loss": 7.271,
-      "step": 102000
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.0007933998927901367,
-      "loss": 7.2642,
-      "step": 102500
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0007922831233806844,
-      "loss": 7.2671,
-      "step": 103000
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.000791166353971232,
-      "loss": 7.2631,
-      "step": 103500
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.0007900495845617796,
-      "loss": 7.273,
-      "step": 104000
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.0007889328151523274,
-      "loss": 7.2671,
-      "step": 104500
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.000787816045742875,
-      "loss": 7.2664,
-      "step": 105000
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0007866992763334227,
-      "loss": 7.2712,
-      "step": 105500
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0007855825069239704,
-      "loss": 7.2707,
-      "step": 106000
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.000784465737514518,
-      "loss": 7.2664,
-      "step": 106500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0007833489681050657,
-      "loss": 7.2702,
-      "step": 107000
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0007822321986956133,
-      "loss": 7.2677,
-      "step": 107500
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.000781115429286161,
-      "loss": 7.2708,
-      "step": 108000
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0007799986598767087,
-      "loss": 7.2672,
-      "step": 108500
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0007788818904672563,
-      "loss": 7.2637,
-      "step": 109000
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0007777651210578039,
-      "loss": 7.2675,
-      "step": 109500
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0007766483516483517,
-      "loss": 7.273,
-      "step": 110000
-    },
-    {
-      "epoch": 1.2,
-      "eval_accuracy": 0.046532255715385766,
-      "eval_loss": 7.270956516265869,
-      "eval_runtime": 1094.3831,
-      "eval_samples_per_second": 281.762,
-      "eval_steps_per_second": 4.403,
-      "step": 110000
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0007755315822388993,
-      "loss": 7.2687,
-      "step": 110500
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.000774414812829447,
-      "loss": 7.2658,
-      "step": 111000
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0007732980434199947,
-      "loss": 7.2729,
-      "step": 111500
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0007721812740105423,
-      "loss": 7.2713,
-      "step": 112000
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.00077106450460109,
-      "loss": 7.2724,
-      "step": 112500
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0007699477351916376,
-      "loss": 7.2769,
-      "step": 113000
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0007688309657821853,
-      "loss": 7.2658,
-      "step": 113500
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.000767714196372733,
-      "loss": 7.2702,
-      "step": 114000
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0007665974269632806,
-      "loss": 7.2725,
-      "step": 114500
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.0007654806575538284,
-      "loss": 7.2668,
-      "step": 115000
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.000764363888144376,
-      "loss": 7.273,
-      "step": 115500
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0007632471187349236,
-      "loss": 7.2701,
-      "step": 116000
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0007621303493254713,
-      "loss": 7.2644,
-      "step": 116500
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0007610135799160189,
-      "loss": 7.2697,
-      "step": 117000
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0007599012775842044,
-      "loss": 7.2672,
-      "step": 117500
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0007592915214866435,
-      "loss": 7.2703,
-      "step": 118000
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0007583243991780577,
-      "loss": 7.2689,
-      "step": 118500
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 0.000757263468239078,
-      "loss": 7.2631,
-      "step": 119000
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0007562070043777362,
-      "loss": 7.2709,
-      "step": 119500
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0007551326722058429,
-      "loss": 7.2683,
-      "step": 120000
-    },
-    {
-      "epoch": 1.31,
-      "eval_accuracy": 0.0465121739230196,
-      "eval_loss": 7.268362045288086,
-      "eval_runtime": 1091.1438,
-      "eval_samples_per_second": 282.599,
-      "eval_steps_per_second": 4.416,
-      "step": 120000
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.0007540360046457607,
-      "loss": 7.2687,
-      "step": 120500
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.000752952738318592,
-      "loss": 7.2674,
-      "step": 121000
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0007518940409184312,
-      "loss": 7.2711,
-      "step": 121500
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0007508353435182703,
-      "loss": 7.2674,
-      "step": 122000
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0007497610113463772,
-      "loss": 7.2671,
-      "step": 122500
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0007487291164120433,
-      "loss": 7.2716,
-      "step": 123000
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0007476681854730636,
-      "loss": 7.2691,
-      "step": 123500
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0007465715179129814,
-      "loss": 7.2763,
-      "step": 124000
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.0007454748503528992,
-      "loss": 7.2664,
-      "step": 124500
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0007443848834092736,
-      "loss": 7.2707,
-      "step": 125000
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0007432882158491915,
-      "loss": 7.2629,
-      "step": 125500
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0007422027159832038,
-      "loss": 7.2663,
-      "step": 126000
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0007411105155007594,
-      "loss": 7.2709,
-      "step": 126500
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0007400160814794961,
-      "loss": 7.2721,
-      "step": 127000
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0007389194139194139,
-      "loss": 7.2681,
-      "step": 127500
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0007380818368623247,
-      "loss": 7.2673,
-      "step": 128000
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0007371638524077548,
-      "loss": 7.2715,
-      "step": 128500
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0007360515500759404,
-      "loss": 7.2682,
-      "step": 129000
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0007349459483605825,
-      "loss": 7.2699,
-      "step": 129500
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.0007338448137228625,
-      "loss": 7.2658,
-      "step": 130000
-    },
-    {
-      "epoch": 1.42,
-      "eval_accuracy": 0.04657166881035385,
-      "eval_loss": 7.269552230834961,
-      "eval_runtime": 1090.2314,
-      "eval_samples_per_second": 282.835,
-      "eval_steps_per_second": 4.42,
-      "step": 130000
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0007327369784686858,
-      "loss": 7.2704,
-      "step": 130500
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.000731631376753328,
-      "loss": 7.2653,
-      "step": 131000
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0007305213079603323,
-      "loss": 7.2669,
-      "step": 131500
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.000729406772089699,
-      "loss": 7.2659,
-      "step": 132000
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0007282922362190655,
-      "loss": 7.2689,
-      "step": 132500
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0007271844009648888,
-      "loss": 7.268,
-      "step": 133000
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.000726078799249531,
-      "loss": 7.2711,
-      "step": 133500
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0007249798981506299,
-      "loss": 7.2786,
-      "step": 134000
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0007238720628964531,
-      "loss": 7.2683,
-      "step": 134500
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0007227753953363709,
-      "loss": 7.2767,
-      "step": 135000
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.0007216764942374698,
-      "loss": 7.2753,
-      "step": 135500
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0007205753595997498,
-      "loss": 7.2683,
-      "step": 136000
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0007194675243455731,
-      "loss": 7.2705,
-      "step": 136500
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.0007183663897078531,
-      "loss": 7.2628,
-      "step": 137000
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.0007172741892254087,
-      "loss": 7.2654,
-      "step": 137500
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0007161641204324131,
-      "loss": 7.2707,
-      "step": 138000
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0007150607522558742,
-      "loss": 7.2661,
-      "step": 138500
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0007139462163852408,
-      "loss": 7.2684,
-      "step": 139000
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0007128316805146074,
-      "loss": 7.2689,
-      "step": 139500
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0007117171446439739,
-      "loss": 7.2661,
-      "step": 140000
-    },
-    {
-      "epoch": 1.53,
-      "eval_accuracy": 0.04652100591929093,
-      "eval_loss": 7.268113613128662,
-      "eval_runtime": 1090.6844,
-      "eval_samples_per_second": 282.718,
-      "eval_steps_per_second": 4.418,
-      "step": 140000
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0007106048423121594,
-      "loss": 7.2681,
-      "step": 140500
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0007094880729027071,
-      "loss": 7.2709,
-      "step": 141000
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0007083735370320736,
-      "loss": 7.2623,
-      "step": 141500
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0007072567676226212,
-      "loss": 7.2711,
-      "step": 142000
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.000706139998213169,
-      "loss": 7.2674,
-      "step": 142500
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.0007050254623425355,
-      "loss": 7.2687,
-      "step": 143000
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0007039109264719021,
-      "loss": 7.2694,
-      "step": 143500
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.000702950504779773,
-      "loss": 7.2683,
-      "step": 144000
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0007022648083623694,
-      "loss": 7.2654,
-      "step": 144500
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0007013870276065398,
-      "loss": 7.2666,
-      "step": 145000
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0007005114803895292,
-      "loss": 7.2721,
-      "step": 145500
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0006998503528991333,
-      "loss": 7.2676,
-      "step": 146000
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0006990351112302332,
-      "loss": 7.2668,
-      "step": 146500
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0006983025104976325,
-      "loss": 7.2704,
-      "step": 147000
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0006975565085321183,
-      "loss": 7.2688,
-      "step": 147500
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0006967278656303047,
-      "loss": 7.2689,
-      "step": 148000
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0006959572947377826,
-      "loss": 7.2724,
-      "step": 148500
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0006951465201465201,
-      "loss": 7.2622,
-      "step": 149000
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0006942062003037613,
-      "loss": 7.2653,
-      "step": 149500
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0006932636469221835,
-      "loss": 7.2668,
-      "step": 150000
-    },
-    {
-      "epoch": 1.64,
-      "eval_accuracy": 0.04653411066611076,
-      "eval_loss": 7.2728753089904785,
-      "eval_runtime": 1088.7608,
-      "eval_samples_per_second": 283.217,
-      "eval_steps_per_second": 4.426,
-      "step": 150000
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0006924618064861967,
-      "loss": 7.2663,
-      "step": 150500
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0006920687036540695,
-      "loss": 7.2669,
-      "step": 151000
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0006917470740641473,
-      "loss": 7.2626,
-      "step": 151500
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 0.0006911842222817832,
-      "loss": 7.2692,
-      "step": 152000
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0006904002501563478,
-      "loss": 7.2672,
-      "step": 152500
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0006894487626194943,
-      "loss": 7.2682,
-      "step": 153000
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0006884861073885465,
-      "loss": 7.2701,
-      "step": 153500
-    },
-    {
-      "epoch": 1.68,
-      "step": 153660,
-      "total_flos": 2.913743352694309e+18,
-      "train_loss": 7.267765480606534,
-      "train_runtime": 107993.7891,
-      "train_samples_per_second": 271.254,
-      "train_steps_per_second": 4.238
     }
   ],
-  "max_steps": 457720,
   "num_train_epochs": 5,
-  "total_flos": 2.913743352694309e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 3.4867753982543945,
+  "best_model_checkpoint": "bert_12_layer_model_v1_complete_training_new_wt_init/checkpoint-100000",
+  "epoch": 0.8335299611660031,
+  "global_step": 101739,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 9.427,
       "step": 500
     },
     {
       "epoch": 0.01,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 7.6583,
       "step": 1000
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 1.5e-06,
+      "loss": 7.4472,
       "step": 1500
     },
     {
       "epoch": 0.02,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 7.2862,
       "step": 2000
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.5e-06,
+      "loss": 7.2035,
       "step": 2500
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 3e-06,
+      "loss": 7.1398,
       "step": 3000
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.5e-06,
+      "loss": 7.052,
       "step": 3500
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 6.971,
       "step": 4000
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 4.5e-06,
+      "loss": 6.8901,
       "step": 4500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 5e-06,
+      "loss": 6.8309,
       "step": 5000
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 6.7591,
       "step": 5500
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 6e-06,
+      "loss": 6.6923,
       "step": 6000
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 6.6434,
       "step": 6500
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 7e-06,
+      "loss": 6.5946,
       "step": 7000
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 6.5569,
       "step": 7500
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 6.5135,
       "step": 8000
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 8.5e-06,
+      "loss": 6.4798,
       "step": 8500
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9e-06,
+      "loss": 6.4566,
       "step": 9000
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 9.5e-06,
+      "loss": 6.4288,
       "step": 9500
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 1e-05,
+      "loss": 6.4098,
       "step": 10000
     },
     {
+      "epoch": 0.08,
+      "eval_accuracy": 0.13209985355667697,
+      "eval_loss": 6.359503746032715,
+      "eval_runtime": 1898.4654,
+      "eval_samples_per_second": 162.424,
+      "eval_steps_per_second": 3.384,
       "step": 10000
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.991670692498626e-06,
+      "loss": 6.3869,
       "step": 10500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.983341384997253e-06,
+      "loss": 6.3724,
       "step": 11000
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.975012077495878e-06,
+      "loss": 6.3515,
       "step": 11500
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.966682769994504e-06,
+      "loss": 6.3358,
       "step": 12000
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.95835346249313e-06,
+      "loss": 6.3127,
       "step": 12500
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.950024154991756e-06,
+      "loss": 6.303,
       "step": 13000
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.941694847490381e-06,
+      "loss": 6.2915,
       "step": 13500
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.933365539989006e-06,
+      "loss": 6.2802,
       "step": 14000
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.925036232487631e-06,
+      "loss": 6.2638,
       "step": 14500
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.916706924986258e-06,
+      "loss": 6.2546,
       "step": 15000
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.908377617484883e-06,
+      "loss": 6.2378,
       "step": 15500
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.90004830998351e-06,
+      "loss": 6.2361,
       "step": 16000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.891719002482134e-06,
+      "loss": 6.2338,
       "step": 16500
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.883389694980761e-06,
+      "loss": 6.2156,
       "step": 17000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.875060387479386e-06,
+      "loss": 6.2165,
       "step": 17500
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 9.866731079978011e-06,
+      "loss": 6.2078,
       "step": 18000
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 9.858401772476636e-06,
+      "loss": 6.206,
       "step": 18500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.850072464975263e-06,
+      "loss": 6.1829,
       "step": 19000
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.84174315747389e-06,
+      "loss": 6.1279,
       "step": 19500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.833413849972514e-06,
+      "loss": 6.0989,
       "step": 20000
     },
     {
+      "epoch": 0.16,
+      "eval_accuracy": 0.14962657625502945,
+      "eval_loss": 6.050579071044922,
+      "eval_runtime": 1905.78,
+      "eval_samples_per_second": 161.8,
+      "eval_steps_per_second": 3.371,
       "step": 20000
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.82508454247114e-06,
+      "loss": 6.0772,
       "step": 20500
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.816755234969766e-06,
+      "loss": 6.0584,
       "step": 21000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.808425927468391e-06,
+      "loss": 6.0453,
       "step": 21500
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.800096619967016e-06,
+      "loss": 6.0179,
       "step": 22000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.791767312465643e-06,
+      "loss": 6.0092,
       "step": 22500
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 9.783438004964268e-06,
+      "loss": 5.9849,
       "step": 23000
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 9.775108697462895e-06,
+      "loss": 5.9743,
       "step": 23500
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.76677938996152e-06,
+      "loss": 5.9589,
       "step": 24000
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.758450082460145e-06,
+      "loss": 5.9517,
       "step": 24500
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.750120774958771e-06,
+      "loss": 5.9402,
       "step": 25000
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 9.741791467457396e-06,
+      "loss": 5.9265,
       "step": 25500
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 9.733462159956021e-06,
+      "loss": 5.9173,
       "step": 26000
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 9.725132852454648e-06,
+      "loss": 5.9136,
       "step": 26500
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 9.716803544953275e-06,
+      "loss": 5.9017,
       "step": 27000
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 9.7084742374519e-06,
+      "loss": 5.8892,
       "step": 27500
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 9.700144929950525e-06,
+      "loss": 5.8801,
       "step": 28000
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 9.69181562244915e-06,
+      "loss": 5.8756,
       "step": 28500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 9.683486314947776e-06,
+      "loss": 5.8644,
       "step": 29000
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 9.675157007446401e-06,
+      "loss": 5.8509,
       "step": 29500
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.666827699945028e-06,
+      "loss": 5.8451,
       "step": 30000
     },
     {
+      "epoch": 0.25,
+      "eval_accuracy": 0.16412580878108607,
+      "eval_loss": 5.772318363189697,
+      "eval_runtime": 1902.6551,
+      "eval_samples_per_second": 162.066,
+      "eval_steps_per_second": 3.377,
       "step": 30000
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.658498392443653e-06,
+      "loss": 5.8273,
       "step": 30500
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.65016908494228e-06,
+      "loss": 5.8145,
       "step": 31000
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 9.641839777440905e-06,
+      "loss": 5.7962,
       "step": 31500
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 9.63351046993953e-06,
+      "loss": 5.7685,
       "step": 32000
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.625181162438155e-06,
+      "loss": 5.7434,
       "step": 32500
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.616851854936781e-06,
+      "loss": 5.7186,
       "step": 33000
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.608522547435406e-06,
+      "loss": 5.6865,
       "step": 33500
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 9.600193239934033e-06,
+      "loss": 5.6545,
       "step": 34000
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 9.591863932432658e-06,
+      "loss": 5.6153,
       "step": 34500
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.583534624931285e-06,
+      "loss": 5.5852,
       "step": 35000
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.57520531742991e-06,
+      "loss": 5.5549,
       "step": 35500
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.566876009928535e-06,
+      "loss": 5.5122,
       "step": 36000
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 9.55854670242716e-06,
+      "loss": 5.4715,
       "step": 36500
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 9.550217394925787e-06,
+      "loss": 5.4367,
       "step": 37000
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 9.541888087424413e-06,
+      "loss": 5.3973,
       "step": 37500
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 9.533558779923038e-06,
+      "loss": 5.3576,
       "step": 38000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 9.525229472421663e-06,
+      "loss": 5.317,
       "step": 38500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 9.51690016492029e-06,
+      "loss": 5.2752,
       "step": 39000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 9.508570857418915e-06,
+      "loss": 5.2447,
       "step": 39500
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 9.50024154991754e-06,
+      "loss": 5.2201,
       "step": 40000
     },
     {
+      "epoch": 0.33,
+      "eval_accuracy": 0.2600813187082812,
+      "eval_loss": 4.9319915771484375,
+      "eval_runtime": 1903.6429,
+      "eval_samples_per_second": 161.982,
+      "eval_steps_per_second": 3.375,
       "step": 40000
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 9.491912242416167e-06,
+      "loss": 5.1834,
       "step": 40500
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 9.483582934914792e-06,
+      "loss": 5.1577,
       "step": 41000
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 9.475253627413418e-06,
+      "loss": 5.1278,
       "step": 41500
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 9.466924319912043e-06,
+      "loss": 5.108,
       "step": 42000
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 9.458595012410668e-06,
+      "loss": 5.0754,
       "step": 42500
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 9.450265704909295e-06,
+      "loss": 5.0528,
       "step": 43000
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.44193639740792e-06,
+      "loss": 5.0299,
       "step": 43500
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.433607089906545e-06,
+      "loss": 5.0121,
       "step": 44000
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.425277782405172e-06,
+      "loss": 4.9888,
       "step": 44500
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 9.416948474903798e-06,
+      "loss": 4.973,
       "step": 45000
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 9.408619167402423e-06,
+      "loss": 4.9544,
       "step": 45500
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 9.400289859901048e-06,
+      "loss": 4.9261,
       "step": 46000
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 9.391960552399673e-06,
+      "loss": 4.9114,
       "step": 46500
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 9.3836312448983e-06,
+      "loss": 4.8889,
       "step": 47000
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 9.375301937396925e-06,
+      "loss": 4.8765,
       "step": 47500
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 9.366972629895552e-06,
+      "loss": 4.8578,
       "step": 48000
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.358643322394177e-06,
+      "loss": 4.8399,
       "step": 48500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.350314014892804e-06,
+      "loss": 4.8233,
       "step": 49000
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 9.341984707391429e-06,
+      "loss": 4.8104,
       "step": 49500
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 9.333655399890054e-06,
+      "loss": 4.7956,
       "step": 50000
     },
     {
+      "epoch": 0.41,
+      "eval_accuracy": 0.2996993076603666,
+      "eval_loss": 4.529248237609863,
+      "eval_runtime": 1906.8682,
+      "eval_samples_per_second": 161.708,
+      "eval_steps_per_second": 3.369,
       "step": 50000
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 9.325326092388679e-06,
+      "loss": 4.7771,
       "step": 50500
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.316996784887305e-06,
+      "loss": 4.7665,
       "step": 51000
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.30866747738593e-06,
+      "loss": 4.7524,
       "step": 51500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.300338169884557e-06,
+      "loss": 4.7381,
       "step": 52000
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.292008862383182e-06,
+      "loss": 4.7235,
       "step": 52500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.283679554881809e-06,
+      "loss": 4.7149,
       "step": 53000
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 9.275350247380434e-06,
+      "loss": 4.6969,
       "step": 53500
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 9.267020939879059e-06,
+      "loss": 4.6847,
       "step": 54000
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.258691632377685e-06,
+      "loss": 4.6756,
       "step": 54500
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.25036232487631e-06,
+      "loss": 4.6549,
       "step": 55000
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.242033017374937e-06,
+      "loss": 4.6508,
       "step": 55500
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 9.233703709873562e-06,
+      "loss": 4.6335,
       "step": 56000
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 9.225374402372189e-06,
+      "loss": 4.6204,
       "step": 56500
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 9.217045094870814e-06,
+      "loss": 4.6042,
       "step": 57000
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 9.208715787369439e-06,
+      "loss": 4.6008,
       "step": 57500
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.200386479868064e-06,
+      "loss": 4.5929,
       "step": 58000
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.19205717236669e-06,
+      "loss": 4.5801,
       "step": 58500
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.183727864865315e-06,
+      "loss": 4.568,
       "step": 59000
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 9.175398557363942e-06,
+      "loss": 4.5655,
       "step": 59500
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 9.167069249862567e-06,
+      "loss": 4.5545,
       "step": 60000
     },
     {
+      "epoch": 0.49,
+      "eval_accuracy": 0.32070779305944885,
+      "eval_loss": 4.305963516235352,
+      "eval_runtime": 1905.262,
+      "eval_samples_per_second": 161.844,
+      "eval_steps_per_second": 3.372,
       "step": 60000
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.158739942361194e-06,
+      "loss": 4.5355,
       "step": 60500
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.150410634859819e-06,
+      "loss": 4.5213,
       "step": 61000
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.142081327358444e-06,
+      "loss": 4.5141,
       "step": 61500
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.133752019857069e-06,
+      "loss": 4.493,
       "step": 62000
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.125422712355696e-06,
+      "loss": 4.476,
       "step": 62500
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.11709340485432e-06,
+      "loss": 4.4451,
       "step": 63000
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.108764097352947e-06,
+      "loss": 4.4027,
       "step": 63500
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.100434789851572e-06,
+      "loss": 4.3842,
       "step": 64000
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 9.092105482350199e-06,
+      "loss": 4.3607,
       "step": 64500
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 9.083776174848824e-06,
+      "loss": 4.3418,
       "step": 65000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.075446867347449e-06,
+      "loss": 4.3214,
       "step": 65500
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.067117559846076e-06,
+      "loss": 4.3014,
       "step": 66000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.0587882523447e-06,
+      "loss": 4.2714,
       "step": 66500
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.050458944843327e-06,
+      "loss": 4.2494,
       "step": 67000
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.042129637341952e-06,
+      "loss": 4.237,
       "step": 67500
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.033800329840577e-06,
+      "loss": 4.2261,
       "step": 68000
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.025471022339204e-06,
+      "loss": 4.2094,
       "step": 68500
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.017141714837829e-06,
+      "loss": 4.1862,
       "step": 69000
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.008812407336454e-06,
+      "loss": 4.178,
       "step": 69500
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.00048309983508e-06,
+      "loss": 4.1581,
       "step": 70000
     },
     {
+      "epoch": 0.57,
+      "eval_accuracy": 0.35988390080598215,
+      "eval_loss": 3.9310877323150635,
+      "eval_runtime": 1890.9984,
+      "eval_samples_per_second": 163.065,
+      "eval_steps_per_second": 3.398,
       "step": 70000
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 8.992153792333706e-06,
+      "loss": 4.1385,
       "step": 70500
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 8.983824484832332e-06,
+      "loss": 4.1204,
       "step": 71000
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.975495177330957e-06,
+      "loss": 4.113,
       "step": 71500
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.967165869829582e-06,
+      "loss": 4.0981,
       "step": 72000
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.958836562328209e-06,
+      "loss": 4.0918,
       "step": 72500
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 8.950507254826834e-06,
+      "loss": 4.0699,
       "step": 73000
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 8.942177947325459e-06,
+      "loss": 4.0667,
       "step": 73500
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 8.933848639824086e-06,
+      "loss": 4.0472,
       "step": 74000
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 8.925519332322713e-06,
+      "loss": 4.0402,
       "step": 74500
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 8.917190024821338e-06,
+      "loss": 4.0342,
       "step": 75000
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 8.908860717319963e-06,
+      "loss": 4.0118,
       "step": 75500
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 8.900531409818588e-06,
+      "loss": 4.0043,
       "step": 76000
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 8.892202102317214e-06,
+      "loss": 3.9938,
       "step": 76500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 8.88387279481584e-06,
+      "loss": 3.9805,
       "step": 77000
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 8.875543487314466e-06,
+      "loss": 3.9738,
       "step": 77500
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 8.867214179813091e-06,
+      "loss": 3.9624,
       "step": 78000
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 8.858884872311718e-06,
+      "loss": 3.9592,
       "step": 78500
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 8.850555564810343e-06,
+      "loss": 3.9471,
       "step": 79000
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 8.842226257308968e-06,
+      "loss": 3.9392,
       "step": 79500
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 8.833896949807593e-06,
+      "loss": 3.9322,
       "step": 80000
     },
     {
+      "epoch": 0.66,
+      "eval_accuracy": 0.37933698245589076,
+      "eval_loss": 3.7415122985839844,
+      "eval_runtime": 1892.6006,
+      "eval_samples_per_second": 162.927,
+      "eval_steps_per_second": 3.395,
       "step": 80000
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 8.82556764230622e-06,
+      "loss": 3.919,
       "step": 80500
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 8.817238334804844e-06,
+      "loss": 3.9121,
       "step": 81000
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 8.808909027303471e-06,
+      "loss": 3.8976,
       "step": 81500
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 8.800579719802096e-06,
+      "loss": 3.8933,
       "step": 82000
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 8.792250412300723e-06,
+      "loss": 3.874,
       "step": 82500
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 8.783921104799348e-06,
+      "loss": 3.8793,
       "step": 83000
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 8.775591797297973e-06,
+      "loss": 3.8675,
       "step": 83500
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 8.767262489796598e-06,
+      "loss": 3.8537,
       "step": 84000
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 8.758933182295224e-06,
+      "loss": 3.8446,
       "step": 84500
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 8.750603874793851e-06,
+      "loss": 3.8418,
       "step": 85000
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 8.742274567292476e-06,
+      "loss": 3.8367,
       "step": 85500
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 8.733945259791101e-06,
+      "loss": 3.8207,
       "step": 86000
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 8.725615952289728e-06,
+      "loss": 3.82,
       "step": 86500
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 8.717286644788353e-06,
+      "loss": 3.8094,
       "step": 87000
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 8.708957337286978e-06,
+      "loss": 3.8014,
       "step": 87500
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 8.700628029785605e-06,
+      "loss": 3.7911,
       "step": 88000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 8.69229872228423e-06,
+      "loss": 3.786,
       "step": 88500
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 8.683969414782856e-06,
+      "loss": 3.7768,
       "step": 89000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 8.675640107281481e-06,
+      "loss": 3.7711,
       "step": 89500
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 8.667310799780106e-06,
+      "loss": 3.768,
       "step": 90000
     },
     {
+      "epoch": 0.74,
+      "eval_accuracy": 0.3947731430260351,
+      "eval_loss": 3.599203586578369,
+      "eval_runtime": 1891.3246,
+      "eval_samples_per_second": 163.037,
+      "eval_steps_per_second": 3.397,
       "step": 90000
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 8.658981492278733e-06,
+      "loss": 3.7567,
       "step": 90500
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 8.650652184777358e-06,
+      "loss": 3.7522,
       "step": 91000
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 8.642322877275983e-06,
+      "loss": 3.746,
       "step": 91500
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 8.63399356977461e-06,
+      "loss": 3.7475,
       "step": 92000
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 8.625664262273236e-06,
+      "loss": 3.73,
       "step": 92500
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 8.617334954771861e-06,
+      "loss": 3.7315,
       "step": 93000
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 8.609005647270486e-06,
+      "loss": 3.7143,
       "step": 93500
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 8.600676339769111e-06,
+      "loss": 3.7137,
       "step": 94000
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 8.592347032267738e-06,
+      "loss": 3.7112,
       "step": 94500
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 8.584017724766363e-06,
+      "loss": 3.6994,
       "step": 95000
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 8.57568841726499e-06,
+      "loss": 3.7001,
       "step": 95500
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 8.567359109763615e-06,
+      "loss": 3.6954,
       "step": 96000
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 8.559029802262241e-06,
+      "loss": 3.6877,
       "step": 96500
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 8.550700494760866e-06,
+      "loss": 3.6817,
       "step": 97000
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 8.542371187259491e-06,
+      "loss": 3.6762,
       "step": 97500
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 8.534041879758118e-06,
+      "loss": 3.6701,
       "step": 98000
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 8.525712572256743e-06,
+      "loss": 3.6698,
       "step": 98500
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 8.517383264755368e-06,
+      "loss": 3.6626,
       "step": 99000
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 8.509053957253995e-06,
+      "loss": 3.6505,
       "step": 99500
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 8.500724649752622e-06,
+      "loss": 3.6454,
       "step": 100000
     },
     {
+      "epoch": 0.82,
+      "eval_accuracy": 0.40700066861556927,
+      "eval_loss": 3.4867753982543945,
+      "eval_runtime": 1892.7615,
+      "eval_samples_per_second": 162.913,
+      "eval_steps_per_second": 3.395,
       "step": 100000
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 8.492395342251247e-06,
+      "loss": 3.6422,
       "step": 100500
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 8.484066034749872e-06,
+      "loss": 3.6306,
       "step": 101000
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 8.475736727248497e-06,
+      "loss": 3.6377,
       "step": 101500
     },
     {
+      "epoch": 0.83,
+      "step": 101739,
+      "total_flos": 1.446910793294545e+18,
+      "train_loss": 5.001880543803223,
+      "train_runtime": 107986.7352,
+      "train_samples_per_second": 271.272,
+      "train_steps_per_second": 5.652
     }
   ],
+  "max_steps": 610290,
   "num_train_epochs": 5,
+  "total_flos": 1.446910793294545e+18,
   "trial_name": null,
   "trial_params": null
 }