End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +10 -10
eval_results.json +6 -6
runs/Jun12_16-35-19_DESKTOP-SKBE9FB/events.out.tfevents.1718232073.DESKTOP-SKBE9FB.14408.1 +3 -0
train_results.json +5 -5
trainer_state.json +716 -473

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.6956521739130435
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0596
-- Accuracy: 0.6957
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8478260869565217
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6640
+- Accuracy: 0.8478
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 73.85,
-    "eval_accuracy": 0.8695652173913043,
-    "eval_loss": 0.6163212060928345,
-    "eval_runtime": 0.6921,
-    "eval_samples_per_second": 66.464,
-    "eval_steps_per_second": 2.89,
-    "train_loss": 0.38355133185784024,
-    "train_runtime": 282.7663,
-    "train_samples_per_second": 231.711,
-    "train_steps_per_second": 1.698
 }

 {
+    "epoch": 92.31,
+    "eval_accuracy": 0.8478260869565217,
+    "eval_loss": 0.6640377044677734,
+    "eval_runtime": 0.7832,
+    "eval_samples_per_second": 58.731,
+    "eval_steps_per_second": 2.554,
+    "train_loss": 0.2747100231051445,
+    "train_runtime": 347.4081,
+    "train_samples_per_second": 235.746,
+    "train_steps_per_second": 1.727
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 73.85,
-    "eval_accuracy": 0.8695652173913043,
-    "eval_loss": 0.6163212060928345,
-    "eval_runtime": 0.6921,
-    "eval_samples_per_second": 66.464,
-    "eval_steps_per_second": 2.89
 }

 {
+    "epoch": 92.31,
+    "eval_accuracy": 0.8478260869565217,
+    "eval_loss": 0.6640377044677734,
+    "eval_runtime": 0.7832,
+    "eval_samples_per_second": 58.731,
+    "eval_steps_per_second": 2.554
 }

runs/Jun12_16-35-19_DESKTOP-SKBE9FB/events.out.tfevents.1718232073.DESKTOP-SKBE9FB.14408.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:342a69a88cc986938ee2330d8b69ca17bfb23627bf5f34b2fda1ead76c8f35b6
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 73.85,
-    "train_loss": 0.38355133185784024,
-    "train_runtime": 282.7663,
-    "train_samples_per_second": 231.711,
-    "train_steps_per_second": 1.698
 }

 {
+    "epoch": 92.31,
+    "train_loss": 0.2747100231051445,
+    "train_runtime": 347.4081,
+    "train_samples_per_second": 235.746,
+    "train_steps_per_second": 1.727
 }

trainer_state.json CHANGED Viewed

@@ -1,983 +1,1226 @@
 {
-  "best_metric": 0.8695652173913043,
   "best_model_checkpoint": "swiftformer-xs-ve-U13-b-80\\checkpoint-175",
-  "epoch": 73.84615384615384,
   "eval_steps": 500,
-  "global_step": 480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.92,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 1.4460796117782593,
-      "eval_runtime": 0.7125,
-      "eval_samples_per_second": 64.563,
-      "eval_steps_per_second": 2.807,
       "step": 6
     },
     {
       "epoch": 1.54,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 1.3993,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 1.4435073137283325,
-      "eval_runtime": 0.6148,
-      "eval_samples_per_second": 74.823,
-      "eval_steps_per_second": 3.253,
       "step": 13
     },
     {
       "epoch": 2.92,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 1.4388779401779175,
-      "eval_runtime": 0.6122,
-      "eval_samples_per_second": 75.137,
-      "eval_steps_per_second": 3.267,
       "step": 19
     },
     {
       "epoch": 3.08,
-      "learning_rate": 8.333333333333334e-05,
-      "loss": 1.3849,
       "step": 20
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 1.4283998012542725,
-      "eval_runtime": 0.6101,
-      "eval_samples_per_second": 75.4,
-      "eval_steps_per_second": 3.278,
       "step": 26
     },
     {
       "epoch": 4.62,
-      "learning_rate": 0.000125,
-      "loss": 1.3287,
       "step": 30
     },
     {
       "epoch": 4.92,
-      "eval_accuracy": 0.13043478260869565,
-      "eval_loss": 1.4222790002822876,
-      "eval_runtime": 0.6169,
-      "eval_samples_per_second": 74.563,
-      "eval_steps_per_second": 3.242,
       "step": 32
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 1.4646577835083008,
-      "eval_runtime": 0.6082,
-      "eval_samples_per_second": 75.638,
-      "eval_steps_per_second": 3.289,
       "step": 39
     },
     {
       "epoch": 6.15,
-      "learning_rate": 0.0001666666666666667,
-      "loss": 1.2128,
       "step": 40
     },
     {
       "epoch": 6.92,
-      "eval_accuracy": 0.17391304347826086,
-      "eval_loss": 1.4183566570281982,
-      "eval_runtime": 0.64,
-      "eval_samples_per_second": 71.878,
-      "eval_steps_per_second": 3.125,
       "step": 45
     },
     {
       "epoch": 7.69,
-      "learning_rate": 0.0001990740740740741,
-      "loss": 1.122,
       "step": 50
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.1956521739130435,
-      "eval_loss": 1.3262405395507812,
-      "eval_runtime": 0.6384,
-      "eval_samples_per_second": 72.055,
-      "eval_steps_per_second": 3.133,
       "step": 52
     },
     {
       "epoch": 8.92,
-      "eval_accuracy": 0.1956521739130435,
-      "eval_loss": 1.3297909498214722,
-      "eval_runtime": 0.5935,
-      "eval_samples_per_second": 77.507,
-      "eval_steps_per_second": 3.37,
       "step": 58
     },
     {
       "epoch": 9.23,
-      "learning_rate": 0.00019444444444444446,
-      "loss": 1.0062,
       "step": 60
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.3695652173913043,
-      "eval_loss": 1.2035472393035889,
-      "eval_runtime": 0.5924,
-      "eval_samples_per_second": 77.654,
-      "eval_steps_per_second": 3.376,
       "step": 65
     },
     {
       "epoch": 10.77,
-      "learning_rate": 0.00018981481481481483,
-      "loss": 0.872,
       "step": 70
     },
     {
       "epoch": 10.92,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.3667021989822388,
-      "eval_runtime": 0.6186,
-      "eval_samples_per_second": 74.367,
-      "eval_steps_per_second": 3.233,
       "step": 71
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.201258897781372,
-      "eval_runtime": 0.6083,
-      "eval_samples_per_second": 75.623,
-      "eval_steps_per_second": 3.288,
       "step": 78
     },
     {
       "epoch": 12.31,
-      "learning_rate": 0.0001851851851851852,
-      "loss": 0.814,
       "step": 80
     },
     {
       "epoch": 12.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.9996185898780823,
-      "eval_runtime": 0.6063,
-      "eval_samples_per_second": 75.874,
-      "eval_steps_per_second": 3.299,
       "step": 84
     },
     {
       "epoch": 13.85,
-      "learning_rate": 0.00018055555555555557,
-      "loss": 0.7228,
       "step": 90
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.9706003069877625,
-      "eval_runtime": 0.6069,
-      "eval_samples_per_second": 75.799,
-      "eval_steps_per_second": 3.296,
       "step": 91
     },
     {
       "epoch": 14.92,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9295421242713928,
-      "eval_runtime": 0.6331,
-      "eval_samples_per_second": 72.657,
-      "eval_steps_per_second": 3.159,
       "step": 97
     },
     {
       "epoch": 15.38,
-      "learning_rate": 0.00017592592592592595,
-      "loss": 0.6473,
       "step": 100
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.8987626433372498,
-      "eval_runtime": 0.607,
-      "eval_samples_per_second": 75.787,
-      "eval_steps_per_second": 3.295,
       "step": 104
     },
     {
       "epoch": 16.92,
-      "learning_rate": 0.00017129629629629632,
-      "loss": 0.5696,
       "step": 110
     },
     {
       "epoch": 16.92,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9612070322036743,
-      "eval_runtime": 0.6266,
-      "eval_samples_per_second": 73.408,
-      "eval_steps_per_second": 3.192,
       "step": 110
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.8712936043739319,
-      "eval_runtime": 0.5923,
-      "eval_samples_per_second": 77.662,
-      "eval_steps_per_second": 3.377,
       "step": 117
     },
     {
       "epoch": 18.46,
-      "learning_rate": 0.0001666666666666667,
-      "loss": 0.5546,
       "step": 120
     },
     {
       "epoch": 18.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.8049858212471008,
-      "eval_runtime": 0.6052,
-      "eval_samples_per_second": 76.002,
-      "eval_steps_per_second": 3.304,
       "step": 123
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.00016203703703703706,
-      "loss": 0.4747,
       "step": 130
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.7724586129188538,
-      "eval_runtime": 0.5976,
-      "eval_samples_per_second": 76.969,
-      "eval_steps_per_second": 3.346,
       "step": 130
     },
     {
       "epoch": 20.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.7933102250099182,
-      "eval_runtime": 0.5936,
-      "eval_samples_per_second": 77.487,
-      "eval_steps_per_second": 3.369,
       "step": 136
     },
     {
       "epoch": 21.54,
-      "learning_rate": 0.00015740740740740743,
-      "loss": 0.4393,
       "step": 140
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.7665086984634399,
-      "eval_runtime": 0.6062,
-      "eval_samples_per_second": 75.883,
-      "eval_steps_per_second": 3.299,
       "step": 143
     },
     {
       "epoch": 22.92,
       "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.7885972857475281,
-      "eval_runtime": 0.644,
-      "eval_samples_per_second": 71.425,
-      "eval_steps_per_second": 3.105,
       "step": 149
     },
     {
       "epoch": 23.08,
-      "learning_rate": 0.00015277777777777777,
-      "loss": 0.4077,
       "step": 150
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.7824200391769409,
-      "eval_runtime": 0.6187,
-      "eval_samples_per_second": 74.344,
-      "eval_steps_per_second": 3.232,
       "step": 156
     },
     {
       "epoch": 24.62,
-      "learning_rate": 0.00014814814814814815,
-      "loss": 0.3326,
       "step": 160
     },
     {
       "epoch": 24.92,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.7020803689956665,
-      "eval_runtime": 0.6226,
-      "eval_samples_per_second": 73.885,
-      "eval_steps_per_second": 3.212,
       "step": 162
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6346074342727661,
-      "eval_runtime": 0.611,
-      "eval_samples_per_second": 75.283,
-      "eval_steps_per_second": 3.273,
       "step": 169
     },
     {
       "epoch": 26.15,
-      "learning_rate": 0.00014351851851851852,
-      "loss": 0.315,
       "step": 170
     },
     {
       "epoch": 26.92,
-      "eval_accuracy": 0.8695652173913043,
-      "eval_loss": 0.6163212060928345,
-      "eval_runtime": 0.6094,
-      "eval_samples_per_second": 75.49,
-      "eval_steps_per_second": 3.282,
       "step": 175
     },
     {
       "epoch": 27.69,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 0.2729,
       "step": 180
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6938338875770569,
-      "eval_runtime": 0.6252,
-      "eval_samples_per_second": 73.577,
-      "eval_steps_per_second": 3.199,
       "step": 182
     },
     {
       "epoch": 28.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.7417004704475403,
-      "eval_runtime": 0.6265,
-      "eval_samples_per_second": 73.429,
-      "eval_steps_per_second": 3.193,
       "step": 188
     },
     {
       "epoch": 29.23,
-      "learning_rate": 0.00013425925925925926,
-      "loss": 0.2218,
       "step": 190
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6668894290924072,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 74.182,
-      "eval_steps_per_second": 3.225,
       "step": 195
     },
     {
       "epoch": 30.77,
-      "learning_rate": 0.00012962962962962963,
-      "loss": 0.2499,
       "step": 200
     },
     {
       "epoch": 30.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.7111229300498962,
-      "eval_runtime": 0.6369,
-      "eval_samples_per_second": 72.225,
-      "eval_steps_per_second": 3.14,
       "step": 201
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6729680299758911,
-      "eval_runtime": 0.6117,
-      "eval_samples_per_second": 75.197,
-      "eval_steps_per_second": 3.269,
       "step": 208
     },
     {
       "epoch": 32.31,
-      "learning_rate": 0.000125,
-      "loss": 0.2218,
       "step": 210
     },
     {
       "epoch": 32.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6511849164962769,
-      "eval_runtime": 0.6114,
-      "eval_samples_per_second": 75.242,
-      "eval_steps_per_second": 3.271,
       "step": 214
     },
     {
       "epoch": 33.85,
-      "learning_rate": 0.00012037037037037037,
-      "loss": 0.2037,
       "step": 220
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.7164542078971863,
-      "eval_runtime": 0.6112,
-      "eval_samples_per_second": 75.258,
-      "eval_steps_per_second": 3.272,
       "step": 221
     },
     {
       "epoch": 34.92,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6299737691879272,
-      "eval_runtime": 0.6021,
-      "eval_samples_per_second": 76.406,
-      "eval_steps_per_second": 3.322,
       "step": 227
     },
     {
       "epoch": 35.38,
-      "learning_rate": 0.00011574074074074075,
-      "loss": 0.2367,
       "step": 230
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.7421004176139832,
-      "eval_runtime": 0.6016,
-      "eval_samples_per_second": 76.464,
-      "eval_steps_per_second": 3.325,
       "step": 234
     },
     {
       "epoch": 36.92,
-      "learning_rate": 0.00011111111111111112,
-      "loss": 0.1835,
       "step": 240
     },
     {
       "epoch": 36.92,
       "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6643686294555664,
-      "eval_runtime": 0.6164,
-      "eval_samples_per_second": 74.628,
-      "eval_steps_per_second": 3.245,
       "step": 240
     },
     {
       "epoch": 38.0,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6250634789466858,
-      "eval_runtime": 0.6064,
-      "eval_samples_per_second": 75.856,
-      "eval_steps_per_second": 3.298,
       "step": 247
     },
     {
       "epoch": 38.46,
-      "learning_rate": 0.00010648148148148149,
-      "loss": 0.2073,
       "step": 250
     },
     {
       "epoch": 38.92,
       "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6430649161338806,
-      "eval_runtime": 0.6133,
-      "eval_samples_per_second": 75.001,
-      "eval_steps_per_second": 3.261,
       "step": 253
     },
     {
       "epoch": 40.0,
-      "learning_rate": 0.00010185185185185186,
-      "loss": 0.1643,
       "step": 260
     },
     {
       "epoch": 40.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.634781539440155,
-      "eval_runtime": 0.6208,
-      "eval_samples_per_second": 74.097,
-      "eval_steps_per_second": 3.222,
       "step": 260
     },
     {
       "epoch": 40.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6192363500595093,
-      "eval_runtime": 0.6183,
-      "eval_samples_per_second": 74.394,
-      "eval_steps_per_second": 3.235,
       "step": 266
     },
     {
       "epoch": 41.54,
-      "learning_rate": 9.722222222222223e-05,
-      "loss": 0.1685,
       "step": 270
     },
     {
       "epoch": 42.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6753482818603516,
-      "eval_runtime": 0.5997,
-      "eval_samples_per_second": 76.701,
-      "eval_steps_per_second": 3.335,
       "step": 273
     },
     {
       "epoch": 42.92,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.7440155148506165,
-      "eval_runtime": 0.6117,
-      "eval_samples_per_second": 75.199,
-      "eval_steps_per_second": 3.27,
       "step": 279
     },
     {
       "epoch": 43.08,
-      "learning_rate": 9.25925925925926e-05,
-      "loss": 0.1539,
       "step": 280
     },
     {
       "epoch": 44.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.7504969239234924,
-      "eval_runtime": 0.6044,
-      "eval_samples_per_second": 76.107,
-      "eval_steps_per_second": 3.309,
       "step": 286
     },
     {
       "epoch": 44.62,
-      "learning_rate": 8.796296296296297e-05,
-      "loss": 0.1658,
       "step": 290
     },
     {
       "epoch": 44.92,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6331078410148621,
-      "eval_runtime": 0.6101,
-      "eval_samples_per_second": 75.401,
-      "eval_steps_per_second": 3.278,
       "step": 292
     },
     {
       "epoch": 46.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6549533009529114,
-      "eval_runtime": 0.8345,
-      "eval_samples_per_second": 55.12,
-      "eval_steps_per_second": 2.397,
       "step": 299
     },
     {
       "epoch": 46.15,
-      "learning_rate": 8.333333333333334e-05,
-      "loss": 0.1596,
       "step": 300
     },
     {
       "epoch": 46.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6824274063110352,
-      "eval_runtime": 0.6289,
-      "eval_samples_per_second": 73.143,
-      "eval_steps_per_second": 3.18,
       "step": 305
     },
     {
       "epoch": 47.69,
-      "learning_rate": 7.870370370370372e-05,
-      "loss": 0.1534,
       "step": 310
     },
     {
       "epoch": 48.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6970986723899841,
-      "eval_runtime": 0.6878,
-      "eval_samples_per_second": 66.875,
-      "eval_steps_per_second": 2.908,
       "step": 312
     },
     {
       "epoch": 48.92,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6347023248672485,
-      "eval_runtime": 0.6022,
-      "eval_samples_per_second": 76.388,
-      "eval_steps_per_second": 3.321,
       "step": 318
     },
     {
       "epoch": 49.23,
-      "learning_rate": 7.407407407407407e-05,
-      "loss": 0.1677,
       "step": 320
     },
     {
       "epoch": 50.0,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6392168998718262,
-      "eval_runtime": 0.6333,
-      "eval_samples_per_second": 72.632,
-      "eval_steps_per_second": 3.158,
       "step": 325
     },
     {
       "epoch": 50.77,
-      "learning_rate": 6.944444444444444e-05,
-      "loss": 0.1453,
       "step": 330
     },
     {
       "epoch": 50.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6368798017501831,
-      "eval_runtime": 0.6455,
-      "eval_samples_per_second": 71.262,
-      "eval_steps_per_second": 3.098,
       "step": 331
     },
     {
       "epoch": 52.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.623034656047821,
-      "eval_runtime": 0.7388,
-      "eval_samples_per_second": 62.259,
-      "eval_steps_per_second": 2.707,
       "step": 338
     },
     {
       "epoch": 52.31,
-      "learning_rate": 6.481481481481482e-05,
-      "loss": 0.1385,
       "step": 340
     },
     {
       "epoch": 52.92,
       "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.6432219743728638,
-      "eval_runtime": 0.6128,
-      "eval_samples_per_second": 75.06,
-      "eval_steps_per_second": 3.263,
       "step": 344
     },
     {
       "epoch": 53.85,
-      "learning_rate": 6.018518518518519e-05,
-      "loss": 0.1221,
       "step": 350
     },
     {
       "epoch": 54.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.6757408380508423,
-      "eval_runtime": 0.5947,
-      "eval_samples_per_second": 77.346,
-      "eval_steps_per_second": 3.363,
       "step": 351
     },
     {
       "epoch": 54.92,
       "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.7383140921592712,
-      "eval_runtime": 0.6233,
-      "eval_samples_per_second": 73.805,
-      "eval_steps_per_second": 3.209,
       "step": 357
     },
     {
       "epoch": 55.38,
-      "learning_rate": 5.555555555555556e-05,
-      "loss": 0.1433,
       "step": 360
     },
     {
       "epoch": 56.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.7100470066070557,
-      "eval_runtime": 0.6051,
-      "eval_samples_per_second": 76.02,
-      "eval_steps_per_second": 3.305,
       "step": 364
     },
     {
       "epoch": 56.92,
-      "learning_rate": 5.092592592592593e-05,
-      "loss": 0.1567,
       "step": 370
     },
     {
       "epoch": 56.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.6861900091171265,
-      "eval_runtime": 0.6176,
-      "eval_samples_per_second": 74.482,
-      "eval_steps_per_second": 3.238,
       "step": 370
     },
     {
       "epoch": 58.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.6653789281845093,
-      "eval_runtime": 0.6048,
-      "eval_samples_per_second": 76.061,
-      "eval_steps_per_second": 3.307,
       "step": 377
     },
     {
       "epoch": 58.46,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.1361,
       "step": 380
     },
     {
       "epoch": 58.92,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.66651451587677,
-      "eval_runtime": 0.6057,
-      "eval_samples_per_second": 75.942,
-      "eval_steps_per_second": 3.302,
       "step": 383
     },
     {
       "epoch": 60.0,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.1157,
       "step": 390
     },
     {
       "epoch": 60.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6439006924629211,
-      "eval_runtime": 0.6871,
-      "eval_samples_per_second": 66.95,
-      "eval_steps_per_second": 2.911,
       "step": 390
     },
     {
       "epoch": 60.92,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6306149959564209,
-      "eval_runtime": 0.6235,
-      "eval_samples_per_second": 73.782,
-      "eval_steps_per_second": 3.208,
       "step": 396
     },
     {
       "epoch": 61.54,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.0934,
       "step": 400
     },
     {
       "epoch": 62.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6546051502227783,
-      "eval_runtime": 0.6648,
-      "eval_samples_per_second": 69.19,
-      "eval_steps_per_second": 3.008,
       "step": 403
     },
     {
       "epoch": 62.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.665103018283844,
-      "eval_runtime": 0.6067,
-      "eval_samples_per_second": 75.824,
-      "eval_steps_per_second": 3.297,
       "step": 409
     },
     {
       "epoch": 63.08,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.1123,
       "step": 410
     },
     {
       "epoch": 64.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.6568355560302734,
-      "eval_runtime": 0.6061,
-      "eval_samples_per_second": 75.896,
-      "eval_steps_per_second": 3.3,
       "step": 416
     },
     {
       "epoch": 64.62,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.0855,
       "step": 420
     },
     {
       "epoch": 64.92,
       "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.6506606936454773,
-      "eval_runtime": 0.6256,
-      "eval_samples_per_second": 73.528,
-      "eval_steps_per_second": 3.197,
       "step": 422
     },
     {
       "epoch": 66.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6667113304138184,
-      "eval_runtime": 0.6184,
-      "eval_samples_per_second": 74.384,
-      "eval_steps_per_second": 3.234,
       "step": 429
     },
     {
       "epoch": 66.15,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 0.1135,
       "step": 430
     },
     {
       "epoch": 66.92,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6515849232673645,
-      "eval_runtime": 0.6641,
-      "eval_samples_per_second": 69.267,
-      "eval_steps_per_second": 3.012,
       "step": 435
     },
     {
       "epoch": 67.69,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0932,
       "step": 440
     },
     {
       "epoch": 68.0,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.6596114039421082,
-      "eval_runtime": 0.5982,
-      "eval_samples_per_second": 76.895,
-      "eval_steps_per_second": 3.343,
       "step": 442
     },
     {
       "epoch": 68.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.677249550819397,
-      "eval_runtime": 0.6014,
-      "eval_samples_per_second": 76.488,
-      "eval_steps_per_second": 3.326,
       "step": 448
     },
     {
       "epoch": 69.23,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.1228,
       "step": 450
     },
     {
       "epoch": 70.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.6525955200195312,
-      "eval_runtime": 0.6064,
-      "eval_samples_per_second": 75.857,
-      "eval_steps_per_second": 3.298,
       "step": 455
     },
     {
       "epoch": 70.77,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0878,
       "step": 460
     },
     {
       "epoch": 70.92,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.6731473207473755,
-      "eval_runtime": 0.6319,
-      "eval_samples_per_second": 72.794,
-      "eval_steps_per_second": 3.165,
       "step": 461
     },
     {
       "epoch": 72.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6350728869438171,
-      "eval_runtime": 0.626,
-      "eval_samples_per_second": 73.479,
-      "eval_steps_per_second": 3.195,
       "step": 468
     },
     {
       "epoch": 72.31,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.1073,
       "step": 470
     },
     {
       "epoch": 72.92,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6268617510795593,
-      "eval_runtime": 0.6109,
-      "eval_samples_per_second": 75.304,
-      "eval_steps_per_second": 3.274,
       "step": 474
     },
     {
       "epoch": 73.85,
-      "learning_rate": 0.0,
-      "loss": 0.1028,
       "step": 480
     },
     {
-      "epoch": 73.85,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.6742560267448425,
-      "eval_runtime": 0.6109,
-      "eval_samples_per_second": 75.3,
-      "eval_steps_per_second": 3.274,
-      "step": 480
     },
     {
-      "epoch": 73.85,
-      "step": 480,
-      "total_flos": 1.6581977329862246e+17,
-      "train_loss": 0.38355133185784024,
-      "train_runtime": 282.7663,
-      "train_samples_per_second": 231.711,
-      "train_steps_per_second": 1.698
     }
   ],
   "logging_steps": 10,
-  "max_steps": 480,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 80,
   "save_steps": 500,
-  "total_flos": 1.6581977329862246e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8478260869565217,
   "best_model_checkpoint": "swiftformer-xs-ve-U13-b-80\\checkpoint-175",
+  "epoch": 92.3076923076923,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.92,
+      "eval_accuracy": 0.2391304347826087,
+      "eval_loss": 1.385766863822937,
+      "eval_runtime": 0.6016,
+      "eval_samples_per_second": 76.463,
+      "eval_steps_per_second": 3.324,
       "step": 6
     },
     {
       "epoch": 1.54,
+      "learning_rate": 4.9999999999999996e-05,
+      "loss": 1.3856,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.2826086956521739,
+      "eval_loss": 1.382806420326233,
+      "eval_runtime": 0.5574,
+      "eval_samples_per_second": 82.519,
+      "eval_steps_per_second": 3.588,
       "step": 13
     },
     {
       "epoch": 2.92,
+      "eval_accuracy": 0.1956521739130435,
+      "eval_loss": 1.3768857717514038,
+      "eval_runtime": 0.5369,
+      "eval_samples_per_second": 85.684,
+      "eval_steps_per_second": 3.725,
       "step": 19
     },
     {
       "epoch": 3.08,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 1.3734,
       "step": 20
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.13043478260869565,
+      "eval_loss": 1.3624433279037476,
+      "eval_runtime": 0.5605,
+      "eval_samples_per_second": 82.064,
+      "eval_steps_per_second": 3.568,
       "step": 26
     },
     {
       "epoch": 4.62,
+      "learning_rate": 0.00015,
+      "loss": 1.2978,
       "step": 30
     },
     {
       "epoch": 4.92,
+      "eval_accuracy": 0.15217391304347827,
+      "eval_loss": 1.3553236722946167,
+      "eval_runtime": 0.5527,
+      "eval_samples_per_second": 83.233,
+      "eval_steps_per_second": 3.619,
       "step": 32
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.08695652173913043,
+      "eval_loss": 1.412070870399475,
+      "eval_runtime": 0.5682,
+      "eval_samples_per_second": 80.963,
+      "eval_steps_per_second": 3.52,
       "step": 39
     },
     {
       "epoch": 6.15,
+      "learning_rate": 0.00019999999999999998,
+      "loss": 1.1702,
       "step": 40
     },
     {
       "epoch": 6.92,
+      "eval_accuracy": 0.2391304347826087,
+      "eval_loss": 1.3719676733016968,
+      "eval_runtime": 0.5522,
+      "eval_samples_per_second": 83.302,
+      "eval_steps_per_second": 3.622,
       "step": 45
     },
     {
       "epoch": 7.69,
+      "learning_rate": 0.00025,
+      "loss": 1.0743,
       "step": 50
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.34782608695652173,
+      "eval_loss": 1.3162317276000977,
+      "eval_runtime": 0.5693,
+      "eval_samples_per_second": 80.8,
+      "eval_steps_per_second": 3.513,
       "step": 52
     },
     {
       "epoch": 8.92,
+      "eval_accuracy": 0.3695652173913043,
+      "eval_loss": 1.2251616716384888,
+      "eval_runtime": 0.6192,
+      "eval_samples_per_second": 74.295,
+      "eval_steps_per_second": 3.23,
       "step": 58
     },
     {
       "epoch": 9.23,
+      "learning_rate": 0.0003,
+      "loss": 0.9504,
       "step": 60
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.43478260869565216,
+      "eval_loss": 1.168912649154663,
+      "eval_runtime": 0.6842,
+      "eval_samples_per_second": 67.23,
+      "eval_steps_per_second": 2.923,
       "step": 65
     },
     {
       "epoch": 10.77,
+      "learning_rate": 0.00029444444444444445,
+      "loss": 0.8305,
       "step": 70
     },
     {
       "epoch": 10.92,
+      "eval_accuracy": 0.5869565217391305,
+      "eval_loss": 1.0516129732131958,
+      "eval_runtime": 0.5642,
+      "eval_samples_per_second": 81.528,
+      "eval_steps_per_second": 3.545,
       "step": 71
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9548317193984985,
+      "eval_runtime": 0.5661,
+      "eval_samples_per_second": 81.254,
+      "eval_steps_per_second": 3.533,
       "step": 78
     },
     {
       "epoch": 12.31,
+      "learning_rate": 0.0002888888888888888,
+      "loss": 0.7374,
       "step": 80
     },
     {
       "epoch": 12.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9137820601463318,
+      "eval_runtime": 0.5482,
+      "eval_samples_per_second": 83.916,
+      "eval_steps_per_second": 3.649,
       "step": 84
     },
     {
       "epoch": 13.85,
+      "learning_rate": 0.0002833333333333333,
+      "loss": 0.6207,
       "step": 90
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9353066086769104,
+      "eval_runtime": 0.5551,
+      "eval_samples_per_second": 82.864,
+      "eval_steps_per_second": 3.603,
       "step": 91
     },
     {
       "epoch": 14.92,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8639649152755737,
+      "eval_runtime": 0.5605,
+      "eval_samples_per_second": 82.076,
+      "eval_steps_per_second": 3.569,
       "step": 97
     },
     {
       "epoch": 15.38,
+      "learning_rate": 0.0002777777777777778,
+      "loss": 0.5184,
       "step": 100
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8121959567070007,
+      "eval_runtime": 0.5575,
+      "eval_samples_per_second": 82.517,
+      "eval_steps_per_second": 3.588,
       "step": 104
     },
     {
       "epoch": 16.92,
+      "learning_rate": 0.0002722222222222222,
+      "loss": 0.4606,
       "step": 110
     },
     {
       "epoch": 16.92,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.7136393189430237,
+      "eval_runtime": 0.5537,
+      "eval_samples_per_second": 83.08,
+      "eval_steps_per_second": 3.612,
       "step": 110
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7955167293548584,
+      "eval_runtime": 0.5778,
+      "eval_samples_per_second": 79.616,
+      "eval_steps_per_second": 3.462,
       "step": 117
     },
     {
       "epoch": 18.46,
+      "learning_rate": 0.0002666666666666666,
+      "loss": 0.4332,
       "step": 120
     },
     {
       "epoch": 18.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.7789567112922668,
+      "eval_runtime": 0.5435,
+      "eval_samples_per_second": 84.632,
+      "eval_steps_per_second": 3.68,
       "step": 123
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.0002611111111111111,
+      "loss": 0.3315,
       "step": 130
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8116961717605591,
+      "eval_runtime": 0.6158,
+      "eval_samples_per_second": 74.701,
+      "eval_steps_per_second": 3.248,
       "step": 130
     },
     {
       "epoch": 20.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8068195581436157,
+      "eval_runtime": 0.5397,
+      "eval_samples_per_second": 85.24,
+      "eval_steps_per_second": 3.706,
       "step": 136
     },
     {
       "epoch": 21.54,
+      "learning_rate": 0.00025555555555555553,
+      "loss": 0.3229,
       "step": 140
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8786293268203735,
+      "eval_runtime": 0.5594,
+      "eval_samples_per_second": 82.233,
+      "eval_steps_per_second": 3.575,
       "step": 143
     },
     {
       "epoch": 22.92,
       "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9029754996299744,
+      "eval_runtime": 0.5517,
+      "eval_samples_per_second": 83.385,
+      "eval_steps_per_second": 3.625,
       "step": 149
     },
     {
       "epoch": 23.08,
+      "learning_rate": 0.00025,
+      "loss": 0.3065,
       "step": 150
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.8253074884414673,
+      "eval_runtime": 0.578,
+      "eval_samples_per_second": 79.588,
+      "eval_steps_per_second": 3.46,
       "step": 156
     },
     {
       "epoch": 24.62,
+      "learning_rate": 0.00024444444444444443,
+      "loss": 0.2315,
       "step": 160
     },
     {
       "epoch": 24.92,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.739804208278656,
+      "eval_runtime": 0.5608,
+      "eval_samples_per_second": 82.024,
+      "eval_steps_per_second": 3.566,
       "step": 162
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7938594222068787,
+      "eval_runtime": 0.5501,
+      "eval_samples_per_second": 83.615,
+      "eval_steps_per_second": 3.635,
       "step": 169
     },
     {
       "epoch": 26.15,
+      "learning_rate": 0.00023888888888888885,
+      "loss": 0.222,
       "step": 170
     },
     {
       "epoch": 26.92,
+      "eval_accuracy": 0.8478260869565217,
+      "eval_loss": 0.6640377044677734,
+      "eval_runtime": 0.5452,
+      "eval_samples_per_second": 84.37,
+      "eval_steps_per_second": 3.668,
       "step": 175
     },
     {
       "epoch": 27.69,
+      "learning_rate": 0.0002333333333333333,
+      "loss": 0.1756,
       "step": 180
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.850994348526001,
+      "eval_runtime": 0.5442,
+      "eval_samples_per_second": 84.525,
+      "eval_steps_per_second": 3.675,
       "step": 182
     },
     {
       "epoch": 28.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9861403107643127,
+      "eval_runtime": 0.5468,
+      "eval_samples_per_second": 84.118,
+      "eval_steps_per_second": 3.657,
       "step": 188
     },
     {
       "epoch": 29.23,
+      "learning_rate": 0.00022777777777777778,
+      "loss": 0.1702,
       "step": 190
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 1.1060209274291992,
+      "eval_runtime": 0.5662,
+      "eval_samples_per_second": 81.238,
+      "eval_steps_per_second": 3.532,
       "step": 195
     },
     {
       "epoch": 30.77,
+      "learning_rate": 0.00022222222222222218,
+      "loss": 0.202,
       "step": 200
     },
     {
       "epoch": 30.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.0928934812545776,
+      "eval_runtime": 0.5568,
+      "eval_samples_per_second": 82.617,
+      "eval_steps_per_second": 3.592,
       "step": 201
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8670152425765991,
+      "eval_runtime": 0.5807,
+      "eval_samples_per_second": 79.209,
+      "eval_steps_per_second": 3.444,
       "step": 208
     },
     {
       "epoch": 32.31,
+      "learning_rate": 0.00021666666666666666,
+      "loss": 0.1665,
       "step": 210
     },
     {
       "epoch": 32.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8032902479171753,
+      "eval_runtime": 0.5451,
+      "eval_samples_per_second": 84.381,
+      "eval_steps_per_second": 3.669,
       "step": 214
     },
     {
       "epoch": 33.85,
+      "learning_rate": 0.0002111111111111111,
+      "loss": 0.1695,
       "step": 220
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.7234715819358826,
+      "eval_runtime": 0.5632,
+      "eval_samples_per_second": 81.673,
+      "eval_steps_per_second": 3.551,
       "step": 221
     },
     {
       "epoch": 34.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8916966915130615,
+      "eval_runtime": 0.5518,
+      "eval_samples_per_second": 83.363,
+      "eval_steps_per_second": 3.624,
       "step": 227
     },
     {
       "epoch": 35.38,
+      "learning_rate": 0.00020555555555555556,
+      "loss": 0.1807,
       "step": 230
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9215289950370789,
+      "eval_runtime": 0.5536,
+      "eval_samples_per_second": 83.099,
+      "eval_steps_per_second": 3.613,
       "step": 234
     },
     {
       "epoch": 36.92,
+      "learning_rate": 0.00019999999999999998,
+      "loss": 0.1289,
       "step": 240
     },
     {
       "epoch": 36.92,
       "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.8231099247932434,
+      "eval_runtime": 0.5624,
+      "eval_samples_per_second": 81.787,
+      "eval_steps_per_second": 3.556,
       "step": 240
     },
     {
       "epoch": 38.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.9255649447441101,
+      "eval_runtime": 0.5579,
+      "eval_samples_per_second": 82.459,
+      "eval_steps_per_second": 3.585,
       "step": 247
     },
     {
       "epoch": 38.46,
+      "learning_rate": 0.00019444444444444443,
+      "loss": 0.145,
       "step": 250
     },
     {
       "epoch": 38.92,
       "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8866252303123474,
+      "eval_runtime": 0.5578,
+      "eval_samples_per_second": 82.469,
+      "eval_steps_per_second": 3.586,
       "step": 253
     },
     {
       "epoch": 40.0,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 0.1422,
       "step": 260
     },
     {
       "epoch": 40.0,
+      "eval_accuracy": 0.8260869565217391,
+      "eval_loss": 0.8511058688163757,
+      "eval_runtime": 0.5658,
+      "eval_samples_per_second": 81.305,
+      "eval_steps_per_second": 3.535,
       "step": 260
     },
     {
       "epoch": 40.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9955706596374512,
+      "eval_runtime": 0.5459,
+      "eval_samples_per_second": 84.265,
+      "eval_steps_per_second": 3.664,
       "step": 266
     },
     {
       "epoch": 41.54,
+      "learning_rate": 0.00018333333333333334,
+      "loss": 0.1313,
       "step": 270
     },
     {
       "epoch": 42.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.3004724979400635,
+      "eval_runtime": 0.5565,
+      "eval_samples_per_second": 82.654,
+      "eval_steps_per_second": 3.594,
       "step": 273
     },
     {
       "epoch": 42.92,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 1.1531860828399658,
+      "eval_runtime": 0.5577,
+      "eval_samples_per_second": 82.479,
+      "eval_steps_per_second": 3.586,
       "step": 279
     },
     {
       "epoch": 43.08,
+      "learning_rate": 0.00017777777777777776,
+      "loss": 0.1128,
       "step": 280
     },
     {
       "epoch": 44.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.0891470909118652,
+      "eval_runtime": 0.5553,
+      "eval_samples_per_second": 82.842,
+      "eval_steps_per_second": 3.602,
       "step": 286
     },
     {
       "epoch": 44.62,
+      "learning_rate": 0.0001722222222222222,
+      "loss": 0.1213,
       "step": 290
     },
     {
       "epoch": 44.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.0764859914779663,
+      "eval_runtime": 0.5645,
+      "eval_samples_per_second": 81.483,
+      "eval_steps_per_second": 3.543,
       "step": 292
     },
     {
       "epoch": 46.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9141591191291809,
+      "eval_runtime": 0.5767,
+      "eval_samples_per_second": 79.768,
+      "eval_steps_per_second": 3.468,
       "step": 299
     },
     {
       "epoch": 46.15,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.1161,
       "step": 300
     },
     {
       "epoch": 46.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.909971296787262,
+      "eval_runtime": 0.5553,
+      "eval_samples_per_second": 82.834,
+      "eval_steps_per_second": 3.601,
       "step": 305
     },
     {
       "epoch": 47.69,
+      "learning_rate": 0.0001611111111111111,
+      "loss": 0.1123,
       "step": 310
     },
     {
       "epoch": 48.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8906996250152588,
+      "eval_runtime": 0.545,
+      "eval_samples_per_second": 84.409,
+      "eval_steps_per_second": 3.67,
       "step": 312
     },
     {
       "epoch": 48.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.9461659789085388,
+      "eval_runtime": 0.5617,
+      "eval_samples_per_second": 81.888,
+      "eval_steps_per_second": 3.56,
       "step": 318
     },
     {
       "epoch": 49.23,
+      "learning_rate": 0.00015555555555555554,
+      "loss": 0.1107,
       "step": 320
     },
     {
       "epoch": 50.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8591524958610535,
+      "eval_runtime": 0.5836,
+      "eval_samples_per_second": 78.822,
+      "eval_steps_per_second": 3.427,
       "step": 325
     },
     {
       "epoch": 50.77,
+      "learning_rate": 0.00015,
+      "loss": 0.0915,
       "step": 330
     },
     {
       "epoch": 50.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.9894090890884399,
+      "eval_runtime": 0.5586,
+      "eval_samples_per_second": 82.348,
+      "eval_steps_per_second": 3.58,
       "step": 331
     },
     {
       "epoch": 52.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 1.1094378232955933,
+      "eval_runtime": 0.5369,
+      "eval_samples_per_second": 85.67,
+      "eval_steps_per_second": 3.725,
       "step": 338
     },
     {
       "epoch": 52.31,
+      "learning_rate": 0.0001444444444444444,
+      "loss": 0.0981,
       "step": 340
     },
     {
       "epoch": 52.92,
       "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 1.1955540180206299,
+      "eval_runtime": 0.5652,
+      "eval_samples_per_second": 81.388,
+      "eval_steps_per_second": 3.539,
       "step": 344
     },
     {
       "epoch": 53.85,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.0762,
       "step": 350
     },
     {
       "epoch": 54.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 1.0078867673873901,
+      "eval_runtime": 0.5486,
+      "eval_samples_per_second": 83.844,
+      "eval_steps_per_second": 3.645,
       "step": 351
     },
     {
       "epoch": 54.92,
       "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.9898611307144165,
+      "eval_runtime": 0.5586,
+      "eval_samples_per_second": 82.345,
+      "eval_steps_per_second": 3.58,
       "step": 357
     },
     {
       "epoch": 55.38,
+      "learning_rate": 0.0001333333333333333,
+      "loss": 0.1083,
       "step": 360
     },
     {
       "epoch": 56.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.9164445996284485,
+      "eval_runtime": 0.5694,
+      "eval_samples_per_second": 80.79,
+      "eval_steps_per_second": 3.513,
       "step": 364
     },
     {
       "epoch": 56.92,
+      "learning_rate": 0.00012777777777777776,
+      "loss": 0.1087,
       "step": 370
     },
     {
       "epoch": 56.92,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.9263260960578918,
+      "eval_runtime": 0.567,
+      "eval_samples_per_second": 81.133,
+      "eval_steps_per_second": 3.528,
       "step": 370
     },
     {
       "epoch": 58.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9160030484199524,
+      "eval_runtime": 0.6023,
+      "eval_samples_per_second": 76.371,
+      "eval_steps_per_second": 3.32,
       "step": 377
     },
     {
       "epoch": 58.46,
+      "learning_rate": 0.00012222222222222221,
+      "loss": 0.0871,
       "step": 380
     },
     {
       "epoch": 58.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.0178961753845215,
+      "eval_runtime": 0.5547,
+      "eval_samples_per_second": 82.923,
+      "eval_steps_per_second": 3.605,
       "step": 383
     },
     {
       "epoch": 60.0,
+      "learning_rate": 0.00011666666666666665,
+      "loss": 0.0852,
       "step": 390
     },
     {
       "epoch": 60.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9246215224266052,
+      "eval_runtime": 0.5641,
+      "eval_samples_per_second": 81.551,
+      "eval_steps_per_second": 3.546,
       "step": 390
     },
     {
       "epoch": 60.92,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.8928539156913757,
+      "eval_runtime": 0.5647,
+      "eval_samples_per_second": 81.457,
+      "eval_steps_per_second": 3.542,
       "step": 396
     },
     {
       "epoch": 61.54,
+      "learning_rate": 0.00011111111111111109,
+      "loss": 0.0613,
       "step": 400
     },
     {
       "epoch": 62.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9988526105880737,
+      "eval_runtime": 0.5653,
+      "eval_samples_per_second": 81.37,
+      "eval_steps_per_second": 3.538,
       "step": 403
     },
     {
       "epoch": 62.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.0367439985275269,
+      "eval_runtime": 0.5583,
+      "eval_samples_per_second": 82.397,
+      "eval_steps_per_second": 3.582,
       "step": 409
     },
     {
       "epoch": 63.08,
+      "learning_rate": 0.00010555555555555555,
+      "loss": 0.0899,
       "step": 410
     },
     {
       "epoch": 64.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.1212767362594604,
+      "eval_runtime": 0.6169,
+      "eval_samples_per_second": 74.561,
+      "eval_steps_per_second": 3.242,
       "step": 416
     },
     {
       "epoch": 64.62,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 0.0669,
       "step": 420
     },
     {
       "epoch": 64.92,
       "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 1.0092602968215942,
+      "eval_runtime": 0.5458,
+      "eval_samples_per_second": 84.281,
+      "eval_steps_per_second": 3.664,
       "step": 422
     },
     {
       "epoch": 66.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.0128601789474487,
+      "eval_runtime": 0.5653,
+      "eval_samples_per_second": 81.375,
+      "eval_steps_per_second": 3.538,
       "step": 429
     },
     {
       "epoch": 66.15,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.0791,
       "step": 430
     },
     {
       "epoch": 66.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9979057908058167,
+      "eval_runtime": 0.5593,
+      "eval_samples_per_second": 82.241,
+      "eval_steps_per_second": 3.576,
       "step": 435
     },
     {
       "epoch": 67.69,
+      "learning_rate": 8.888888888888888e-05,
+      "loss": 0.0848,
       "step": 440
     },
     {
       "epoch": 68.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.0137319564819336,
+      "eval_runtime": 0.5679,
+      "eval_samples_per_second": 81.003,
+      "eval_steps_per_second": 3.522,
       "step": 442
     },
     {
       "epoch": 68.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.0760867595672607,
+      "eval_runtime": 0.5572,
+      "eval_samples_per_second": 82.55,
+      "eval_steps_per_second": 3.589,
       "step": 448
     },
     {
       "epoch": 69.23,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.0799,
       "step": 450
     },
     {
       "epoch": 70.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.0152040719985962,
+      "eval_runtime": 0.56,
+      "eval_samples_per_second": 82.145,
+      "eval_steps_per_second": 3.572,
       "step": 455
     },
     {
       "epoch": 70.77,
+      "learning_rate": 7.777777777777777e-05,
+      "loss": 0.0727,
       "step": 460
     },
     {
       "epoch": 70.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.130175232887268,
+      "eval_runtime": 0.5554,
+      "eval_samples_per_second": 82.818,
+      "eval_steps_per_second": 3.601,
       "step": 461
     },
     {
       "epoch": 72.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.046817421913147,
+      "eval_runtime": 0.5592,
+      "eval_samples_per_second": 82.253,
+      "eval_steps_per_second": 3.576,
       "step": 468
     },
     {
       "epoch": 72.31,
+      "learning_rate": 7.22222222222222e-05,
+      "loss": 0.0763,
       "step": 470
     },
     {
       "epoch": 72.92,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 1.0759297609329224,
+      "eval_runtime": 0.5607,
+      "eval_samples_per_second": 82.046,
+      "eval_steps_per_second": 3.567,
       "step": 474
     },
     {
       "epoch": 73.85,
+      "learning_rate": 6.666666666666666e-05,
+      "loss": 0.06,
       "step": 480
     },
     {
+      "epoch": 74.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.0803240537643433,
+      "eval_runtime": 0.553,
+      "eval_samples_per_second": 83.183,
+      "eval_steps_per_second": 3.617,
+      "step": 481
     },
     {
+      "epoch": 74.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.0483999252319336,
+      "eval_runtime": 0.5749,
+      "eval_samples_per_second": 80.02,
+      "eval_steps_per_second": 3.479,
+      "step": 487
+    },
+    {
+      "epoch": 75.38,
+      "learning_rate": 6.111111111111111e-05,
+      "loss": 0.0746,
+      "step": 490
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.999907374382019,
+      "eval_runtime": 0.6218,
+      "eval_samples_per_second": 73.983,
+      "eval_steps_per_second": 3.217,
+      "step": 494
+    },
+    {
+      "epoch": 76.92,
+      "learning_rate": 5.5555555555555545e-05,
+      "loss": 0.0687,
+      "step": 500
+    },
+    {
+      "epoch": 76.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.993706226348877,
+      "eval_runtime": 0.5757,
+      "eval_samples_per_second": 79.899,
+      "eval_steps_per_second": 3.474,
+      "step": 500
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.1188522577285767,
+      "eval_runtime": 0.5575,
+      "eval_samples_per_second": 82.513,
+      "eval_steps_per_second": 3.588,
+      "step": 507
+    },
+    {
+      "epoch": 78.46,
+      "learning_rate": 4.9999999999999996e-05,
+      "loss": 0.0761,
+      "step": 510
+    },
+    {
+      "epoch": 78.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.1013031005859375,
+      "eval_runtime": 0.6076,
+      "eval_samples_per_second": 75.709,
+      "eval_steps_per_second": 3.292,
+      "step": 513
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 4.444444444444444e-05,
+      "loss": 0.0729,
+      "step": 520
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.029362678527832,
+      "eval_runtime": 0.5744,
+      "eval_samples_per_second": 80.09,
+      "eval_steps_per_second": 3.482,
+      "step": 520
+    },
+    {
+      "epoch": 80.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.0859981775283813,
+      "eval_runtime": 0.5737,
+      "eval_samples_per_second": 80.176,
+      "eval_steps_per_second": 3.486,
+      "step": 526
+    },
+    {
+      "epoch": 81.54,
+      "learning_rate": 3.8888888888888884e-05,
+      "loss": 0.0472,
+      "step": 530
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.03272545337677,
+      "eval_runtime": 0.5693,
+      "eval_samples_per_second": 80.807,
+      "eval_steps_per_second": 3.513,
+      "step": 533
+    },
+    {
+      "epoch": 82.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.0224952697753906,
+      "eval_runtime": 0.5731,
+      "eval_samples_per_second": 80.269,
+      "eval_steps_per_second": 3.49,
+      "step": 539
+    },
+    {
+      "epoch": 83.08,
+      "learning_rate": 3.333333333333333e-05,
+      "loss": 0.0519,
+      "step": 540
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.1345374584197998,
+      "eval_runtime": 0.5627,
+      "eval_samples_per_second": 81.748,
+      "eval_steps_per_second": 3.554,
+      "step": 546
+    },
+    {
+      "epoch": 84.62,
+      "learning_rate": 2.7777777777777772e-05,
+      "loss": 0.0688,
+      "step": 550
+    },
+    {
+      "epoch": 84.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.092256784439087,
+      "eval_runtime": 0.577,
+      "eval_samples_per_second": 79.728,
+      "eval_steps_per_second": 3.466,
+      "step": 552
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.087559700012207,
+      "eval_runtime": 0.5661,
+      "eval_samples_per_second": 81.256,
+      "eval_steps_per_second": 3.533,
+      "step": 559
+    },
+    {
+      "epoch": 86.15,
+      "learning_rate": 2.222222222222222e-05,
+      "loss": 0.0462,
+      "step": 560
+    },
+    {
+      "epoch": 86.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.0740270614624023,
+      "eval_runtime": 0.6474,
+      "eval_samples_per_second": 71.049,
+      "eval_steps_per_second": 3.089,
+      "step": 565
+    },
+    {
+      "epoch": 87.69,
+      "learning_rate": 1.6666666666666664e-05,
+      "loss": 0.0457,
+      "step": 570
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.1073704957962036,
+      "eval_runtime": 0.5747,
+      "eval_samples_per_second": 80.036,
+      "eval_steps_per_second": 3.48,
+      "step": 572
+    },
+    {
+      "epoch": 88.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.077661395072937,
+      "eval_runtime": 0.5678,
+      "eval_samples_per_second": 81.01,
+      "eval_steps_per_second": 3.522,
+      "step": 578
+    },
+    {
+      "epoch": 89.23,
+      "learning_rate": 1.111111111111111e-05,
+      "loss": 0.0482,
+      "step": 580
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.0495113134384155,
+      "eval_runtime": 0.5757,
+      "eval_samples_per_second": 79.909,
+      "eval_steps_per_second": 3.474,
+      "step": 585
+    },
+    {
+      "epoch": 90.77,
+      "learning_rate": 5.555555555555555e-06,
+      "loss": 0.0464,
+      "step": 590
+    },
+    {
+      "epoch": 90.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.039515495300293,
+      "eval_runtime": 0.5732,
+      "eval_samples_per_second": 80.246,
+      "eval_steps_per_second": 3.489,
+      "step": 591
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 1.1445815563201904,
+      "eval_runtime": 0.5643,
+      "eval_samples_per_second": 81.522,
+      "eval_steps_per_second": 3.544,
+      "step": 598
+    },
+    {
+      "epoch": 92.31,
+      "learning_rate": 0.0,
+      "loss": 0.0578,
+      "step": 600
+    },
+    {
+      "epoch": 92.31,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.0596117973327637,
+      "eval_runtime": 0.6055,
+      "eval_samples_per_second": 75.965,
+      "eval_steps_per_second": 3.303,
+      "step": 600
+    },
+    {
+      "epoch": 92.31,
+      "step": 600,
+      "total_flos": 2.072479896260444e+17,
+      "train_loss": 0.2747100231051445,
+      "train_runtime": 347.4081,
+      "train_samples_per_second": 235.746,
+      "train_steps_per_second": 1.727
     }
   ],
   "logging_steps": 10,
+  "max_steps": 600,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
   "save_steps": 500,
+  "total_flos": 2.072479896260444e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null