End of training

Browse files

Files changed (5) hide show

all_results.json +7 -7
eval_results.json +3 -3
runs/Jan30_12-33-31_0740e744f9c3/events.out.tfevents.1675095397.0740e744f9c3.236.4 +3 -0
train_results.json +4 -4
trainer_state.json +316 -316

all_results.json CHANGED Viewed

@@ -2,12 +2,12 @@
     "epoch": 59.91,
     "eval_accuracy": 0.9733333333333334,
     "eval_loss": 0.1787085384130478,
-    "eval_runtime": 4.6113,
-    "eval_samples_per_second": 16.265,
-    "eval_steps_per_second": 0.651,
     "total_flos": 1.0044714081093673e+18,
-    "train_loss": 0.5910613632202149,
-    "train_runtime": 5579.9163,
-    "train_samples_per_second": 7.247,
-    "train_steps_per_second": 0.054
 }

     "epoch": 59.91,
     "eval_accuracy": 0.9733333333333334,
     "eval_loss": 0.1787085384130478,
+    "eval_runtime": 4.6705,
+    "eval_samples_per_second": 16.058,
+    "eval_steps_per_second": 0.642,
     "total_flos": 1.0044714081093673e+18,
+    "train_loss": 0.3854776843388875,
+    "train_runtime": 7248.8786,
+    "train_samples_per_second": 5.579,
+    "train_steps_per_second": 0.041
 }

eval_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 59.91,
     "eval_accuracy": 0.9733333333333334,
     "eval_loss": 0.1787085384130478,
-    "eval_runtime": 4.6113,
-    "eval_samples_per_second": 16.265,
-    "eval_steps_per_second": 0.651
 }

     "epoch": 59.91,
     "eval_accuracy": 0.9733333333333334,
     "eval_loss": 0.1787085384130478,
+    "eval_runtime": 4.6705,
+    "eval_samples_per_second": 16.058,
+    "eval_steps_per_second": 0.642
 }

runs/Jan30_12-33-31_0740e744f9c3/events.out.tfevents.1675095397.0740e744f9c3.236.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2cdbc5cae70a037ee0cda577ddf28d05bcb67166f3d8de5e02f065018dc11de
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 59.91,
     "total_flos": 1.0044714081093673e+18,
-    "train_loss": 0.5910613632202149,
-    "train_runtime": 5579.9163,
-    "train_samples_per_second": 7.247,
-    "train_steps_per_second": 0.054
 }

 {
     "epoch": 59.91,
     "total_flos": 1.0044714081093673e+18,
+    "train_loss": 0.3854776843388875,
+    "train_runtime": 7248.8786,
+    "train_samples_per_second": 5.579,
+    "train_steps_per_second": 0.041
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_metric": 0.9733333333333334,
-  "best_model_checkpoint": "delivery_truck_classification/checkpoint-155",
   "epoch": 59.90909090909091,
   "global_step": 300,
   "is_hyper_param_search": false,
@@ -9,642 +9,642 @@
   "log_history": [
     {
       "epoch": 0.91,
-      "eval_accuracy": 0.06666666666666667,
-      "eval_loss": 2.124830722808838,
-      "eval_runtime": 4.5982,
-      "eval_samples_per_second": 16.311,
-      "eval_steps_per_second": 0.652,
       "step": 5
     },
     {
       "epoch": 1.91,
-      "eval_accuracy": 0.24,
-      "eval_loss": 1.922129511833191,
-      "eval_runtime": 4.7321,
-      "eval_samples_per_second": 15.849,
-      "eval_steps_per_second": 0.634,
       "step": 10
     },
     {
       "epoch": 2.91,
-      "eval_accuracy": 0.32,
-      "eval_loss": 1.7176545858383179,
-      "eval_runtime": 4.4837,
-      "eval_samples_per_second": 16.727,
-      "eval_steps_per_second": 0.669,
       "step": 15
     },
     {
       "epoch": 3.91,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 2.0123,
       "step": 20
     },
     {
       "epoch": 3.91,
-      "eval_accuracy": 0.4266666666666667,
-      "eval_loss": 1.5490375757217407,
-      "eval_runtime": 4.4804,
-      "eval_samples_per_second": 16.74,
-      "eval_steps_per_second": 0.67,
       "step": 20
     },
     {
       "epoch": 4.91,
-      "eval_accuracy": 0.5333333333333333,
-      "eval_loss": 1.3192248344421387,
-      "eval_runtime": 4.5163,
-      "eval_samples_per_second": 16.607,
-      "eval_steps_per_second": 0.664,
       "step": 25
     },
     {
       "epoch": 5.91,
-      "eval_accuracy": 0.64,
-      "eval_loss": 1.0764085054397583,
-      "eval_runtime": 4.4752,
-      "eval_samples_per_second": 16.759,
-      "eval_steps_per_second": 0.67,
       "step": 30
     },
     {
       "epoch": 6.91,
-      "eval_accuracy": 0.76,
-      "eval_loss": 0.8421124219894409,
-      "eval_runtime": 4.5472,
-      "eval_samples_per_second": 16.494,
-      "eval_steps_per_second": 0.66,
       "step": 35
     },
     {
       "epoch": 7.91,
-      "learning_rate": 4.814814814814815e-05,
-      "loss": 1.3539,
       "step": 40
     },
     {
       "epoch": 7.91,
-      "eval_accuracy": 0.8266666666666667,
-      "eval_loss": 0.6503960490226746,
-      "eval_runtime": 4.6022,
-      "eval_samples_per_second": 16.296,
-      "eval_steps_per_second": 0.652,
       "step": 40
     },
     {
       "epoch": 8.91,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.5242553949356079,
-      "eval_runtime": 4.4829,
-      "eval_samples_per_second": 16.73,
-      "eval_steps_per_second": 0.669,
       "step": 45
     },
     {
       "epoch": 9.91,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.4281647205352783,
-      "eval_runtime": 4.4238,
-      "eval_samples_per_second": 16.954,
-      "eval_steps_per_second": 0.678,
       "step": 50
     },
     {
       "epoch": 10.91,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3949722349643707,
-      "eval_runtime": 4.5638,
-      "eval_samples_per_second": 16.434,
-      "eval_steps_per_second": 0.657,
       "step": 55
     },
     {
       "epoch": 11.91,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.7315,
       "step": 60
     },
     {
       "epoch": 11.91,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.361709862947464,
-      "eval_runtime": 4.5199,
-      "eval_samples_per_second": 16.593,
-      "eval_steps_per_second": 0.664,
       "step": 60
     },
     {
       "epoch": 12.91,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3166624903678894,
-      "eval_runtime": 4.4623,
-      "eval_samples_per_second": 16.807,
-      "eval_steps_per_second": 0.672,
       "step": 65
     },
     {
       "epoch": 13.91,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3022773861885071,
-      "eval_runtime": 4.4075,
-      "eval_samples_per_second": 17.016,
-      "eval_steps_per_second": 0.681,
       "step": 70
     },
     {
       "epoch": 14.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.24396675825119019,
-      "eval_runtime": 4.4157,
-      "eval_samples_per_second": 16.985,
-      "eval_steps_per_second": 0.679,
       "step": 75
     },
     {
       "epoch": 15.91,
-      "learning_rate": 4.074074074074074e-05,
-      "loss": 0.5713,
       "step": 80
     },
     {
       "epoch": 15.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.24749578535556793,
-      "eval_runtime": 4.3849,
-      "eval_samples_per_second": 17.104,
-      "eval_steps_per_second": 0.684,
       "step": 80
     },
     {
       "epoch": 16.91,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.2443261742591858,
-      "eval_runtime": 4.5173,
-      "eval_samples_per_second": 16.603,
-      "eval_steps_per_second": 0.664,
       "step": 85
     },
     {
       "epoch": 17.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.20929811894893646,
-      "eval_runtime": 4.4498,
-      "eval_samples_per_second": 16.855,
-      "eval_steps_per_second": 0.674,
       "step": 90
     },
     {
       "epoch": 18.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.20770420134067535,
-      "eval_runtime": 4.481,
-      "eval_samples_per_second": 16.737,
-      "eval_steps_per_second": 0.669,
       "step": 95
     },
     {
       "epoch": 19.91,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.515,
       "step": 100
     },
     {
       "epoch": 19.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.2124166041612625,
-      "eval_runtime": 4.6887,
-      "eval_samples_per_second": 15.996,
-      "eval_steps_per_second": 0.64,
       "step": 100
     },
     {
       "epoch": 20.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.21663539111614227,
-      "eval_runtime": 4.4061,
-      "eval_samples_per_second": 17.022,
-      "eval_steps_per_second": 0.681,
       "step": 105
     },
     {
       "epoch": 21.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.1939961463212967,
-      "eval_runtime": 4.4646,
-      "eval_samples_per_second": 16.799,
-      "eval_steps_per_second": 0.672,
       "step": 110
     },
     {
       "epoch": 22.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.19843259453773499,
-      "eval_runtime": 4.5883,
-      "eval_samples_per_second": 16.346,
-      "eval_steps_per_second": 0.654,
       "step": 115
     },
     {
       "epoch": 23.91,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.4582,
       "step": 120
     },
     {
       "epoch": 23.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.23953679203987122,
-      "eval_runtime": 4.5302,
-      "eval_samples_per_second": 16.556,
-      "eval_steps_per_second": 0.662,
       "step": 120
     },
     {
       "epoch": 24.91,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.24795593321323395,
-      "eval_runtime": 4.4621,
-      "eval_samples_per_second": 16.808,
-      "eval_steps_per_second": 0.672,
       "step": 125
     },
     {
       "epoch": 25.91,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.2179584801197052,
-      "eval_runtime": 4.4204,
-      "eval_samples_per_second": 16.967,
-      "eval_steps_per_second": 0.679,
       "step": 130
     },
     {
       "epoch": 26.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.2231944501399994,
-      "eval_runtime": 4.4482,
-      "eval_samples_per_second": 16.861,
-      "eval_steps_per_second": 0.674,
       "step": 135
     },
     {
       "epoch": 27.91,
-      "learning_rate": 2.962962962962963e-05,
-      "loss": 0.4279,
       "step": 140
     },
     {
       "epoch": 27.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.1976775974035263,
-      "eval_runtime": 4.4409,
-      "eval_samples_per_second": 16.888,
-      "eval_steps_per_second": 0.676,
       "step": 140
     },
     {
       "epoch": 28.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.18473981320858002,
-      "eval_runtime": 4.4471,
-      "eval_samples_per_second": 16.865,
-      "eval_steps_per_second": 0.675,
       "step": 145
     },
     {
       "epoch": 29.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.19218212366104126,
-      "eval_runtime": 4.4988,
-      "eval_samples_per_second": 16.671,
-      "eval_steps_per_second": 0.667,
       "step": 150
     },
     {
       "epoch": 30.91,
       "eval_accuracy": 0.9733333333333334,
       "eval_loss": 0.1787085384130478,
-      "eval_runtime": 4.4136,
-      "eval_samples_per_second": 16.993,
-      "eval_steps_per_second": 0.68,
       "step": 155
     },
     {
       "epoch": 31.91,
-      "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.4031,
       "step": 160
     },
     {
       "epoch": 31.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.16259188950061798,
-      "eval_runtime": 4.4524,
-      "eval_samples_per_second": 16.845,
-      "eval_steps_per_second": 0.674,
       "step": 160
     },
     {
       "epoch": 32.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.16668973863124847,
-      "eval_runtime": 4.4694,
-      "eval_samples_per_second": 16.781,
-      "eval_steps_per_second": 0.671,
       "step": 165
     },
     {
       "epoch": 33.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.1871425062417984,
-      "eval_runtime": 4.4399,
-      "eval_samples_per_second": 16.892,
-      "eval_steps_per_second": 0.676,
       "step": 170
     },
     {
       "epoch": 34.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.20150674879550934,
-      "eval_runtime": 4.4431,
-      "eval_samples_per_second": 16.88,
-      "eval_steps_per_second": 0.675,
       "step": 175
     },
     {
       "epoch": 35.91,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.3952,
       "step": 180
     },
     {
       "epoch": 35.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.18359220027923584,
-      "eval_runtime": 4.5102,
-      "eval_samples_per_second": 16.629,
-      "eval_steps_per_second": 0.665,
       "step": 180
     },
     {
       "epoch": 36.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.18555229902267456,
-      "eval_runtime": 4.5169,
-      "eval_samples_per_second": 16.604,
-      "eval_steps_per_second": 0.664,
       "step": 185
     },
     {
       "epoch": 37.91,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.1952236294746399,
-      "eval_runtime": 4.5438,
-      "eval_samples_per_second": 16.506,
-      "eval_steps_per_second": 0.66,
       "step": 190
     },
     {
       "epoch": 38.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.1720731258392334,
-      "eval_runtime": 4.4501,
-      "eval_samples_per_second": 16.854,
       "eval_steps_per_second": 0.674,
       "step": 195
     },
     {
       "epoch": 39.91,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.369,
       "step": 200
     },
     {
       "epoch": 39.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.1618812382221222,
-      "eval_runtime": 4.4486,
-      "eval_samples_per_second": 16.859,
       "eval_steps_per_second": 0.674,
       "step": 200
     },
     {
       "epoch": 40.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.16587452590465546,
-      "eval_runtime": 4.385,
-      "eval_samples_per_second": 17.104,
-      "eval_steps_per_second": 0.684,
       "step": 205
     },
     {
       "epoch": 41.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.1568831503391266,
-      "eval_runtime": 4.5404,
-      "eval_samples_per_second": 16.518,
-      "eval_steps_per_second": 0.661,
       "step": 210
     },
     {
       "epoch": 42.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.1357746571302414,
-      "eval_runtime": 4.4209,
-      "eval_samples_per_second": 16.965,
-      "eval_steps_per_second": 0.679,
       "step": 215
     },
     {
       "epoch": 43.91,
-      "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.3262,
       "step": 220
     },
     {
       "epoch": 43.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.13711059093475342,
-      "eval_runtime": 4.5003,
-      "eval_samples_per_second": 16.665,
-      "eval_steps_per_second": 0.667,
       "step": 220
     },
     {
       "epoch": 44.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.1336827427148819,
-      "eval_runtime": 4.47,
-      "eval_samples_per_second": 16.779,
-      "eval_steps_per_second": 0.671,
       "step": 225
     },
     {
       "epoch": 45.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.13736897706985474,
-      "eval_runtime": 4.5693,
-      "eval_samples_per_second": 16.414,
-      "eval_steps_per_second": 0.657,
       "step": 230
     },
     {
       "epoch": 46.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.17894567549228668,
-      "eval_runtime": 4.3355,
-      "eval_samples_per_second": 17.299,
-      "eval_steps_per_second": 0.692,
       "step": 235
     },
     {
       "epoch": 47.91,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.3616,
       "step": 240
     },
     {
       "epoch": 47.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.21668750047683716,
-      "eval_runtime": 4.4669,
-      "eval_samples_per_second": 16.79,
-      "eval_steps_per_second": 0.672,
       "step": 240
     },
     {
       "epoch": 48.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.17571820318698883,
-      "eval_runtime": 4.4771,
-      "eval_samples_per_second": 16.752,
-      "eval_steps_per_second": 0.67,
       "step": 245
     },
     {
       "epoch": 49.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.17293348908424377,
-      "eval_runtime": 4.4293,
-      "eval_samples_per_second": 16.933,
-      "eval_steps_per_second": 0.677,
       "step": 250
     },
     {
       "epoch": 50.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.17224831879138947,
-      "eval_runtime": 4.4183,
-      "eval_samples_per_second": 16.975,
-      "eval_steps_per_second": 0.679,
       "step": 255
     },
     {
       "epoch": 51.91,
-      "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.303,
       "step": 260
     },
     {
       "epoch": 51.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.16005316376686096,
-      "eval_runtime": 4.4073,
-      "eval_samples_per_second": 17.017,
-      "eval_steps_per_second": 0.681,
       "step": 260
     },
     {
       "epoch": 52.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.15919166803359985,
-      "eval_runtime": 4.4398,
-      "eval_samples_per_second": 16.893,
-      "eval_steps_per_second": 0.676,
       "step": 265
     },
     {
       "epoch": 53.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.16125422716140747,
-      "eval_runtime": 4.3899,
-      "eval_samples_per_second": 17.085,
-      "eval_steps_per_second": 0.683,
       "step": 270
     },
     {
       "epoch": 54.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.15753033757209778,
-      "eval_runtime": 4.4684,
-      "eval_samples_per_second": 16.785,
-      "eval_steps_per_second": 0.671,
       "step": 275
     },
     {
       "epoch": 55.91,
-      "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.305,
       "step": 280
     },
     {
       "epoch": 55.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.15587559342384338,
-      "eval_runtime": 4.3795,
-      "eval_samples_per_second": 17.125,
-      "eval_steps_per_second": 0.685,
       "step": 280
     },
     {
       "epoch": 56.91,
       "eval_accuracy": 0.9733333333333334,
-      "eval_loss": 0.14887748658657074,
-      "eval_runtime": 4.4449,
-      "eval_samples_per_second": 16.873,
-      "eval_steps_per_second": 0.675,
       "step": 285
     },
     {
       "epoch": 57.91,
-      "eval_accuracy": 0.96,
-      "eval_loss": 0.14639350771903992,
-      "eval_runtime": 4.4527,
-      "eval_samples_per_second": 16.844,
       "eval_steps_per_second": 0.674,
       "step": 290
     },
     {
       "epoch": 58.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.14625021815299988,
-      "eval_runtime": 4.4199,
-      "eval_samples_per_second": 16.969,
-      "eval_steps_per_second": 0.679,
       "step": 295
     },
     {
       "epoch": 59.91,
       "learning_rate": 0.0,
-      "loss": 0.3328,
       "step": 300
     },
     {
       "epoch": 59.91,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.14626549184322357,
-      "eval_runtime": 4.4407,
-      "eval_samples_per_second": 16.889,
-      "eval_steps_per_second": 0.676,
       "step": 300
     },
     {
       "epoch": 59.91,
       "step": 300,
       "total_flos": 1.0044714081093673e+18,
-      "train_loss": 0.5910613632202149,
-      "train_runtime": 5579.9163,
-      "train_samples_per_second": 7.247,
-      "train_steps_per_second": 0.054
     }
   ],
   "max_steps": 300,

 {
   "best_metric": 0.9733333333333334,
+  "best_model_checkpoint": "delivery_truck_classification/checkpoint-5",
   "epoch": 59.90909090909091,
   "global_step": 300,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.605,
+      "eval_samples_per_second": 16.287,
+      "eval_steps_per_second": 0.651,
       "step": 5
     },
     {
       "epoch": 1.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.6573,
+      "eval_samples_per_second": 16.104,
+      "eval_steps_per_second": 0.644,
       "step": 10
     },
     {
       "epoch": 2.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5342,
+      "eval_samples_per_second": 16.541,
+      "eval_steps_per_second": 0.662,
       "step": 15
     },
     {
       "epoch": 3.91,
+      "learning_rate": 0.0,
+      "loss": 0.3799,
       "step": 20
     },
     {
       "epoch": 3.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5035,
+      "eval_samples_per_second": 16.654,
+      "eval_steps_per_second": 0.666,
       "step": 20
     },
     {
       "epoch": 4.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5133,
+      "eval_samples_per_second": 16.617,
+      "eval_steps_per_second": 0.665,
       "step": 25
     },
     {
       "epoch": 5.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4565,
+      "eval_samples_per_second": 16.829,
+      "eval_steps_per_second": 0.673,
       "step": 30
     },
     {
       "epoch": 6.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.3979,
+      "eval_samples_per_second": 17.053,
+      "eval_steps_per_second": 0.682,
       "step": 35
     },
     {
       "epoch": 7.91,
+      "learning_rate": 0.0,
+      "loss": 0.3648,
       "step": 40
     },
     {
       "epoch": 7.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.428,
+      "eval_samples_per_second": 16.938,
+      "eval_steps_per_second": 0.678,
       "step": 40
     },
     {
       "epoch": 8.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4244,
+      "eval_samples_per_second": 16.952,
+      "eval_steps_per_second": 0.678,
       "step": 45
     },
     {
       "epoch": 9.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.421,
+      "eval_samples_per_second": 16.965,
+      "eval_steps_per_second": 0.679,
       "step": 50
     },
     {
       "epoch": 10.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.3973,
+      "eval_samples_per_second": 17.056,
+      "eval_steps_per_second": 0.682,
       "step": 55
     },
     {
       "epoch": 11.91,
+      "learning_rate": 0.0,
+      "loss": 0.3954,
       "step": 60
     },
     {
       "epoch": 11.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.547,
+      "eval_samples_per_second": 16.494,
+      "eval_steps_per_second": 0.66,
       "step": 60
     },
     {
       "epoch": 12.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4763,
+      "eval_samples_per_second": 16.755,
+      "eval_steps_per_second": 0.67,
       "step": 65
     },
     {
       "epoch": 13.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5403,
+      "eval_samples_per_second": 16.519,
+      "eval_steps_per_second": 0.661,
       "step": 70
     },
     {
       "epoch": 14.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4851,
+      "eval_samples_per_second": 16.722,
+      "eval_steps_per_second": 0.669,
       "step": 75
     },
     {
       "epoch": 15.91,
+      "learning_rate": 0.0,
+      "loss": 0.3926,
       "step": 80
     },
     {
       "epoch": 15.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5007,
+      "eval_samples_per_second": 16.664,
+      "eval_steps_per_second": 0.667,
       "step": 80
     },
     {
       "epoch": 16.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4425,
+      "eval_samples_per_second": 16.882,
+      "eval_steps_per_second": 0.675,
       "step": 85
     },
     {
       "epoch": 17.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4458,
+      "eval_samples_per_second": 16.87,
+      "eval_steps_per_second": 0.675,
       "step": 90
     },
     {
       "epoch": 18.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4283,
+      "eval_samples_per_second": 16.936,
+      "eval_steps_per_second": 0.677,
       "step": 95
     },
     {
       "epoch": 19.91,
+      "learning_rate": 0.0,
+      "loss": 0.3801,
       "step": 100
     },
     {
       "epoch": 19.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4286,
+      "eval_samples_per_second": 16.935,
+      "eval_steps_per_second": 0.677,
       "step": 100
     },
     {
       "epoch": 20.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4358,
+      "eval_samples_per_second": 16.908,
+      "eval_steps_per_second": 0.676,
       "step": 105
     },
     {
       "epoch": 21.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5245,
+      "eval_samples_per_second": 16.576,
+      "eval_steps_per_second": 0.663,
       "step": 110
     },
     {
       "epoch": 22.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4683,
+      "eval_samples_per_second": 16.785,
+      "eval_steps_per_second": 0.671,
       "step": 115
     },
     {
       "epoch": 23.91,
+      "learning_rate": 0.0,
+      "loss": 0.3815,
       "step": 120
     },
     {
       "epoch": 23.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5135,
+      "eval_samples_per_second": 16.617,
+      "eval_steps_per_second": 0.665,
       "step": 120
     },
     {
       "epoch": 24.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4723,
+      "eval_samples_per_second": 16.77,
+      "eval_steps_per_second": 0.671,
       "step": 125
     },
     {
       "epoch": 25.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4414,
+      "eval_samples_per_second": 16.886,
+      "eval_steps_per_second": 0.675,
       "step": 130
     },
     {
       "epoch": 26.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4643,
+      "eval_samples_per_second": 16.8,
+      "eval_steps_per_second": 0.672,
       "step": 135
     },
     {
       "epoch": 27.91,
+      "learning_rate": 0.0,
+      "loss": 0.3955,
       "step": 140
     },
     {
       "epoch": 27.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5098,
+      "eval_samples_per_second": 16.63,
+      "eval_steps_per_second": 0.665,
       "step": 140
     },
     {
       "epoch": 28.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4329,
+      "eval_samples_per_second": 16.919,
+      "eval_steps_per_second": 0.677,
       "step": 145
     },
     {
       "epoch": 29.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4818,
+      "eval_samples_per_second": 16.734,
+      "eval_steps_per_second": 0.669,
       "step": 150
     },
     {
       "epoch": 30.91,
       "eval_accuracy": 0.9733333333333334,
       "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4724,
+      "eval_samples_per_second": 16.77,
+      "eval_steps_per_second": 0.671,
       "step": 155
     },
     {
       "epoch": 31.91,
+      "learning_rate": 0.0,
+      "loss": 0.3854,
       "step": 160
     },
     {
       "epoch": 31.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5105,
+      "eval_samples_per_second": 16.628,
+      "eval_steps_per_second": 0.665,
       "step": 160
     },
     {
       "epoch": 32.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4347,
+      "eval_samples_per_second": 16.912,
+      "eval_steps_per_second": 0.676,
       "step": 165
     },
     {
       "epoch": 33.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4592,
+      "eval_samples_per_second": 16.819,
+      "eval_steps_per_second": 0.673,
       "step": 170
     },
     {
       "epoch": 34.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5776,
+      "eval_samples_per_second": 16.384,
+      "eval_steps_per_second": 0.655,
       "step": 175
     },
     {
       "epoch": 35.91,
+      "learning_rate": 0.0,
+      "loss": 0.3949,
       "step": 180
     },
     {
       "epoch": 35.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.3721,
+      "eval_samples_per_second": 17.154,
+      "eval_steps_per_second": 0.686,
       "step": 180
     },
     {
       "epoch": 36.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5128,
+      "eval_samples_per_second": 16.62,
+      "eval_steps_per_second": 0.665,
       "step": 185
     },
     {
       "epoch": 37.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4796,
+      "eval_samples_per_second": 16.743,
+      "eval_steps_per_second": 0.67,
       "step": 190
     },
     {
       "epoch": 38.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4495,
+      "eval_samples_per_second": 16.856,
       "eval_steps_per_second": 0.674,
       "step": 195
     },
     {
       "epoch": 39.91,
+      "learning_rate": 0.0,
+      "loss": 0.423,
       "step": 200
     },
     {
       "epoch": 39.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4509,
+      "eval_samples_per_second": 16.851,
       "eval_steps_per_second": 0.674,
       "step": 200
     },
     {
       "epoch": 40.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4302,
+      "eval_samples_per_second": 16.929,
+      "eval_steps_per_second": 0.677,
       "step": 205
     },
     {
       "epoch": 41.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4295,
+      "eval_samples_per_second": 16.932,
+      "eval_steps_per_second": 0.677,
       "step": 210
     },
     {
       "epoch": 42.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.492,
+      "eval_samples_per_second": 16.696,
+      "eval_steps_per_second": 0.668,
       "step": 215
     },
     {
       "epoch": 43.91,
+      "learning_rate": 0.0,
+      "loss": 0.3761,
       "step": 220
     },
     {
       "epoch": 43.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.3593,
+      "eval_samples_per_second": 17.205,
+      "eval_steps_per_second": 0.688,
       "step": 220
     },
     {
       "epoch": 44.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.3857,
+      "eval_samples_per_second": 17.101,
+      "eval_steps_per_second": 0.684,
       "step": 225
     },
     {
       "epoch": 45.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4094,
+      "eval_samples_per_second": 17.009,
+      "eval_steps_per_second": 0.68,
       "step": 230
     },
     {
       "epoch": 46.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5267,
+      "eval_samples_per_second": 16.568,
+      "eval_steps_per_second": 0.663,
       "step": 235
     },
     {
       "epoch": 47.91,
+      "learning_rate": 0.0,
+      "loss": 0.3673,
       "step": 240
     },
     {
       "epoch": 47.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4408,
+      "eval_samples_per_second": 16.889,
+      "eval_steps_per_second": 0.676,
       "step": 240
     },
     {
       "epoch": 48.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4085,
+      "eval_samples_per_second": 17.012,
+      "eval_steps_per_second": 0.68,
       "step": 245
     },
     {
       "epoch": 49.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4363,
+      "eval_samples_per_second": 16.906,
+      "eval_steps_per_second": 0.676,
       "step": 250
     },
     {
       "epoch": 50.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5308,
+      "eval_samples_per_second": 16.553,
+      "eval_steps_per_second": 0.662,
       "step": 255
     },
     {
       "epoch": 51.91,
+      "learning_rate": 0.0,
+      "loss": 0.3639,
       "step": 260
     },
     {
       "epoch": 51.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4837,
+      "eval_samples_per_second": 16.727,
+      "eval_steps_per_second": 0.669,
       "step": 260
     },
     {
       "epoch": 52.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4861,
+      "eval_samples_per_second": 16.718,
+      "eval_steps_per_second": 0.669,
       "step": 265
     },
     {
       "epoch": 53.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.445,
+      "eval_samples_per_second": 16.873,
+      "eval_steps_per_second": 0.675,
       "step": 270
     },
     {
       "epoch": 54.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4586,
+      "eval_samples_per_second": 16.821,
+      "eval_steps_per_second": 0.673,
       "step": 275
     },
     {
       "epoch": 55.91,
+      "learning_rate": 0.0,
+      "loss": 0.4031,
       "step": 280
     },
     {
       "epoch": 55.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.3612,
+      "eval_samples_per_second": 17.197,
+      "eval_steps_per_second": 0.688,
       "step": 280
     },
     {
       "epoch": 56.91,
       "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4343,
+      "eval_samples_per_second": 16.914,
+      "eval_steps_per_second": 0.677,
       "step": 285
     },
     {
       "epoch": 57.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4492,
+      "eval_samples_per_second": 16.857,
       "eval_steps_per_second": 0.674,
       "step": 290
     },
     {
       "epoch": 58.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.5446,
+      "eval_samples_per_second": 16.503,
+      "eval_steps_per_second": 0.66,
       "step": 295
     },
     {
       "epoch": 59.91,
       "learning_rate": 0.0,
+      "loss": 0.3787,
       "step": 300
     },
     {
       "epoch": 59.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4189,
+      "eval_samples_per_second": 16.973,
+      "eval_steps_per_second": 0.679,
       "step": 300
     },
     {
       "epoch": 59.91,
       "step": 300,
       "total_flos": 1.0044714081093673e+18,
+      "train_loss": 0.3854776843388875,
+      "train_runtime": 7248.8786,
+      "train_samples_per_second": 5.579,
+      "train_steps_per_second": 0.041
     }
   ],
   "max_steps": 300,