End of training

Browse files

Files changed (4) hide show

all_results.json +6 -6
runs/Dec04_03-03-54_01e45190d4ed/events.out.tfevents.1701659747.01e45190d4ed.29075.1 +2 -2
test_results.json +6 -6
trainer_state.json +589 -400

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.25,
-    "eval_accuracy": 0.896774193548387,
-    "eval_loss": 0.3148822784423828,
-    "eval_runtime": 16.7802,
-    "eval_samples_per_second": 9.237,
-    "eval_steps_per_second": 9.237
 }

 {
+    "epoch": 4.2,
+    "eval_accuracy": 0.9225806451612903,
+    "eval_loss": 0.23742260038852692,
+    "eval_runtime": 18.17,
+    "eval_samples_per_second": 8.531,
+    "eval_steps_per_second": 8.531
 }

runs/Dec04_03-03-54_01e45190d4ed/events.out.tfevents.1701659747.01e45190d4ed.29075.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b09b66f90eea5cafdc85f108ebecbdc353409f1a57a51dd7a121b638548a2cd7
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a785753e8971d2fb06b785ee958992828533f0b78071e295f99daa1d8d2a714
+size 734

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.25,
-    "eval_accuracy": 0.896774193548387,
-    "eval_loss": 0.3148822784423828,
-    "eval_runtime": 16.7802,
-    "eval_samples_per_second": 9.237,
-    "eval_steps_per_second": 9.237
 }

 {
+    "epoch": 4.2,
+    "eval_accuracy": 0.9225806451612903,
+    "eval_loss": 0.23742260038852692,
+    "eval_runtime": 18.17,
+    "eval_samples_per_second": 8.531,
+    "eval_steps_per_second": 8.531
 }

trainer_state.json CHANGED Viewed

@@ -1,802 +1,991 @@
 {
-  "best_metric": 0.9,
-  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-1200",
-  "epoch": 3.25,
   "eval_steps": 500,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 2.5435,
       "step": 10
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 2.21,
       "step": 20
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 1.25e-05,
-      "loss": 2.2069,
       "step": 30
     },
     {
       "epoch": 0.03,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 2.2296,
       "step": 40
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 2.2741,
       "step": 50
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 2.5e-05,
-      "loss": 2.3395,
       "step": 60
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 2.916666666666667e-05,
-      "loss": 2.2629,
       "step": 70
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 2.1666,
       "step": 80
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 2.095,
       "step": 90
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 2.2471,
       "step": 100
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 4.5833333333333334e-05,
-      "loss": 2.2994,
       "step": 110
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 5e-05,
-      "loss": 2.1175,
       "step": 120
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.9537037037037035e-05,
-      "loss": 2.1371,
       "step": 130
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 4.9074074074074075e-05,
-      "loss": 2.0042,
       "step": 140
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 1.9305,
       "step": 150
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 4.814814814814815e-05,
-      "loss": 2.1932,
       "step": 160
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 4.768518518518519e-05,
-      "loss": 1.9748,
       "step": 170
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.722222222222222e-05,
-      "loss": 1.721,
       "step": 180
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 4.675925925925926e-05,
-      "loss": 1.6341,
       "step": 190
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 1.6323,
       "step": 200
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.5833333333333334e-05,
-      "loss": 1.5439,
       "step": 210
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 4.5370370370370374e-05,
-      "loss": 1.3155,
       "step": 220
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.490740740740741e-05,
-      "loss": 0.9827,
       "step": 230
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 2.101,
       "step": 240
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 4.3981481481481486e-05,
-      "loss": 1.6588,
       "step": 250
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.351851851851852e-05,
-      "loss": 1.7401,
       "step": 260
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.305555555555556e-05,
-      "loss": 1.6668,
       "step": 270
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.259259259259259e-05,
-      "loss": 2.5424,
       "step": 280
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 4.212962962962963e-05,
-      "loss": 1.8688,
       "step": 290
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 2.4172,
       "step": 300
     },
     {
-      "epoch": 0.25,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.605542540550232,
-      "eval_runtime": 8.0144,
-      "eval_samples_per_second": 8.734,
-      "eval_steps_per_second": 8.734,
       "step": 300
     },
     {
       "epoch": 1.01,
-      "learning_rate": 4.1203703703703705e-05,
-      "loss": 1.1841,
       "step": 310
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 4.074074074074074e-05,
-      "loss": 0.73,
       "step": 320
     },
     {
       "epoch": 1.02,
-      "learning_rate": 4.027777777777778e-05,
-      "loss": 0.7994,
       "step": 330
     },
     {
       "epoch": 1.03,
-      "learning_rate": 3.981481481481482e-05,
-      "loss": 1.2636,
       "step": 340
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 3.935185185185186e-05,
-      "loss": 1.2444,
       "step": 350
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 3.888888888888889e-05,
-      "loss": 2.1303,
       "step": 360
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 3.8425925925925924e-05,
-      "loss": 1.3313,
       "step": 370
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 3.7962962962962964e-05,
-      "loss": 1.0048,
       "step": 380
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.9035,
       "step": 390
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 1.1448,
       "step": 400
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 3.6574074074074076e-05,
-      "loss": 2.4054,
       "step": 410
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 3.611111111111111e-05,
-      "loss": 0.3357,
       "step": 420
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 3.564814814814815e-05,
-      "loss": 1.3694,
       "step": 430
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 3.518518518518519e-05,
-      "loss": 0.4536,
       "step": 440
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.7379,
       "step": 450
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 3.425925925925926e-05,
-      "loss": 0.2865,
       "step": 460
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 3.3796296296296295e-05,
-      "loss": 1.5101,
       "step": 470
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.9932,
       "step": 480
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 3.2870370370370375e-05,
-      "loss": 1.6292,
       "step": 490
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.5653,
       "step": 500
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 3.194444444444444e-05,
-      "loss": 1.0138,
       "step": 510
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 3.148148148148148e-05,
-      "loss": 0.8699,
       "step": 520
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 3.101851851851852e-05,
-      "loss": 0.2767,
       "step": 530
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 3.055555555555556e-05,
-      "loss": 1.2847,
       "step": 540
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 3.0092592592592593e-05,
-      "loss": 0.6725,
       "step": 550
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 2.962962962962963e-05,
-      "loss": 1.0955,
       "step": 560
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 2.916666666666667e-05,
-      "loss": 1.1978,
       "step": 570
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 2.8703703703703706e-05,
-      "loss": 0.6728,
       "step": 580
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 2.824074074074074e-05,
-      "loss": 0.5414,
       "step": 590
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.8999,
       "step": 600
     },
     {
-      "epoch": 1.25,
-      "eval_accuracy": 0.7,
-      "eval_loss": 0.8598527312278748,
-      "eval_runtime": 8.0464,
-      "eval_samples_per_second": 8.7,
-      "eval_steps_per_second": 8.7,
       "step": 600
     },
     {
       "epoch": 2.01,
-      "learning_rate": 2.7314814814814816e-05,
-      "loss": 0.9342,
       "step": 610
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 2.6851851851851855e-05,
-      "loss": 0.3606,
       "step": 620
     },
     {
       "epoch": 2.02,
-      "learning_rate": 2.6388888888888892e-05,
-      "loss": 0.3889,
       "step": 630
     },
     {
       "epoch": 2.03,
-      "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.1093,
       "step": 640
     },
     {
-      "epoch": 2.04,
-      "learning_rate": 2.5462962962962965e-05,
-      "loss": 0.2299,
       "step": 650
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 2.5e-05,
-      "loss": 0.0777,
       "step": 660
     },
     {
-      "epoch": 2.06,
-      "learning_rate": 2.4537037037037038e-05,
-      "loss": 0.3909,
       "step": 670
     },
     {
-      "epoch": 2.07,
-      "learning_rate": 2.4074074074074074e-05,
-      "loss": 0.1398,
       "step": 680
     },
     {
-      "epoch": 2.08,
-      "learning_rate": 2.361111111111111e-05,
-      "loss": 0.5253,
       "step": 690
     },
     {
-      "epoch": 2.08,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 0.0381,
       "step": 700
     },
     {
-      "epoch": 2.09,
-      "learning_rate": 2.2685185185185187e-05,
-      "loss": 0.8621,
       "step": 710
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.5138,
       "step": 720
     },
     {
-      "epoch": 2.11,
-      "learning_rate": 2.175925925925926e-05,
-      "loss": 0.7838,
       "step": 730
     },
     {
-      "epoch": 2.12,
-      "learning_rate": 2.1296296296296296e-05,
-      "loss": 0.0066,
       "step": 740
     },
     {
-      "epoch": 2.12,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.2794,
       "step": 750
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 2.037037037037037e-05,
-      "loss": 0.7135,
       "step": 760
     },
     {
-      "epoch": 2.14,
-      "learning_rate": 1.990740740740741e-05,
-      "loss": 0.031,
       "step": 770
     },
     {
-      "epoch": 2.15,
-      "learning_rate": 1.9444444444444445e-05,
-      "loss": 0.5348,
       "step": 780
     },
     {
-      "epoch": 2.16,
-      "learning_rate": 1.8981481481481482e-05,
-      "loss": 0.6144,
       "step": 790
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.5013,
       "step": 800
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 1.8055555555555555e-05,
-      "loss": 0.6286,
       "step": 810
     },
     {
-      "epoch": 2.18,
-      "learning_rate": 1.7592592592592595e-05,
-      "loss": 0.7456,
       "step": 820
     },
     {
-      "epoch": 2.19,
-      "learning_rate": 1.712962962962963e-05,
-      "loss": 0.1344,
       "step": 830
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.2208,
       "step": 840
     },
     {
-      "epoch": 2.21,
-      "learning_rate": 1.6203703703703704e-05,
-      "loss": 0.2253,
       "step": 850
     },
     {
-      "epoch": 2.22,
-      "learning_rate": 1.574074074074074e-05,
-      "loss": 0.2817,
       "step": 860
     },
     {
-      "epoch": 2.23,
-      "learning_rate": 1.527777777777778e-05,
-      "loss": 0.4138,
       "step": 870
     },
     {
-      "epoch": 2.23,
-      "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.4887,
       "step": 880
     },
     {
-      "epoch": 2.24,
-      "learning_rate": 1.4351851851851853e-05,
-      "loss": 0.3714,
       "step": 890
     },
     {
-      "epoch": 2.25,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.9355,
       "step": 900
     },
     {
-      "epoch": 2.25,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.9299111366271973,
-      "eval_runtime": 7.9985,
-      "eval_samples_per_second": 8.752,
-      "eval_steps_per_second": 8.752,
       "step": 900
     },
     {
       "epoch": 3.01,
-      "learning_rate": 1.3425925925925928e-05,
-      "loss": 0.5659,
       "step": 910
     },
     {
-      "epoch": 3.02,
-      "learning_rate": 1.2962962962962962e-05,
-      "loss": 0.4476,
       "step": 920
     },
     {
       "epoch": 3.02,
-      "learning_rate": 1.25e-05,
-      "loss": 0.8112,
       "step": 930
     },
     {
       "epoch": 3.03,
-      "learning_rate": 1.2037037037037037e-05,
-      "loss": 0.1899,
       "step": 940
     },
     {
-      "epoch": 3.04,
-      "learning_rate": 1.1574074074074075e-05,
-      "loss": 0.337,
       "step": 950
     },
     {
-      "epoch": 3.05,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.1078,
       "step": 960
     },
     {
-      "epoch": 3.06,
-      "learning_rate": 1.0648148148148148e-05,
-      "loss": 0.1351,
       "step": 970
     },
     {
-      "epoch": 3.07,
-      "learning_rate": 1.0185185185185185e-05,
-      "loss": 0.0711,
       "step": 980
     },
     {
-      "epoch": 3.08,
-      "learning_rate": 9.722222222222223e-06,
-      "loss": 0.0049,
       "step": 990
     },
     {
-      "epoch": 3.08,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0756,
       "step": 1000
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 8.796296296296297e-06,
-      "loss": 0.0446,
       "step": 1010
     },
     {
-      "epoch": 3.1,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.0633,
       "step": 1020
     },
     {
-      "epoch": 3.11,
-      "learning_rate": 7.87037037037037e-06,
-      "loss": 0.0171,
       "step": 1030
     },
     {
-      "epoch": 3.12,
-      "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.0954,
       "step": 1040
     },
     {
-      "epoch": 3.12,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.0403,
       "step": 1050
     },
     {
-      "epoch": 3.13,
-      "learning_rate": 6.481481481481481e-06,
-      "loss": 0.0177,
       "step": 1060
     },
     {
-      "epoch": 3.14,
-      "learning_rate": 6.0185185185185185e-06,
-      "loss": 0.0097,
       "step": 1070
     },
     {
-      "epoch": 3.15,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.0054,
       "step": 1080
     },
     {
-      "epoch": 3.16,
-      "learning_rate": 5.092592592592592e-06,
-      "loss": 0.5816,
       "step": 1090
     },
     {
-      "epoch": 3.17,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.0078,
       "step": 1100
     },
     {
-      "epoch": 3.17,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 0.0209,
       "step": 1110
     },
     {
-      "epoch": 3.18,
-      "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.2509,
       "step": 1120
     },
     {
-      "epoch": 3.19,
-      "learning_rate": 3.2407407407407406e-06,
-      "loss": 0.0199,
       "step": 1130
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 2.777777777777778e-06,
-      "loss": 0.0139,
       "step": 1140
     },
     {
-      "epoch": 3.21,
-      "learning_rate": 2.3148148148148148e-06,
-      "loss": 0.0118,
       "step": 1150
     },
     {
-      "epoch": 3.22,
-      "learning_rate": 1.8518518518518519e-06,
-      "loss": 0.0175,
       "step": 1160
     },
     {
-      "epoch": 3.23,
-      "learning_rate": 1.388888888888889e-06,
-      "loss": 0.0305,
       "step": 1170
     },
     {
-      "epoch": 3.23,
-      "learning_rate": 9.259259259259259e-07,
-      "loss": 0.8945,
       "step": 1180
     },
     {
-      "epoch": 3.24,
-      "learning_rate": 4.6296296296296297e-07,
-      "loss": 0.0032,
       "step": 1190
     },
     {
-      "epoch": 3.25,
-      "learning_rate": 0.0,
-      "loss": 0.1107,
       "step": 1200
     },
     {
-      "epoch": 3.25,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.3328981101512909,
-      "eval_runtime": 8.0578,
-      "eval_samples_per_second": 8.687,
-      "eval_steps_per_second": 8.687,
       "step": 1200
     },
     {
-      "epoch": 3.25,
-      "step": 1200,
-      "total_flos": 1.495384188125184e+18,
-      "train_loss": 0.9007303727728625,
-      "train_runtime": 292.5238,
-      "train_samples_per_second": 4.102,
-      "train_steps_per_second": 4.102
     },
     {
-      "epoch": 3.25,
-      "eval_accuracy": 0.896774193548387,
-      "eval_loss": 0.3148822784423828,
-      "eval_runtime": 17.1682,
-      "eval_samples_per_second": 9.028,
-      "eval_steps_per_second": 9.028,
-      "step": 1200
     },
     {
-      "epoch": 3.25,
-      "eval_accuracy": 0.896774193548387,
-      "eval_loss": 0.3148822784423828,
-      "eval_runtime": 16.7802,
-      "eval_samples_per_second": 9.237,
-      "eval_steps_per_second": 9.237,
-      "step": 1200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1200,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
-  "total_flos": 1.495384188125184e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9571428571428572,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-1500",
+  "epoch": 4.2,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 2.4959,
       "step": 10
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 2.2301,
       "step": 20
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1e-05,
+      "loss": 2.2399,
       "step": 30
     },
     {
       "epoch": 0.03,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.3936,
       "step": 40
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.4178,
       "step": 50
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 2e-05,
+      "loss": 2.3069,
       "step": 60
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 2.2862,
       "step": 70
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 2.3544,
       "step": 80
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 3e-05,
+      "loss": 2.1089,
       "step": 90
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 2.1903,
       "step": 100
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 2.0744,
       "step": 110
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4e-05,
+      "loss": 2.2872,
       "step": 120
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 2.3478,
       "step": 130
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 2.0648,
       "step": 140
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 5e-05,
+      "loss": 1.7192,
       "step": 150
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 4.962962962962963e-05,
+      "loss": 1.6814,
       "step": 160
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 4.925925925925926e-05,
+      "loss": 1.8875,
       "step": 170
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 1.8753,
       "step": 180
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.851851851851852e-05,
+      "loss": 2.0794,
       "step": 190
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 1.8585,
       "step": 200
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.7777777777777784e-05,
+      "loss": 2.4425,
       "step": 210
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.740740740740741e-05,
+      "loss": 1.1885,
       "step": 220
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.703703703703704e-05,
+      "loss": 1.6717,
       "step": 230
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 2.1885,
       "step": 240
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 1.3271,
       "step": 250
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.592592592592593e-05,
+      "loss": 1.8021,
       "step": 260
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 1.359,
       "step": 270
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.518518518518519e-05,
+      "loss": 1.6418,
       "step": 280
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.481481481481482e-05,
+      "loss": 1.2075,
       "step": 290
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 2.0243,
       "step": 300
     },
     {
+      "epoch": 0.2,
+      "eval_accuracy": 0.44285714285714284,
+      "eval_loss": 1.2893717288970947,
+      "eval_runtime": 7.7969,
+      "eval_samples_per_second": 8.978,
+      "eval_steps_per_second": 8.978,
       "step": 300
     },
     {
       "epoch": 1.01,
+      "learning_rate": 4.4074074074074076e-05,
+      "loss": 0.8223,
       "step": 310
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 4.3703703703703705e-05,
+      "loss": 1.4276,
       "step": 320
     },
     {
       "epoch": 1.02,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 1.7455,
       "step": 330
     },
     {
       "epoch": 1.03,
+      "learning_rate": 4.296296296296296e-05,
+      "loss": 1.1882,
       "step": 340
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 1.7426,
       "step": 350
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 1.9302,
       "step": 360
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 4.185185185185185e-05,
+      "loss": 0.9628,
       "step": 370
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 4.148148148148148e-05,
+      "loss": 1.4488,
       "step": 380
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 4.111111111111111e-05,
+      "loss": 1.5959,
       "step": 390
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 1.1204,
       "step": 400
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 4.0370370370370374e-05,
+      "loss": 0.4533,
       "step": 410
     },
     {
+      "epoch": 1.08,
+      "learning_rate": 4e-05,
+      "loss": 1.377,
       "step": 420
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 3.962962962962963e-05,
+      "loss": 1.7501,
       "step": 430
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 3.925925925925926e-05,
+      "loss": 1.7084,
       "step": 440
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 1.5756,
       "step": 450
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 3.851851851851852e-05,
+      "loss": 1.5043,
       "step": 460
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 3.814814814814815e-05,
+      "loss": 1.3304,
       "step": 470
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 3.777777777777778e-05,
+      "loss": 0.7622,
       "step": 480
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 3.740740740740741e-05,
+      "loss": 1.2325,
       "step": 490
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.8213,
       "step": 500
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 1.1261,
       "step": 510
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 3.62962962962963e-05,
+      "loss": 0.3592,
       "step": 520
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 3.592592592592593e-05,
+      "loss": 0.6216,
       "step": 530
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 3.555555555555556e-05,
+      "loss": 1.3242,
       "step": 540
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.6243,
       "step": 550
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 3.481481481481482e-05,
+      "loss": 0.3151,
       "step": 560
     },
     {
+      "epoch": 1.18,
+      "learning_rate": 3.444444444444445e-05,
+      "loss": 1.8732,
       "step": 570
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 3.4074074074074077e-05,
+      "loss": 1.6139,
       "step": 580
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 3.3703703703703706e-05,
+      "loss": 0.9243,
       "step": 590
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.7243,
       "step": 600
     },
     {
+      "epoch": 1.2,
+      "eval_accuracy": 0.5714285714285714,
+      "eval_loss": 1.375633716583252,
+      "eval_runtime": 7.9107,
+      "eval_samples_per_second": 8.849,
+      "eval_steps_per_second": 8.849,
       "step": 600
     },
     {
       "epoch": 2.01,
+      "learning_rate": 3.2962962962962964e-05,
+      "loss": 0.4506,
       "step": 610
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 3.25925925925926e-05,
+      "loss": 0.1916,
       "step": 620
     },
     {
       "epoch": 2.02,
+      "learning_rate": 3.222222222222223e-05,
+      "loss": 0.0296,
       "step": 630
     },
     {
       "epoch": 2.03,
+      "learning_rate": 3.185185185185185e-05,
+      "loss": 0.6642,
       "step": 640
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.3433,
       "step": 650
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 0.5571,
       "step": 660
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 3.074074074074074e-05,
+      "loss": 0.2633,
       "step": 670
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 3.037037037037037e-05,
+      "loss": 0.3995,
       "step": 680
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 3e-05,
+      "loss": 0.5517,
       "step": 690
     },
     {
+      "epoch": 2.07,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.5595,
       "step": 700
     },
     {
+      "epoch": 2.07,
+      "learning_rate": 2.925925925925926e-05,
+      "loss": 0.9042,
       "step": 710
     },
     {
+      "epoch": 2.08,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.2352,
       "step": 720
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 2.851851851851852e-05,
+      "loss": 1.0969,
       "step": 730
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 2.814814814814815e-05,
+      "loss": 0.6907,
       "step": 740
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.1601,
       "step": 750
     },
     {
+      "epoch": 2.11,
+      "learning_rate": 2.7407407407407408e-05,
+      "loss": 0.1968,
       "step": 760
     },
     {
+      "epoch": 2.11,
+      "learning_rate": 2.7037037037037037e-05,
+      "loss": 0.5434,
       "step": 770
     },
     {
+      "epoch": 2.12,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.5253,
       "step": 780
     },
     {
+      "epoch": 2.13,
+      "learning_rate": 2.6296296296296296e-05,
+      "loss": 0.9611,
       "step": 790
     },
     {
+      "epoch": 2.13,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.087,
       "step": 800
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 2.5555555555555554e-05,
+      "loss": 0.9732,
       "step": 810
     },
     {
+      "epoch": 2.15,
+      "learning_rate": 2.5185185185185183e-05,
+      "loss": 0.3672,
       "step": 820
     },
     {
+      "epoch": 2.15,
+      "learning_rate": 2.4814814814814816e-05,
+      "loss": 0.1024,
       "step": 830
     },
     {
+      "epoch": 2.16,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.4858,
       "step": 840
     },
     {
+      "epoch": 2.17,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.4594,
       "step": 850
     },
     {
+      "epoch": 2.17,
+      "learning_rate": 2.3703703703703707e-05,
+      "loss": 0.7203,
       "step": 860
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.4883,
       "step": 870
     },
     {
+      "epoch": 2.19,
+      "learning_rate": 2.2962962962962965e-05,
+      "loss": 0.2236,
       "step": 880
     },
     {
+      "epoch": 2.19,
+      "learning_rate": 2.2592592592592594e-05,
+      "loss": 0.3652,
       "step": 890
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.3568,
       "step": 900
     },
     {
+      "epoch": 2.2,
+      "eval_accuracy": 0.7714285714285715,
+      "eval_loss": 0.9830095767974854,
+      "eval_runtime": 7.7691,
+      "eval_samples_per_second": 9.01,
+      "eval_steps_per_second": 9.01,
       "step": 900
     },
     {
       "epoch": 3.01,
+      "learning_rate": 2.1851851851851852e-05,
+      "loss": 0.1781,
       "step": 910
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 2.148148148148148e-05,
+      "loss": 0.1098,
       "step": 920
     },
     {
       "epoch": 3.02,
+      "learning_rate": 2.111111111111111e-05,
+      "loss": 0.0858,
       "step": 930
     },
     {
       "epoch": 3.03,
+      "learning_rate": 2.074074074074074e-05,
+      "loss": 0.0414,
       "step": 940
     },
     {
+      "epoch": 3.03,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.0603,
       "step": 950
     },
     {
+      "epoch": 3.04,
+      "learning_rate": 2e-05,
+      "loss": 0.0227,
       "step": 960
     },
     {
+      "epoch": 3.05,
+      "learning_rate": 1.962962962962963e-05,
+      "loss": 0.1299,
       "step": 970
     },
     {
+      "epoch": 3.05,
+      "learning_rate": 1.925925925925926e-05,
+      "loss": 0.0969,
       "step": 980
     },
     {
+      "epoch": 3.06,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.0166,
       "step": 990
     },
     {
+      "epoch": 3.07,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.1469,
       "step": 1000
     },
     {
+      "epoch": 3.07,
+      "learning_rate": 1.814814814814815e-05,
+      "loss": 0.937,
       "step": 1010
     },
     {
+      "epoch": 3.08,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.2854,
       "step": 1020
     },
     {
+      "epoch": 3.09,
+      "learning_rate": 1.740740740740741e-05,
+      "loss": 0.4419,
       "step": 1030
     },
     {
+      "epoch": 3.09,
+      "learning_rate": 1.7037037037037038e-05,
+      "loss": 0.0318,
       "step": 1040
     },
     {
+      "epoch": 3.1,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.5066,
       "step": 1050
     },
     {
+      "epoch": 3.11,
+      "learning_rate": 1.62962962962963e-05,
+      "loss": 0.2198,
       "step": 1060
     },
     {
+      "epoch": 3.11,
+      "learning_rate": 1.5925925925925926e-05,
+      "loss": 0.1339,
       "step": 1070
     },
     {
+      "epoch": 3.12,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.419,
       "step": 1080
     },
     {
+      "epoch": 3.13,
+      "learning_rate": 1.5185185185185186e-05,
+      "loss": 0.5091,
       "step": 1090
     },
     {
+      "epoch": 3.13,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0053,
       "step": 1100
     },
     {
+      "epoch": 3.14,
+      "learning_rate": 1.4444444444444444e-05,
+      "loss": 0.4913,
       "step": 1110
     },
     {
+      "epoch": 3.15,
+      "learning_rate": 1.4074074074074075e-05,
+      "loss": 0.888,
       "step": 1120
     },
     {
+      "epoch": 3.15,
+      "learning_rate": 1.3703703703703704e-05,
+      "loss": 0.0114,
       "step": 1130
     },
     {
+      "epoch": 3.16,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.0475,
       "step": 1140
     },
     {
+      "epoch": 3.17,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.3577,
       "step": 1150
     },
     {
+      "epoch": 3.17,
+      "learning_rate": 1.2592592592592592e-05,
+      "loss": 0.1931,
       "step": 1160
     },
     {
+      "epoch": 3.18,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.9554,
       "step": 1170
     },
     {
+      "epoch": 3.19,
+      "learning_rate": 1.1851851851851853e-05,
+      "loss": 0.1896,
       "step": 1180
     },
     {
+      "epoch": 3.19,
+      "learning_rate": 1.1481481481481482e-05,
+      "loss": 0.4304,
       "step": 1190
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 1.2709,
       "step": 1200
     },
     {
+      "epoch": 3.2,
+      "eval_accuracy": 0.7857142857142857,
+      "eval_loss": 0.9681726694107056,
+      "eval_runtime": 8.0084,
+      "eval_samples_per_second": 8.741,
+      "eval_steps_per_second": 8.741,
       "step": 1200
     },
     {
+      "epoch": 4.01,
+      "learning_rate": 1.074074074074074e-05,
+      "loss": 0.0339,
+      "step": 1210
     },
     {
+      "epoch": 4.01,
+      "learning_rate": 1.037037037037037e-05,
+      "loss": 0.0186,
+      "step": 1220
     },
     {
+      "epoch": 4.02,
+      "learning_rate": 1e-05,
+      "loss": 0.0112,
+      "step": 1230
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 9.62962962962963e-06,
+      "loss": 0.0097,
+      "step": 1240
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.8778,
+      "step": 1250
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 8.88888888888889e-06,
+      "loss": 0.0039,
+      "step": 1260
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.518518518518519e-06,
+      "loss": 0.0063,
+      "step": 1270
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.14814814814815e-06,
+      "loss": 0.6297,
+      "step": 1280
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 7.777777777777777e-06,
+      "loss": 0.0027,
+      "step": 1290
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.0059,
+      "step": 1300
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 7.0370370370370375e-06,
+      "loss": 0.0265,
+      "step": 1310
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0081,
+      "step": 1320
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 6.296296296296296e-06,
+      "loss": 0.0041,
+      "step": 1330
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 5.925925925925927e-06,
+      "loss": 0.0067,
+      "step": 1340
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0113,
+      "step": 1350
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 5.185185185185185e-06,
+      "loss": 0.0027,
+      "step": 1360
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 4.814814814814815e-06,
+      "loss": 0.0098,
+      "step": 1370
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 4.444444444444445e-06,
+      "loss": 0.0034,
+      "step": 1380
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 4.074074074074075e-06,
+      "loss": 0.2294,
+      "step": 1390
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0026,
+      "step": 1400
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0047,
+      "step": 1410
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 2.9629629629629633e-06,
+      "loss": 0.2746,
+      "step": 1420
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 2.5925925925925925e-06,
+      "loss": 0.0163,
+      "step": 1430
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 2.2222222222222225e-06,
+      "loss": 0.0029,
+      "step": 1440
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.0031,
+      "step": 1450
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 1.4814814814814817e-06,
+      "loss": 0.0033,
+      "step": 1460
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 1.1111111111111112e-06,
+      "loss": 0.0167,
+      "step": 1470
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 7.407407407407408e-07,
+      "loss": 0.0566,
+      "step": 1480
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 3.703703703703704e-07,
+      "loss": 0.0022,
+      "step": 1490
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 0.0,
+      "loss": 0.0032,
+      "step": 1500
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.3219563663005829,
+      "eval_runtime": 8.0513,
+      "eval_samples_per_second": 8.694,
+      "eval_steps_per_second": 8.694,
+      "step": 1500
+    },
+    {
+      "epoch": 4.2,
+      "step": 1500,
+      "total_flos": 1.86923023515648e+18,
+      "train_loss": 0.8214183993662397,
+      "train_runtime": 365.8364,
+      "train_samples_per_second": 4.1,
+      "train_steps_per_second": 4.1
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 0.9225806451612903,
+      "eval_loss": 0.23742257058620453,
+      "eval_runtime": 18.0077,
+      "eval_samples_per_second": 8.607,
+      "eval_steps_per_second": 8.607,
+      "step": 1500
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 0.9225806451612903,
+      "eval_loss": 0.23742260038852692,
+      "eval_runtime": 18.17,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 8.531,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1500,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
+  "total_flos": 1.86923023515648e+18,
   "trial_name": null,
   "trial_params": null
 }