Training in progress, epoch 0

Browse files

Files changed (5) hide show

all_results.json +5 -5
pytorch_model.bin +2 -2
test_results.json +5 -5
trainer_state.json +493 -493
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 49.02,
-    "eval_accuracy": 0.9210526315789473,
-    "eval_loss": 0.326847106218338,
-    "eval_runtime": 4.6548,
-    "eval_samples_per_second": 16.327,
-    "eval_steps_per_second": 4.082
 }

 {
     "epoch": 49.02,
+    "eval_accuracy": 0.9431818181818182,
+    "eval_loss": 0.2483096718788147,
+    "eval_runtime": 5.3467,
+    "eval_samples_per_second": 16.459,
+    "eval_steps_per_second": 4.115
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a576aa47c7d89056eeb95702b41b38a24376ddc83df54618b7f32d5af2b22640
-size 345004539

 version https://git-lfs.github.com/spec/v1
+oid sha256:00ad1a6a98c838df0b38ec1a227af8dac858d11eeff0cc9fec722042b8cfa0a5
+size 345004687

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 49.02,
-    "eval_accuracy": 0.9210526315789473,
-    "eval_loss": 0.326847106218338,
-    "eval_runtime": 4.6548,
-    "eval_samples_per_second": 16.327,
-    "eval_steps_per_second": 4.082
 }

 {
     "epoch": 49.02,
+    "eval_accuracy": 0.9431818181818182,
+    "eval_loss": 0.2483096718788147,
+    "eval_runtime": 5.3467,
+    "eval_samples_per_second": 16.459,
+    "eval_steps_per_second": 4.115
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_metric": 1.0,
-  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-825",
   "epoch": 49.02,
   "global_step": 3750,
   "is_hyper_param_search": false,
@@ -10,730 +10,730 @@
     {
       "epoch": 0.0,
       "learning_rate": 1.3333333333333334e-06,
-      "loss": 2.3925,
       "step": 10
     },
     {
       "epoch": 0.01,
       "learning_rate": 2.666666666666667e-06,
-      "loss": 2.3073,
       "step": 20
     },
     {
       "epoch": 0.01,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 2.345,
       "step": 30
     },
     {
       "epoch": 0.01,
       "learning_rate": 5.333333333333334e-06,
-      "loss": 2.2641,
       "step": 40
     },
     {
       "epoch": 0.01,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 2.2744,
       "step": 50
     },
     {
       "epoch": 0.02,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 2.2117,
       "step": 60
     },
     {
       "epoch": 0.02,
       "learning_rate": 9.333333333333334e-06,
-      "loss": 2.2547,
       "step": 70
     },
     {
       "epoch": 0.02,
-      "eval_accuracy": 0.22580645161290322,
-      "eval_loss": 2.2531020641326904,
-      "eval_runtime": 2.0467,
-      "eval_samples_per_second": 15.146,
-      "eval_steps_per_second": 3.909,
       "step": 75
     },
     {
       "epoch": 1.0,
       "learning_rate": 1.0666666666666667e-05,
-      "loss": 2.248,
       "step": 80
     },
     {
       "epoch": 1.0,
       "learning_rate": 1.2e-05,
-      "loss": 2.1841,
       "step": 90
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.3333333333333333e-05,
-      "loss": 2.1868,
       "step": 100
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.4666666666666668e-05,
-      "loss": 2.1535,
       "step": 110
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 2.0819,
       "step": 120
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.7333333333333336e-05,
-      "loss": 2.0471,
       "step": 130
     },
     {
       "epoch": 1.02,
       "learning_rate": 1.866666666666667e-05,
-      "loss": 2.0011,
       "step": 140
     },
     {
       "epoch": 1.02,
       "learning_rate": 2e-05,
-      "loss": 1.7995,
       "step": 150
     },
     {
       "epoch": 1.02,
-      "eval_accuracy": 0.3548387096774194,
-      "eval_loss": 1.8327221870422363,
-      "eval_runtime": 1.9884,
-      "eval_samples_per_second": 15.591,
-      "eval_steps_per_second": 4.023,
       "step": 150
     },
     {
       "epoch": 2.0,
       "learning_rate": 2.1333333333333335e-05,
-      "loss": 1.6304,
       "step": 160
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.2666666666666668e-05,
-      "loss": 1.4125,
       "step": 170
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.4e-05,
-      "loss": 1.3991,
       "step": 180
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.5333333333333337e-05,
-      "loss": 1.135,
       "step": 190
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.6666666666666667e-05,
-      "loss": 1.0372,
       "step": 200
     },
     {
       "epoch": 2.02,
       "learning_rate": 2.8000000000000003e-05,
-      "loss": 0.928,
       "step": 210
     },
     {
       "epoch": 2.02,
       "learning_rate": 2.9333333333333336e-05,
-      "loss": 1.0062,
       "step": 220
     },
     {
       "epoch": 2.02,
-      "eval_accuracy": 0.6451612903225806,
-      "eval_loss": 0.953277587890625,
-      "eval_runtime": 1.9414,
-      "eval_samples_per_second": 15.968,
-      "eval_steps_per_second": 4.121,
       "step": 225
     },
     {
       "epoch": 3.0,
       "learning_rate": 3.066666666666667e-05,
-      "loss": 0.7021,
       "step": 230
     },
     {
       "epoch": 3.0,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 0.7046,
       "step": 240
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.537,
       "step": 250
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.466666666666667e-05,
-      "loss": 0.4732,
       "step": 260
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.6e-05,
-      "loss": 0.6748,
       "step": 270
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.733333333333334e-05,
-      "loss": 0.3289,
       "step": 280
     },
     {
       "epoch": 3.02,
       "learning_rate": 3.866666666666667e-05,
-      "loss": 0.469,
       "step": 290
     },
     {
       "epoch": 3.02,
       "learning_rate": 4e-05,
-      "loss": 0.6316,
       "step": 300
     },
     {
       "epoch": 3.02,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.42770135402679443,
-      "eval_runtime": 1.9683,
-      "eval_samples_per_second": 15.749,
-      "eval_steps_per_second": 4.064,
       "step": 300
     },
     {
       "epoch": 4.0,
       "learning_rate": 4.133333333333333e-05,
-      "loss": 0.1767,
       "step": 310
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.266666666666667e-05,
-      "loss": 0.4263,
       "step": 320
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.4000000000000006e-05,
-      "loss": 0.2588,
       "step": 330
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.5333333333333335e-05,
-      "loss": 0.1301,
       "step": 340
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.666666666666667e-05,
-      "loss": 0.4264,
       "step": 350
     },
     {
       "epoch": 4.02,
       "learning_rate": 4.8e-05,
-      "loss": 0.2462,
       "step": 360
     },
     {
       "epoch": 4.02,
       "learning_rate": 4.933333333333334e-05,
-      "loss": 0.2867,
       "step": 370
     },
     {
       "epoch": 4.02,
-      "eval_accuracy": 0.7741935483870968,
-      "eval_loss": 0.44487717747688293,
-      "eval_runtime": 1.9664,
-      "eval_samples_per_second": 15.765,
-      "eval_steps_per_second": 4.068,
       "step": 375
     },
     {
       "epoch": 5.0,
       "learning_rate": 4.9925925925925926e-05,
-      "loss": 0.5059,
       "step": 380
     },
     {
       "epoch": 5.0,
       "learning_rate": 4.977777777777778e-05,
-      "loss": 0.5456,
       "step": 390
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.962962962962963e-05,
-      "loss": 0.451,
       "step": 400
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.9481481481481485e-05,
-      "loss": 0.6779,
       "step": 410
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.933333333333334e-05,
-      "loss": 0.0615,
       "step": 420
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.918518518518519e-05,
-      "loss": 0.1825,
       "step": 430
     },
     {
       "epoch": 5.02,
       "learning_rate": 4.903703703703704e-05,
-      "loss": 0.4993,
       "step": 440
     },
     {
       "epoch": 5.02,
       "learning_rate": 4.888888888888889e-05,
-      "loss": 0.2703,
       "step": 450
     },
     {
       "epoch": 5.02,
-      "eval_accuracy": 0.8387096774193549,
-      "eval_loss": 0.3418065011501312,
-      "eval_runtime": 1.9502,
-      "eval_samples_per_second": 15.896,
-      "eval_steps_per_second": 4.102,
       "step": 450
     },
     {
       "epoch": 6.0,
       "learning_rate": 4.874074074074074e-05,
-      "loss": 0.0368,
       "step": 460
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.8592592592592596e-05,
-      "loss": 0.3592,
       "step": 470
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.844444444444445e-05,
-      "loss": 0.1413,
       "step": 480
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.82962962962963e-05,
-      "loss": 0.2684,
       "step": 490
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.814814814814815e-05,
-      "loss": 0.0553,
       "step": 500
     },
     {
       "epoch": 6.02,
       "learning_rate": 4.8e-05,
-      "loss": 0.2376,
       "step": 510
     },
     {
       "epoch": 6.02,
       "learning_rate": 4.7851851851851854e-05,
-      "loss": 0.1765,
       "step": 520
     },
     {
       "epoch": 6.02,
-      "eval_accuracy": 0.8387096774193549,
-      "eval_loss": 0.6093774437904358,
-      "eval_runtime": 1.9718,
-      "eval_samples_per_second": 15.722,
-      "eval_steps_per_second": 4.057,
       "step": 525
     },
     {
       "epoch": 7.0,
       "learning_rate": 4.770370370370371e-05,
-      "loss": 0.2709,
       "step": 530
     },
     {
       "epoch": 7.0,
       "learning_rate": 4.755555555555556e-05,
-      "loss": 0.1705,
       "step": 540
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.740740740740741e-05,
-      "loss": 0.2239,
       "step": 550
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.7259259259259266e-05,
-      "loss": 0.0064,
       "step": 560
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.711111111111111e-05,
-      "loss": 0.0094,
       "step": 570
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.6962962962962966e-05,
-      "loss": 0.1632,
       "step": 580
     },
     {
       "epoch": 7.02,
       "learning_rate": 4.681481481481482e-05,
-      "loss": 0.049,
       "step": 590
     },
     {
       "epoch": 7.02,
       "learning_rate": 4.666666666666667e-05,
-      "loss": 0.0048,
       "step": 600
     },
     {
       "epoch": 7.02,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.3613308370113373,
-      "eval_runtime": 2.0165,
-      "eval_samples_per_second": 15.373,
-      "eval_steps_per_second": 3.967,
       "step": 600
     },
     {
       "epoch": 8.0,
       "learning_rate": 4.6518518518518525e-05,
-      "loss": 0.0081,
       "step": 610
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.637037037037038e-05,
-      "loss": 0.2853,
       "step": 620
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.6222222222222224e-05,
-      "loss": 0.1142,
       "step": 630
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.607407407407408e-05,
-      "loss": 0.011,
       "step": 640
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.592592592592593e-05,
-      "loss": 0.0467,
       "step": 650
     },
     {
       "epoch": 8.02,
       "learning_rate": 4.577777777777778e-05,
-      "loss": 0.0359,
       "step": 660
     },
     {
       "epoch": 8.02,
       "learning_rate": 4.5629629629629636e-05,
-      "loss": 0.1896,
       "step": 670
     },
     {
       "epoch": 8.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.280781626701355,
-      "eval_runtime": 2.0115,
-      "eval_samples_per_second": 15.411,
-      "eval_steps_per_second": 3.977,
       "step": 675
     },
     {
       "epoch": 9.0,
       "learning_rate": 4.548148148148149e-05,
-      "loss": 0.0479,
       "step": 680
     },
     {
       "epoch": 9.0,
       "learning_rate": 4.5333333333333335e-05,
-      "loss": 0.0805,
       "step": 690
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.518518518518519e-05,
-      "loss": 0.1153,
       "step": 700
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.503703703703704e-05,
-      "loss": 0.0098,
       "step": 710
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.4888888888888894e-05,
-      "loss": 0.0031,
       "step": 720
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.474074074074075e-05,
-      "loss": 0.0107,
       "step": 730
     },
     {
       "epoch": 9.02,
       "learning_rate": 4.4592592592592594e-05,
-      "loss": 0.109,
       "step": 740
     },
     {
       "epoch": 9.02,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.0654,
       "step": 750
     },
     {
       "epoch": 9.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.037398889660835266,
-      "eval_runtime": 2.0488,
-      "eval_samples_per_second": 15.131,
-      "eval_steps_per_second": 3.905,
       "step": 750
     },
     {
       "epoch": 10.0,
       "learning_rate": 4.42962962962963e-05,
-      "loss": 0.0034,
       "step": 760
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.414814814814815e-05,
-      "loss": 0.0028,
       "step": 770
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.4000000000000006e-05,
-      "loss": 0.0024,
       "step": 780
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.385185185185185e-05,
-      "loss": 0.0052,
       "step": 790
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.3703703703703705e-05,
-      "loss": 0.0053,
       "step": 800
     },
     {
       "epoch": 10.02,
       "learning_rate": 4.355555555555556e-05,
-      "loss": 0.0024,
       "step": 810
     },
     {
       "epoch": 10.02,
       "learning_rate": 4.340740740740741e-05,
-      "loss": 0.0027,
       "step": 820
     },
     {
       "epoch": 10.02,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.007468333002179861,
-      "eval_runtime": 2.0434,
-      "eval_samples_per_second": 15.171,
-      "eval_steps_per_second": 3.915,
       "step": 825
     },
     {
       "epoch": 11.0,
       "learning_rate": 4.325925925925926e-05,
-      "loss": 0.0026,
       "step": 830
     },
     {
       "epoch": 11.0,
       "learning_rate": 4.311111111111111e-05,
-      "loss": 0.002,
       "step": 840
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.296296296296296e-05,
-      "loss": 0.0021,
       "step": 850
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.2814814814814816e-05,
-      "loss": 0.0022,
       "step": 860
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.266666666666667e-05,
-      "loss": 0.0025,
       "step": 870
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.2518518518518515e-05,
-      "loss": 0.0511,
       "step": 880
     },
     {
       "epoch": 11.02,
       "learning_rate": 4.237037037037037e-05,
-      "loss": 0.1272,
       "step": 890
     },
     {
       "epoch": 11.02,
       "learning_rate": 4.222222222222222e-05,
-      "loss": 0.0017,
       "step": 900
     },
     {
       "epoch": 11.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.1445997655391693,
-      "eval_runtime": 2.062,
-      "eval_samples_per_second": 15.034,
-      "eval_steps_per_second": 3.88,
       "step": 900
     },
     {
       "epoch": 12.0,
       "learning_rate": 4.2074074074074075e-05,
-      "loss": 0.0017,
       "step": 910
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.192592592592593e-05,
-      "loss": 0.0017,
       "step": 920
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.177777777777778e-05,
-      "loss": 0.1351,
       "step": 930
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.162962962962963e-05,
-      "loss": 0.0042,
       "step": 940
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.148148148148148e-05,
-      "loss": 0.1209,
       "step": 950
     },
     {
       "epoch": 12.02,
       "learning_rate": 4.133333333333333e-05,
-      "loss": 0.0017,
       "step": 960
     },
     {
       "epoch": 12.02,
       "learning_rate": 4.1185185185185186e-05,
-      "loss": 0.0015,
       "step": 970
     },
     {
       "epoch": 12.02,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.021370282396674156,
-      "eval_runtime": 2.0352,
-      "eval_samples_per_second": 15.232,
-      "eval_steps_per_second": 3.931,
       "step": 975
     },
     {
       "epoch": 13.0,
       "learning_rate": 4.103703703703704e-05,
-      "loss": 0.0016,
       "step": 980
     },
     {
       "epoch": 13.0,
       "learning_rate": 4.088888888888889e-05,
-      "loss": 0.0015,
       "step": 990
     },
     {
       "epoch": 13.01,
       "learning_rate": 4.074074074074074e-05,
-      "loss": 0.1613,
       "step": 1000
     },
     {
       "epoch": 13.01,
       "learning_rate": 4.059259259259259e-05,
-      "loss": 0.1646,
       "step": 1010
     },
     {
       "epoch": 13.01,
       "learning_rate": 4.0444444444444444e-05,
-      "loss": 0.0016,
       "step": 1020
     },
     {
@@ -745,22 +745,22 @@
     {
       "epoch": 13.02,
       "learning_rate": 4.014814814814815e-05,
-      "loss": 0.0205,
       "step": 1040
     },
     {
       "epoch": 13.02,
       "learning_rate": 4e-05,
-      "loss": 0.0117,
       "step": 1050
     },
     {
       "epoch": 13.02,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.3851369619369507,
-      "eval_runtime": 2.024,
-      "eval_samples_per_second": 15.316,
-      "eval_steps_per_second": 3.953,
       "step": 1050
     },
     {
@@ -772,25 +772,25 @@
     {
       "epoch": 14.01,
       "learning_rate": 3.97037037037037e-05,
-      "loss": 0.0014,
       "step": 1070
     },
     {
       "epoch": 14.01,
       "learning_rate": 3.9555555555555556e-05,
-      "loss": 0.0013,
       "step": 1080
     },
     {
       "epoch": 14.01,
       "learning_rate": 3.940740740740741e-05,
-      "loss": 0.0013,
       "step": 1090
     },
     {
       "epoch": 14.01,
       "learning_rate": 3.925925925925926e-05,
-      "loss": 0.0014,
       "step": 1100
     },
     {
@@ -802,40 +802,40 @@
     {
       "epoch": 14.02,
       "learning_rate": 3.896296296296296e-05,
-      "loss": 0.0017,
       "step": 1120
     },
     {
       "epoch": 14.02,
-      "eval_accuracy": 0.8709677419354839,
-      "eval_loss": 0.4688844382762909,
-      "eval_runtime": 1.9804,
-      "eval_samples_per_second": 15.653,
-      "eval_steps_per_second": 4.04,
       "step": 1125
     },
     {
       "epoch": 15.0,
       "learning_rate": 3.8814814814814814e-05,
-      "loss": 0.0012,
       "step": 1130
     },
     {
       "epoch": 15.0,
       "learning_rate": 3.866666666666667e-05,
-      "loss": 0.0906,
       "step": 1140
     },
     {
       "epoch": 15.01,
       "learning_rate": 3.851851851851852e-05,
-      "loss": 0.0152,
       "step": 1150
     },
     {
       "epoch": 15.01,
       "learning_rate": 3.837037037037037e-05,
-      "loss": 0.0368,
       "step": 1160
     },
     {
@@ -847,97 +847,97 @@
     {
       "epoch": 15.01,
       "learning_rate": 3.807407407407408e-05,
-      "loss": 0.0019,
       "step": 1180
     },
     {
       "epoch": 15.02,
       "learning_rate": 3.7925925925925925e-05,
-      "loss": 0.0011,
       "step": 1190
     },
     {
       "epoch": 15.02,
       "learning_rate": 3.777777777777778e-05,
-      "loss": 0.0013,
       "step": 1200
     },
     {
       "epoch": 15.02,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.015822507441043854,
-      "eval_runtime": 2.0695,
-      "eval_samples_per_second": 14.979,
-      "eval_steps_per_second": 3.866,
       "step": 1200
     },
     {
       "epoch": 16.0,
       "learning_rate": 3.762962962962963e-05,
-      "loss": 0.0012,
       "step": 1210
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.7481481481481484e-05,
-      "loss": 0.0012,
       "step": 1220
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.733333333333334e-05,
-      "loss": 0.0011,
       "step": 1230
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.718518518518519e-05,
-      "loss": 0.001,
       "step": 1240
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.0011,
       "step": 1250
     },
     {
       "epoch": 16.02,
       "learning_rate": 3.688888888888889e-05,
-      "loss": 0.001,
       "step": 1260
     },
     {
       "epoch": 16.02,
       "learning_rate": 3.674074074074074e-05,
-      "loss": 0.0011,
       "step": 1270
     },
     {
       "epoch": 16.02,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.008321798406541348,
-      "eval_runtime": 2.0776,
-      "eval_samples_per_second": 14.921,
-      "eval_steps_per_second": 3.851,
       "step": 1275
     },
     {
       "epoch": 17.0,
       "learning_rate": 3.6592592592592596e-05,
-      "loss": 0.0033,
       "step": 1280
     },
     {
       "epoch": 17.0,
       "learning_rate": 3.644444444444445e-05,
-      "loss": 0.0098,
       "step": 1290
     },
     {
       "epoch": 17.01,
       "learning_rate": 3.62962962962963e-05,
-      "loss": 0.0012,
       "step": 1300
     },
     {
@@ -949,223 +949,223 @@
     {
       "epoch": 17.01,
       "learning_rate": 3.6e-05,
-      "loss": 0.0024,
       "step": 1320
     },
     {
       "epoch": 17.01,
       "learning_rate": 3.5851851851851854e-05,
-      "loss": 0.126,
       "step": 1330
     },
     {
       "epoch": 17.02,
       "learning_rate": 3.570370370370371e-05,
-      "loss": 0.0012,
       "step": 1340
     },
     {
       "epoch": 17.02,
       "learning_rate": 3.555555555555556e-05,
-      "loss": 0.0011,
       "step": 1350
     },
     {
       "epoch": 17.02,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.3690930902957916,
-      "eval_runtime": 2.115,
-      "eval_samples_per_second": 14.657,
-      "eval_steps_per_second": 3.783,
       "step": 1350
     },
     {
       "epoch": 18.0,
       "learning_rate": 3.540740740740741e-05,
-      "loss": 0.0009,
       "step": 1360
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.525925925925926e-05,
-      "loss": 0.001,
       "step": 1370
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.511111111111111e-05,
-      "loss": 0.001,
       "step": 1380
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.4962962962962965e-05,
-      "loss": 0.0068,
       "step": 1390
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.481481481481482e-05,
-      "loss": 0.001,
       "step": 1400
     },
     {
       "epoch": 18.02,
       "learning_rate": 3.466666666666667e-05,
-      "loss": 0.107,
       "step": 1410
     },
     {
       "epoch": 18.02,
       "learning_rate": 3.4518518518518524e-05,
-      "loss": 0.001,
       "step": 1420
     },
     {
       "epoch": 18.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.20155225694179535,
-      "eval_runtime": 2.1042,
-      "eval_samples_per_second": 14.732,
-      "eval_steps_per_second": 3.802,
       "step": 1425
     },
     {
       "epoch": 19.0,
       "learning_rate": 3.437037037037037e-05,
-      "loss": 0.001,
       "step": 1430
     },
     {
       "epoch": 19.0,
       "learning_rate": 3.4222222222222224e-05,
-      "loss": 0.0011,
       "step": 1440
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.4074074074074077e-05,
-      "loss": 0.061,
       "step": 1450
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.392592592592593e-05,
-      "loss": 0.0009,
       "step": 1460
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.377777777777778e-05,
-      "loss": 0.001,
       "step": 1470
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.3629629629629636e-05,
-      "loss": 0.001,
       "step": 1480
     },
     {
       "epoch": 19.02,
       "learning_rate": 3.348148148148148e-05,
-      "loss": 0.0009,
       "step": 1490
     },
     {
       "epoch": 19.02,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.0009,
       "step": 1500
     },
     {
       "epoch": 19.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.08350614458322525,
-      "eval_runtime": 2.1324,
-      "eval_samples_per_second": 14.537,
-      "eval_steps_per_second": 3.752,
       "step": 1500
     },
     {
       "epoch": 20.0,
       "learning_rate": 3.318518518518519e-05,
-      "loss": 0.1209,
       "step": 1510
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.303703703703704e-05,
-      "loss": 0.0009,
       "step": 1520
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.2888888888888894e-05,
-      "loss": 0.0009,
       "step": 1530
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.274074074074075e-05,
-      "loss": 0.0008,
       "step": 1540
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.25925925925926e-05,
-      "loss": 0.0012,
       "step": 1550
     },
     {
       "epoch": 20.02,
       "learning_rate": 3.2444444444444446e-05,
-      "loss": 0.0008,
       "step": 1560
     },
     {
       "epoch": 20.02,
       "learning_rate": 3.22962962962963e-05,
-      "loss": 0.0009,
       "step": 1570
     },
     {
       "epoch": 20.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.31769511103630066,
-      "eval_runtime": 2.1181,
-      "eval_samples_per_second": 14.636,
-      "eval_steps_per_second": 3.777,
       "step": 1575
     },
     {
       "epoch": 21.0,
       "learning_rate": 3.214814814814815e-05,
-      "loss": 0.0009,
       "step": 1580
     },
     {
       "epoch": 21.0,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 0.0008,
       "step": 1590
     },
     {
       "epoch": 21.01,
       "learning_rate": 3.185185185185185e-05,
-      "loss": 0.0676,
       "step": 1600
     },
     {
       "epoch": 21.01,
       "learning_rate": 3.1703703703703705e-05,
-      "loss": 0.0008,
       "step": 1610
     },
     {
       "epoch": 21.01,
       "learning_rate": 3.155555555555556e-05,
-      "loss": 0.0011,
       "step": 1620
     },
     {
@@ -1177,34 +1177,34 @@
     {
       "epoch": 21.02,
       "learning_rate": 3.1259259259259264e-05,
-      "loss": 0.0011,
       "step": 1640
     },
     {
       "epoch": 21.02,
       "learning_rate": 3.111111111111111e-05,
-      "loss": 0.0016,
       "step": 1650
     },
     {
       "epoch": 21.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.21165208518505096,
-      "eval_runtime": 2.16,
-      "eval_samples_per_second": 14.352,
-      "eval_steps_per_second": 3.704,
       "step": 1650
     },
     {
       "epoch": 22.0,
       "learning_rate": 3.096296296296296e-05,
-      "loss": 0.0012,
       "step": 1660
     },
     {
       "epoch": 22.01,
       "learning_rate": 3.0814814814814816e-05,
-      "loss": 0.0008,
       "step": 1670
     },
     {
@@ -1216,7 +1216,7 @@
     {
       "epoch": 22.01,
       "learning_rate": 3.0518518518518515e-05,
-      "loss": 0.0011,
       "step": 1690
     },
     {
@@ -1234,28 +1234,28 @@
     {
       "epoch": 22.02,
       "learning_rate": 3.0074074074074078e-05,
-      "loss": 0.0008,
       "step": 1720
     },
     {
       "epoch": 22.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.15717540681362152,
-      "eval_runtime": 2.1202,
-      "eval_samples_per_second": 14.621,
-      "eval_steps_per_second": 3.773,
       "step": 1725
     },
     {
       "epoch": 23.0,
       "learning_rate": 2.992592592592593e-05,
-      "loss": 0.0007,
       "step": 1730
     },
     {
       "epoch": 23.0,
       "learning_rate": 2.9777777777777777e-05,
-      "loss": 0.0007,
       "step": 1740
     },
     {
@@ -1267,7 +1267,7 @@
     {
       "epoch": 23.01,
       "learning_rate": 2.9481481481481483e-05,
-      "loss": 0.0007,
       "step": 1760
     },
     {
@@ -1285,7 +1285,7 @@
     {
       "epoch": 23.02,
       "learning_rate": 2.9037037037037042e-05,
-      "loss": 0.0008,
       "step": 1790
     },
     {
@@ -1296,23 +1296,23 @@
     },
     {
       "epoch": 23.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.09172616899013519,
-      "eval_runtime": 2.0539,
-      "eval_samples_per_second": 15.093,
-      "eval_steps_per_second": 3.895,
       "step": 1800
     },
     {
       "epoch": 24.0,
       "learning_rate": 2.874074074074074e-05,
-      "loss": 0.0007,
       "step": 1810
     },
     {
       "epoch": 24.01,
       "learning_rate": 2.8592592592592594e-05,
-      "loss": 0.0007,
       "step": 1820
     },
     {
@@ -1324,46 +1324,46 @@
     {
       "epoch": 24.01,
       "learning_rate": 2.8296296296296297e-05,
-      "loss": 0.001,
       "step": 1840
     },
     {
       "epoch": 24.01,
       "learning_rate": 2.814814814814815e-05,
-      "loss": 0.0022,
       "step": 1850
     },
     {
       "epoch": 24.02,
       "learning_rate": 2.8000000000000003e-05,
-      "loss": 0.0006,
       "step": 1860
     },
     {
       "epoch": 24.02,
       "learning_rate": 2.7851851851851853e-05,
-      "loss": 0.0007,
       "step": 1870
     },
     {
       "epoch": 24.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.10195574164390564,
-      "eval_runtime": 1.9997,
-      "eval_samples_per_second": 15.503,
-      "eval_steps_per_second": 4.001,
       "step": 1875
     },
     {
       "epoch": 25.0,
       "learning_rate": 2.7703703703703706e-05,
-      "loss": 0.001,
       "step": 1880
     },
     {
       "epoch": 25.0,
       "learning_rate": 2.7555555555555555e-05,
-      "loss": 0.0008,
       "step": 1890
     },
     {
@@ -1393,7 +1393,7 @@
     {
       "epoch": 25.02,
       "learning_rate": 2.6814814814814814e-05,
-      "loss": 0.0007,
       "step": 1940
     },
     {
@@ -1404,11 +1404,11 @@
     },
     {
       "epoch": 25.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.04205064848065376,
-      "eval_runtime": 1.9929,
-      "eval_samples_per_second": 15.555,
-      "eval_steps_per_second": 4.014,
       "step": 1950
     },
     {
@@ -1438,40 +1438,40 @@
     {
       "epoch": 26.01,
       "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.0006,
       "step": 2000
     },
     {
       "epoch": 26.02,
       "learning_rate": 2.5777777777777778e-05,
-      "loss": 0.0006,
       "step": 2010
     },
     {
       "epoch": 26.02,
       "learning_rate": 2.562962962962963e-05,
-      "loss": 0.0006,
       "step": 2020
     },
     {
       "epoch": 26.02,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00902103167027235,
-      "eval_runtime": 1.9903,
-      "eval_samples_per_second": 15.575,
-      "eval_steps_per_second": 4.019,
       "step": 2025
     },
     {
       "epoch": 27.0,
       "learning_rate": 2.5481481481481484e-05,
-      "loss": 0.0006,
       "step": 2030
     },
     {
       "epoch": 27.0,
       "learning_rate": 2.5333333333333337e-05,
-      "loss": 0.0005,
       "step": 2040
     },
     {
@@ -1495,13 +1495,13 @@
     {
       "epoch": 27.01,
       "learning_rate": 2.4740740740740742e-05,
-      "loss": 0.1483,
       "step": 2080
     },
     {
       "epoch": 27.02,
       "learning_rate": 2.4592592592592595e-05,
-      "loss": 0.0039,
       "step": 2090
     },
     {
@@ -1512,17 +1512,17 @@
     },
     {
       "epoch": 27.02,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.009729193523526192,
-      "eval_runtime": 2.0816,
-      "eval_samples_per_second": 14.892,
-      "eval_steps_per_second": 3.843,
       "step": 2100
     },
     {
       "epoch": 28.0,
       "learning_rate": 2.4296296296296298e-05,
-      "loss": 0.0006,
       "step": 2110
     },
     {
@@ -1546,28 +1546,28 @@
     {
       "epoch": 28.01,
       "learning_rate": 2.3703703703703707e-05,
-      "loss": 0.0006,
       "step": 2150
     },
     {
       "epoch": 28.02,
       "learning_rate": 2.3555555555555556e-05,
-      "loss": 0.0026,
       "step": 2160
     },
     {
       "epoch": 28.02,
       "learning_rate": 2.340740740740741e-05,
-      "loss": 0.0007,
       "step": 2170
     },
     {
       "epoch": 28.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.26273736357688904,
-      "eval_runtime": 2.0036,
-      "eval_samples_per_second": 15.472,
-      "eval_steps_per_second": 3.993,
       "step": 2175
     },
     {
@@ -1579,13 +1579,13 @@
     {
       "epoch": 29.0,
       "learning_rate": 2.3111111111111112e-05,
-      "loss": 0.0006,
       "step": 2190
     },
     {
       "epoch": 29.01,
       "learning_rate": 2.2962962962962965e-05,
-      "loss": 0.0006,
       "step": 2200
     },
     {
@@ -1609,22 +1609,22 @@
     {
       "epoch": 29.02,
       "learning_rate": 2.2370370370370374e-05,
-      "loss": 0.0005,
       "step": 2240
     },
     {
       "epoch": 29.02,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.0748,
       "step": 2250
     },
     {
       "epoch": 29.02,
-      "eval_accuracy": 0.967741935483871,
-      "eval_loss": 0.09200659394264221,
-      "eval_runtime": 2.031,
-      "eval_samples_per_second": 15.263,
-      "eval_steps_per_second": 3.939,
       "step": 2250
     },
     {
@@ -1642,19 +1642,19 @@
     {
       "epoch": 30.01,
       "learning_rate": 2.177777777777778e-05,
-      "loss": 0.002,
       "step": 2280
     },
     {
       "epoch": 30.01,
       "learning_rate": 2.162962962962963e-05,
-      "loss": 0.0005,
       "step": 2290
     },
     {
       "epoch": 30.01,
       "learning_rate": 2.148148148148148e-05,
-      "loss": 0.2038,
       "step": 2300
     },
     {
@@ -1666,52 +1666,52 @@
     {
       "epoch": 30.02,
       "learning_rate": 2.1185185185185184e-05,
-      "loss": 0.0006,
       "step": 2320
     },
     {
       "epoch": 30.02,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.4840385317802429,
-      "eval_runtime": 2.0178,
-      "eval_samples_per_second": 15.363,
-      "eval_steps_per_second": 3.965,
       "step": 2325
     },
     {
       "epoch": 31.0,
       "learning_rate": 2.1037037037037037e-05,
-      "loss": 0.0006,
       "step": 2330
     },
     {
       "epoch": 31.0,
       "learning_rate": 2.088888888888889e-05,
-      "loss": 0.0006,
       "step": 2340
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.074074074074074e-05,
-      "loss": 0.0006,
       "step": 2350
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.0592592592592593e-05,
-      "loss": 0.0006,
       "step": 2360
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.0444444444444446e-05,
-      "loss": 0.0008,
       "step": 2370
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.0296296296296296e-05,
-      "loss": 0.0005,
       "step": 2380
     },
     {
@@ -1723,16 +1723,16 @@
     {
       "epoch": 31.02,
       "learning_rate": 2e-05,
-      "loss": 0.0006,
       "step": 2400
     },
     {
       "epoch": 31.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.2736887037754059,
-      "eval_runtime": 2.0235,
-      "eval_samples_per_second": 15.32,
-      "eval_steps_per_second": 3.954,
       "step": 2400
     },
     {
@@ -1750,7 +1750,7 @@
     {
       "epoch": 32.01,
       "learning_rate": 1.9555555555555557e-05,
-      "loss": 0.0006,
       "step": 2430
     },
     {
@@ -1779,11 +1779,11 @@
     },
     {
       "epoch": 32.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.3084464371204376,
-      "eval_runtime": 2.0657,
-      "eval_samples_per_second": 15.007,
-      "eval_steps_per_second": 3.873,
       "step": 2475
     },
     {
@@ -1807,7 +1807,7 @@
     {
       "epoch": 33.01,
       "learning_rate": 1.837037037037037e-05,
-      "loss": 0.0004,
       "step": 2510
     },
     {
@@ -1836,17 +1836,17 @@
     },
     {
       "epoch": 33.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.29349207878112793,
-      "eval_runtime": 2.0411,
-      "eval_samples_per_second": 15.188,
-      "eval_steps_per_second": 3.919,
       "step": 2550
     },
     {
       "epoch": 34.0,
       "learning_rate": 1.762962962962963e-05,
-      "loss": 0.0005,
       "step": 2560
     },
     {
@@ -1864,7 +1864,7 @@
     {
       "epoch": 34.01,
       "learning_rate": 1.7185185185185185e-05,
-      "loss": 0.0004,
       "step": 2590
     },
     {
@@ -1887,23 +1887,23 @@
     },
     {
       "epoch": 34.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.2671518921852112,
-      "eval_runtime": 2.0489,
-      "eval_samples_per_second": 15.13,
-      "eval_steps_per_second": 3.905,
       "step": 2625
     },
     {
       "epoch": 35.0,
       "learning_rate": 1.6592592592592594e-05,
-      "loss": 0.0005,
       "step": 2630
     },
     {
       "epoch": 35.0,
       "learning_rate": 1.6444444444444447e-05,
-      "loss": 0.0004,
       "step": 2640
     },
     {
@@ -1921,7 +1921,7 @@
     {
       "epoch": 35.01,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.0005,
       "step": 2670
     },
     {
@@ -1933,7 +1933,7 @@
     {
       "epoch": 35.02,
       "learning_rate": 1.5703703703703705e-05,
-      "loss": 0.0004,
       "step": 2690
     },
     {
@@ -1944,35 +1944,35 @@
     },
     {
       "epoch": 35.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.2431970089673996,
-      "eval_runtime": 2.032,
-      "eval_samples_per_second": 15.256,
-      "eval_steps_per_second": 3.937,
       "step": 2700
     },
     {
       "epoch": 36.0,
       "learning_rate": 1.5407407407407408e-05,
-      "loss": 0.0004,
       "step": 2710
     },
     {
       "epoch": 36.01,
       "learning_rate": 1.5259259259259258e-05,
-      "loss": 0.0004,
       "step": 2720
     },
     {
       "epoch": 36.01,
       "learning_rate": 1.5111111111111112e-05,
-      "loss": 0.0004,
       "step": 2730
     },
     {
       "epoch": 36.01,
       "learning_rate": 1.4962962962962965e-05,
-      "loss": 0.0004,
       "step": 2740
     },
     {
@@ -1995,11 +1995,11 @@
     },
     {
       "epoch": 36.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.23820169270038605,
-      "eval_runtime": 1.8723,
-      "eval_samples_per_second": 16.557,
-      "eval_steps_per_second": 4.273,
       "step": 2775
     },
     {
@@ -2011,7 +2011,7 @@
     {
       "epoch": 37.0,
       "learning_rate": 1.4222222222222224e-05,
-      "loss": 0.0004,
       "step": 2790
     },
     {
@@ -2029,19 +2029,19 @@
     {
       "epoch": 37.01,
       "learning_rate": 1.3777777777777778e-05,
-      "loss": 0.0004,
       "step": 2820
     },
     {
       "epoch": 37.01,
       "learning_rate": 1.362962962962963e-05,
-      "loss": 0.0004,
       "step": 2830
     },
     {
       "epoch": 37.02,
       "learning_rate": 1.348148148148148e-05,
-      "loss": 0.0004,
       "step": 2840
     },
     {
@@ -2052,11 +2052,11 @@
     },
     {
       "epoch": 37.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.22140412032604218,
-      "eval_runtime": 1.9289,
-      "eval_samples_per_second": 16.072,
-      "eval_steps_per_second": 4.148,
       "step": 2850
     },
     {
@@ -2068,7 +2068,7 @@
     {
       "epoch": 38.01,
       "learning_rate": 1.3037037037037036e-05,
-      "loss": 0.0004,
       "step": 2870
     },
     {
@@ -2086,7 +2086,7 @@
     {
       "epoch": 38.01,
       "learning_rate": 1.2592592592592592e-05,
-      "loss": 0.0004,
       "step": 2900
     },
     {
@@ -2098,16 +2098,16 @@
     {
       "epoch": 38.02,
       "learning_rate": 1.2296296296296298e-05,
-      "loss": 0.0004,
       "step": 2920
     },
     {
       "epoch": 38.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.21227142214775085,
-      "eval_runtime": 1.9476,
-      "eval_samples_per_second": 15.917,
-      "eval_steps_per_second": 4.108,
       "step": 2925
     },
     {
@@ -2131,7 +2131,7 @@
     {
       "epoch": 39.01,
       "learning_rate": 1.1703703703703705e-05,
-      "loss": 0.0004,
       "step": 2960
     },
     {
@@ -2149,7 +2149,7 @@
     {
       "epoch": 39.02,
       "learning_rate": 1.125925925925926e-05,
-      "loss": 0.0004,
       "step": 2990
     },
     {
@@ -2160,11 +2160,11 @@
     },
     {
       "epoch": 39.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.20368844270706177,
-      "eval_runtime": 1.8819,
-      "eval_samples_per_second": 16.472,
-      "eval_steps_per_second": 4.251,
       "step": 3000
     },
     {
@@ -2211,11 +2211,11 @@
     },
     {
       "epoch": 40.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.19793939590454102,
-      "eval_runtime": 1.8907,
-      "eval_samples_per_second": 16.396,
-      "eval_steps_per_second": 4.231,
       "step": 3075
     },
     {
@@ -2268,11 +2268,11 @@
     },
     {
       "epoch": 41.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.1887228637933731,
-      "eval_runtime": 1.8802,
-      "eval_samples_per_second": 16.488,
-      "eval_steps_per_second": 4.255,
       "step": 3150
     },
     {
@@ -2319,11 +2319,11 @@
     },
     {
       "epoch": 42.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.17983676493167877,
-      "eval_runtime": 1.9763,
-      "eval_samples_per_second": 15.686,
-      "eval_steps_per_second": 4.048,
       "step": 3225
     },
     {
@@ -2376,11 +2376,11 @@
     },
     {
       "epoch": 43.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.17034880816936493,
-      "eval_runtime": 1.9064,
-      "eval_samples_per_second": 16.261,
-      "eval_steps_per_second": 4.196,
       "step": 3300
     },
     {
@@ -2427,11 +2427,11 @@
     },
     {
       "epoch": 44.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.15491537749767303,
-      "eval_runtime": 1.9495,
-      "eval_samples_per_second": 15.902,
-      "eval_steps_per_second": 4.104,
       "step": 3375
     },
     {
@@ -2467,13 +2467,13 @@
     {
       "epoch": 45.01,
       "learning_rate": 4.740740740740741e-06,
-      "loss": 0.0003,
       "step": 3430
     },
     {
       "epoch": 45.02,
       "learning_rate": 4.592592592592593e-06,
-      "loss": 0.0003,
       "step": 3440
     },
     {
@@ -2484,11 +2484,11 @@
     },
     {
       "epoch": 45.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.15048637986183167,
-      "eval_runtime": 1.9493,
-      "eval_samples_per_second": 15.903,
-      "eval_steps_per_second": 4.104,
       "step": 3450
     },
     {
@@ -2535,11 +2535,11 @@
     },
     {
       "epoch": 46.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.1432822197675705,
-      "eval_runtime": 1.9341,
-      "eval_samples_per_second": 16.028,
-      "eval_steps_per_second": 4.136,
       "step": 3525
     },
     {
@@ -2592,17 +2592,17 @@
     },
     {
       "epoch": 47.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.14155419170856476,
-      "eval_runtime": 1.9544,
-      "eval_samples_per_second": 15.861,
-      "eval_steps_per_second": 4.093,
       "step": 3600
     },
     {
       "epoch": 48.0,
       "learning_rate": 2.0740740740740742e-06,
-      "loss": 0.0003,
       "step": 3610
     },
     {
@@ -2620,7 +2620,7 @@
     {
       "epoch": 48.01,
       "learning_rate": 1.6296296296296295e-06,
-      "loss": 0.0004,
       "step": 3640
     },
     {
@@ -2643,11 +2643,11 @@
     },
     {
       "epoch": 48.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.14026829600334167,
-      "eval_runtime": 1.9357,
-      "eval_samples_per_second": 16.015,
-      "eval_steps_per_second": 4.133,
       "step": 3675
     },
     {
@@ -2683,13 +2683,13 @@
     {
       "epoch": 49.01,
       "learning_rate": 2.962962962962963e-07,
-      "loss": 0.0003,
       "step": 3730
     },
     {
       "epoch": 49.02,
       "learning_rate": 1.4814814814814815e-07,
-      "loss": 0.0003,
       "step": 3740
     },
     {
@@ -2700,38 +2700,38 @@
     },
     {
       "epoch": 49.02,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.14033780992031097,
-      "eval_runtime": 1.912,
-      "eval_samples_per_second": 16.213,
-      "eval_steps_per_second": 4.184,
       "step": 3750
     },
     {
       "epoch": 49.02,
       "step": 3750,
       "total_flos": 1.86923023515648e+19,
-      "train_loss": 0.15028690623094637,
-      "train_runtime": 3633.1287,
-      "train_samples_per_second": 4.129,
-      "train_steps_per_second": 1.032
     },
     {
       "epoch": 49.02,
-      "eval_accuracy": 0.9210526315789473,
-      "eval_loss": 0.326847106218338,
-      "eval_runtime": 7.8789,
-      "eval_samples_per_second": 9.646,
-      "eval_steps_per_second": 2.412,
       "step": 3750
     },
     {
       "epoch": 49.02,
-      "eval_accuracy": 0.9210526315789473,
-      "eval_loss": 0.326847106218338,
-      "eval_runtime": 4.6548,
-      "eval_samples_per_second": 16.327,
-      "eval_steps_per_second": 4.082,
       "step": 3750
     }
   ],

 {
   "best_metric": 1.0,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-1275",
   "epoch": 49.02,
   "global_step": 3750,
   "is_hyper_param_search": false,
     {
       "epoch": 0.0,
       "learning_rate": 1.3333333333333334e-06,
+      "loss": 2.3098,
       "step": 10
     },
     {
       "epoch": 0.01,
       "learning_rate": 2.666666666666667e-06,
+      "loss": 2.404,
       "step": 20
     },
     {
       "epoch": 0.01,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 2.3519,
       "step": 30
     },
     {
       "epoch": 0.01,
       "learning_rate": 5.333333333333334e-06,
+      "loss": 2.3632,
       "step": 40
     },
     {
       "epoch": 0.01,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 2.2731,
       "step": 50
     },
     {
       "epoch": 0.02,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 2.3121,
       "step": 60
     },
     {
       "epoch": 0.02,
       "learning_rate": 9.333333333333334e-06,
+      "loss": 2.3832,
       "step": 70
     },
     {
       "epoch": 0.02,
+      "eval_accuracy": 0.3783783783783784,
+      "eval_loss": 2.170041561126709,
+      "eval_runtime": 2.1587,
+      "eval_samples_per_second": 17.14,
+      "eval_steps_per_second": 4.632,
       "step": 75
     },
     {
       "epoch": 1.0,
       "learning_rate": 1.0666666666666667e-05,
+      "loss": 2.2792,
       "step": 80
     },
     {
       "epoch": 1.0,
       "learning_rate": 1.2e-05,
+      "loss": 2.2242,
       "step": 90
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.1522,
       "step": 100
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.4666666666666668e-05,
+      "loss": 2.1471,
       "step": 110
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.1708,
       "step": 120
     },
     {
       "epoch": 1.01,
       "learning_rate": 1.7333333333333336e-05,
+      "loss": 2.064,
       "step": 130
     },
     {
       "epoch": 1.02,
       "learning_rate": 1.866666666666667e-05,
+      "loss": 2.0836,
       "step": 140
     },
     {
       "epoch": 1.02,
       "learning_rate": 2e-05,
+      "loss": 1.8551,
       "step": 150
     },
     {
       "epoch": 1.02,
+      "eval_accuracy": 0.3783783783783784,
+      "eval_loss": 1.8235533237457275,
+      "eval_runtime": 2.2292,
+      "eval_samples_per_second": 16.598,
+      "eval_steps_per_second": 4.486,
       "step": 150
     },
     {
       "epoch": 2.0,
       "learning_rate": 2.1333333333333335e-05,
+      "loss": 1.5745,
       "step": 160
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.2666666666666668e-05,
+      "loss": 1.4592,
       "step": 170
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.4e-05,
+      "loss": 1.4084,
       "step": 180
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.5333333333333337e-05,
+      "loss": 1.1281,
       "step": 190
     },
     {
       "epoch": 2.01,
       "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.0162,
       "step": 200
     },
     {
       "epoch": 2.02,
       "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.8929,
       "step": 210
     },
     {
       "epoch": 2.02,
       "learning_rate": 2.9333333333333336e-05,
+      "loss": 1.0117,
       "step": 220
     },
     {
       "epoch": 2.02,
+      "eval_accuracy": 0.5135135135135135,
+      "eval_loss": 1.1747188568115234,
+      "eval_runtime": 2.3005,
+      "eval_samples_per_second": 16.083,
+      "eval_steps_per_second": 4.347,
       "step": 225
     },
     {
       "epoch": 3.0,
       "learning_rate": 3.066666666666667e-05,
+      "loss": 0.9181,
       "step": 230
     },
     {
       "epoch": 3.0,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.7052,
       "step": 240
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.5638,
       "step": 250
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.466666666666667e-05,
+      "loss": 0.5728,
       "step": 260
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.6e-05,
+      "loss": 0.731,
       "step": 270
     },
     {
       "epoch": 3.01,
       "learning_rate": 3.733333333333334e-05,
+      "loss": 0.3545,
       "step": 280
     },
     {
       "epoch": 3.02,
       "learning_rate": 3.866666666666667e-05,
+      "loss": 0.5066,
       "step": 290
     },
     {
       "epoch": 3.02,
       "learning_rate": 4e-05,
+      "loss": 0.6169,
       "step": 300
     },
     {
       "epoch": 3.02,
+      "eval_accuracy": 0.8108108108108109,
+      "eval_loss": 0.44089388847351074,
+      "eval_runtime": 2.3874,
+      "eval_samples_per_second": 15.498,
+      "eval_steps_per_second": 4.189,
       "step": 300
     },
     {
       "epoch": 4.0,
       "learning_rate": 4.133333333333333e-05,
+      "loss": 0.4126,
       "step": 310
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.266666666666667e-05,
+      "loss": 0.4563,
       "step": 320
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.2671,
       "step": 330
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.5333333333333335e-05,
+      "loss": 0.5918,
       "step": 340
     },
     {
       "epoch": 4.01,
       "learning_rate": 4.666666666666667e-05,
+      "loss": 0.5229,
       "step": 350
     },
     {
       "epoch": 4.02,
       "learning_rate": 4.8e-05,
+      "loss": 0.9112,
       "step": 360
     },
     {
       "epoch": 4.02,
       "learning_rate": 4.933333333333334e-05,
+      "loss": 0.3897,
       "step": 370
     },
     {
       "epoch": 4.02,
+      "eval_accuracy": 0.8108108108108109,
+      "eval_loss": 0.6102820038795471,
+      "eval_runtime": 2.4331,
+      "eval_samples_per_second": 15.207,
+      "eval_steps_per_second": 4.11,
       "step": 375
     },
     {
       "epoch": 5.0,
       "learning_rate": 4.9925925925925926e-05,
+      "loss": 0.2776,
       "step": 380
     },
     {
       "epoch": 5.0,
       "learning_rate": 4.977777777777778e-05,
+      "loss": 0.494,
       "step": 390
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.962962962962963e-05,
+      "loss": 0.5899,
       "step": 400
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.9481481481481485e-05,
+      "loss": 0.5555,
       "step": 410
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.933333333333334e-05,
+      "loss": 0.4075,
       "step": 420
     },
     {
       "epoch": 5.01,
       "learning_rate": 4.918518518518519e-05,
+      "loss": 0.4451,
       "step": 430
     },
     {
       "epoch": 5.02,
       "learning_rate": 4.903703703703704e-05,
+      "loss": 0.7433,
       "step": 440
     },
     {
       "epoch": 5.02,
       "learning_rate": 4.888888888888889e-05,
+      "loss": 0.3564,
       "step": 450
     },
     {
       "epoch": 5.02,
+      "eval_accuracy": 0.7837837837837838,
+      "eval_loss": 0.9210058450698853,
+      "eval_runtime": 2.3655,
+      "eval_samples_per_second": 15.642,
+      "eval_steps_per_second": 4.227,
       "step": 450
     },
     {
       "epoch": 6.0,
       "learning_rate": 4.874074074074074e-05,
+      "loss": 0.3144,
       "step": 460
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.8592592592592596e-05,
+      "loss": 0.1399,
       "step": 470
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.844444444444445e-05,
+      "loss": 0.1546,
       "step": 480
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.82962962962963e-05,
+      "loss": 0.3734,
       "step": 490
     },
     {
       "epoch": 6.01,
       "learning_rate": 4.814814814814815e-05,
+      "loss": 0.255,
       "step": 500
     },
     {
       "epoch": 6.02,
       "learning_rate": 4.8e-05,
+      "loss": 0.3182,
       "step": 510
     },
     {
       "epoch": 6.02,
       "learning_rate": 4.7851851851851854e-05,
+      "loss": 0.4998,
       "step": 520
     },
     {
       "epoch": 6.02,
+      "eval_accuracy": 0.8378378378378378,
+      "eval_loss": 0.6993206143379211,
+      "eval_runtime": 2.2397,
+      "eval_samples_per_second": 16.52,
+      "eval_steps_per_second": 4.465,
       "step": 525
     },
     {
       "epoch": 7.0,
       "learning_rate": 4.770370370370371e-05,
+      "loss": 0.8842,
       "step": 530
     },
     {
       "epoch": 7.0,
       "learning_rate": 4.755555555555556e-05,
+      "loss": 0.5218,
       "step": 540
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.740740740740741e-05,
+      "loss": 0.1773,
       "step": 550
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.7259259259259266e-05,
+      "loss": 0.1435,
       "step": 560
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.711111111111111e-05,
+      "loss": 0.1301,
       "step": 570
     },
     {
       "epoch": 7.01,
       "learning_rate": 4.6962962962962966e-05,
+      "loss": 0.1264,
       "step": 580
     },
     {
       "epoch": 7.02,
       "learning_rate": 4.681481481481482e-05,
+      "loss": 0.0623,
       "step": 590
     },
     {
       "epoch": 7.02,
       "learning_rate": 4.666666666666667e-05,
+      "loss": 0.0605,
       "step": 600
     },
     {
       "epoch": 7.02,
+      "eval_accuracy": 0.918918918918919,
+      "eval_loss": 0.16171327233314514,
+      "eval_runtime": 2.3543,
+      "eval_samples_per_second": 15.716,
+      "eval_steps_per_second": 4.248,
       "step": 600
     },
     {
       "epoch": 8.0,
       "learning_rate": 4.6518518518518525e-05,
+      "loss": 0.0462,
       "step": 610
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.637037037037038e-05,
+      "loss": 0.3026,
       "step": 620
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.6222222222222224e-05,
+      "loss": 0.0066,
       "step": 630
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.607407407407408e-05,
+      "loss": 0.0487,
       "step": 640
     },
     {
       "epoch": 8.01,
       "learning_rate": 4.592592592592593e-05,
+      "loss": 0.0711,
       "step": 650
     },
     {
       "epoch": 8.02,
       "learning_rate": 4.577777777777778e-05,
+      "loss": 0.1624,
       "step": 660
     },
     {
       "epoch": 8.02,
       "learning_rate": 4.5629629629629636e-05,
+      "loss": 0.0814,
       "step": 670
     },
     {
       "epoch": 8.02,
+      "eval_accuracy": 0.8378378378378378,
+      "eval_loss": 0.6547620892524719,
+      "eval_runtime": 2.2934,
+      "eval_samples_per_second": 16.133,
+      "eval_steps_per_second": 4.36,
       "step": 675
     },
     {
       "epoch": 9.0,
       "learning_rate": 4.548148148148149e-05,
+      "loss": 0.014,
       "step": 680
     },
     {
       "epoch": 9.0,
       "learning_rate": 4.5333333333333335e-05,
+      "loss": 0.112,
       "step": 690
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.518518518518519e-05,
+      "loss": 0.06,
       "step": 700
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.503703703703704e-05,
+      "loss": 0.1564,
       "step": 710
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.4888888888888894e-05,
+      "loss": 0.142,
       "step": 720
     },
     {
       "epoch": 9.01,
       "learning_rate": 4.474074074074075e-05,
+      "loss": 0.0574,
       "step": 730
     },
     {
       "epoch": 9.02,
       "learning_rate": 4.4592592592592594e-05,
+      "loss": 0.2043,
       "step": 740
     },
     {
       "epoch": 9.02,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0312,
       "step": 750
     },
     {
       "epoch": 9.02,
+      "eval_accuracy": 0.8648648648648649,
+      "eval_loss": 0.5517419576644897,
+      "eval_runtime": 2.2202,
+      "eval_samples_per_second": 16.665,
+      "eval_steps_per_second": 4.504,
       "step": 750
     },
     {
       "epoch": 10.0,
       "learning_rate": 4.42962962962963e-05,
+      "loss": 0.0041,
       "step": 760
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.414814814814815e-05,
+      "loss": 0.1084,
       "step": 770
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.2527,
       "step": 780
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.385185185185185e-05,
+      "loss": 0.0034,
       "step": 790
     },
     {
       "epoch": 10.01,
       "learning_rate": 4.3703703703703705e-05,
+      "loss": 0.0029,
       "step": 800
     },
     {
       "epoch": 10.02,
       "learning_rate": 4.355555555555556e-05,
+      "loss": 0.0052,
       "step": 810
     },
     {
       "epoch": 10.02,
       "learning_rate": 4.340740740740741e-05,
+      "loss": 0.023,
       "step": 820
     },
     {
       "epoch": 10.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.3978298008441925,
+      "eval_runtime": 2.2307,
+      "eval_samples_per_second": 16.587,
+      "eval_steps_per_second": 4.483,
       "step": 825
     },
     {
       "epoch": 11.0,
       "learning_rate": 4.325925925925926e-05,
+      "loss": 0.0064,
       "step": 830
     },
     {
       "epoch": 11.0,
       "learning_rate": 4.311111111111111e-05,
+      "loss": 0.0926,
       "step": 840
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.296296296296296e-05,
+      "loss": 0.0824,
       "step": 850
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.2814814814814816e-05,
+      "loss": 0.0054,
       "step": 860
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.266666666666667e-05,
+      "loss": 0.0038,
       "step": 870
     },
     {
       "epoch": 11.01,
       "learning_rate": 4.2518518518518515e-05,
+      "loss": 0.0046,
       "step": 880
     },
     {
       "epoch": 11.02,
       "learning_rate": 4.237037037037037e-05,
+      "loss": 0.0029,
       "step": 890
     },
     {
       "epoch": 11.02,
       "learning_rate": 4.222222222222222e-05,
+      "loss": 0.0021,
       "step": 900
     },
     {
       "epoch": 11.02,
+      "eval_accuracy": 0.918918918918919,
+      "eval_loss": 0.3967694342136383,
+      "eval_runtime": 2.1802,
+      "eval_samples_per_second": 16.971,
+      "eval_steps_per_second": 4.587,
       "step": 900
     },
     {
       "epoch": 12.0,
       "learning_rate": 4.2074074074074075e-05,
+      "loss": 0.0097,
       "step": 910
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.192592592592593e-05,
+      "loss": 0.0019,
       "step": 920
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.177777777777778e-05,
+      "loss": 0.0137,
       "step": 930
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.162962962962963e-05,
+      "loss": 0.0022,
       "step": 940
     },
     {
       "epoch": 12.01,
       "learning_rate": 4.148148148148148e-05,
+      "loss": 0.0614,
       "step": 950
     },
     {
       "epoch": 12.02,
       "learning_rate": 4.133333333333333e-05,
+      "loss": 0.0019,
       "step": 960
     },
     {
       "epoch": 12.02,
       "learning_rate": 4.1185185185185186e-05,
+      "loss": 0.1367,
       "step": 970
     },
     {
       "epoch": 12.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.04322541132569313,
+      "eval_runtime": 2.1825,
+      "eval_samples_per_second": 16.953,
+      "eval_steps_per_second": 4.582,
       "step": 975
     },
     {
       "epoch": 13.0,
       "learning_rate": 4.103703703703704e-05,
+      "loss": 0.0021,
       "step": 980
     },
     {
       "epoch": 13.0,
       "learning_rate": 4.088888888888889e-05,
+      "loss": 0.0023,
       "step": 990
     },
     {
       "epoch": 13.01,
       "learning_rate": 4.074074074074074e-05,
+      "loss": 0.0019,
       "step": 1000
     },
     {
       "epoch": 13.01,
       "learning_rate": 4.059259259259259e-05,
+      "loss": 0.0029,
       "step": 1010
     },
     {
       "epoch": 13.01,
       "learning_rate": 4.0444444444444444e-05,
+      "loss": 0.002,
       "step": 1020
     },
     {
     {
       "epoch": 13.02,
       "learning_rate": 4.014814814814815e-05,
+      "loss": 0.0015,
       "step": 1040
     },
     {
       "epoch": 13.02,
       "learning_rate": 4e-05,
+      "loss": 0.0021,
       "step": 1050
     },
     {
       "epoch": 13.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.18388445675373077,
+      "eval_runtime": 2.1858,
+      "eval_samples_per_second": 16.927,
+      "eval_steps_per_second": 4.575,
       "step": 1050
     },
     {
     {
       "epoch": 14.01,
       "learning_rate": 3.97037037037037e-05,
+      "loss": 0.1972,
       "step": 1070
     },
     {
       "epoch": 14.01,
       "learning_rate": 3.9555555555555556e-05,
+      "loss": 0.0014,
       "step": 1080
     },
     {
       "epoch": 14.01,
       "learning_rate": 3.940740740740741e-05,
+      "loss": 0.0015,
       "step": 1090
     },
     {
       "epoch": 14.01,
       "learning_rate": 3.925925925925926e-05,
+      "loss": 0.0015,
       "step": 1100
     },
     {
     {
       "epoch": 14.02,
       "learning_rate": 3.896296296296296e-05,
+      "loss": 0.2373,
       "step": 1120
     },
     {
       "epoch": 14.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.07551968842744827,
+      "eval_runtime": 2.247,
+      "eval_samples_per_second": 16.466,
+      "eval_steps_per_second": 4.45,
       "step": 1125
     },
     {
       "epoch": 15.0,
       "learning_rate": 3.8814814814814814e-05,
+      "loss": 0.0013,
       "step": 1130
     },
     {
       "epoch": 15.0,
       "learning_rate": 3.866666666666667e-05,
+      "loss": 0.039,
       "step": 1140
     },
     {
       "epoch": 15.01,
       "learning_rate": 3.851851851851852e-05,
+      "loss": 0.1708,
       "step": 1150
     },
     {
       "epoch": 15.01,
       "learning_rate": 3.837037037037037e-05,
+      "loss": 0.076,
       "step": 1160
     },
     {
     {
       "epoch": 15.01,
       "learning_rate": 3.807407407407408e-05,
+      "loss": 0.002,
       "step": 1180
     },
     {
       "epoch": 15.02,
       "learning_rate": 3.7925925925925925e-05,
+      "loss": 0.0012,
       "step": 1190
     },
     {
       "epoch": 15.02,
       "learning_rate": 3.777777777777778e-05,
+      "loss": 0.0015,
       "step": 1200
     },
     {
       "epoch": 15.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.14861811697483063,
+      "eval_runtime": 2.2534,
+      "eval_samples_per_second": 16.42,
+      "eval_steps_per_second": 4.438,
       "step": 1200
     },
     {
       "epoch": 16.0,
       "learning_rate": 3.762962962962963e-05,
+      "loss": 0.0659,
       "step": 1210
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.7481481481481484e-05,
+      "loss": 0.0036,
       "step": 1220
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.733333333333334e-05,
+      "loss": 0.1704,
       "step": 1230
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.718518518518519e-05,
+      "loss": 0.0014,
       "step": 1240
     },
     {
       "epoch": 16.01,
       "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0014,
       "step": 1250
     },
     {
       "epoch": 16.02,
       "learning_rate": 3.688888888888889e-05,
+      "loss": 0.0012,
       "step": 1260
     },
     {
       "epoch": 16.02,
       "learning_rate": 3.674074074074074e-05,
+      "loss": 0.0013,
       "step": 1270
     },
     {
       "epoch": 16.02,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.017381420359015465,
+      "eval_runtime": 2.2311,
+      "eval_samples_per_second": 16.584,
+      "eval_steps_per_second": 4.482,
       "step": 1275
     },
     {
       "epoch": 17.0,
       "learning_rate": 3.6592592592592596e-05,
+      "loss": 0.0061,
       "step": 1280
     },
     {
       "epoch": 17.0,
       "learning_rate": 3.644444444444445e-05,
+      "loss": 0.0012,
       "step": 1290
     },
     {
       "epoch": 17.01,
       "learning_rate": 3.62962962962963e-05,
+      "loss": 0.0011,
       "step": 1300
     },
     {
     {
       "epoch": 17.01,
       "learning_rate": 3.6e-05,
+      "loss": 0.0011,
       "step": 1320
     },
     {
       "epoch": 17.01,
       "learning_rate": 3.5851851851851854e-05,
+      "loss": 0.0018,
       "step": 1330
     },
     {
       "epoch": 17.02,
       "learning_rate": 3.570370370370371e-05,
+      "loss": 0.0028,
       "step": 1340
     },
     {
       "epoch": 17.02,
       "learning_rate": 3.555555555555556e-05,
+      "loss": 0.1707,
       "step": 1350
     },
     {
       "epoch": 17.02,
+      "eval_accuracy": 0.8918918918918919,
+      "eval_loss": 0.5295668840408325,
+      "eval_runtime": 2.2321,
+      "eval_samples_per_second": 16.576,
+      "eval_steps_per_second": 4.48,
       "step": 1350
     },
     {
       "epoch": 18.0,
       "learning_rate": 3.540740740740741e-05,
+      "loss": 0.0011,
       "step": 1360
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.525925925925926e-05,
+      "loss": 0.4316,
       "step": 1370
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.511111111111111e-05,
+      "loss": 0.197,
       "step": 1380
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.4962962962962965e-05,
+      "loss": 0.0015,
       "step": 1390
     },
     {
       "epoch": 18.01,
       "learning_rate": 3.481481481481482e-05,
+      "loss": 0.0013,
       "step": 1400
     },
     {
       "epoch": 18.02,
       "learning_rate": 3.466666666666667e-05,
+      "loss": 0.0025,
       "step": 1410
     },
     {
       "epoch": 18.02,
       "learning_rate": 3.4518518518518524e-05,
+      "loss": 0.0014,
       "step": 1420
     },
     {
       "epoch": 18.02,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02301825024187565,
+      "eval_runtime": 2.2472,
+      "eval_samples_per_second": 16.465,
+      "eval_steps_per_second": 4.45,
       "step": 1425
     },
     {
       "epoch": 19.0,
       "learning_rate": 3.437037037037037e-05,
+      "loss": 0.1095,
       "step": 1430
     },
     {
       "epoch": 19.0,
       "learning_rate": 3.4222222222222224e-05,
+      "loss": 0.0083,
       "step": 1440
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.4074074074074077e-05,
+      "loss": 0.0023,
       "step": 1450
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.392592592592593e-05,
+      "loss": 0.048,
       "step": 1460
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.377777777777778e-05,
+      "loss": 0.1036,
       "step": 1470
     },
     {
       "epoch": 19.01,
       "learning_rate": 3.3629629629629636e-05,
+      "loss": 0.0012,
       "step": 1480
     },
     {
       "epoch": 19.02,
       "learning_rate": 3.348148148148148e-05,
+      "loss": 0.0936,
       "step": 1490
     },
     {
       "epoch": 19.02,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0011,
       "step": 1500
     },
     {
       "epoch": 19.02,
+      "eval_accuracy": 0.8918918918918919,
+      "eval_loss": 0.5438269972801208,
+      "eval_runtime": 2.2529,
+      "eval_samples_per_second": 16.423,
+      "eval_steps_per_second": 4.439,
       "step": 1500
     },
     {
       "epoch": 20.0,
       "learning_rate": 3.318518518518519e-05,
+      "loss": 0.0011,
       "step": 1510
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.303703703703704e-05,
+      "loss": 0.03,
       "step": 1520
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.2888888888888894e-05,
+      "loss": 0.0014,
       "step": 1530
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.274074074074075e-05,
+      "loss": 0.0013,
       "step": 1540
     },
     {
       "epoch": 20.01,
       "learning_rate": 3.25925925925926e-05,
+      "loss": 0.0015,
       "step": 1550
     },
     {
       "epoch": 20.02,
       "learning_rate": 3.2444444444444446e-05,
+      "loss": 0.0017,
       "step": 1560
     },
     {
       "epoch": 20.02,
       "learning_rate": 3.22962962962963e-05,
+      "loss": 0.0011,
       "step": 1570
     },
     {
       "epoch": 20.02,
+      "eval_accuracy": 0.8378378378378378,
+      "eval_loss": 0.6956642866134644,
+      "eval_runtime": 2.332,
+      "eval_samples_per_second": 15.866,
+      "eval_steps_per_second": 4.288,
       "step": 1575
     },
     {
       "epoch": 21.0,
       "learning_rate": 3.214814814814815e-05,
+      "loss": 0.1479,
       "step": 1580
     },
     {
       "epoch": 21.0,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.001,
       "step": 1590
     },
     {
       "epoch": 21.01,
       "learning_rate": 3.185185185185185e-05,
+      "loss": 0.0009,
       "step": 1600
     },
     {
       "epoch": 21.01,
       "learning_rate": 3.1703703703703705e-05,
+      "loss": 0.001,
       "step": 1610
     },
     {
       "epoch": 21.01,
       "learning_rate": 3.155555555555556e-05,
+      "loss": 0.1083,
       "step": 1620
     },
     {
     {
       "epoch": 21.02,
       "learning_rate": 3.1259259259259264e-05,
+      "loss": 0.001,
       "step": 1640
     },
     {
       "epoch": 21.02,
       "learning_rate": 3.111111111111111e-05,
+      "loss": 0.0008,
       "step": 1650
     },
     {
       "epoch": 21.02,
+      "eval_accuracy": 0.918918918918919,
+      "eval_loss": 0.27051687240600586,
+      "eval_runtime": 2.2804,
+      "eval_samples_per_second": 16.225,
+      "eval_steps_per_second": 4.385,
       "step": 1650
     },
     {
       "epoch": 22.0,
       "learning_rate": 3.096296296296296e-05,
+      "loss": 0.0011,
       "step": 1660
     },
     {
       "epoch": 22.01,
       "learning_rate": 3.0814814814814816e-05,
+      "loss": 0.0009,
       "step": 1670
     },
     {
     {
       "epoch": 22.01,
       "learning_rate": 3.0518518518518515e-05,
+      "loss": 0.0008,
       "step": 1690
     },
     {
     {
       "epoch": 22.02,
       "learning_rate": 3.0074074074074078e-05,
+      "loss": 0.0028,
       "step": 1720
     },
     {
       "epoch": 22.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.19646592438220978,
+      "eval_runtime": 2.3582,
+      "eval_samples_per_second": 15.69,
+      "eval_steps_per_second": 4.24,
       "step": 1725
     },
     {
       "epoch": 23.0,
       "learning_rate": 2.992592592592593e-05,
+      "loss": 0.0008,
       "step": 1730
     },
     {
       "epoch": 23.0,
       "learning_rate": 2.9777777777777777e-05,
+      "loss": 0.0274,
       "step": 1740
     },
     {
     {
       "epoch": 23.01,
       "learning_rate": 2.9481481481481483e-05,
+      "loss": 0.0008,
       "step": 1760
     },
     {
     {
       "epoch": 23.02,
       "learning_rate": 2.9037037037037042e-05,
+      "loss": 0.0007,
       "step": 1790
     },
     {
     },
     {
       "epoch": 23.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.1782662570476532,
+      "eval_runtime": 2.3245,
+      "eval_samples_per_second": 15.918,
+      "eval_steps_per_second": 4.302,
       "step": 1800
     },
     {
       "epoch": 24.0,
       "learning_rate": 2.874074074074074e-05,
+      "loss": 0.0008,
       "step": 1810
     },
     {
       "epoch": 24.01,
       "learning_rate": 2.8592592592592594e-05,
+      "loss": 0.0008,
       "step": 1820
     },
     {
     {
       "epoch": 24.01,
       "learning_rate": 2.8296296296296297e-05,
+      "loss": 0.0007,
       "step": 1840
     },
     {
       "epoch": 24.01,
       "learning_rate": 2.814814814814815e-05,
+      "loss": 0.0007,
       "step": 1850
     },
     {
       "epoch": 24.02,
       "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0007,
       "step": 1860
     },
     {
       "epoch": 24.02,
       "learning_rate": 2.7851851851851853e-05,
+      "loss": 0.0008,
       "step": 1870
     },
     {
       "epoch": 24.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.18091563880443573,
+      "eval_runtime": 2.31,
+      "eval_samples_per_second": 16.017,
+      "eval_steps_per_second": 4.329,
       "step": 1875
     },
     {
       "epoch": 25.0,
       "learning_rate": 2.7703703703703706e-05,
+      "loss": 0.0007,
       "step": 1880
     },
     {
       "epoch": 25.0,
       "learning_rate": 2.7555555555555555e-05,
+      "loss": 0.0007,
       "step": 1890
     },
     {
     {
       "epoch": 25.02,
       "learning_rate": 2.6814814814814814e-05,
+      "loss": 0.0006,
       "step": 1940
     },
     {
     },
     {
       "epoch": 25.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.17932352423667908,
+      "eval_runtime": 2.377,
+      "eval_samples_per_second": 15.566,
+      "eval_steps_per_second": 4.207,
       "step": 1950
     },
     {
     {
       "epoch": 26.01,
       "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0051,
       "step": 2000
     },
     {
       "epoch": 26.02,
       "learning_rate": 2.5777777777777778e-05,
+      "loss": 0.0007,
       "step": 2010
     },
     {
       "epoch": 26.02,
       "learning_rate": 2.562962962962963e-05,
+      "loss": 0.0009,
       "step": 2020
     },
     {
       "epoch": 26.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.09698139131069183,
+      "eval_runtime": 2.2968,
+      "eval_samples_per_second": 16.109,
+      "eval_steps_per_second": 4.354,
       "step": 2025
     },
     {
       "epoch": 27.0,
       "learning_rate": 2.5481481481481484e-05,
+      "loss": 0.0008,
       "step": 2030
     },
     {
       "epoch": 27.0,
       "learning_rate": 2.5333333333333337e-05,
+      "loss": 0.0006,
       "step": 2040
     },
     {
     {
       "epoch": 27.01,
       "learning_rate": 2.4740740740740742e-05,
+      "loss": 0.0006,
       "step": 2080
     },
     {
       "epoch": 27.02,
       "learning_rate": 2.4592592592592595e-05,
+      "loss": 0.0006,
       "step": 2090
     },
     {
     },
     {
       "epoch": 27.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.24828802049160004,
+      "eval_runtime": 2.2708,
+      "eval_samples_per_second": 16.294,
+      "eval_steps_per_second": 4.404,
       "step": 2100
     },
     {
       "epoch": 28.0,
       "learning_rate": 2.4296296296296298e-05,
+      "loss": 0.0007,
       "step": 2110
     },
     {
     {
       "epoch": 28.01,
       "learning_rate": 2.3703703703703707e-05,
+      "loss": 0.0008,
       "step": 2150
     },
     {
       "epoch": 28.02,
       "learning_rate": 2.3555555555555556e-05,
+      "loss": 0.0006,
       "step": 2160
     },
     {
       "epoch": 28.02,
       "learning_rate": 2.340740740740741e-05,
+      "loss": 0.0006,
       "step": 2170
     },
     {
       "epoch": 28.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.3035326898097992,
+      "eval_runtime": 2.2477,
+      "eval_samples_per_second": 16.461,
+      "eval_steps_per_second": 4.449,
       "step": 2175
     },
     {
     {
       "epoch": 29.0,
       "learning_rate": 2.3111111111111112e-05,
+      "loss": 0.0005,
       "step": 2190
     },
     {
       "epoch": 29.01,
       "learning_rate": 2.2962962962962965e-05,
+      "loss": 0.0008,
       "step": 2200
     },
     {
     {
       "epoch": 29.02,
       "learning_rate": 2.2370370370370374e-05,
+      "loss": 0.0006,
       "step": 2240
     },
     {
       "epoch": 29.02,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0006,
       "step": 2250
     },
     {
       "epoch": 29.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.2314397692680359,
+      "eval_runtime": 2.3203,
+      "eval_samples_per_second": 15.946,
+      "eval_steps_per_second": 4.31,
       "step": 2250
     },
     {
     {
       "epoch": 30.01,
       "learning_rate": 2.177777777777778e-05,
+      "loss": 0.0005,
       "step": 2280
     },
     {
       "epoch": 30.01,
       "learning_rate": 2.162962962962963e-05,
+      "loss": 0.0006,
       "step": 2290
     },
     {
       "epoch": 30.01,
       "learning_rate": 2.148148148148148e-05,
+      "loss": 0.0005,
       "step": 2300
     },
     {
     {
       "epoch": 30.02,
       "learning_rate": 2.1185185185185184e-05,
+      "loss": 0.0005,
       "step": 2320
     },
     {
       "epoch": 30.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.19059520959854126,
+      "eval_runtime": 2.2511,
+      "eval_samples_per_second": 16.436,
+      "eval_steps_per_second": 4.442,
       "step": 2325
     },
     {
       "epoch": 31.0,
       "learning_rate": 2.1037037037037037e-05,
+      "loss": 0.0005,
       "step": 2330
     },
     {
       "epoch": 31.0,
       "learning_rate": 2.088888888888889e-05,
+      "loss": 0.0005,
       "step": 2340
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.074074074074074e-05,
+      "loss": 0.0005,
       "step": 2350
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.0592592592592593e-05,
+      "loss": 0.0005,
       "step": 2360
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.0444444444444446e-05,
+      "loss": 0.0011,
       "step": 2370
     },
     {
       "epoch": 31.01,
       "learning_rate": 2.0296296296296296e-05,
+      "loss": 0.1101,
       "step": 2380
     },
     {
     {
       "epoch": 31.02,
       "learning_rate": 2e-05,
+      "loss": 0.0005,
       "step": 2400
     },
     {
       "epoch": 31.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.08136174082756042,
+      "eval_runtime": 2.2842,
+      "eval_samples_per_second": 16.198,
+      "eval_steps_per_second": 4.378,
       "step": 2400
     },
     {
     {
       "epoch": 32.01,
       "learning_rate": 1.9555555555555557e-05,
+      "loss": 0.0005,
       "step": 2430
     },
     {
     },
     {
       "epoch": 32.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.08805122971534729,
+      "eval_runtime": 2.3973,
+      "eval_samples_per_second": 15.434,
+      "eval_steps_per_second": 4.171,
       "step": 2475
     },
     {
     {
       "epoch": 33.01,
       "learning_rate": 1.837037037037037e-05,
+      "loss": 0.0005,
       "step": 2510
     },
     {
     },
     {
       "epoch": 33.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.07978475093841553,
+      "eval_runtime": 2.302,
+      "eval_samples_per_second": 16.073,
+      "eval_steps_per_second": 4.344,
       "step": 2550
     },
     {
       "epoch": 34.0,
       "learning_rate": 1.762962962962963e-05,
+      "loss": 0.0004,
       "step": 2560
     },
     {
     {
       "epoch": 34.01,
       "learning_rate": 1.7185185185185185e-05,
+      "loss": 0.0005,
       "step": 2590
     },
     {
     },
     {
       "epoch": 34.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.07055646181106567,
+      "eval_runtime": 2.2924,
+      "eval_samples_per_second": 16.14,
+      "eval_steps_per_second": 4.362,
       "step": 2625
     },
     {
       "epoch": 35.0,
       "learning_rate": 1.6592592592592594e-05,
+      "loss": 0.0004,
       "step": 2630
     },
     {
       "epoch": 35.0,
       "learning_rate": 1.6444444444444447e-05,
+      "loss": 0.0005,
       "step": 2640
     },
     {
     {
       "epoch": 35.01,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0167,
       "step": 2670
     },
     {
     {
       "epoch": 35.02,
       "learning_rate": 1.5703703703703705e-05,
+      "loss": 0.0858,
       "step": 2690
     },
     {
     },
     {
       "epoch": 35.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.09486611932516098,
+      "eval_runtime": 2.2709,
+      "eval_samples_per_second": 16.293,
+      "eval_steps_per_second": 4.404,
       "step": 2700
     },
     {
       "epoch": 36.0,
       "learning_rate": 1.5407407407407408e-05,
+      "loss": 0.0005,
       "step": 2710
     },
     {
       "epoch": 36.01,
       "learning_rate": 1.5259259259259258e-05,
+      "loss": 0.0005,
       "step": 2720
     },
     {
       "epoch": 36.01,
       "learning_rate": 1.5111111111111112e-05,
+      "loss": 0.0005,
       "step": 2730
     },
     {
       "epoch": 36.01,
       "learning_rate": 1.4962962962962965e-05,
+      "loss": 0.0005,
       "step": 2740
     },
     {
     },
     {
       "epoch": 36.02,
+      "eval_accuracy": 0.9459459459459459,
+      "eval_loss": 0.08677444607019424,
+      "eval_runtime": 2.2061,
+      "eval_samples_per_second": 16.772,
+      "eval_steps_per_second": 4.533,
       "step": 2775
     },
     {
     {
       "epoch": 37.0,
       "learning_rate": 1.4222222222222224e-05,
+      "loss": 0.0005,
       "step": 2790
     },
     {
     {
       "epoch": 37.01,
       "learning_rate": 1.3777777777777778e-05,
+      "loss": 0.0005,
       "step": 2820
     },
     {
       "epoch": 37.01,
       "learning_rate": 1.362962962962963e-05,
+      "loss": 0.0006,
       "step": 2830
     },
     {
       "epoch": 37.02,
       "learning_rate": 1.348148148148148e-05,
+      "loss": 0.0005,
       "step": 2840
     },
     {
     },
     {
       "epoch": 37.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.059545956552028656,
+      "eval_runtime": 2.2376,
+      "eval_samples_per_second": 16.536,
+      "eval_steps_per_second": 4.469,
       "step": 2850
     },
     {
     {
       "epoch": 38.01,
       "learning_rate": 1.3037037037037036e-05,
+      "loss": 0.1455,
       "step": 2870
     },
     {
     {
       "epoch": 38.01,
       "learning_rate": 1.2592592592592592e-05,
+      "loss": 0.0005,
       "step": 2900
     },
     {
     {
       "epoch": 38.02,
       "learning_rate": 1.2296296296296298e-05,
+      "loss": 0.0005,
       "step": 2920
     },
     {
       "epoch": 38.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.13422098755836487,
+      "eval_runtime": 2.2338,
+      "eval_samples_per_second": 16.563,
+      "eval_steps_per_second": 4.477,
       "step": 2925
     },
     {
     {
       "epoch": 39.01,
       "learning_rate": 1.1703703703703705e-05,
+      "loss": 0.0005,
       "step": 2960
     },
     {
     {
       "epoch": 39.02,
       "learning_rate": 1.125925925925926e-05,
+      "loss": 0.0006,
       "step": 2990
     },
     {
     },
     {
       "epoch": 39.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.15938998758792877,
+      "eval_runtime": 2.243,
+      "eval_samples_per_second": 16.496,
+      "eval_steps_per_second": 4.458,
       "step": 3000
     },
     {
     },
     {
       "epoch": 40.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.14878199994564056,
+      "eval_runtime": 2.2635,
+      "eval_samples_per_second": 16.346,
+      "eval_steps_per_second": 4.418,
       "step": 3075
     },
     {
     },
     {
       "epoch": 41.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.1433899849653244,
+      "eval_runtime": 2.4808,
+      "eval_samples_per_second": 14.914,
+      "eval_steps_per_second": 4.031,
       "step": 3150
     },
     {
     },
     {
       "epoch": 42.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.11490071564912796,
+      "eval_runtime": 2.2713,
+      "eval_samples_per_second": 16.29,
+      "eval_steps_per_second": 4.403,
       "step": 3225
     },
     {
     },
     {
       "epoch": 43.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.11192985624074936,
+      "eval_runtime": 2.2722,
+      "eval_samples_per_second": 16.284,
+      "eval_steps_per_second": 4.401,
       "step": 3300
     },
     {
     },
     {
       "epoch": 44.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.11190944164991379,
+      "eval_runtime": 2.2053,
+      "eval_samples_per_second": 16.778,
+      "eval_steps_per_second": 4.535,
       "step": 3375
     },
     {
     {
       "epoch": 45.01,
       "learning_rate": 4.740740740740741e-06,
+      "loss": 0.0004,
       "step": 3430
     },
     {
       "epoch": 45.02,
       "learning_rate": 4.592592592592593e-06,
+      "loss": 0.0004,
       "step": 3440
     },
     {
     },
     {
       "epoch": 45.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.10959651321172714,
+      "eval_runtime": 2.3608,
+      "eval_samples_per_second": 15.672,
+      "eval_steps_per_second": 4.236,
       "step": 3450
     },
     {
     },
     {
       "epoch": 46.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.1096063181757927,
+      "eval_runtime": 2.2302,
+      "eval_samples_per_second": 16.591,
+      "eval_steps_per_second": 4.484,
       "step": 3525
     },
     {
     },
     {
       "epoch": 47.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.10854890942573547,
+      "eval_runtime": 2.2666,
+      "eval_samples_per_second": 16.324,
+      "eval_steps_per_second": 4.412,
       "step": 3600
     },
     {
       "epoch": 48.0,
       "learning_rate": 2.0740740740740742e-06,
+      "loss": 0.0004,
       "step": 3610
     },
     {
     {
       "epoch": 48.01,
       "learning_rate": 1.6296296296296295e-06,
+      "loss": 0.0005,
       "step": 3640
     },
     {
     },
     {
       "epoch": 48.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.10318177938461304,
+      "eval_runtime": 2.2948,
+      "eval_samples_per_second": 16.124,
+      "eval_steps_per_second": 4.358,
       "step": 3675
     },
     {
     {
       "epoch": 49.01,
       "learning_rate": 2.962962962962963e-07,
+      "loss": 0.0004,
       "step": 3730
     },
     {
       "epoch": 49.02,
       "learning_rate": 1.4814814814814815e-07,
+      "loss": 0.0004,
       "step": 3740
     },
     {
     },
     {
       "epoch": 49.02,
+      "eval_accuracy": 0.972972972972973,
+      "eval_loss": 0.10637960582971573,
+      "eval_runtime": 2.2939,
+      "eval_samples_per_second": 16.13,
+      "eval_steps_per_second": 4.359,
       "step": 3750
     },
     {
       "epoch": 49.02,
       "step": 3750,
       "total_flos": 1.86923023515648e+19,
+      "train_loss": 0.1699262268283715,
+      "train_runtime": 3668.7053,
+      "train_samples_per_second": 4.089,
+      "train_steps_per_second": 1.022
     },
     {
       "epoch": 49.02,
+      "eval_accuracy": 0.9431818181818182,
+      "eval_loss": 0.2483096718788147,
+      "eval_runtime": 8.1578,
+      "eval_samples_per_second": 10.787,
+      "eval_steps_per_second": 2.697,
       "step": 3750
     },
     {
       "epoch": 49.02,
+      "eval_accuracy": 0.9431818181818182,
+      "eval_loss": 0.2483096718788147,
+      "eval_runtime": 5.3467,
+      "eval_samples_per_second": 16.459,
+      "eval_steps_per_second": 4.115,
       "step": 3750
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da42640f7bfa8b57722d5b238ddd6b901e4561a7a6e5544a6da12e1bbc949957
 size 3439

 version https://git-lfs.github.com/spec/v1
+oid sha256:36ff6269f1807faf7ac2be9aadf648f57f17c5fdf647c535d3f6e8d478b99fe7
 size 3439