🍻 cheers

Browse files

Files changed (6) hide show

README.md +4 -3
all_results.json +13 -0
eval_results.json +8 -0
runs/May28_19-14-16_0846ebbfb3df/events.out.tfevents.1716925053.0846ebbfb3df.486.1 +3 -0
train_results.json +8 -0
trainer_state.json +1787 -0

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7899543378995434
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2067
-- Accuracy: 0.7900
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.6894977168949772
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7966
+- Accuracy: 0.6895
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 18.0,
+    "eval_accuracy": 0.6894977168949772,
+    "eval_loss": 0.7965957522392273,
+    "eval_runtime": 4.8253,
+    "eval_samples_per_second": 45.386,
+    "eval_steps_per_second": 5.803,
+    "total_flos": 2.739521370098516e+18,
+    "train_loss": 0.17171474754101115,
+    "train_runtime": 1017.2571,
+    "train_samples_per_second": 34.752,
+    "train_steps_per_second": 2.176
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 18.0,
+    "eval_accuracy": 0.6894977168949772,
+    "eval_loss": 0.7965957522392273,
+    "eval_runtime": 4.8253,
+    "eval_samples_per_second": 45.386,
+    "eval_steps_per_second": 5.803
+}

runs/May28_19-14-16_0846ebbfb3df/events.out.tfevents.1716925053.0846ebbfb3df.486.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:824e7c2f08cdeb8177e1a298fb320369004df32998ae657e31a2ff840684f5ec
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 18.0,
+    "total_flos": 2.739521370098516e+18,
+    "train_loss": 0.17171474754101115,
+    "train_runtime": 1017.2571,
+    "train_samples_per_second": 34.752,
+    "train_steps_per_second": 2.176
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1787 @@

+{
+  "best_metric": 0.7965957522392273,
+  "best_model_checkpoint": "vit-weld-classify/checkpoint-100",
+  "epoch": 18.0,
+  "eval_steps": 100,
+  "global_step": 2214,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08130081300813008,
+      "grad_norm": 0.4229675233364105,
+      "learning_rate": 0.000199096657633243,
+      "loss": 1.1212,
+      "step": 10
+    },
+    {
+      "epoch": 0.16260162601626016,
+      "grad_norm": 1.1081550121307373,
+      "learning_rate": 0.000198193315266486,
+      "loss": 1.0661,
+      "step": 20
+    },
+    {
+      "epoch": 0.24390243902439024,
+      "grad_norm": 3.017395496368408,
+      "learning_rate": 0.000197289972899729,
+      "loss": 1.0507,
+      "step": 30
+    },
+    {
+      "epoch": 0.3252032520325203,
+      "grad_norm": 4.183485984802246,
+      "learning_rate": 0.00019638663053297203,
+      "loss": 1.0825,
+      "step": 40
+    },
+    {
+      "epoch": 0.4065040650406504,
+      "grad_norm": 1.9094836711883545,
+      "learning_rate": 0.000195483288166215,
+      "loss": 0.9802,
+      "step": 50
+    },
+    {
+      "epoch": 0.4878048780487805,
+      "grad_norm": 1.73495352268219,
+      "learning_rate": 0.000194579945799458,
+      "loss": 0.9875,
+      "step": 60
+    },
+    {
+      "epoch": 0.5691056910569106,
+      "grad_norm": 2.0932652950286865,
+      "learning_rate": 0.000193676603432701,
+      "loss": 0.9526,
+      "step": 70
+    },
+    {
+      "epoch": 0.6504065040650406,
+      "grad_norm": 2.3296732902526855,
+      "learning_rate": 0.000192773261065944,
+      "loss": 0.8794,
+      "step": 80
+    },
+    {
+      "epoch": 0.7317073170731707,
+      "grad_norm": 1.1494122743606567,
+      "learning_rate": 0.000191869918699187,
+      "loss": 0.9485,
+      "step": 90
+    },
+    {
+      "epoch": 0.8130081300813008,
+      "grad_norm": 1.6882137060165405,
+      "learning_rate": 0.00019096657633243,
+      "loss": 0.8686,
+      "step": 100
+    },
+    {
+      "epoch": 0.8130081300813008,
+      "eval_accuracy": 0.6894977168949772,
+      "eval_loss": 0.7965957522392273,
+      "eval_runtime": 1.897,
+      "eval_samples_per_second": 115.448,
+      "eval_steps_per_second": 14.76,
+      "step": 100
+    },
+    {
+      "epoch": 0.8943089430894309,
+      "grad_norm": 5.094268321990967,
+      "learning_rate": 0.000190063233965673,
+      "loss": 0.8394,
+      "step": 110
+    },
+    {
+      "epoch": 0.975609756097561,
+      "grad_norm": 2.215106248855591,
+      "learning_rate": 0.000189159891598916,
+      "loss": 0.7727,
+      "step": 120
+    },
+    {
+      "epoch": 1.056910569105691,
+      "grad_norm": 5.558369159698486,
+      "learning_rate": 0.000188256549232159,
+      "loss": 0.7774,
+      "step": 130
+    },
+    {
+      "epoch": 1.1382113821138211,
+      "grad_norm": 1.4229400157928467,
+      "learning_rate": 0.000187353206865402,
+      "loss": 0.8096,
+      "step": 140
+    },
+    {
+      "epoch": 1.2195121951219512,
+      "grad_norm": 4.707171440124512,
+      "learning_rate": 0.000186449864498645,
+      "loss": 0.816,
+      "step": 150
+    },
+    {
+      "epoch": 1.3008130081300813,
+      "grad_norm": 1.5261428356170654,
+      "learning_rate": 0.000185546522131888,
+      "loss": 0.6121,
+      "step": 160
+    },
+    {
+      "epoch": 1.3821138211382114,
+      "grad_norm": 3.1494133472442627,
+      "learning_rate": 0.000184643179765131,
+      "loss": 0.78,
+      "step": 170
+    },
+    {
+      "epoch": 1.4634146341463414,
+      "grad_norm": 7.678445816040039,
+      "learning_rate": 0.000183739837398374,
+      "loss": 0.6962,
+      "step": 180
+    },
+    {
+      "epoch": 1.5447154471544715,
+      "grad_norm": 2.71274471282959,
+      "learning_rate": 0.00018283649503161699,
+      "loss": 0.7503,
+      "step": 190
+    },
+    {
+      "epoch": 1.6260162601626016,
+      "grad_norm": 3.5023741722106934,
+      "learning_rate": 0.00018193315266485998,
+      "loss": 0.6935,
+      "step": 200
+    },
+    {
+      "epoch": 1.6260162601626016,
+      "eval_accuracy": 0.5068493150684932,
+      "eval_loss": 1.2217025756835938,
+      "eval_runtime": 2.1551,
+      "eval_samples_per_second": 101.619,
+      "eval_steps_per_second": 12.992,
+      "step": 200
+    },
+    {
+      "epoch": 1.7073170731707317,
+      "grad_norm": 3.2445621490478516,
+      "learning_rate": 0.000181029810298103,
+      "loss": 0.5929,
+      "step": 210
+    },
+    {
+      "epoch": 1.7886178861788617,
+      "grad_norm": 2.444040060043335,
+      "learning_rate": 0.000180126467931346,
+      "loss": 0.6668,
+      "step": 220
+    },
+    {
+      "epoch": 1.8699186991869918,
+      "grad_norm": 2.8826639652252197,
+      "learning_rate": 0.00017922312556458897,
+      "loss": 0.6119,
+      "step": 230
+    },
+    {
+      "epoch": 1.951219512195122,
+      "grad_norm": 1.261606216430664,
+      "learning_rate": 0.00017831978319783197,
+      "loss": 0.6275,
+      "step": 240
+    },
+    {
+      "epoch": 2.032520325203252,
+      "grad_norm": 4.046661376953125,
+      "learning_rate": 0.00017741644083107497,
+      "loss": 0.5644,
+      "step": 250
+    },
+    {
+      "epoch": 2.113821138211382,
+      "grad_norm": 2.8075666427612305,
+      "learning_rate": 0.000176513098464318,
+      "loss": 0.4775,
+      "step": 260
+    },
+    {
+      "epoch": 2.1951219512195124,
+      "grad_norm": 11.482375144958496,
+      "learning_rate": 0.000175609756097561,
+      "loss": 0.6515,
+      "step": 270
+    },
+    {
+      "epoch": 2.2764227642276422,
+      "grad_norm": 7.770543098449707,
+      "learning_rate": 0.000174706413730804,
+      "loss": 0.4004,
+      "step": 280
+    },
+    {
+      "epoch": 2.3577235772357725,
+      "grad_norm": 2.5070407390594482,
+      "learning_rate": 0.00017380307136404699,
+      "loss": 0.3705,
+      "step": 290
+    },
+    {
+      "epoch": 2.4390243902439024,
+      "grad_norm": 2.954922914505005,
+      "learning_rate": 0.00017289972899728998,
+      "loss": 0.4225,
+      "step": 300
+    },
+    {
+      "epoch": 2.4390243902439024,
+      "eval_accuracy": 0.6210045662100456,
+      "eval_loss": 0.9592322707176208,
+      "eval_runtime": 2.2647,
+      "eval_samples_per_second": 96.703,
+      "eval_steps_per_second": 12.364,
+      "step": 300
+    },
+    {
+      "epoch": 2.5203252032520327,
+      "grad_norm": 2.0386438369750977,
+      "learning_rate": 0.00017199638663053298,
+      "loss": 0.4874,
+      "step": 310
+    },
+    {
+      "epoch": 2.6016260162601625,
+      "grad_norm": 7.5740180015563965,
+      "learning_rate": 0.00017109304426377598,
+      "loss": 0.5005,
+      "step": 320
+    },
+    {
+      "epoch": 2.682926829268293,
+      "grad_norm": 4.629195690155029,
+      "learning_rate": 0.00017018970189701897,
+      "loss": 0.4861,
+      "step": 330
+    },
+    {
+      "epoch": 2.7642276422764227,
+      "grad_norm": 5.8368072509765625,
+      "learning_rate": 0.00016928635953026197,
+      "loss": 0.5013,
+      "step": 340
+    },
+    {
+      "epoch": 2.845528455284553,
+      "grad_norm": 2.3338427543640137,
+      "learning_rate": 0.00016838301716350497,
+      "loss": 0.53,
+      "step": 350
+    },
+    {
+      "epoch": 2.926829268292683,
+      "grad_norm": 4.834186553955078,
+      "learning_rate": 0.00016747967479674797,
+      "loss": 0.4889,
+      "step": 360
+    },
+    {
+      "epoch": 3.008130081300813,
+      "grad_norm": 1.1826306581497192,
+      "learning_rate": 0.000166576332429991,
+      "loss": 0.4451,
+      "step": 370
+    },
+    {
+      "epoch": 3.089430894308943,
+      "grad_norm": 2.3115830421447754,
+      "learning_rate": 0.000165672990063234,
+      "loss": 0.4455,
+      "step": 380
+    },
+    {
+      "epoch": 3.1707317073170733,
+      "grad_norm": 2.7050156593322754,
+      "learning_rate": 0.00016476964769647699,
+      "loss": 0.1422,
+      "step": 390
+    },
+    {
+      "epoch": 3.252032520325203,
+      "grad_norm": 0.68967604637146,
+      "learning_rate": 0.00016386630532971998,
+      "loss": 0.2586,
+      "step": 400
+    },
+    {
+      "epoch": 3.252032520325203,
+      "eval_accuracy": 0.593607305936073,
+      "eval_loss": 1.312296986579895,
+      "eval_runtime": 1.8615,
+      "eval_samples_per_second": 117.649,
+      "eval_steps_per_second": 15.042,
+      "step": 400
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 8.18450927734375,
+      "learning_rate": 0.00016296296296296295,
+      "loss": 0.5364,
+      "step": 410
+    },
+    {
+      "epoch": 3.4146341463414633,
+      "grad_norm": 2.960862874984741,
+      "learning_rate": 0.00016205962059620595,
+      "loss": 0.2547,
+      "step": 420
+    },
+    {
+      "epoch": 3.4959349593495936,
+      "grad_norm": 0.5109916925430298,
+      "learning_rate": 0.00016115627822944897,
+      "loss": 0.2994,
+      "step": 430
+    },
+    {
+      "epoch": 3.5772357723577235,
+      "grad_norm": 3.0849831104278564,
+      "learning_rate": 0.00016025293586269197,
+      "loss": 0.2622,
+      "step": 440
+    },
+    {
+      "epoch": 3.658536585365854,
+      "grad_norm": 2.731576442718506,
+      "learning_rate": 0.00015934959349593497,
+      "loss": 0.3485,
+      "step": 450
+    },
+    {
+      "epoch": 3.7398373983739837,
+      "grad_norm": 2.58368182182312,
+      "learning_rate": 0.00015844625112917797,
+      "loss": 0.2973,
+      "step": 460
+    },
+    {
+      "epoch": 3.821138211382114,
+      "grad_norm": 3.8228554725646973,
+      "learning_rate": 0.00015754290876242096,
+      "loss": 0.4206,
+      "step": 470
+    },
+    {
+      "epoch": 3.902439024390244,
+      "grad_norm": 10.00378131866455,
+      "learning_rate": 0.00015663956639566396,
+      "loss": 0.368,
+      "step": 480
+    },
+    {
+      "epoch": 3.983739837398374,
+      "grad_norm": 5.630249977111816,
+      "learning_rate": 0.00015573622402890699,
+      "loss": 0.3679,
+      "step": 490
+    },
+    {
+      "epoch": 4.065040650406504,
+      "grad_norm": 2.958164930343628,
+      "learning_rate": 0.00015483288166214996,
+      "loss": 0.237,
+      "step": 500
+    },
+    {
+      "epoch": 4.065040650406504,
+      "eval_accuracy": 0.6986301369863014,
+      "eval_loss": 0.8074837327003479,
+      "eval_runtime": 2.4126,
+      "eval_samples_per_second": 90.775,
+      "eval_steps_per_second": 11.606,
+      "step": 500
+    },
+    {
+      "epoch": 4.146341463414634,
+      "grad_norm": 1.0017706155776978,
+      "learning_rate": 0.00015392953929539295,
+      "loss": 0.2833,
+      "step": 510
+    },
+    {
+      "epoch": 4.227642276422764,
+      "grad_norm": 0.5290637612342834,
+      "learning_rate": 0.00015302619692863595,
+      "loss": 0.1401,
+      "step": 520
+    },
+    {
+      "epoch": 4.308943089430894,
+      "grad_norm": 9.38740348815918,
+      "learning_rate": 0.00015212285456187895,
+      "loss": 0.196,
+      "step": 530
+    },
+    {
+      "epoch": 4.390243902439025,
+      "grad_norm": 4.181729793548584,
+      "learning_rate": 0.00015121951219512197,
+      "loss": 0.1724,
+      "step": 540
+    },
+    {
+      "epoch": 4.471544715447155,
+      "grad_norm": 3.6319236755371094,
+      "learning_rate": 0.00015031616982836497,
+      "loss": 0.1901,
+      "step": 550
+    },
+    {
+      "epoch": 4.5528455284552845,
+      "grad_norm": 0.17511798441410065,
+      "learning_rate": 0.00014941282746160797,
+      "loss": 0.1958,
+      "step": 560
+    },
+    {
+      "epoch": 4.634146341463414,
+      "grad_norm": 3.161402702331543,
+      "learning_rate": 0.00014850948509485096,
+      "loss": 0.231,
+      "step": 570
+    },
+    {
+      "epoch": 4.715447154471545,
+      "grad_norm": 5.447460174560547,
+      "learning_rate": 0.00014760614272809396,
+      "loss": 0.25,
+      "step": 580
+    },
+    {
+      "epoch": 4.796747967479675,
+      "grad_norm": 5.651242256164551,
+      "learning_rate": 0.00014670280036133696,
+      "loss": 0.2985,
+      "step": 590
+    },
+    {
+      "epoch": 4.878048780487805,
+      "grad_norm": 1.8422802686691284,
+      "learning_rate": 0.00014579945799457996,
+      "loss": 0.2658,
+      "step": 600
+    },
+    {
+      "epoch": 4.878048780487805,
+      "eval_accuracy": 0.6210045662100456,
+      "eval_loss": 1.0878099203109741,
+      "eval_runtime": 1.8933,
+      "eval_samples_per_second": 115.67,
+      "eval_steps_per_second": 14.789,
+      "step": 600
+    },
+    {
+      "epoch": 4.959349593495935,
+      "grad_norm": 2.05578875541687,
+      "learning_rate": 0.00014489611562782295,
+      "loss": 0.2486,
+      "step": 610
+    },
+    {
+      "epoch": 5.040650406504065,
+      "grad_norm": 3.98470139503479,
+      "learning_rate": 0.00014399277326106595,
+      "loss": 0.179,
+      "step": 620
+    },
+    {
+      "epoch": 5.121951219512195,
+      "grad_norm": 1.0857895612716675,
+      "learning_rate": 0.00014308943089430895,
+      "loss": 0.1288,
+      "step": 630
+    },
+    {
+      "epoch": 5.203252032520325,
+      "grad_norm": 4.330402851104736,
+      "learning_rate": 0.00014218608852755194,
+      "loss": 0.3725,
+      "step": 640
+    },
+    {
+      "epoch": 5.284552845528455,
+      "grad_norm": 0.4425082206726074,
+      "learning_rate": 0.00014128274616079494,
+      "loss": 0.1386,
+      "step": 650
+    },
+    {
+      "epoch": 5.365853658536586,
+      "grad_norm": 5.232783794403076,
+      "learning_rate": 0.00014037940379403797,
+      "loss": 0.1728,
+      "step": 660
+    },
+    {
+      "epoch": 5.4471544715447155,
+      "grad_norm": 0.9079999923706055,
+      "learning_rate": 0.00013947606142728094,
+      "loss": 0.0875,
+      "step": 670
+    },
+    {
+      "epoch": 5.528455284552845,
+      "grad_norm": 0.10030949860811234,
+      "learning_rate": 0.00013857271906052393,
+      "loss": 0.0395,
+      "step": 680
+    },
+    {
+      "epoch": 5.609756097560975,
+      "grad_norm": 10.699735641479492,
+      "learning_rate": 0.00013766937669376693,
+      "loss": 0.2565,
+      "step": 690
+    },
+    {
+      "epoch": 5.691056910569106,
+      "grad_norm": 6.3885626792907715,
+      "learning_rate": 0.00013676603432700993,
+      "loss": 0.1904,
+      "step": 700
+    },
+    {
+      "epoch": 5.691056910569106,
+      "eval_accuracy": 0.7168949771689498,
+      "eval_loss": 1.104848027229309,
+      "eval_runtime": 1.9992,
+      "eval_samples_per_second": 109.543,
+      "eval_steps_per_second": 14.005,
+      "step": 700
+    },
+    {
+      "epoch": 5.772357723577236,
+      "grad_norm": 6.820797920227051,
+      "learning_rate": 0.00013586269196025295,
+      "loss": 0.0646,
+      "step": 710
+    },
+    {
+      "epoch": 5.853658536585366,
+      "grad_norm": 13.246321678161621,
+      "learning_rate": 0.00013495934959349595,
+      "loss": 0.0444,
+      "step": 720
+    },
+    {
+      "epoch": 5.934959349593496,
+      "grad_norm": 5.0205278396606445,
+      "learning_rate": 0.00013405600722673895,
+      "loss": 0.0963,
+      "step": 730
+    },
+    {
+      "epoch": 6.016260162601626,
+      "grad_norm": 0.06230660900473595,
+      "learning_rate": 0.00013315266485998194,
+      "loss": 0.0949,
+      "step": 740
+    },
+    {
+      "epoch": 6.097560975609756,
+      "grad_norm": 7.405625343322754,
+      "learning_rate": 0.00013224932249322494,
+      "loss": 0.0483,
+      "step": 750
+    },
+    {
+      "epoch": 6.178861788617886,
+      "grad_norm": 1.0345286130905151,
+      "learning_rate": 0.00013134598012646794,
+      "loss": 0.1235,
+      "step": 760
+    },
+    {
+      "epoch": 6.260162601626016,
+      "grad_norm": 0.08151334524154663,
+      "learning_rate": 0.00013044263775971094,
+      "loss": 0.0776,
+      "step": 770
+    },
+    {
+      "epoch": 6.341463414634147,
+      "grad_norm": 9.996505737304688,
+      "learning_rate": 0.00012953929539295393,
+      "loss": 0.0529,
+      "step": 780
+    },
+    {
+      "epoch": 6.4227642276422765,
+      "grad_norm": 0.07011505216360092,
+      "learning_rate": 0.00012863595302619693,
+      "loss": 0.0679,
+      "step": 790
+    },
+    {
+      "epoch": 6.504065040650406,
+      "grad_norm": 17.958656311035156,
+      "learning_rate": 0.00012773261065943993,
+      "loss": 0.0964,
+      "step": 800
+    },
+    {
+      "epoch": 6.504065040650406,
+      "eval_accuracy": 0.684931506849315,
+      "eval_loss": 1.3601832389831543,
+      "eval_runtime": 2.573,
+      "eval_samples_per_second": 85.116,
+      "eval_steps_per_second": 10.882,
+      "step": 800
+    },
+    {
+      "epoch": 6.585365853658536,
+      "grad_norm": 0.9644515514373779,
+      "learning_rate": 0.00012682926829268293,
+      "loss": 0.1316,
+      "step": 810
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 1.0540770292282104,
+      "learning_rate": 0.00012592592592592592,
+      "loss": 0.0534,
+      "step": 820
+    },
+    {
+      "epoch": 6.747967479674797,
+      "grad_norm": 0.054866183549165726,
+      "learning_rate": 0.00012502258355916895,
+      "loss": 0.0815,
+      "step": 830
+    },
+    {
+      "epoch": 6.829268292682927,
+      "grad_norm": 0.04586861655116081,
+      "learning_rate": 0.00012411924119241194,
+      "loss": 0.0431,
+      "step": 840
+    },
+    {
+      "epoch": 6.9105691056910565,
+      "grad_norm": 0.1353844702243805,
+      "learning_rate": 0.00012321589882565491,
+      "loss": 0.0707,
+      "step": 850
+    },
+    {
+      "epoch": 6.991869918699187,
+      "grad_norm": 0.05645023286342621,
+      "learning_rate": 0.0001223125564588979,
+      "loss": 0.0362,
+      "step": 860
+    },
+    {
+      "epoch": 7.073170731707317,
+      "grad_norm": 14.361383438110352,
+      "learning_rate": 0.00012140921409214092,
+      "loss": 0.0788,
+      "step": 870
+    },
+    {
+      "epoch": 7.154471544715447,
+      "grad_norm": 0.6656379103660583,
+      "learning_rate": 0.00012050587172538392,
+      "loss": 0.0509,
+      "step": 880
+    },
+    {
+      "epoch": 7.235772357723577,
+      "grad_norm": 0.04472186788916588,
+      "learning_rate": 0.00011960252935862693,
+      "loss": 0.1443,
+      "step": 890
+    },
+    {
+      "epoch": 7.317073170731708,
+      "grad_norm": 1.4073199033737183,
+      "learning_rate": 0.00011869918699186993,
+      "loss": 0.0474,
+      "step": 900
+    },
+    {
+      "epoch": 7.317073170731708,
+      "eval_accuracy": 0.7671232876712328,
+      "eval_loss": 1.1331158876419067,
+      "eval_runtime": 1.8805,
+      "eval_samples_per_second": 116.46,
+      "eval_steps_per_second": 14.89,
+      "step": 900
+    },
+    {
+      "epoch": 7.3983739837398375,
+      "grad_norm": 7.994218826293945,
+      "learning_rate": 0.00011779584462511293,
+      "loss": 0.0686,
+      "step": 910
+    },
+    {
+      "epoch": 7.479674796747967,
+      "grad_norm": 3.781395673751831,
+      "learning_rate": 0.00011689250225835592,
+      "loss": 0.1022,
+      "step": 920
+    },
+    {
+      "epoch": 7.560975609756097,
+      "grad_norm": 0.045862827450037,
+      "learning_rate": 0.00011598915989159893,
+      "loss": 0.0991,
+      "step": 930
+    },
+    {
+      "epoch": 7.642276422764228,
+      "grad_norm": 0.25066855549812317,
+      "learning_rate": 0.0001150858175248419,
+      "loss": 0.0142,
+      "step": 940
+    },
+    {
+      "epoch": 7.723577235772358,
+      "grad_norm": 4.746194839477539,
+      "learning_rate": 0.00011418247515808491,
+      "loss": 0.0561,
+      "step": 950
+    },
+    {
+      "epoch": 7.804878048780488,
+      "grad_norm": 0.8477320075035095,
+      "learning_rate": 0.00011327913279132791,
+      "loss": 0.0645,
+      "step": 960
+    },
+    {
+      "epoch": 7.886178861788618,
+      "grad_norm": 0.5714166760444641,
+      "learning_rate": 0.00011237579042457091,
+      "loss": 0.0319,
+      "step": 970
+    },
+    {
+      "epoch": 7.967479674796748,
+      "grad_norm": 20.18045997619629,
+      "learning_rate": 0.00011147244805781392,
+      "loss": 0.0662,
+      "step": 980
+    },
+    {
+      "epoch": 8.048780487804878,
+      "grad_norm": 0.05691004544496536,
+      "learning_rate": 0.00011056910569105692,
+      "loss": 0.0668,
+      "step": 990
+    },
+    {
+      "epoch": 8.130081300813009,
+      "grad_norm": 0.12059393525123596,
+      "learning_rate": 0.00010966576332429991,
+      "loss": 0.1179,
+      "step": 1000
+    },
+    {
+      "epoch": 8.130081300813009,
+      "eval_accuracy": 0.730593607305936,
+      "eval_loss": 1.122756838798523,
+      "eval_runtime": 1.8559,
+      "eval_samples_per_second": 118.001,
+      "eval_steps_per_second": 15.087,
+      "step": 1000
+    },
+    {
+      "epoch": 8.211382113821138,
+      "grad_norm": 0.06441790610551834,
+      "learning_rate": 0.00010876242095754293,
+      "loss": 0.0362,
+      "step": 1010
+    },
+    {
+      "epoch": 8.292682926829269,
+      "grad_norm": 0.03285042569041252,
+      "learning_rate": 0.00010785907859078592,
+      "loss": 0.0277,
+      "step": 1020
+    },
+    {
+      "epoch": 8.373983739837398,
+      "grad_norm": 0.03812731057405472,
+      "learning_rate": 0.0001069557362240289,
+      "loss": 0.0094,
+      "step": 1030
+    },
+    {
+      "epoch": 8.455284552845528,
+      "grad_norm": 0.0354076623916626,
+      "learning_rate": 0.0001060523938572719,
+      "loss": 0.011,
+      "step": 1040
+    },
+    {
+      "epoch": 8.536585365853659,
+      "grad_norm": 0.05294572561979294,
+      "learning_rate": 0.0001051490514905149,
+      "loss": 0.0397,
+      "step": 1050
+    },
+    {
+      "epoch": 8.617886178861788,
+      "grad_norm": 0.029015598818659782,
+      "learning_rate": 0.00010424570912375791,
+      "loss": 0.0623,
+      "step": 1060
+    },
+    {
+      "epoch": 8.699186991869919,
+      "grad_norm": 0.02916688844561577,
+      "learning_rate": 0.00010334236675700091,
+      "loss": 0.0208,
+      "step": 1070
+    },
+    {
+      "epoch": 8.78048780487805,
+      "grad_norm": 2.3230416774749756,
+      "learning_rate": 0.0001024390243902439,
+      "loss": 0.0585,
+      "step": 1080
+    },
+    {
+      "epoch": 8.861788617886178,
+      "grad_norm": 0.024655325338244438,
+      "learning_rate": 0.00010153568202348692,
+      "loss": 0.0474,
+      "step": 1090
+    },
+    {
+      "epoch": 8.94308943089431,
+      "grad_norm": 0.09337528795003891,
+      "learning_rate": 0.00010063233965672991,
+      "loss": 0.0447,
+      "step": 1100
+    },
+    {
+      "epoch": 8.94308943089431,
+      "eval_accuracy": 0.7397260273972602,
+      "eval_loss": 1.260903239250183,
+      "eval_runtime": 2.0272,
+      "eval_samples_per_second": 108.029,
+      "eval_steps_per_second": 13.812,
+      "step": 1100
+    },
+    {
+      "epoch": 9.024390243902438,
+      "grad_norm": 0.06281863152980804,
+      "learning_rate": 9.97289972899729e-05,
+      "loss": 0.0153,
+      "step": 1110
+    },
+    {
+      "epoch": 9.105691056910569,
+      "grad_norm": 0.025806061923503876,
+      "learning_rate": 9.882565492321591e-05,
+      "loss": 0.0046,
+      "step": 1120
+    },
+    {
+      "epoch": 9.1869918699187,
+      "grad_norm": 0.024874288588762283,
+      "learning_rate": 9.79223125564589e-05,
+      "loss": 0.0055,
+      "step": 1130
+    },
+    {
+      "epoch": 9.268292682926829,
+      "grad_norm": 0.03554617613554001,
+      "learning_rate": 9.701897018970189e-05,
+      "loss": 0.006,
+      "step": 1140
+    },
+    {
+      "epoch": 9.34959349593496,
+      "grad_norm": 0.020841993391513824,
+      "learning_rate": 9.61156278229449e-05,
+      "loss": 0.004,
+      "step": 1150
+    },
+    {
+      "epoch": 9.43089430894309,
+      "grad_norm": 0.02096891961991787,
+      "learning_rate": 9.52122854561879e-05,
+      "loss": 0.0318,
+      "step": 1160
+    },
+    {
+      "epoch": 9.512195121951219,
+      "grad_norm": 0.024508224800229073,
+      "learning_rate": 9.43089430894309e-05,
+      "loss": 0.0423,
+      "step": 1170
+    },
+    {
+      "epoch": 9.59349593495935,
+      "grad_norm": 0.024349646642804146,
+      "learning_rate": 9.34056007226739e-05,
+      "loss": 0.0432,
+      "step": 1180
+    },
+    {
+      "epoch": 9.67479674796748,
+      "grad_norm": 0.024144969880580902,
+      "learning_rate": 9.250225835591689e-05,
+      "loss": 0.036,
+      "step": 1190
+    },
+    {
+      "epoch": 9.75609756097561,
+      "grad_norm": 0.025365758687257767,
+      "learning_rate": 9.15989159891599e-05,
+      "loss": 0.0043,
+      "step": 1200
+    },
+    {
+      "epoch": 9.75609756097561,
+      "eval_accuracy": 0.776255707762557,
+      "eval_loss": 1.1745853424072266,
+      "eval_runtime": 1.8633,
+      "eval_samples_per_second": 117.532,
+      "eval_steps_per_second": 15.027,
+      "step": 1200
+    },
+    {
+      "epoch": 9.83739837398374,
+      "grad_norm": 0.020441517233848572,
+      "learning_rate": 9.06955736224029e-05,
+      "loss": 0.0048,
+      "step": 1210
+    },
+    {
+      "epoch": 9.91869918699187,
+      "grad_norm": 7.5243239402771,
+      "learning_rate": 8.97922312556459e-05,
+      "loss": 0.0566,
+      "step": 1220
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.02440631203353405,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0663,
+      "step": 1230
+    },
+    {
+      "epoch": 10.08130081300813,
+      "grad_norm": 0.020575933158397675,
+      "learning_rate": 8.798554652213189e-05,
+      "loss": 0.0316,
+      "step": 1240
+    },
+    {
+      "epoch": 10.16260162601626,
+      "grad_norm": 0.0206364244222641,
+      "learning_rate": 8.708220415537489e-05,
+      "loss": 0.021,
+      "step": 1250
+    },
+    {
+      "epoch": 10.24390243902439,
+      "grad_norm": 0.025878455489873886,
+      "learning_rate": 8.61788617886179e-05,
+      "loss": 0.0159,
+      "step": 1260
+    },
+    {
+      "epoch": 10.32520325203252,
+      "grad_norm": 0.03842271491885185,
+      "learning_rate": 8.52755194218609e-05,
+      "loss": 0.0035,
+      "step": 1270
+    },
+    {
+      "epoch": 10.40650406504065,
+      "grad_norm": 0.017291786149144173,
+      "learning_rate": 8.437217705510388e-05,
+      "loss": 0.004,
+      "step": 1280
+    },
+    {
+      "epoch": 10.487804878048781,
+      "grad_norm": 0.01711260713636875,
+      "learning_rate": 8.346883468834689e-05,
+      "loss": 0.0034,
+      "step": 1290
+    },
+    {
+      "epoch": 10.56910569105691,
+      "grad_norm": 0.5960690975189209,
+      "learning_rate": 8.256549232158989e-05,
+      "loss": 0.1059,
+      "step": 1300
+    },
+    {
+      "epoch": 10.56910569105691,
+      "eval_accuracy": 0.776255707762557,
+      "eval_loss": 1.186672568321228,
+      "eval_runtime": 2.3237,
+      "eval_samples_per_second": 94.245,
+      "eval_steps_per_second": 12.05,
+      "step": 1300
+    },
+    {
+      "epoch": 10.65040650406504,
+      "grad_norm": 0.024842064827680588,
+      "learning_rate": 8.166214995483289e-05,
+      "loss": 0.027,
+      "step": 1310
+    },
+    {
+      "epoch": 10.731707317073171,
+      "grad_norm": 0.022030914202332497,
+      "learning_rate": 8.075880758807588e-05,
+      "loss": 0.0275,
+      "step": 1320
+    },
+    {
+      "epoch": 10.8130081300813,
+      "grad_norm": 0.024346347898244858,
+      "learning_rate": 7.985546522131888e-05,
+      "loss": 0.0037,
+      "step": 1330
+    },
+    {
+      "epoch": 10.894308943089431,
+      "grad_norm": 0.019560035318136215,
+      "learning_rate": 7.895212285456188e-05,
+      "loss": 0.0037,
+      "step": 1340
+    },
+    {
+      "epoch": 10.975609756097562,
+      "grad_norm": 0.016407785937190056,
+      "learning_rate": 7.804878048780489e-05,
+      "loss": 0.0132,
+      "step": 1350
+    },
+    {
+      "epoch": 11.05691056910569,
+      "grad_norm": 0.015580049715936184,
+      "learning_rate": 7.714543812104789e-05,
+      "loss": 0.0028,
+      "step": 1360
+    },
+    {
+      "epoch": 11.138211382113822,
+      "grad_norm": 0.01547026913613081,
+      "learning_rate": 7.624209575429088e-05,
+      "loss": 0.019,
+      "step": 1370
+    },
+    {
+      "epoch": 11.21951219512195,
+      "grad_norm": 0.01568036712706089,
+      "learning_rate": 7.533875338753388e-05,
+      "loss": 0.0026,
+      "step": 1380
+    },
+    {
+      "epoch": 11.300813008130081,
+      "grad_norm": 0.016332248225808144,
+      "learning_rate": 7.443541102077688e-05,
+      "loss": 0.003,
+      "step": 1390
+    },
+    {
+      "epoch": 11.382113821138212,
+      "grad_norm": 0.015115007758140564,
+      "learning_rate": 7.353206865401989e-05,
+      "loss": 0.0026,
+      "step": 1400
+    },
+    {
+      "epoch": 11.382113821138212,
+      "eval_accuracy": 0.7534246575342466,
+      "eval_loss": 1.2890268564224243,
+      "eval_runtime": 1.8821,
+      "eval_samples_per_second": 116.362,
+      "eval_steps_per_second": 14.877,
+      "step": 1400
+    },
+    {
+      "epoch": 11.463414634146341,
+      "grad_norm": 0.019173264503479004,
+      "learning_rate": 7.262872628726287e-05,
+      "loss": 0.0025,
+      "step": 1410
+    },
+    {
+      "epoch": 11.544715447154472,
+      "grad_norm": 0.01367194764316082,
+      "learning_rate": 7.172538392050587e-05,
+      "loss": 0.0025,
+      "step": 1420
+    },
+    {
+      "epoch": 11.6260162601626,
+      "grad_norm": 0.012898310087621212,
+      "learning_rate": 7.082204155374888e-05,
+      "loss": 0.0024,
+      "step": 1430
+    },
+    {
+      "epoch": 11.707317073170731,
+      "grad_norm": 0.014037015847861767,
+      "learning_rate": 6.991869918699188e-05,
+      "loss": 0.0023,
+      "step": 1440
+    },
+    {
+      "epoch": 11.788617886178862,
+      "grad_norm": 0.012620938010513783,
+      "learning_rate": 6.901535682023487e-05,
+      "loss": 0.0023,
+      "step": 1450
+    },
+    {
+      "epoch": 11.869918699186991,
+      "grad_norm": 0.0131882568821311,
+      "learning_rate": 6.811201445347787e-05,
+      "loss": 0.0023,
+      "step": 1460
+    },
+    {
+      "epoch": 11.951219512195122,
+      "grad_norm": 0.01338967401534319,
+      "learning_rate": 6.720867208672087e-05,
+      "loss": 0.0022,
+      "step": 1470
+    },
+    {
+      "epoch": 12.032520325203253,
+      "grad_norm": 0.01590082049369812,
+      "learning_rate": 6.630532971996387e-05,
+      "loss": 0.0342,
+      "step": 1480
+    },
+    {
+      "epoch": 12.113821138211382,
+      "grad_norm": 0.027159936726093292,
+      "learning_rate": 6.540198735320688e-05,
+      "loss": 0.0033,
+      "step": 1490
+    },
+    {
+      "epoch": 12.195121951219512,
+      "grad_norm": 0.028470635414123535,
+      "learning_rate": 6.449864498644986e-05,
+      "loss": 0.0039,
+      "step": 1500
+    },
+    {
+      "epoch": 12.195121951219512,
+      "eval_accuracy": 0.7579908675799086,
+      "eval_loss": 1.328336238861084,
+      "eval_runtime": 1.8861,
+      "eval_samples_per_second": 116.112,
+      "eval_steps_per_second": 14.845,
+      "step": 1500
+    },
+    {
+      "epoch": 12.276422764227643,
+      "grad_norm": 0.017821423709392548,
+      "learning_rate": 6.359530261969287e-05,
+      "loss": 0.0024,
+      "step": 1510
+    },
+    {
+      "epoch": 12.357723577235772,
+      "grad_norm": 0.0137524688616395,
+      "learning_rate": 6.269196025293587e-05,
+      "loss": 0.0021,
+      "step": 1520
+    },
+    {
+      "epoch": 12.439024390243903,
+      "grad_norm": 0.012154987081885338,
+      "learning_rate": 6.178861788617887e-05,
+      "loss": 0.0022,
+      "step": 1530
+    },
+    {
+      "epoch": 12.520325203252032,
+      "grad_norm": 0.012079431675374508,
+      "learning_rate": 6.0885275519421857e-05,
+      "loss": 0.0021,
+      "step": 1540
+    },
+    {
+      "epoch": 12.601626016260163,
+      "grad_norm": 0.013092798180878162,
+      "learning_rate": 5.998193315266486e-05,
+      "loss": 0.0021,
+      "step": 1550
+    },
+    {
+      "epoch": 12.682926829268293,
+      "grad_norm": 0.036075592041015625,
+      "learning_rate": 5.9078590785907865e-05,
+      "loss": 0.0108,
+      "step": 1560
+    },
+    {
+      "epoch": 12.764227642276422,
+      "grad_norm": 0.0120172630995512,
+      "learning_rate": 5.817524841915086e-05,
+      "loss": 0.0029,
+      "step": 1570
+    },
+    {
+      "epoch": 12.845528455284553,
+      "grad_norm": 0.012298657558858395,
+      "learning_rate": 5.7271906052393866e-05,
+      "loss": 0.0099,
+      "step": 1580
+    },
+    {
+      "epoch": 12.926829268292684,
+      "grad_norm": 0.016028335317969322,
+      "learning_rate": 5.6368563685636857e-05,
+      "loss": 0.0102,
+      "step": 1590
+    },
+    {
+      "epoch": 13.008130081300813,
+      "grad_norm": 0.011840942315757275,
+      "learning_rate": 5.5465221318879854e-05,
+      "loss": 0.002,
+      "step": 1600
+    },
+    {
+      "epoch": 13.008130081300813,
+      "eval_accuracy": 0.7671232876712328,
+      "eval_loss": 1.1871178150177002,
+      "eval_runtime": 1.8919,
+      "eval_samples_per_second": 115.755,
+      "eval_steps_per_second": 14.8,
+      "step": 1600
+    },
+    {
+      "epoch": 13.089430894308943,
+      "grad_norm": 0.011245610192418098,
+      "learning_rate": 5.456187895212286e-05,
+      "loss": 0.0019,
+      "step": 1610
+    },
+    {
+      "epoch": 13.170731707317072,
+      "grad_norm": 0.010579339228570461,
+      "learning_rate": 5.365853658536586e-05,
+      "loss": 0.0019,
+      "step": 1620
+    },
+    {
+      "epoch": 13.252032520325203,
+      "grad_norm": 0.5460268259048462,
+      "learning_rate": 5.275519421860885e-05,
+      "loss": 0.0021,
+      "step": 1630
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.011547455564141273,
+      "learning_rate": 5.185185185185185e-05,
+      "loss": 0.0019,
+      "step": 1640
+    },
+    {
+      "epoch": 13.414634146341463,
+      "grad_norm": 0.010749176144599915,
+      "learning_rate": 5.0948509485094854e-05,
+      "loss": 0.0018,
+      "step": 1650
+    },
+    {
+      "epoch": 13.495934959349594,
+      "grad_norm": 0.020905395969748497,
+      "learning_rate": 5.004516711833785e-05,
+      "loss": 0.0019,
+      "step": 1660
+    },
+    {
+      "epoch": 13.577235772357724,
+      "grad_norm": 0.010568364523351192,
+      "learning_rate": 4.914182475158085e-05,
+      "loss": 0.0018,
+      "step": 1670
+    },
+    {
+      "epoch": 13.658536585365853,
+      "grad_norm": 0.010385628789663315,
+      "learning_rate": 4.823848238482385e-05,
+      "loss": 0.0457,
+      "step": 1680
+    },
+    {
+      "epoch": 13.739837398373984,
+      "grad_norm": 0.011808566749095917,
+      "learning_rate": 4.733514001806685e-05,
+      "loss": 0.0019,
+      "step": 1690
+    },
+    {
+      "epoch": 13.821138211382113,
+      "grad_norm": 0.01071181334555149,
+      "learning_rate": 4.643179765130985e-05,
+      "loss": 0.0019,
+      "step": 1700
+    },
+    {
+      "epoch": 13.821138211382113,
+      "eval_accuracy": 0.7899543378995434,
+      "eval_loss": 1.1642991304397583,
+      "eval_runtime": 2.6737,
+      "eval_samples_per_second": 81.908,
+      "eval_steps_per_second": 10.472,
+      "step": 1700
+    },
+    {
+      "epoch": 13.902439024390244,
+      "grad_norm": 0.009974062442779541,
+      "learning_rate": 4.5528455284552844e-05,
+      "loss": 0.0019,
+      "step": 1710
+    },
+    {
+      "epoch": 13.983739837398375,
+      "grad_norm": 0.010520576499402523,
+      "learning_rate": 4.462511291779585e-05,
+      "loss": 0.0019,
+      "step": 1720
+    },
+    {
+      "epoch": 14.065040650406504,
+      "grad_norm": 0.010491529479622841,
+      "learning_rate": 4.3721770551038846e-05,
+      "loss": 0.0018,
+      "step": 1730
+    },
+    {
+      "epoch": 14.146341463414634,
+      "grad_norm": 0.010812795720994473,
+      "learning_rate": 4.281842818428184e-05,
+      "loss": 0.0018,
+      "step": 1740
+    },
+    {
+      "epoch": 14.227642276422765,
+      "grad_norm": 0.010520540177822113,
+      "learning_rate": 4.191508581752485e-05,
+      "loss": 0.0017,
+      "step": 1750
+    },
+    {
+      "epoch": 14.308943089430894,
+      "grad_norm": 0.010174380615353584,
+      "learning_rate": 4.1011743450767844e-05,
+      "loss": 0.0017,
+      "step": 1760
+    },
+    {
+      "epoch": 14.390243902439025,
+      "grad_norm": 0.014143481850624084,
+      "learning_rate": 4.010840108401084e-05,
+      "loss": 0.0018,
+      "step": 1770
+    },
+    {
+      "epoch": 14.471544715447154,
+      "grad_norm": 0.010679790750145912,
+      "learning_rate": 3.920505871725384e-05,
+      "loss": 0.0017,
+      "step": 1780
+    },
+    {
+      "epoch": 14.552845528455284,
+      "grad_norm": 0.009599764831364155,
+      "learning_rate": 3.830171635049684e-05,
+      "loss": 0.0017,
+      "step": 1790
+    },
+    {
+      "epoch": 14.634146341463415,
+      "grad_norm": 0.011851229704916477,
+      "learning_rate": 3.739837398373984e-05,
+      "loss": 0.0264,
+      "step": 1800
+    },
+    {
+      "epoch": 14.634146341463415,
+      "eval_accuracy": 0.7899543378995434,
+      "eval_loss": 1.1537418365478516,
+      "eval_runtime": 2.1352,
+      "eval_samples_per_second": 102.565,
+      "eval_steps_per_second": 13.113,
+      "step": 1800
+    },
+    {
+      "epoch": 14.715447154471544,
+      "grad_norm": 0.010717163793742657,
+      "learning_rate": 3.649503161698284e-05,
+      "loss": 0.0017,
+      "step": 1810
+    },
+    {
+      "epoch": 14.796747967479675,
+      "grad_norm": 0.00999755784869194,
+      "learning_rate": 3.5591689250225835e-05,
+      "loss": 0.0017,
+      "step": 1820
+    },
+    {
+      "epoch": 14.878048780487806,
+      "grad_norm": 0.01001573447138071,
+      "learning_rate": 3.468834688346884e-05,
+      "loss": 0.0018,
+      "step": 1830
+    },
+    {
+      "epoch": 14.959349593495935,
+      "grad_norm": 0.013388333842158318,
+      "learning_rate": 3.3785004516711836e-05,
+      "loss": 0.0017,
+      "step": 1840
+    },
+    {
+      "epoch": 15.040650406504065,
+      "grad_norm": 0.0097127016633749,
+      "learning_rate": 3.2881662149954834e-05,
+      "loss": 0.0017,
+      "step": 1850
+    },
+    {
+      "epoch": 15.121951219512194,
+      "grad_norm": 0.009287914261221886,
+      "learning_rate": 3.197831978319784e-05,
+      "loss": 0.0016,
+      "step": 1860
+    },
+    {
+      "epoch": 15.203252032520325,
+      "grad_norm": 0.009506735019385815,
+      "learning_rate": 3.107497741644083e-05,
+      "loss": 0.0016,
+      "step": 1870
+    },
+    {
+      "epoch": 15.284552845528456,
+      "grad_norm": 0.009844713844358921,
+      "learning_rate": 3.0171635049683832e-05,
+      "loss": 0.0016,
+      "step": 1880
+    },
+    {
+      "epoch": 15.365853658536585,
+      "grad_norm": 0.00882001779973507,
+      "learning_rate": 2.926829268292683e-05,
+      "loss": 0.0016,
+      "step": 1890
+    },
+    {
+      "epoch": 15.447154471544716,
+      "grad_norm": 0.008611707016825676,
+      "learning_rate": 2.836495031616983e-05,
+      "loss": 0.0015,
+      "step": 1900
+    },
+    {
+      "epoch": 15.447154471544716,
+      "eval_accuracy": 0.7945205479452054,
+      "eval_loss": 1.182112216949463,
+      "eval_runtime": 2.5496,
+      "eval_samples_per_second": 85.896,
+      "eval_steps_per_second": 10.982,
+      "step": 1900
+    },
+    {
+      "epoch": 15.528455284552846,
+      "grad_norm": 0.008707600645720959,
+      "learning_rate": 2.7461607949412827e-05,
+      "loss": 0.0015,
+      "step": 1910
+    },
+    {
+      "epoch": 15.609756097560975,
+      "grad_norm": 0.008637920022010803,
+      "learning_rate": 2.6558265582655828e-05,
+      "loss": 0.0015,
+      "step": 1920
+    },
+    {
+      "epoch": 15.691056910569106,
+      "grad_norm": 0.008965054526925087,
+      "learning_rate": 2.565492321589883e-05,
+      "loss": 0.0015,
+      "step": 1930
+    },
+    {
+      "epoch": 15.772357723577235,
+      "grad_norm": 0.008836538530886173,
+      "learning_rate": 2.4751580849141826e-05,
+      "loss": 0.0015,
+      "step": 1940
+    },
+    {
+      "epoch": 15.853658536585366,
+      "grad_norm": 0.008493401110172272,
+      "learning_rate": 2.3848238482384823e-05,
+      "loss": 0.0015,
+      "step": 1950
+    },
+    {
+      "epoch": 15.934959349593496,
+      "grad_norm": 0.008783240802586079,
+      "learning_rate": 2.2944896115627824e-05,
+      "loss": 0.0015,
+      "step": 1960
+    },
+    {
+      "epoch": 16.016260162601625,
+      "grad_norm": 0.008636926300823689,
+      "learning_rate": 2.204155374887082e-05,
+      "loss": 0.0015,
+      "step": 1970
+    },
+    {
+      "epoch": 16.097560975609756,
+      "grad_norm": 0.00970914401113987,
+      "learning_rate": 2.1138211382113822e-05,
+      "loss": 0.0015,
+      "step": 1980
+    },
+    {
+      "epoch": 16.178861788617887,
+      "grad_norm": 0.008323701098561287,
+      "learning_rate": 2.0234869015356823e-05,
+      "loss": 0.0015,
+      "step": 1990
+    },
+    {
+      "epoch": 16.260162601626018,
+      "grad_norm": 0.008794574066996574,
+      "learning_rate": 1.933152664859982e-05,
+      "loss": 0.0015,
+      "step": 2000
+    },
+    {
+      "epoch": 16.260162601626018,
+      "eval_accuracy": 0.7899543378995434,
+      "eval_loss": 1.196179986000061,
+      "eval_runtime": 2.2597,
+      "eval_samples_per_second": 96.915,
+      "eval_steps_per_second": 12.391,
+      "step": 2000
+    },
+    {
+      "epoch": 16.341463414634145,
+      "grad_norm": 0.009114695712924004,
+      "learning_rate": 1.842818428184282e-05,
+      "loss": 0.0015,
+      "step": 2010
+    },
+    {
+      "epoch": 16.422764227642276,
+      "grad_norm": 0.008416150696575642,
+      "learning_rate": 1.7524841915085818e-05,
+      "loss": 0.0014,
+      "step": 2020
+    },
+    {
+      "epoch": 16.504065040650406,
+      "grad_norm": 0.008963138796389103,
+      "learning_rate": 1.662149954832882e-05,
+      "loss": 0.0014,
+      "step": 2030
+    },
+    {
+      "epoch": 16.585365853658537,
+      "grad_norm": 0.008162124082446098,
+      "learning_rate": 1.5718157181571816e-05,
+      "loss": 0.0014,
+      "step": 2040
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 0.008323684334754944,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0014,
+      "step": 2050
+    },
+    {
+      "epoch": 16.747967479674795,
+      "grad_norm": 0.00929880328476429,
+      "learning_rate": 1.3911472448057814e-05,
+      "loss": 0.0014,
+      "step": 2060
+    },
+    {
+      "epoch": 16.829268292682926,
+      "grad_norm": 0.008141223341226578,
+      "learning_rate": 1.3008130081300815e-05,
+      "loss": 0.0014,
+      "step": 2070
+    },
+    {
+      "epoch": 16.910569105691057,
+      "grad_norm": 0.00794750452041626,
+      "learning_rate": 1.2104787714543812e-05,
+      "loss": 0.0014,
+      "step": 2080
+    },
+    {
+      "epoch": 16.991869918699187,
+      "grad_norm": 0.008513950742781162,
+      "learning_rate": 1.1201445347786811e-05,
+      "loss": 0.0014,
+      "step": 2090
+    },
+    {
+      "epoch": 17.073170731707318,
+      "grad_norm": 0.008719543926417828,
+      "learning_rate": 1.0298102981029812e-05,
+      "loss": 0.0014,
+      "step": 2100
+    },
+    {
+      "epoch": 17.073170731707318,
+      "eval_accuracy": 0.7899543378995434,
+      "eval_loss": 1.2036298513412476,
+      "eval_runtime": 1.882,
+      "eval_samples_per_second": 116.365,
+      "eval_steps_per_second": 14.878,
+      "step": 2100
+    },
+    {
+      "epoch": 17.15447154471545,
+      "grad_norm": 0.007771148346364498,
+      "learning_rate": 9.39476061427281e-06,
+      "loss": 0.0014,
+      "step": 2110
+    },
+    {
+      "epoch": 17.235772357723576,
+      "grad_norm": 0.008955016732215881,
+      "learning_rate": 8.49141824751581e-06,
+      "loss": 0.0014,
+      "step": 2120
+    },
+    {
+      "epoch": 17.317073170731707,
+      "grad_norm": 0.008788557723164558,
+      "learning_rate": 7.588075880758808e-06,
+      "loss": 0.0014,
+      "step": 2130
+    },
+    {
+      "epoch": 17.398373983739837,
+      "grad_norm": 0.007935418747365475,
+      "learning_rate": 6.684733514001807e-06,
+      "loss": 0.0014,
+      "step": 2140
+    },
+    {
+      "epoch": 17.479674796747968,
+      "grad_norm": 0.007881587371230125,
+      "learning_rate": 5.781391147244806e-06,
+      "loss": 0.0014,
+      "step": 2150
+    },
+    {
+      "epoch": 17.5609756097561,
+      "grad_norm": 0.0086191575974226,
+      "learning_rate": 4.8780487804878055e-06,
+      "loss": 0.0014,
+      "step": 2160
+    },
+    {
+      "epoch": 17.642276422764226,
+      "grad_norm": 0.009581954218447208,
+      "learning_rate": 3.9747064137308045e-06,
+      "loss": 0.0014,
+      "step": 2170
+    },
+    {
+      "epoch": 17.723577235772357,
+      "grad_norm": 0.009051047265529633,
+      "learning_rate": 3.071364046973803e-06,
+      "loss": 0.0014,
+      "step": 2180
+    },
+    {
+      "epoch": 17.804878048780488,
+      "grad_norm": 0.008541719056665897,
+      "learning_rate": 2.1680216802168024e-06,
+      "loss": 0.0014,
+      "step": 2190
+    },
+    {
+      "epoch": 17.88617886178862,
+      "grad_norm": 0.007614914793521166,
+      "learning_rate": 1.2646793134598014e-06,
+      "loss": 0.0014,
+      "step": 2200
+    },
+    {
+      "epoch": 17.88617886178862,
+      "eval_accuracy": 0.7899543378995434,
+      "eval_loss": 1.2066991329193115,
+      "eval_runtime": 1.8765,
+      "eval_samples_per_second": 116.706,
+      "eval_steps_per_second": 14.921,
+      "step": 2200
+    },
+    {
+      "epoch": 17.96747967479675,
+      "grad_norm": 0.008516514673829079,
+      "learning_rate": 3.6133694670280035e-07,
+      "loss": 0.0014,
+      "step": 2210
+    },
+    {
+      "epoch": 18.0,
+      "step": 2214,
+      "total_flos": 2.739521370098516e+18,
+      "train_loss": 0.17171474754101115,
+      "train_runtime": 1017.2571,
+      "train_samples_per_second": 34.752,
+      "train_steps_per_second": 2.176
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2214,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 18,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.739521370098516e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}