🍻 cheers

Browse files

Files changed (6) hide show

README.md +4 -3
all_results.json +11 -11
data/events.out.tfevents.1730620135.cf96de2eb818.233.1 +3 -0
eval_results.json +6 -6
train_results.json +6 -6
trainer_state.json +1352 -720

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -23,7 +24,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.9280575539568345
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +34,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4136
-- Accuracy: 0.9281
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.9244604316546763
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3162
+- Accuracy: 0.9245
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 13.0,
-    "eval_accuracy": 0.6745283018867925,
-    "eval_loss": 0.7452366948127747,
-    "eval_runtime": 2.5059,
-    "eval_samples_per_second": 84.599,
-    "eval_steps_per_second": 10.774,
-    "total_flos": 1.9140864535683072e+18,
-    "train_loss": 0.35688263059153663,
-    "train_runtime": 955.328,
-    "train_samples_per_second": 25.855,
-    "train_steps_per_second": 1.619
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.9244604316546763,
+    "eval_loss": 0.3162367641925812,
+    "eval_runtime": 2.9069,
+    "eval_samples_per_second": 95.635,
+    "eval_steps_per_second": 12.04,
+    "total_flos": 2.900189697360077e+18,
+    "train_loss": 0.14551133991808146,
+    "train_runtime": 927.2479,
+    "train_samples_per_second": 40.361,
+    "train_steps_per_second": 2.524
 }

data/events.out.tfevents.1730620135.cf96de2eb818.233.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1fc0570e9865f3a2fd0a3427472d0e425fbe34f012b012daf49ebe5ecf21398
+size 411

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 13.0,
-    "eval_accuracy": 0.6745283018867925,
-    "eval_loss": 0.7452366948127747,
-    "eval_runtime": 2.5059,
-    "eval_samples_per_second": 84.599,
-    "eval_steps_per_second": 10.774
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.9244604316546763,
+    "eval_loss": 0.3162367641925812,
+    "eval_runtime": 2.9069,
+    "eval_samples_per_second": 95.635,
+    "eval_steps_per_second": 12.04
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 13.0,
-    "total_flos": 1.9140864535683072e+18,
-    "train_loss": 0.35688263059153663,
-    "train_runtime": 955.328,
-    "train_samples_per_second": 25.855,
-    "train_steps_per_second": 1.619
 }

 {
+    "epoch": 15.0,
+    "total_flos": 2.900189697360077e+18,
+    "train_loss": 0.14551133991808146,
+    "train_runtime": 927.2479,
+    "train_samples_per_second": 40.361,
+    "train_steps_per_second": 2.524
 }

trainer_state.json CHANGED Viewed

@@ -1,1240 +1,1872 @@
 {
-  "best_metric": 0.7452366948127747,
-  "best_model_checkpoint": "vit-weldclassifyv4/checkpoint-400",
-  "epoch": 13.0,
   "eval_steps": 100,
-  "global_step": 1547,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08403361344537816,
-      "grad_norm": 1.7778676748275757,
-      "learning_rate": 0.00019870717517776342,
-      "loss": 1.2807,
       "step": 10
     },
     {
-      "epoch": 0.16806722689075632,
-      "grad_norm": 1.3721851110458374,
-      "learning_rate": 0.00019741435035552685,
-      "loss": 1.187,
       "step": 20
     },
     {
-      "epoch": 0.25210084033613445,
-      "grad_norm": 0.4043492376804352,
-      "learning_rate": 0.00019612152553329023,
-      "loss": 1.2471,
       "step": 30
     },
     {
-      "epoch": 0.33613445378151263,
-      "grad_norm": 1.9244325160980225,
-      "learning_rate": 0.00019482870071105366,
-      "loss": 1.2329,
       "step": 40
     },
     {
-      "epoch": 0.42016806722689076,
-      "grad_norm": 0.6638385653495789,
-      "learning_rate": 0.00019353587588881707,
-      "loss": 1.1524,
       "step": 50
     },
     {
-      "epoch": 0.5042016806722689,
-      "grad_norm": 0.3663930594921112,
-      "learning_rate": 0.0001922430510665805,
-      "loss": 1.1548,
       "step": 60
     },
     {
-      "epoch": 0.5882352941176471,
-      "grad_norm": 0.6382243633270264,
-      "learning_rate": 0.0001909502262443439,
-      "loss": 1.1993,
       "step": 70
     },
     {
-      "epoch": 0.6722689075630253,
-      "grad_norm": 1.2848349809646606,
-      "learning_rate": 0.0001896574014221073,
-      "loss": 1.1822,
       "step": 80
     },
     {
-      "epoch": 0.7563025210084033,
-      "grad_norm": 1.2714462280273438,
-      "learning_rate": 0.00018836457659987072,
-      "loss": 1.1902,
       "step": 90
     },
     {
-      "epoch": 0.8403361344537815,
-      "grad_norm": 1.4769024848937988,
-      "learning_rate": 0.00018707175177763415,
-      "loss": 1.2099,
       "step": 100
     },
     {
-      "epoch": 0.8403361344537815,
-      "eval_accuracy": 0.5047169811320755,
-      "eval_loss": 1.1625308990478516,
-      "eval_runtime": 2.2575,
-      "eval_samples_per_second": 93.909,
-      "eval_steps_per_second": 11.96,
       "step": 100
     },
     {
-      "epoch": 0.9243697478991597,
-      "grad_norm": 1.2741708755493164,
-      "learning_rate": 0.00018577892695539755,
-      "loss": 1.2203,
       "step": 110
     },
     {
-      "epoch": 1.0084033613445378,
-      "grad_norm": 1.2036206722259521,
-      "learning_rate": 0.000184486102133161,
-      "loss": 1.1936,
       "step": 120
     },
     {
-      "epoch": 1.092436974789916,
-      "grad_norm": 1.2514188289642334,
-      "learning_rate": 0.00018319327731092437,
-      "loss": 1.1515,
       "step": 130
     },
     {
-      "epoch": 1.1764705882352942,
-      "grad_norm": 0.7073956727981567,
-      "learning_rate": 0.0001819004524886878,
-      "loss": 1.1483,
       "step": 140
     },
     {
-      "epoch": 1.2605042016806722,
-      "grad_norm": 0.7465972900390625,
-      "learning_rate": 0.0001806076276664512,
-      "loss": 1.1962,
       "step": 150
     },
     {
-      "epoch": 1.3445378151260505,
-      "grad_norm": 0.6339373588562012,
-      "learning_rate": 0.00017931480284421464,
-      "loss": 1.1156,
       "step": 160
     },
     {
-      "epoch": 1.4285714285714286,
-      "grad_norm": 1.036371111869812,
-      "learning_rate": 0.00017802197802197802,
-      "loss": 1.1304,
       "step": 170
     },
     {
-      "epoch": 1.5126050420168067,
-      "grad_norm": 1.3491630554199219,
-      "learning_rate": 0.00017672915319974145,
-      "loss": 1.1783,
       "step": 180
     },
     {
-      "epoch": 1.596638655462185,
-      "grad_norm": 1.3167691230773926,
-      "learning_rate": 0.00017543632837750485,
-      "loss": 1.1617,
       "step": 190
     },
     {
-      "epoch": 1.680672268907563,
-      "grad_norm": 1.0561383962631226,
-      "learning_rate": 0.00017414350355526826,
-      "loss": 1.1066,
       "step": 200
     },
     {
-      "epoch": 1.680672268907563,
-      "eval_accuracy": 0.49528301886792453,
-      "eval_loss": 1.0892218351364136,
-      "eval_runtime": 2.1715,
-      "eval_samples_per_second": 97.628,
-      "eval_steps_per_second": 12.434,
       "step": 200
     },
     {
-      "epoch": 1.7647058823529411,
-      "grad_norm": 1.2338758707046509,
-      "learning_rate": 0.0001728506787330317,
-      "loss": 1.0634,
       "step": 210
     },
     {
-      "epoch": 1.8487394957983194,
-      "grad_norm": 1.416668176651001,
-      "learning_rate": 0.0001715578539107951,
-      "loss": 1.1408,
       "step": 220
     },
     {
-      "epoch": 1.9327731092436975,
-      "grad_norm": 1.9194142818450928,
-      "learning_rate": 0.0001702650290885585,
-      "loss": 1.2019,
       "step": 230
     },
     {
-      "epoch": 2.0168067226890756,
-      "grad_norm": 1.1238566637039185,
-      "learning_rate": 0.0001689722042663219,
-      "loss": 1.0287,
       "step": 240
     },
     {
-      "epoch": 2.100840336134454,
-      "grad_norm": 3.9827613830566406,
-      "learning_rate": 0.00016767937944408534,
-      "loss": 0.9904,
       "step": 250
     },
     {
-      "epoch": 2.184873949579832,
-      "grad_norm": 1.7081505060195923,
-      "learning_rate": 0.00016638655462184875,
-      "loss": 1.0905,
       "step": 260
     },
     {
-      "epoch": 2.26890756302521,
-      "grad_norm": 2.686239719390869,
-      "learning_rate": 0.00016509372979961215,
-      "loss": 0.9177,
       "step": 270
     },
     {
-      "epoch": 2.3529411764705883,
-      "grad_norm": 1.3638893365859985,
-      "learning_rate": 0.00016380090497737556,
-      "loss": 0.9348,
       "step": 280
     },
     {
-      "epoch": 2.4369747899159666,
-      "grad_norm": 2.050823450088501,
-      "learning_rate": 0.000162508080155139,
-      "loss": 0.8364,
       "step": 290
     },
     {
-      "epoch": 2.5210084033613445,
-      "grad_norm": 1.718785047531128,
-      "learning_rate": 0.0001612152553329024,
-      "loss": 1.0298,
       "step": 300
     },
     {
-      "epoch": 2.5210084033613445,
-      "eval_accuracy": 0.589622641509434,
-      "eval_loss": 0.893924355506897,
-      "eval_runtime": 2.9715,
-      "eval_samples_per_second": 71.345,
-      "eval_steps_per_second": 9.086,
       "step": 300
     },
     {
-      "epoch": 2.6050420168067228,
-      "grad_norm": 2.593571424484253,
-      "learning_rate": 0.00015992243051066583,
-      "loss": 0.9351,
       "step": 310
     },
     {
-      "epoch": 2.689075630252101,
-      "grad_norm": 1.2314530611038208,
-      "learning_rate": 0.0001586296056884292,
-      "loss": 0.841,
       "step": 320
     },
     {
-      "epoch": 2.773109243697479,
-      "grad_norm": 2.589643716812134,
-      "learning_rate": 0.00015733678086619264,
-      "loss": 0.7806,
       "step": 330
     },
     {
-      "epoch": 2.857142857142857,
-      "grad_norm": 1.8523632287979126,
-      "learning_rate": 0.00015604395604395605,
-      "loss": 0.8915,
       "step": 340
     },
     {
-      "epoch": 2.9411764705882355,
-      "grad_norm": 2.1867382526397705,
-      "learning_rate": 0.00015475113122171948,
-      "loss": 0.8422,
       "step": 350
     },
     {
-      "epoch": 3.0252100840336134,
-      "grad_norm": 2.2038803100585938,
-      "learning_rate": 0.0001534583063994829,
-      "loss": 0.7271,
       "step": 360
     },
     {
-      "epoch": 3.1092436974789917,
-      "grad_norm": 2.8037712574005127,
-      "learning_rate": 0.0001521654815772463,
-      "loss": 0.6003,
       "step": 370
     },
     {
-      "epoch": 3.19327731092437,
-      "grad_norm": 1.8391917943954468,
-      "learning_rate": 0.0001508726567550097,
-      "loss": 0.6642,
       "step": 380
     },
     {
-      "epoch": 3.277310924369748,
-      "grad_norm": 4.166950225830078,
-      "learning_rate": 0.00014957983193277313,
-      "loss": 0.6483,
       "step": 390
     },
     {
-      "epoch": 3.361344537815126,
-      "grad_norm": 2.6970036029815674,
-      "learning_rate": 0.00014828700711053654,
-      "loss": 0.5798,
       "step": 400
     },
     {
-      "epoch": 3.361344537815126,
-      "eval_accuracy": 0.6745283018867925,
-      "eval_loss": 0.7452366948127747,
-      "eval_runtime": 2.3359,
-      "eval_samples_per_second": 90.759,
-      "eval_steps_per_second": 11.559,
       "step": 400
     },
     {
-      "epoch": 3.4453781512605044,
-      "grad_norm": 2.7985074520111084,
-      "learning_rate": 0.00014699418228829994,
-      "loss": 0.5447,
       "step": 410
     },
     {
-      "epoch": 3.5294117647058822,
-      "grad_norm": 5.049683094024658,
-      "learning_rate": 0.00014570135746606335,
-      "loss": 0.6424,
       "step": 420
     },
     {
-      "epoch": 3.6134453781512605,
-      "grad_norm": 2.288046360015869,
-      "learning_rate": 0.00014440853264382675,
-      "loss": 0.5786,
       "step": 430
     },
     {
-      "epoch": 3.697478991596639,
-      "grad_norm": 2.6284878253936768,
-      "learning_rate": 0.0001431157078215902,
-      "loss": 0.4704,
       "step": 440
     },
     {
-      "epoch": 3.7815126050420167,
-      "grad_norm": 3.1169135570526123,
-      "learning_rate": 0.0001418228829993536,
-      "loss": 0.5602,
       "step": 450
     },
     {
-      "epoch": 3.865546218487395,
-      "grad_norm": 4.109696388244629,
-      "learning_rate": 0.000140530058177117,
-      "loss": 0.5028,
       "step": 460
     },
     {
-      "epoch": 3.9495798319327733,
-      "grad_norm": 2.4809916019439697,
-      "learning_rate": 0.0001392372333548804,
-      "loss": 0.5331,
       "step": 470
     },
     {
-      "epoch": 4.033613445378151,
-      "grad_norm": 5.215726375579834,
-      "learning_rate": 0.00013794440853264384,
-      "loss": 0.6104,
       "step": 480
     },
     {
-      "epoch": 4.117647058823529,
-      "grad_norm": 2.3470144271850586,
-      "learning_rate": 0.00013665158371040724,
-      "loss": 0.3547,
       "step": 490
     },
     {
-      "epoch": 4.201680672268908,
-      "grad_norm": 2.578737258911133,
-      "learning_rate": 0.00013535875888817068,
-      "loss": 0.4879,
       "step": 500
     },
     {
-      "epoch": 4.201680672268908,
-      "eval_accuracy": 0.6556603773584906,
-      "eval_loss": 0.8673213720321655,
-      "eval_runtime": 2.9615,
-      "eval_samples_per_second": 71.585,
-      "eval_steps_per_second": 9.117,
       "step": 500
     },
     {
-      "epoch": 4.285714285714286,
-      "grad_norm": 8.1809663772583,
-      "learning_rate": 0.00013406593406593405,
-      "loss": 0.3164,
       "step": 510
     },
     {
-      "epoch": 4.369747899159664,
-      "grad_norm": 5.916128158569336,
-      "learning_rate": 0.0001327731092436975,
-      "loss": 0.3425,
       "step": 520
     },
     {
-      "epoch": 4.453781512605042,
-      "grad_norm": 1.5418981313705444,
-      "learning_rate": 0.0001314802844214609,
-      "loss": 0.3219,
       "step": 530
     },
     {
-      "epoch": 4.53781512605042,
-      "grad_norm": 0.39303484559059143,
-      "learning_rate": 0.00013018745959922433,
-      "loss": 0.372,
       "step": 540
     },
     {
-      "epoch": 4.621848739495798,
-      "grad_norm": 2.0171704292297363,
-      "learning_rate": 0.00012889463477698773,
-      "loss": 0.3941,
       "step": 550
     },
     {
-      "epoch": 4.705882352941177,
-      "grad_norm": 5.667063236236572,
-      "learning_rate": 0.00012760180995475114,
-      "loss": 0.3784,
       "step": 560
     },
     {
-      "epoch": 4.7899159663865545,
-      "grad_norm": 2.0401604175567627,
-      "learning_rate": 0.00012630898513251454,
-      "loss": 0.3231,
       "step": 570
     },
     {
-      "epoch": 4.873949579831933,
-      "grad_norm": 2.5163936614990234,
-      "learning_rate": 0.00012501616031027798,
-      "loss": 0.3287,
       "step": 580
     },
     {
-      "epoch": 4.957983193277311,
-      "grad_norm": 2.357574939727783,
-      "learning_rate": 0.00012372333548804138,
-      "loss": 0.2309,
       "step": 590
     },
     {
-      "epoch": 5.042016806722689,
-      "grad_norm": 2.399186611175537,
-      "learning_rate": 0.0001224305106658048,
-      "loss": 0.197,
       "step": 600
     },
     {
-      "epoch": 5.042016806722689,
-      "eval_accuracy": 0.6556603773584906,
-      "eval_loss": 1.0144904851913452,
-      "eval_runtime": 2.2097,
-      "eval_samples_per_second": 95.94,
-      "eval_steps_per_second": 12.219,
       "step": 600
     },
     {
-      "epoch": 5.126050420168067,
-      "grad_norm": 4.648927688598633,
-      "learning_rate": 0.00012113768584356819,
-      "loss": 0.2243,
       "step": 610
     },
     {
-      "epoch": 5.2100840336134455,
-      "grad_norm": 5.755702972412109,
-      "learning_rate": 0.00011984486102133161,
-      "loss": 0.1775,
       "step": 620
     },
     {
-      "epoch": 5.294117647058823,
-      "grad_norm": 5.102352619171143,
-      "learning_rate": 0.00011855203619909503,
-      "loss": 0.1982,
       "step": 630
     },
     {
-      "epoch": 5.378151260504202,
-      "grad_norm": 2.311920404434204,
-      "learning_rate": 0.00011725921137685845,
-      "loss": 0.2125,
       "step": 640
     },
     {
-      "epoch": 5.46218487394958,
-      "grad_norm": 5.563356876373291,
-      "learning_rate": 0.00011596638655462187,
-      "loss": 0.2259,
       "step": 650
     },
     {
-      "epoch": 5.546218487394958,
-      "grad_norm": 5.233443260192871,
-      "learning_rate": 0.00011467356173238526,
-      "loss": 0.263,
       "step": 660
     },
     {
-      "epoch": 5.630252100840336,
-      "grad_norm": 2.19209361076355,
-      "learning_rate": 0.00011338073691014868,
-      "loss": 0.2627,
       "step": 670
     },
     {
-      "epoch": 5.714285714285714,
-      "grad_norm": 5.696531772613525,
-      "learning_rate": 0.0001120879120879121,
-      "loss": 0.2588,
       "step": 680
     },
     {
-      "epoch": 5.798319327731092,
-      "grad_norm": 4.516761302947998,
-      "learning_rate": 0.0001107950872656755,
-      "loss": 0.2148,
       "step": 690
     },
     {
-      "epoch": 5.882352941176471,
-      "grad_norm": 0.21505996584892273,
-      "learning_rate": 0.00010950226244343893,
-      "loss": 0.1368,
       "step": 700
     },
     {
-      "epoch": 5.882352941176471,
-      "eval_accuracy": 0.7311320754716981,
-      "eval_loss": 0.8305109739303589,
-      "eval_runtime": 2.2559,
-      "eval_samples_per_second": 93.974,
-      "eval_steps_per_second": 11.968,
       "step": 700
     },
     {
-      "epoch": 5.966386554621849,
-      "grad_norm": 4.3951263427734375,
-      "learning_rate": 0.00010820943762120233,
-      "loss": 0.2699,
       "step": 710
     },
     {
-      "epoch": 6.050420168067227,
-      "grad_norm": 0.8779445290565491,
-      "learning_rate": 0.00010691661279896574,
-      "loss": 0.1172,
       "step": 720
     },
     {
-      "epoch": 6.1344537815126055,
-      "grad_norm": 4.695611476898193,
-      "learning_rate": 0.00010562378797672916,
-      "loss": 0.13,
       "step": 730
     },
     {
-      "epoch": 6.218487394957983,
-      "grad_norm": 7.564522743225098,
-      "learning_rate": 0.00010433096315449258,
-      "loss": 0.1392,
       "step": 740
     },
     {
-      "epoch": 6.302521008403361,
-      "grad_norm": 0.17681638896465302,
-      "learning_rate": 0.00010303813833225597,
-      "loss": 0.0828,
       "step": 750
     },
     {
-      "epoch": 6.38655462184874,
-      "grad_norm": 2.515813112258911,
-      "learning_rate": 0.00010174531351001939,
-      "loss": 0.1119,
       "step": 760
     },
     {
-      "epoch": 6.470588235294118,
-      "grad_norm": 0.3115313649177551,
-      "learning_rate": 0.0001004524886877828,
-      "loss": 0.0667,
       "step": 770
     },
     {
-      "epoch": 6.554621848739496,
-      "grad_norm": 0.9338003396987915,
-      "learning_rate": 9.915966386554623e-05,
-      "loss": 0.0779,
       "step": 780
     },
     {
-      "epoch": 6.6386554621848735,
-      "grad_norm": 5.663729190826416,
-      "learning_rate": 9.786683904330963e-05,
-      "loss": 0.0949,
       "step": 790
     },
     {
-      "epoch": 6.722689075630252,
-      "grad_norm": 1.159752368927002,
-      "learning_rate": 9.657401422107305e-05,
-      "loss": 0.0841,
       "step": 800
     },
     {
-      "epoch": 6.722689075630252,
-      "eval_accuracy": 0.7735849056603774,
-      "eval_loss": 0.8974043130874634,
-      "eval_runtime": 2.2126,
-      "eval_samples_per_second": 95.816,
-      "eval_steps_per_second": 12.203,
       "step": 800
     },
     {
-      "epoch": 6.80672268907563,
-      "grad_norm": 0.8134496808052063,
-      "learning_rate": 9.528118939883646e-05,
-      "loss": 0.1272,
       "step": 810
     },
     {
-      "epoch": 6.890756302521009,
-      "grad_norm": 0.09464468061923981,
-      "learning_rate": 9.398836457659988e-05,
-      "loss": 0.1339,
       "step": 820
     },
     {
-      "epoch": 6.974789915966387,
-      "grad_norm": 0.08403979986906052,
-      "learning_rate": 9.26955397543633e-05,
-      "loss": 0.0779,
       "step": 830
     },
     {
-      "epoch": 7.0588235294117645,
-      "grad_norm": 0.11395015567541122,
-      "learning_rate": 9.14027149321267e-05,
-      "loss": 0.0495,
       "step": 840
     },
     {
-      "epoch": 7.142857142857143,
-      "grad_norm": 5.00321102142334,
-      "learning_rate": 9.010989010989012e-05,
-      "loss": 0.2217,
       "step": 850
     },
     {
-      "epoch": 7.226890756302521,
-      "grad_norm": 5.354154109954834,
-      "learning_rate": 8.881706528765353e-05,
-      "loss": 0.0713,
       "step": 860
     },
     {
-      "epoch": 7.310924369747899,
-      "grad_norm": 0.07731425017118454,
-      "learning_rate": 8.752424046541694e-05,
-      "loss": 0.0482,
       "step": 870
     },
     {
-      "epoch": 7.394957983193278,
-      "grad_norm": 1.70600163936615,
-      "learning_rate": 8.623141564318036e-05,
-      "loss": 0.0368,
       "step": 880
     },
     {
-      "epoch": 7.4789915966386555,
-      "grad_norm": 0.09904234856367111,
-      "learning_rate": 8.493859082094377e-05,
-      "loss": 0.0389,
       "step": 890
     },
     {
-      "epoch": 7.563025210084033,
-      "grad_norm": 5.335230350494385,
-      "learning_rate": 8.364576599870718e-05,
-      "loss": 0.0942,
       "step": 900
     },
     {
-      "epoch": 7.563025210084033,
-      "eval_accuracy": 0.7216981132075472,
-      "eval_loss": 1.1261749267578125,
-      "eval_runtime": 2.2006,
-      "eval_samples_per_second": 96.335,
-      "eval_steps_per_second": 12.269,
       "step": 900
     },
     {
-      "epoch": 7.647058823529412,
-      "grad_norm": 5.030584812164307,
-      "learning_rate": 8.23529411764706e-05,
-      "loss": 0.0278,
       "step": 910
     },
     {
-      "epoch": 7.73109243697479,
-      "grad_norm": 0.12369989603757858,
-      "learning_rate": 8.1060116354234e-05,
-      "loss": 0.1137,
       "step": 920
     },
     {
-      "epoch": 7.815126050420168,
-      "grad_norm": 7.5863189697265625,
-      "learning_rate": 7.976729153199742e-05,
-      "loss": 0.0904,
       "step": 930
     },
     {
-      "epoch": 7.899159663865547,
-      "grad_norm": 0.2067825049161911,
-      "learning_rate": 7.847446670976083e-05,
-      "loss": 0.0397,
       "step": 940
     },
     {
-      "epoch": 7.983193277310924,
-      "grad_norm": 0.056721098721027374,
-      "learning_rate": 7.718164188752424e-05,
-      "loss": 0.0679,
       "step": 950
     },
     {
-      "epoch": 8.067226890756302,
-      "grad_norm": 0.05310463905334473,
-      "learning_rate": 7.588881706528765e-05,
-      "loss": 0.0329,
       "step": 960
     },
     {
-      "epoch": 8.15126050420168,
-      "grad_norm": 7.898382663726807,
-      "learning_rate": 7.459599224305107e-05,
-      "loss": 0.0183,
       "step": 970
     },
     {
-      "epoch": 8.235294117647058,
-      "grad_norm": 2.061277151107788,
-      "learning_rate": 7.330316742081448e-05,
-      "loss": 0.0311,
       "step": 980
     },
     {
-      "epoch": 8.319327731092438,
-      "grad_norm": 0.06646686792373657,
-      "learning_rate": 7.20103425985779e-05,
-      "loss": 0.0334,
       "step": 990
     },
     {
-      "epoch": 8.403361344537815,
-      "grad_norm": 0.07112545520067215,
-      "learning_rate": 7.071751777634131e-05,
-      "loss": 0.0296,
       "step": 1000
     },
     {
-      "epoch": 8.403361344537815,
-      "eval_accuracy": 0.7122641509433962,
-      "eval_loss": 1.2889635562896729,
-      "eval_runtime": 2.2011,
-      "eval_samples_per_second": 96.314,
-      "eval_steps_per_second": 12.266,
       "step": 1000
     },
     {
-      "epoch": 8.487394957983193,
-      "grad_norm": 0.07936228811740875,
-      "learning_rate": 6.942469295410472e-05,
-      "loss": 0.0256,
       "step": 1010
     },
     {
-      "epoch": 8.571428571428571,
-      "grad_norm": 5.849864959716797,
-      "learning_rate": 6.813186813186814e-05,
-      "loss": 0.0346,
       "step": 1020
     },
     {
-      "epoch": 8.655462184873949,
-      "grad_norm": 0.05158023163676262,
-      "learning_rate": 6.683904330963154e-05,
-      "loss": 0.0109,
       "step": 1030
     },
     {
-      "epoch": 8.739495798319329,
-      "grad_norm": 0.05596969276666641,
-      "learning_rate": 6.554621848739496e-05,
-      "loss": 0.0129,
       "step": 1040
     },
     {
-      "epoch": 8.823529411764707,
-      "grad_norm": 0.05292417109012604,
-      "learning_rate": 6.425339366515838e-05,
-      "loss": 0.033,
       "step": 1050
     },
     {
-      "epoch": 8.907563025210084,
-      "grad_norm": 0.8892333507537842,
-      "learning_rate": 6.296056884292179e-05,
-      "loss": 0.0199,
       "step": 1060
     },
     {
-      "epoch": 8.991596638655462,
-      "grad_norm": 1.8524911403656006,
-      "learning_rate": 6.166774402068521e-05,
-      "loss": 0.0324,
       "step": 1070
     },
     {
-      "epoch": 9.07563025210084,
-      "grad_norm": 0.040928326547145844,
-      "learning_rate": 6.037491919844861e-05,
-      "loss": 0.0352,
       "step": 1080
     },
     {
-      "epoch": 9.159663865546218,
-      "grad_norm": 0.043698906898498535,
-      "learning_rate": 5.9082094376212026e-05,
-      "loss": 0.009,
       "step": 1090
     },
     {
-      "epoch": 9.243697478991596,
-      "grad_norm": 0.04034803435206413,
-      "learning_rate": 5.778926955397543e-05,
-      "loss": 0.0432,
       "step": 1100
     },
     {
-      "epoch": 9.243697478991596,
-      "eval_accuracy": 0.7405660377358491,
-      "eval_loss": 1.2427575588226318,
-      "eval_runtime": 2.1879,
-      "eval_samples_per_second": 96.895,
-      "eval_steps_per_second": 12.34,
       "step": 1100
     },
     {
-      "epoch": 9.327731092436975,
-      "grad_norm": 0.042758312076330185,
-      "learning_rate": 5.649644473173885e-05,
-      "loss": 0.0086,
       "step": 1110
     },
     {
-      "epoch": 9.411764705882353,
-      "grad_norm": 0.05348571389913559,
-      "learning_rate": 5.520361990950227e-05,
-      "loss": 0.0113,
       "step": 1120
     },
     {
-      "epoch": 9.495798319327731,
-      "grad_norm": 0.04173032566905022,
-      "learning_rate": 5.3910795087265676e-05,
-      "loss": 0.0083,
       "step": 1130
     },
     {
-      "epoch": 9.579831932773109,
-      "grad_norm": 0.03784575313329697,
-      "learning_rate": 5.2617970265029096e-05,
-      "loss": 0.0086,
       "step": 1140
     },
     {
-      "epoch": 9.663865546218487,
-      "grad_norm": 0.05332985520362854,
-      "learning_rate": 5.13251454427925e-05,
-      "loss": 0.0086,
       "step": 1150
     },
     {
-      "epoch": 9.747899159663866,
-      "grad_norm": 0.03503885120153427,
-      "learning_rate": 5.0032320620555914e-05,
-      "loss": 0.0078,
       "step": 1160
     },
     {
-      "epoch": 9.831932773109244,
-      "grad_norm": 0.033440928906202316,
-      "learning_rate": 4.8739495798319326e-05,
-      "loss": 0.0095,
       "step": 1170
     },
     {
-      "epoch": 9.915966386554622,
-      "grad_norm": 0.03903155028820038,
-      "learning_rate": 4.744667097608274e-05,
-      "loss": 0.0071,
       "step": 1180
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 0.034581057727336884,
-      "learning_rate": 4.615384615384616e-05,
-      "loss": 0.0347,
       "step": 1190
     },
     {
-      "epoch": 10.084033613445378,
-      "grad_norm": 4.804828643798828,
-      "learning_rate": 4.486102133160957e-05,
-      "loss": 0.0353,
       "step": 1200
     },
     {
-      "epoch": 10.084033613445378,
-      "eval_accuracy": 0.7452830188679245,
-      "eval_loss": 1.250637173652649,
-      "eval_runtime": 2.1411,
-      "eval_samples_per_second": 99.016,
-      "eval_steps_per_second": 12.61,
       "step": 1200
     },
     {
-      "epoch": 10.168067226890756,
-      "grad_norm": 0.03247935697436333,
-      "learning_rate": 4.356819650937298e-05,
-      "loss": 0.0071,
       "step": 1210
     },
     {
-      "epoch": 10.252100840336134,
-      "grad_norm": 0.03735749423503876,
-      "learning_rate": 4.2275371687136396e-05,
-      "loss": 0.007,
       "step": 1220
     },
     {
-      "epoch": 10.336134453781513,
-      "grad_norm": 0.03190077841281891,
-      "learning_rate": 4.098254686489981e-05,
-      "loss": 0.0068,
       "step": 1230
     },
     {
-      "epoch": 10.420168067226891,
-      "grad_norm": 0.03304820880293846,
-      "learning_rate": 3.968972204266322e-05,
-      "loss": 0.0063,
       "step": 1240
     },
     {
-      "epoch": 10.504201680672269,
-      "grad_norm": 0.038498662412166595,
-      "learning_rate": 3.839689722042663e-05,
-      "loss": 0.0069,
       "step": 1250
     },
     {
-      "epoch": 10.588235294117647,
-      "grad_norm": 0.03530021384358406,
-      "learning_rate": 3.7104072398190046e-05,
-      "loss": 0.0067,
       "step": 1260
     },
     {
-      "epoch": 10.672268907563025,
-      "grad_norm": 0.041745755821466446,
-      "learning_rate": 3.581124757595346e-05,
-      "loss": 0.0063,
       "step": 1270
     },
     {
-      "epoch": 10.756302521008404,
-      "grad_norm": 0.03443057835102081,
-      "learning_rate": 3.451842275371687e-05,
-      "loss": 0.0062,
       "step": 1280
     },
     {
-      "epoch": 10.840336134453782,
-      "grad_norm": 0.029045993462204933,
-      "learning_rate": 3.322559793148028e-05,
-      "loss": 0.0063,
       "step": 1290
     },
     {
-      "epoch": 10.92436974789916,
-      "grad_norm": 0.04033966362476349,
-      "learning_rate": 3.1932773109243696e-05,
-      "loss": 0.0065,
       "step": 1300
     },
     {
-      "epoch": 10.92436974789916,
-      "eval_accuracy": 0.7783018867924528,
-      "eval_loss": 1.1232017278671265,
-      "eval_runtime": 2.9539,
-      "eval_samples_per_second": 71.77,
-      "eval_steps_per_second": 9.141,
       "step": 1300
     },
     {
-      "epoch": 11.008403361344538,
-      "grad_norm": 0.029126280918717384,
-      "learning_rate": 3.0639948287007115e-05,
-      "loss": 0.0063,
       "step": 1310
     },
     {
-      "epoch": 11.092436974789916,
-      "grad_norm": 0.02833595871925354,
-      "learning_rate": 2.9347123464770527e-05,
-      "loss": 0.0063,
       "step": 1320
     },
     {
-      "epoch": 11.176470588235293,
-      "grad_norm": 0.032052479684352875,
-      "learning_rate": 2.805429864253394e-05,
-      "loss": 0.0063,
       "step": 1330
     },
     {
-      "epoch": 11.260504201680673,
-      "grad_norm": 0.030251996591687202,
-      "learning_rate": 2.676147382029735e-05,
-      "loss": 0.006,
       "step": 1340
     },
     {
-      "epoch": 11.344537815126051,
-      "grad_norm": 0.030112557113170624,
-      "learning_rate": 2.546864899806076e-05,
-      "loss": 0.0059,
       "step": 1350
     },
     {
-      "epoch": 11.428571428571429,
-      "grad_norm": 0.027209602296352386,
-      "learning_rate": 2.4175824175824177e-05,
-      "loss": 0.0059,
       "step": 1360
     },
     {
-      "epoch": 11.512605042016807,
-      "grad_norm": 0.027164172381162643,
-      "learning_rate": 2.288299935358759e-05,
-      "loss": 0.0057,
       "step": 1370
     },
     {
-      "epoch": 11.596638655462185,
-      "grad_norm": 0.02858646586537361,
-      "learning_rate": 2.1590174531351002e-05,
-      "loss": 0.0058,
       "step": 1380
     },
     {
-      "epoch": 11.680672268907562,
-      "grad_norm": 0.02894781529903412,
-      "learning_rate": 2.0297349709114415e-05,
-      "loss": 0.0055,
       "step": 1390
     },
     {
-      "epoch": 11.764705882352942,
-      "grad_norm": 0.025563258677721024,
-      "learning_rate": 1.9004524886877827e-05,
-      "loss": 0.0056,
       "step": 1400
     },
     {
-      "epoch": 11.764705882352942,
-      "eval_accuracy": 0.7830188679245284,
-      "eval_loss": 1.1348851919174194,
-      "eval_runtime": 2.1553,
-      "eval_samples_per_second": 98.362,
-      "eval_steps_per_second": 12.527,
       "step": 1400
     },
     {
-      "epoch": 11.84873949579832,
-      "grad_norm": 0.027119316160678864,
-      "learning_rate": 1.7711700064641243e-05,
-      "loss": 0.0056,
       "step": 1410
     },
     {
-      "epoch": 11.932773109243698,
-      "grad_norm": 0.02663271874189377,
-      "learning_rate": 1.6418875242404656e-05,
-      "loss": 0.0055,
       "step": 1420
     },
     {
-      "epoch": 12.016806722689076,
-      "grad_norm": 0.027364488691091537,
-      "learning_rate": 1.5126050420168067e-05,
-      "loss": 0.0054,
       "step": 1430
     },
     {
-      "epoch": 12.100840336134453,
-      "grad_norm": 0.02702498808503151,
-      "learning_rate": 1.3833225597931483e-05,
-      "loss": 0.0057,
       "step": 1440
     },
     {
-      "epoch": 12.184873949579831,
-      "grad_norm": 0.02570091001689434,
-      "learning_rate": 1.2540400775694893e-05,
-      "loss": 0.0054,
       "step": 1450
     },
     {
-      "epoch": 12.268907563025211,
-      "grad_norm": 0.02761007659137249,
-      "learning_rate": 1.1247575953458308e-05,
-      "loss": 0.0055,
       "step": 1460
     },
     {
-      "epoch": 12.352941176470589,
-      "grad_norm": 0.02617548778653145,
-      "learning_rate": 9.95475113122172e-06,
-      "loss": 0.0055,
       "step": 1470
     },
     {
-      "epoch": 12.436974789915967,
-      "grad_norm": 0.02675885520875454,
-      "learning_rate": 8.661926308985133e-06,
-      "loss": 0.0056,
       "step": 1480
     },
     {
-      "epoch": 12.521008403361344,
-      "grad_norm": 0.029071761295199394,
-      "learning_rate": 7.369101486748546e-06,
-      "loss": 0.0052,
       "step": 1490
     },
     {
-      "epoch": 12.605042016806722,
-      "grad_norm": 0.02562028169631958,
-      "learning_rate": 6.076276664511959e-06,
-      "loss": 0.0054,
       "step": 1500
     },
     {
-      "epoch": 12.605042016806722,
-      "eval_accuracy": 0.7830188679245284,
-      "eval_loss": 1.1463406085968018,
-      "eval_runtime": 2.157,
-      "eval_samples_per_second": 98.284,
-      "eval_steps_per_second": 12.517,
       "step": 1500
     },
     {
-      "epoch": 12.6890756302521,
-      "grad_norm": 0.024869520217180252,
-      "learning_rate": 4.783451842275372e-06,
-      "loss": 0.0055,
       "step": 1510
     },
     {
-      "epoch": 12.77310924369748,
-      "grad_norm": 0.02748894691467285,
-      "learning_rate": 3.490627020038785e-06,
-      "loss": 0.0056,
       "step": 1520
     },
     {
-      "epoch": 12.857142857142858,
-      "grad_norm": 0.026005534455180168,
-      "learning_rate": 2.197802197802198e-06,
-      "loss": 0.0056,
       "step": 1530
     },
     {
-      "epoch": 12.941176470588236,
-      "grad_norm": 0.028039414435625076,
-      "learning_rate": 9.04977375565611e-07,
-      "loss": 0.0054,
       "step": 1540
     },
     {
-      "epoch": 13.0,
-      "step": 1547,
-      "total_flos": 1.9140864535683072e+18,
-      "train_loss": 0.35688263059153663,
-      "train_runtime": 955.328,
-      "train_samples_per_second": 25.855,
-      "train_steps_per_second": 1.619
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1547,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 13,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1248,7 +1880,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9140864535683072e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3162367641925812,
+  "best_model_checkpoint": "vit-weldclassifyv4/checkpoint-1000",
+  "epoch": 15.0,
   "eval_steps": 100,
+  "global_step": 2340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0641025641025641,
+      "grad_norm": 1.9132781028747559,
+      "learning_rate": 0.00019914529914529915,
+      "loss": 1.2054,
       "step": 10
     },
     {
+      "epoch": 0.1282051282051282,
+      "grad_norm": 1.633124589920044,
+      "learning_rate": 0.0001982905982905983,
+      "loss": 1.0748,
       "step": 20
     },
     {
+      "epoch": 0.19230769230769232,
+      "grad_norm": 2.4126267433166504,
+      "learning_rate": 0.00019743589743589744,
+      "loss": 1.0973,
       "step": 30
     },
     {
+      "epoch": 0.2564102564102564,
+      "grad_norm": 3.881457567214966,
+      "learning_rate": 0.00019658119658119659,
+      "loss": 1.0609,
       "step": 40
     },
     {
+      "epoch": 0.32051282051282054,
+      "grad_norm": 3.1995434761047363,
+      "learning_rate": 0.00019572649572649573,
+      "loss": 1.0024,
       "step": 50
     },
     {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 2.410505533218384,
+      "learning_rate": 0.00019487179487179487,
+      "loss": 0.8658,
       "step": 60
     },
     {
+      "epoch": 0.44871794871794873,
+      "grad_norm": 2.05910325050354,
+      "learning_rate": 0.00019401709401709402,
+      "loss": 0.9616,
       "step": 70
     },
     {
+      "epoch": 0.5128205128205128,
+      "grad_norm": 4.032101154327393,
+      "learning_rate": 0.00019316239316239316,
+      "loss": 0.9391,
       "step": 80
     },
     {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 2.779008150100708,
+      "learning_rate": 0.00019230769230769233,
+      "loss": 0.9206,
       "step": 90
     },
     {
+      "epoch": 0.6410256410256411,
+      "grad_norm": 2.771672010421753,
+      "learning_rate": 0.00019145299145299148,
+      "loss": 0.8146,
       "step": 100
     },
     {
+      "epoch": 0.6410256410256411,
+      "eval_accuracy": 0.6834532374100719,
+      "eval_loss": 0.7348725199699402,
+      "eval_runtime": 2.6163,
+      "eval_samples_per_second": 106.259,
+      "eval_steps_per_second": 13.378,
       "step": 100
     },
     {
+      "epoch": 0.7051282051282052,
+      "grad_norm": 2.4781739711761475,
+      "learning_rate": 0.0001905982905982906,
+      "loss": 0.7542,
       "step": 110
     },
     {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 2.8731400966644287,
+      "learning_rate": 0.00018974358974358974,
+      "loss": 0.7726,
       "step": 120
     },
     {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 2.480015277862549,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 0.6705,
       "step": 130
     },
     {
+      "epoch": 0.8974358974358975,
+      "grad_norm": 3.7568867206573486,
+      "learning_rate": 0.00018803418803418803,
+      "loss": 0.6004,
       "step": 140
     },
     {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 2.720820903778076,
+      "learning_rate": 0.0001871794871794872,
+      "loss": 0.8144,
       "step": 150
     },
     {
+      "epoch": 1.0256410256410255,
+      "grad_norm": 1.9295154809951782,
+      "learning_rate": 0.00018632478632478634,
+      "loss": 0.6479,
       "step": 160
     },
     {
+      "epoch": 1.0897435897435896,
+      "grad_norm": 3.0400049686431885,
+      "learning_rate": 0.0001854700854700855,
+      "loss": 0.522,
       "step": 170
     },
     {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 3.7371773719787598,
+      "learning_rate": 0.00018461538461538463,
+      "loss": 0.5998,
       "step": 180
     },
     {
+      "epoch": 1.217948717948718,
+      "grad_norm": 2.992065668106079,
+      "learning_rate": 0.00018376068376068375,
+      "loss": 0.6268,
       "step": 190
     },
     {
+      "epoch": 1.282051282051282,
+      "grad_norm": 2.213074207305908,
+      "learning_rate": 0.00018290598290598292,
+      "loss": 0.6048,
       "step": 200
     },
     {
+      "epoch": 1.282051282051282,
+      "eval_accuracy": 0.697841726618705,
+      "eval_loss": 0.6820898056030273,
+      "eval_runtime": 2.7768,
+      "eval_samples_per_second": 100.114,
+      "eval_steps_per_second": 12.604,
       "step": 200
     },
     {
+      "epoch": 1.3461538461538463,
+      "grad_norm": 3.2302353382110596,
+      "learning_rate": 0.00018205128205128207,
+      "loss": 0.6054,
       "step": 210
     },
     {
+      "epoch": 1.4102564102564101,
+      "grad_norm": 3.9419608116149902,
+      "learning_rate": 0.0001811965811965812,
+      "loss": 0.5863,
       "step": 220
     },
     {
+      "epoch": 1.4743589743589745,
+      "grad_norm": 2.5351428985595703,
+      "learning_rate": 0.00018034188034188035,
+      "loss": 0.4328,
       "step": 230
     },
     {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 2.677548885345459,
+      "learning_rate": 0.0001794871794871795,
+      "loss": 0.4744,
       "step": 240
     },
     {
+      "epoch": 1.6025641025641026,
+      "grad_norm": 2.3627212047576904,
+      "learning_rate": 0.00017863247863247864,
+      "loss": 0.3523,
       "step": 250
     },
     {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 6.175805568695068,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 0.5934,
       "step": 260
     },
     {
+      "epoch": 1.7307692307692308,
+      "grad_norm": 2.920872211456299,
+      "learning_rate": 0.00017692307692307693,
+      "loss": 0.5758,
       "step": 270
     },
     {
+      "epoch": 1.7948717948717947,
+      "grad_norm": 2.1116819381713867,
+      "learning_rate": 0.00017606837606837607,
+      "loss": 0.5086,
       "step": 280
     },
     {
+      "epoch": 1.858974358974359,
+      "grad_norm": 3.4553894996643066,
+      "learning_rate": 0.00017521367521367522,
+      "loss": 0.4474,
       "step": 290
     },
     {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 2.4064671993255615,
+      "learning_rate": 0.00017435897435897436,
+      "loss": 0.4796,
       "step": 300
     },
     {
+      "epoch": 1.9230769230769231,
+      "eval_accuracy": 0.8129496402877698,
+      "eval_loss": 0.48327746987342834,
+      "eval_runtime": 2.565,
+      "eval_samples_per_second": 108.383,
+      "eval_steps_per_second": 13.645,
       "step": 300
     },
     {
+      "epoch": 1.9871794871794872,
+      "grad_norm": 3.8495571613311768,
+      "learning_rate": 0.0001735042735042735,
+      "loss": 0.4925,
       "step": 310
     },
     {
+      "epoch": 2.051282051282051,
+      "grad_norm": 2.036381244659424,
+      "learning_rate": 0.00017264957264957268,
+      "loss": 0.3936,
       "step": 320
     },
     {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 3.381953001022339,
+      "learning_rate": 0.0001717948717948718,
+      "loss": 0.3416,
       "step": 330
     },
     {
+      "epoch": 2.1794871794871793,
+      "grad_norm": 5.715399265289307,
+      "learning_rate": 0.00017094017094017094,
+      "loss": 0.4081,
       "step": 340
     },
     {
+      "epoch": 2.2435897435897436,
+      "grad_norm": 2.237466335296631,
+      "learning_rate": 0.00017008547008547008,
+      "loss": 0.3313,
       "step": 350
     },
     {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 5.658877372741699,
+      "learning_rate": 0.00016923076923076923,
+      "loss": 0.3926,
       "step": 360
     },
     {
+      "epoch": 2.371794871794872,
+      "grad_norm": 3.633448362350464,
+      "learning_rate": 0.00016837606837606837,
+      "loss": 0.4664,
       "step": 370
     },
     {
+      "epoch": 2.435897435897436,
+      "grad_norm": 4.460226058959961,
+      "learning_rate": 0.00016752136752136754,
+      "loss": 0.4206,
       "step": 380
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 1.1033204793930054,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.2678,
       "step": 390
     },
     {
+      "epoch": 2.564102564102564,
+      "grad_norm": 6.69362735748291,
+      "learning_rate": 0.00016581196581196583,
+      "loss": 0.4532,
       "step": 400
     },
     {
+      "epoch": 2.564102564102564,
+      "eval_accuracy": 0.802158273381295,
+      "eval_loss": 0.5380275249481201,
+      "eval_runtime": 3.354,
+      "eval_samples_per_second": 82.885,
+      "eval_steps_per_second": 10.435,
       "step": 400
     },
     {
+      "epoch": 2.628205128205128,
+      "grad_norm": 2.1671810150146484,
+      "learning_rate": 0.00016495726495726495,
+      "loss": 0.2966,
       "step": 410
     },
     {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 4.671816825866699,
+      "learning_rate": 0.0001641025641025641,
+      "loss": 0.3559,
       "step": 420
     },
     {
+      "epoch": 2.7564102564102564,
+      "grad_norm": 2.6795239448547363,
+      "learning_rate": 0.00016324786324786327,
+      "loss": 0.2111,
       "step": 430
     },
     {
+      "epoch": 2.8205128205128203,
+      "grad_norm": 1.8368570804595947,
+      "learning_rate": 0.0001623931623931624,
+      "loss": 0.2227,
       "step": 440
     },
     {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 0.7519993185997009,
+      "learning_rate": 0.00016153846153846155,
+      "loss": 0.2185,
       "step": 450
     },
     {
+      "epoch": 2.948717948717949,
+      "grad_norm": 4.014621734619141,
+      "learning_rate": 0.0001606837606837607,
+      "loss": 0.2038,
       "step": 460
     },
     {
+      "epoch": 3.0128205128205128,
+      "grad_norm": 2.412414073944092,
+      "learning_rate": 0.00015982905982905984,
+      "loss": 0.1874,
       "step": 470
     },
     {
+      "epoch": 3.076923076923077,
+      "grad_norm": 3.7715134620666504,
+      "learning_rate": 0.00015897435897435896,
+      "loss": 0.1546,
       "step": 480
     },
     {
+      "epoch": 3.141025641025641,
+      "grad_norm": 1.5307694673538208,
+      "learning_rate": 0.00015811965811965813,
+      "loss": 0.1115,
       "step": 490
     },
     {
+      "epoch": 3.2051282051282053,
+      "grad_norm": 2.7572405338287354,
+      "learning_rate": 0.00015726495726495727,
+      "loss": 0.1242,
       "step": 500
     },
     {
+      "epoch": 3.2051282051282053,
+      "eval_accuracy": 0.8741007194244604,
+      "eval_loss": 0.3899326026439667,
+      "eval_runtime": 2.8072,
+      "eval_samples_per_second": 99.033,
+      "eval_steps_per_second": 12.468,
       "step": 500
     },
     {
+      "epoch": 3.269230769230769,
+      "grad_norm": 4.4104390144348145,
+      "learning_rate": 0.00015641025641025642,
+      "loss": 0.1986,
       "step": 510
     },
     {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.8930767774581909,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.0582,
       "step": 520
     },
     {
+      "epoch": 3.3974358974358974,
+      "grad_norm": 8.353619575500488,
+      "learning_rate": 0.0001547008547008547,
+      "loss": 0.2485,
       "step": 530
     },
     {
+      "epoch": 3.4615384615384617,
+      "grad_norm": 0.09837932884693146,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 0.1007,
       "step": 540
     },
     {
+      "epoch": 3.5256410256410255,
+      "grad_norm": 3.90265154838562,
+      "learning_rate": 0.000152991452991453,
+      "loss": 0.2279,
       "step": 550
     },
     {
+      "epoch": 3.58974358974359,
+      "grad_norm": 6.65275764465332,
+      "learning_rate": 0.00015213675213675214,
+      "loss": 0.1781,
       "step": 560
     },
     {
+      "epoch": 3.6538461538461537,
+      "grad_norm": 3.493739604949951,
+      "learning_rate": 0.00015128205128205128,
+      "loss": 0.2098,
       "step": 570
     },
     {
+      "epoch": 3.717948717948718,
+      "grad_norm": 4.4887614250183105,
+      "learning_rate": 0.00015042735042735043,
+      "loss": 0.1899,
       "step": 580
     },
     {
+      "epoch": 3.782051282051282,
+      "grad_norm": 1.8387681245803833,
+      "learning_rate": 0.00014957264957264957,
+      "loss": 0.1831,
       "step": 590
     },
     {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 5.91892671585083,
+      "learning_rate": 0.00014871794871794872,
+      "loss": 0.124,
       "step": 600
     },
     {
+      "epoch": 3.8461538461538463,
+      "eval_accuracy": 0.8273381294964028,
+      "eval_loss": 0.523663341999054,
+      "eval_runtime": 2.6143,
+      "eval_samples_per_second": 106.339,
+      "eval_steps_per_second": 13.388,
       "step": 600
     },
     {
+      "epoch": 3.91025641025641,
+      "grad_norm": 0.5099517703056335,
+      "learning_rate": 0.0001478632478632479,
+      "loss": 0.1566,
       "step": 610
     },
     {
+      "epoch": 3.9743589743589745,
+      "grad_norm": 0.4991530179977417,
+      "learning_rate": 0.00014700854700854703,
+      "loss": 0.1168,
       "step": 620
     },
     {
+      "epoch": 4.038461538461538,
+      "grad_norm": 4.448193550109863,
+      "learning_rate": 0.00014615384615384615,
+      "loss": 0.1044,
       "step": 630
     },
     {
+      "epoch": 4.102564102564102,
+      "grad_norm": 0.5183725357055664,
+      "learning_rate": 0.0001452991452991453,
+      "loss": 0.1078,
       "step": 640
     },
     {
+      "epoch": 4.166666666666667,
+      "grad_norm": 0.9525802135467529,
+      "learning_rate": 0.00014444444444444444,
+      "loss": 0.0967,
       "step": 650
     },
     {
+      "epoch": 4.230769230769231,
+      "grad_norm": 0.5207259058952332,
+      "learning_rate": 0.0001435897435897436,
+      "loss": 0.0973,
       "step": 660
     },
     {
+      "epoch": 4.294871794871795,
+      "grad_norm": 1.3160842657089233,
+      "learning_rate": 0.00014273504273504275,
+      "loss": 0.1256,
       "step": 670
     },
     {
+      "epoch": 4.358974358974359,
+      "grad_norm": 2.892195463180542,
+      "learning_rate": 0.0001418803418803419,
+      "loss": 0.1178,
       "step": 680
     },
     {
+      "epoch": 4.423076923076923,
+      "grad_norm": 3.8142576217651367,
+      "learning_rate": 0.00014102564102564104,
+      "loss": 0.0594,
       "step": 690
     },
     {
+      "epoch": 4.487179487179487,
+      "grad_norm": 0.11079952865839005,
+      "learning_rate": 0.00014017094017094016,
+      "loss": 0.1239,
       "step": 700
     },
     {
+      "epoch": 4.487179487179487,
+      "eval_accuracy": 0.8848920863309353,
+      "eval_loss": 0.4221162796020508,
+      "eval_runtime": 2.7273,
+      "eval_samples_per_second": 101.932,
+      "eval_steps_per_second": 12.833,
       "step": 700
     },
     {
+      "epoch": 4.551282051282051,
+      "grad_norm": 9.544878959655762,
+      "learning_rate": 0.0001393162393162393,
+      "loss": 0.1185,
       "step": 710
     },
     {
+      "epoch": 4.615384615384615,
+      "grad_norm": 0.06085001304745674,
+      "learning_rate": 0.00013846153846153847,
+      "loss": 0.0499,
       "step": 720
     },
     {
+      "epoch": 4.67948717948718,
+      "grad_norm": 12.285767555236816,
+      "learning_rate": 0.00013760683760683762,
+      "loss": 0.1623,
       "step": 730
     },
     {
+      "epoch": 4.743589743589744,
+      "grad_norm": 1.4333381652832031,
+      "learning_rate": 0.00013675213675213676,
+      "loss": 0.0903,
       "step": 740
     },
     {
+      "epoch": 4.8076923076923075,
+      "grad_norm": 0.37026920914649963,
+      "learning_rate": 0.0001358974358974359,
+      "loss": 0.082,
       "step": 750
     },
     {
+      "epoch": 4.871794871794872,
+      "grad_norm": 7.013845443725586,
+      "learning_rate": 0.00013504273504273505,
+      "loss": 0.0443,
       "step": 760
     },
     {
+      "epoch": 4.935897435897436,
+      "grad_norm": 0.3148520588874817,
+      "learning_rate": 0.0001341880341880342,
+      "loss": 0.1237,
       "step": 770
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 0.5136359930038452,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.0592,
       "step": 780
     },
     {
+      "epoch": 5.064102564102564,
+      "grad_norm": 7.698183536529541,
+      "learning_rate": 0.00013247863247863248,
+      "loss": 0.0742,
       "step": 790
     },
     {
+      "epoch": 5.128205128205128,
+      "grad_norm": 0.05358889326453209,
+      "learning_rate": 0.00013162393162393163,
+      "loss": 0.0785,
       "step": 800
     },
     {
+      "epoch": 5.128205128205128,
+      "eval_accuracy": 0.9136690647482014,
+      "eval_loss": 0.36830753087997437,
+      "eval_runtime": 3.1493,
+      "eval_samples_per_second": 88.273,
+      "eval_steps_per_second": 11.114,
       "step": 800
     },
     {
+      "epoch": 5.1923076923076925,
+      "grad_norm": 0.045300308614969254,
+      "learning_rate": 0.00013076923076923077,
+      "loss": 0.1987,
       "step": 810
     },
     {
+      "epoch": 5.256410256410256,
+      "grad_norm": 6.118052959442139,
+      "learning_rate": 0.00012991452991452992,
+      "loss": 0.0708,
       "step": 820
     },
     {
+      "epoch": 5.32051282051282,
+      "grad_norm": 0.36830875277519226,
+      "learning_rate": 0.00012905982905982906,
+      "loss": 0.0329,
       "step": 830
     },
     {
+      "epoch": 5.384615384615385,
+      "grad_norm": 0.5043929219245911,
+      "learning_rate": 0.00012820512820512823,
+      "loss": 0.0546,
       "step": 840
     },
     {
+      "epoch": 5.448717948717949,
+      "grad_norm": 5.8541035652160645,
+      "learning_rate": 0.00012735042735042735,
+      "loss": 0.0589,
       "step": 850
     },
     {
+      "epoch": 5.512820512820513,
+      "grad_norm": 0.09965494275093079,
+      "learning_rate": 0.0001264957264957265,
+      "loss": 0.0257,
       "step": 860
     },
     {
+      "epoch": 5.576923076923077,
+      "grad_norm": 0.03202090039849281,
+      "learning_rate": 0.00012564102564102564,
+      "loss": 0.0349,
       "step": 870
     },
     {
+      "epoch": 5.641025641025641,
+      "grad_norm": 7.21024751663208,
+      "learning_rate": 0.00012478632478632478,
+      "loss": 0.081,
       "step": 880
     },
     {
+      "epoch": 5.705128205128205,
+      "grad_norm": 0.03198171406984329,
+      "learning_rate": 0.00012393162393162395,
+      "loss": 0.037,
       "step": 890
     },
     {
+      "epoch": 5.769230769230769,
+      "grad_norm": 1.1413763761520386,
+      "learning_rate": 0.0001230769230769231,
+      "loss": 0.093,
       "step": 900
     },
     {
+      "epoch": 5.769230769230769,
+      "eval_accuracy": 0.8597122302158273,
+      "eval_loss": 0.6375630497932434,
+      "eval_runtime": 2.5134,
+      "eval_samples_per_second": 110.607,
+      "eval_steps_per_second": 13.925,
       "step": 900
     },
     {
+      "epoch": 5.833333333333333,
+      "grad_norm": 0.030478307977318764,
+      "learning_rate": 0.00012222222222222224,
+      "loss": 0.1015,
       "step": 910
     },
     {
+      "epoch": 5.897435897435898,
+      "grad_norm": 7.971870422363281,
+      "learning_rate": 0.00012136752136752136,
+      "loss": 0.0421,
       "step": 920
     },
     {
+      "epoch": 5.961538461538462,
+      "grad_norm": 0.7655214667320251,
+      "learning_rate": 0.00012051282051282052,
+      "loss": 0.0315,
       "step": 930
     },
     {
+      "epoch": 6.0256410256410255,
+      "grad_norm": 0.10178599506616592,
+      "learning_rate": 0.00011965811965811966,
+      "loss": 0.008,
       "step": 940
     },
     {
+      "epoch": 6.089743589743589,
+      "grad_norm": 0.024569841101765633,
+      "learning_rate": 0.0001188034188034188,
+      "loss": 0.0054,
       "step": 950
     },
     {
+      "epoch": 6.153846153846154,
+      "grad_norm": 0.36783352494239807,
+      "learning_rate": 0.00011794871794871796,
+      "loss": 0.0752,
       "step": 960
     },
     {
+      "epoch": 6.217948717948718,
+      "grad_norm": 0.04280726611614227,
+      "learning_rate": 0.00011709401709401711,
+      "loss": 0.0286,
       "step": 970
     },
     {
+      "epoch": 6.282051282051282,
+      "grad_norm": 14.323381423950195,
+      "learning_rate": 0.00011623931623931625,
+      "loss": 0.0559,
       "step": 980
     },
     {
+      "epoch": 6.346153846153846,
+      "grad_norm": 0.025405921041965485,
+      "learning_rate": 0.00011538461538461538,
+      "loss": 0.0238,
       "step": 990
     },
     {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.02457793429493904,
+      "learning_rate": 0.00011452991452991453,
+      "loss": 0.0056,
       "step": 1000
     },
     {
+      "epoch": 6.410256410256411,
+      "eval_accuracy": 0.9244604316546763,
+      "eval_loss": 0.3162367641925812,
+      "eval_runtime": 3.2283,
+      "eval_samples_per_second": 86.114,
+      "eval_steps_per_second": 10.842,
       "step": 1000
     },
     {
+      "epoch": 6.4743589743589745,
+      "grad_norm": 0.020618008449673653,
+      "learning_rate": 0.00011367521367521367,
+      "loss": 0.0113,
       "step": 1010
     },
     {
+      "epoch": 6.538461538461538,
+      "grad_norm": 0.021217485889792442,
+      "learning_rate": 0.00011282051282051283,
+      "loss": 0.0115,
       "step": 1020
     },
     {
+      "epoch": 6.602564102564102,
+      "grad_norm": 0.028808822855353355,
+      "learning_rate": 0.00011196581196581197,
+      "loss": 0.022,
       "step": 1030
     },
     {
+      "epoch": 6.666666666666667,
+      "grad_norm": 3.5672314167022705,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.0706,
       "step": 1040
     },
     {
+      "epoch": 6.730769230769231,
+      "grad_norm": 0.25913771986961365,
+      "learning_rate": 0.00011025641025641027,
+      "loss": 0.021,
       "step": 1050
     },
     {
+      "epoch": 6.794871794871795,
+      "grad_norm": 12.088153839111328,
+      "learning_rate": 0.00010940170940170942,
+      "loss": 0.0914,
       "step": 1060
     },
     {
+      "epoch": 6.858974358974359,
+      "grad_norm": 0.7027952671051025,
+      "learning_rate": 0.00010854700854700855,
+      "loss": 0.0766,
       "step": 1070
     },
     {
+      "epoch": 6.923076923076923,
+      "grad_norm": 6.911967754364014,
+      "learning_rate": 0.0001076923076923077,
+      "loss": 0.0881,
       "step": 1080
     },
     {
+      "epoch": 6.987179487179487,
+      "grad_norm": 0.03289846330881119,
+      "learning_rate": 0.00010683760683760684,
+      "loss": 0.0125,
       "step": 1090
     },
     {
+      "epoch": 7.051282051282051,
+      "grad_norm": 0.025492513552308083,
+      "learning_rate": 0.000105982905982906,
+      "loss": 0.0472,
       "step": 1100
     },
     {
+      "epoch": 7.051282051282051,
+      "eval_accuracy": 0.8884892086330936,
+      "eval_loss": 0.5225415825843811,
+      "eval_runtime": 3.7495,
+      "eval_samples_per_second": 74.144,
+      "eval_steps_per_second": 9.335,
       "step": 1100
     },
     {
+      "epoch": 7.115384615384615,
+      "grad_norm": 0.022507918998599052,
+      "learning_rate": 0.00010512820512820514,
+      "loss": 0.0386,
       "step": 1110
     },
     {
+      "epoch": 7.17948717948718,
+      "grad_norm": 0.020967524498701096,
+      "learning_rate": 0.00010427350427350428,
+      "loss": 0.0289,
       "step": 1120
     },
     {
+      "epoch": 7.243589743589744,
+      "grad_norm": 0.5489076972007751,
+      "learning_rate": 0.00010341880341880343,
+      "loss": 0.0041,
       "step": 1130
     },
     {
+      "epoch": 7.3076923076923075,
+      "grad_norm": 0.12584710121154785,
+      "learning_rate": 0.00010256410256410256,
+      "loss": 0.0697,
       "step": 1140
     },
     {
+      "epoch": 7.371794871794872,
+      "grad_norm": 0.022198162972927094,
+      "learning_rate": 0.0001017094017094017,
+      "loss": 0.0039,
       "step": 1150
     },
     {
+      "epoch": 7.435897435897436,
+      "grad_norm": 11.968843460083008,
+      "learning_rate": 0.00010085470085470086,
+      "loss": 0.0855,
       "step": 1160
     },
     {
+      "epoch": 7.5,
+      "grad_norm": 0.779564380645752,
+      "learning_rate": 0.0001,
+      "loss": 0.0585,
       "step": 1170
     },
     {
+      "epoch": 7.564102564102564,
+      "grad_norm": 0.23576153814792633,
+      "learning_rate": 9.914529914529915e-05,
+      "loss": 0.0559,
       "step": 1180
     },
     {
+      "epoch": 7.628205128205128,
+      "grad_norm": 0.020965000614523888,
+      "learning_rate": 9.829059829059829e-05,
+      "loss": 0.0785,
       "step": 1190
     },
     {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 6.914454936981201,
+      "learning_rate": 9.743589743589744e-05,
+      "loss": 0.0234,
       "step": 1200
     },
     {
+      "epoch": 7.6923076923076925,
+      "eval_accuracy": 0.8597122302158273,
+      "eval_loss": 0.6095559000968933,
+      "eval_runtime": 2.5288,
+      "eval_samples_per_second": 109.933,
+      "eval_steps_per_second": 13.84,
       "step": 1200
     },
     {
+      "epoch": 7.756410256410256,
+      "grad_norm": 1.3177701234817505,
+      "learning_rate": 9.658119658119658e-05,
+      "loss": 0.0768,
       "step": 1210
     },
     {
+      "epoch": 7.82051282051282,
+      "grad_norm": 4.212278842926025,
+      "learning_rate": 9.572649572649574e-05,
+      "loss": 0.0914,
       "step": 1220
     },
     {
+      "epoch": 7.884615384615385,
+      "grad_norm": 0.02418905310332775,
+      "learning_rate": 9.487179487179487e-05,
+      "loss": 0.0348,
       "step": 1230
     },
     {
+      "epoch": 7.948717948717949,
+      "grad_norm": 3.008629322052002,
+      "learning_rate": 9.401709401709401e-05,
+      "loss": 0.0624,
       "step": 1240
     },
     {
+      "epoch": 8.012820512820513,
+      "grad_norm": 0.052931949496269226,
+      "learning_rate": 9.316239316239317e-05,
+      "loss": 0.0076,
       "step": 1250
     },
     {
+      "epoch": 8.076923076923077,
+      "grad_norm": 7.994688034057617,
+      "learning_rate": 9.230769230769232e-05,
+      "loss": 0.0326,
       "step": 1260
     },
     {
+      "epoch": 8.14102564102564,
+      "grad_norm": 0.026721293106675148,
+      "learning_rate": 9.145299145299146e-05,
+      "loss": 0.0324,
       "step": 1270
     },
     {
+      "epoch": 8.205128205128204,
+      "grad_norm": 0.049855004996061325,
+      "learning_rate": 9.05982905982906e-05,
+      "loss": 0.0057,
       "step": 1280
     },
     {
+      "epoch": 8.26923076923077,
+      "grad_norm": 0.014473488554358482,
+      "learning_rate": 8.974358974358975e-05,
+      "loss": 0.0237,
       "step": 1290
     },
     {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.03150290250778198,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0354,
       "step": 1300
     },
     {
+      "epoch": 8.333333333333334,
+      "eval_accuracy": 0.8776978417266187,
+      "eval_loss": 0.5520122647285461,
+      "eval_runtime": 3.3151,
+      "eval_samples_per_second": 83.858,
+      "eval_steps_per_second": 10.558,
       "step": 1300
     },
     {
+      "epoch": 8.397435897435898,
+      "grad_norm": 0.013332781381905079,
+      "learning_rate": 8.803418803418804e-05,
+      "loss": 0.0049,
       "step": 1310
     },
     {
+      "epoch": 8.461538461538462,
+      "grad_norm": 0.013341937214136124,
+      "learning_rate": 8.717948717948718e-05,
+      "loss": 0.0026,
       "step": 1320
     },
     {
+      "epoch": 8.525641025641026,
+      "grad_norm": 0.012689488008618355,
+      "learning_rate": 8.632478632478634e-05,
+      "loss": 0.0051,
       "step": 1330
     },
     {
+      "epoch": 8.58974358974359,
+      "grad_norm": 0.014231017790734768,
+      "learning_rate": 8.547008547008547e-05,
+      "loss": 0.0027,
       "step": 1340
     },
     {
+      "epoch": 8.653846153846153,
+      "grad_norm": 0.052165694534778595,
+      "learning_rate": 8.461538461538461e-05,
+      "loss": 0.0036,
       "step": 1350
     },
     {
+      "epoch": 8.717948717948717,
+      "grad_norm": 0.11598876118659973,
+      "learning_rate": 8.376068376068377e-05,
+      "loss": 0.0281,
       "step": 1360
     },
     {
+      "epoch": 8.782051282051283,
+      "grad_norm": 0.01339508593082428,
+      "learning_rate": 8.290598290598292e-05,
+      "loss": 0.0026,
       "step": 1370
     },
     {
+      "epoch": 8.846153846153847,
+      "grad_norm": 0.011919701471924782,
+      "learning_rate": 8.205128205128205e-05,
+      "loss": 0.0025,
       "step": 1380
     },
     {
+      "epoch": 8.91025641025641,
+      "grad_norm": 3.217728614807129,
+      "learning_rate": 8.11965811965812e-05,
+      "loss": 0.0379,
       "step": 1390
     },
     {
+      "epoch": 8.974358974358974,
+      "grad_norm": 0.01331857219338417,
+      "learning_rate": 8.034188034188035e-05,
+      "loss": 0.026,
       "step": 1400
     },
     {
+      "epoch": 8.974358974358974,
+      "eval_accuracy": 0.8992805755395683,
+      "eval_loss": 0.49377354979515076,
+      "eval_runtime": 2.8453,
+      "eval_samples_per_second": 97.704,
+      "eval_steps_per_second": 12.301,
       "step": 1400
     },
     {
+      "epoch": 9.038461538461538,
+      "grad_norm": 0.1426580250263214,
+      "learning_rate": 7.948717948717948e-05,
+      "loss": 0.0072,
       "step": 1410
     },
     {
+      "epoch": 9.102564102564102,
+      "grad_norm": 0.021561838686466217,
+      "learning_rate": 7.863247863247864e-05,
+      "loss": 0.0025,
       "step": 1420
     },
     {
+      "epoch": 9.166666666666666,
+      "grad_norm": 0.010494213551282883,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0025,
       "step": 1430
     },
     {
+      "epoch": 9.23076923076923,
+      "grad_norm": 0.015301249921321869,
+      "learning_rate": 7.692307692307693e-05,
+      "loss": 0.0051,
       "step": 1440
     },
     {
+      "epoch": 9.294871794871796,
+      "grad_norm": 0.013643044047057629,
+      "learning_rate": 7.606837606837607e-05,
+      "loss": 0.0136,
       "step": 1450
     },
     {
+      "epoch": 9.35897435897436,
+      "grad_norm": 0.02054368518292904,
+      "learning_rate": 7.521367521367521e-05,
+      "loss": 0.0025,
       "step": 1460
     },
     {
+      "epoch": 9.423076923076923,
+      "grad_norm": 0.011097296141088009,
+      "learning_rate": 7.435897435897436e-05,
+      "loss": 0.0025,
       "step": 1470
     },
     {
+      "epoch": 9.487179487179487,
+      "grad_norm": 0.5705698132514954,
+      "learning_rate": 7.350427350427352e-05,
+      "loss": 0.0048,
       "step": 1480
     },
     {
+      "epoch": 9.551282051282051,
+      "grad_norm": 0.009772556833922863,
+      "learning_rate": 7.264957264957265e-05,
+      "loss": 0.002,
       "step": 1490
     },
     {
+      "epoch": 9.615384615384615,
+      "grad_norm": 0.011127009056508541,
+      "learning_rate": 7.17948717948718e-05,
+      "loss": 0.002,
       "step": 1500
     },
     {
+      "epoch": 9.615384615384615,
+      "eval_accuracy": 0.9172661870503597,
+      "eval_loss": 0.43497270345687866,
+      "eval_runtime": 2.5545,
+      "eval_samples_per_second": 108.826,
+      "eval_steps_per_second": 13.701,
       "step": 1500
     },
     {
+      "epoch": 9.679487179487179,
+      "grad_norm": 0.013090673834085464,
+      "learning_rate": 7.094017094017095e-05,
+      "loss": 0.002,
       "step": 1510
     },
     {
+      "epoch": 9.743589743589745,
+      "grad_norm": 0.00843009538948536,
+      "learning_rate": 7.008547008547008e-05,
+      "loss": 0.0021,
       "step": 1520
     },
     {
+      "epoch": 9.807692307692308,
+      "grad_norm": 0.00981289241462946,
+      "learning_rate": 6.923076923076924e-05,
+      "loss": 0.0018,
       "step": 1530
     },
     {
+      "epoch": 9.871794871794872,
+      "grad_norm": 0.01045091450214386,
+      "learning_rate": 6.837606837606838e-05,
+      "loss": 0.0047,
       "step": 1540
     },
     {
+      "epoch": 9.935897435897436,
+      "grad_norm": 0.07456047832965851,
+      "learning_rate": 6.752136752136753e-05,
+      "loss": 0.0021,
+      "step": 1550
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.010238745249807835,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0268,
+      "step": 1560
+    },
+    {
+      "epoch": 10.064102564102564,
+      "grad_norm": 0.009372313506901264,
+      "learning_rate": 6.581196581196581e-05,
+      "loss": 0.0018,
+      "step": 1570
+    },
+    {
+      "epoch": 10.128205128205128,
+      "grad_norm": 0.009544081054627895,
+      "learning_rate": 6.495726495726496e-05,
+      "loss": 0.0017,
+      "step": 1580
+    },
+    {
+      "epoch": 10.192307692307692,
+      "grad_norm": 0.014180944301187992,
+      "learning_rate": 6.410256410256412e-05,
+      "loss": 0.0055,
+      "step": 1590
+    },
+    {
+      "epoch": 10.256410256410255,
+      "grad_norm": 0.19402286410331726,
+      "learning_rate": 6.324786324786325e-05,
+      "loss": 0.0021,
+      "step": 1600
+    },
+    {
+      "epoch": 10.256410256410255,
+      "eval_accuracy": 0.9172661870503597,
+      "eval_loss": 0.4223933219909668,
+      "eval_runtime": 3.538,
+      "eval_samples_per_second": 78.575,
+      "eval_steps_per_second": 9.893,
+      "step": 1600
+    },
+    {
+      "epoch": 10.320512820512821,
+      "grad_norm": 0.008879870176315308,
+      "learning_rate": 6.239316239316239e-05,
+      "loss": 0.0018,
+      "step": 1610
+    },
+    {
+      "epoch": 10.384615384615385,
+      "grad_norm": 0.008063827641308308,
+      "learning_rate": 6.153846153846155e-05,
+      "loss": 0.002,
+      "step": 1620
+    },
+    {
+      "epoch": 10.448717948717949,
+      "grad_norm": 0.008835590444505215,
+      "learning_rate": 6.068376068376068e-05,
+      "loss": 0.0018,
+      "step": 1630
+    },
+    {
+      "epoch": 10.512820512820513,
+      "grad_norm": 0.008632234297692776,
+      "learning_rate": 5.982905982905983e-05,
+      "loss": 0.0017,
+      "step": 1640
+    },
+    {
+      "epoch": 10.576923076923077,
+      "grad_norm": 0.00828844029456377,
+      "learning_rate": 5.897435897435898e-05,
+      "loss": 0.0016,
+      "step": 1650
+    },
+    {
+      "epoch": 10.64102564102564,
+      "grad_norm": 0.0323554202914238,
+      "learning_rate": 5.8119658119658126e-05,
+      "loss": 0.0016,
+      "step": 1660
+    },
+    {
+      "epoch": 10.705128205128204,
+      "grad_norm": 0.008372778072953224,
+      "learning_rate": 5.726495726495726e-05,
+      "loss": 0.0016,
+      "step": 1670
+    },
+    {
+      "epoch": 10.76923076923077,
+      "grad_norm": 0.007286165375262499,
+      "learning_rate": 5.6410256410256414e-05,
+      "loss": 0.0016,
+      "step": 1680
+    },
+    {
+      "epoch": 10.833333333333334,
+      "grad_norm": 0.012557004578411579,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0017,
+      "step": 1690
+    },
+    {
+      "epoch": 10.897435897435898,
+      "grad_norm": 0.007122470065951347,
+      "learning_rate": 5.470085470085471e-05,
+      "loss": 0.0016,
+      "step": 1700
+    },
+    {
+      "epoch": 10.897435897435898,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.38381046056747437,
+      "eval_runtime": 2.8652,
+      "eval_samples_per_second": 97.028,
+      "eval_steps_per_second": 12.216,
+      "step": 1700
+    },
+    {
+      "epoch": 10.961538461538462,
+      "grad_norm": 0.013124003075063229,
+      "learning_rate": 5.384615384615385e-05,
+      "loss": 0.0015,
+      "step": 1710
+    },
+    {
+      "epoch": 11.025641025641026,
+      "grad_norm": 0.007307114545255899,
+      "learning_rate": 5.2991452991453e-05,
+      "loss": 0.0015,
+      "step": 1720
+    },
+    {
+      "epoch": 11.08974358974359,
+      "grad_norm": 0.007222812157124281,
+      "learning_rate": 5.213675213675214e-05,
+      "loss": 0.0014,
+      "step": 1730
+    },
+    {
+      "epoch": 11.153846153846153,
+      "grad_norm": 0.007087068632245064,
+      "learning_rate": 5.128205128205128e-05,
+      "loss": 0.0015,
+      "step": 1740
+    },
+    {
+      "epoch": 11.217948717948717,
+      "grad_norm": 0.010747412219643593,
+      "learning_rate": 5.042735042735043e-05,
+      "loss": 0.0016,
+      "step": 1750
+    },
+    {
+      "epoch": 11.282051282051283,
+      "grad_norm": 0.007549288682639599,
+      "learning_rate": 4.9572649572649575e-05,
+      "loss": 0.0014,
+      "step": 1760
+    },
+    {
+      "epoch": 11.346153846153847,
+      "grad_norm": 0.007861124351620674,
+      "learning_rate": 4.871794871794872e-05,
+      "loss": 0.0015,
+      "step": 1770
+    },
+    {
+      "epoch": 11.41025641025641,
+      "grad_norm": 0.008711726404726505,
+      "learning_rate": 4.786324786324787e-05,
+      "loss": 0.0014,
+      "step": 1780
+    },
+    {
+      "epoch": 11.474358974358974,
+      "grad_norm": 0.006650915369391441,
+      "learning_rate": 4.700854700854701e-05,
+      "loss": 0.0014,
+      "step": 1790
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 0.009336930699646473,
+      "learning_rate": 4.615384615384616e-05,
+      "loss": 0.0014,
+      "step": 1800
+    },
+    {
+      "epoch": 11.538461538461538,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.3943016529083252,
+      "eval_runtime": 2.5492,
+      "eval_samples_per_second": 109.052,
+      "eval_steps_per_second": 13.73,
+      "step": 1800
+    },
+    {
+      "epoch": 11.602564102564102,
+      "grad_norm": 0.0071232253685593605,
+      "learning_rate": 4.52991452991453e-05,
+      "loss": 0.0015,
+      "step": 1810
+    },
+    {
+      "epoch": 11.666666666666666,
+      "grad_norm": 0.0070044491440057755,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0014,
+      "step": 1820
+    },
+    {
+      "epoch": 11.73076923076923,
+      "grad_norm": 0.00735941668972373,
+      "learning_rate": 4.358974358974359e-05,
+      "loss": 0.0014,
+      "step": 1830
+    },
+    {
+      "epoch": 11.794871794871796,
+      "grad_norm": 0.006876462604850531,
+      "learning_rate": 4.2735042735042735e-05,
+      "loss": 0.0013,
+      "step": 1840
+    },
+    {
+      "epoch": 11.85897435897436,
+      "grad_norm": 0.008532642386853695,
+      "learning_rate": 4.1880341880341886e-05,
+      "loss": 0.0014,
+      "step": 1850
+    },
+    {
+      "epoch": 11.923076923076923,
+      "grad_norm": 0.007169618736952543,
+      "learning_rate": 4.1025641025641023e-05,
+      "loss": 0.0013,
+      "step": 1860
+    },
+    {
+      "epoch": 11.987179487179487,
+      "grad_norm": 0.006206741090863943,
+      "learning_rate": 4.0170940170940174e-05,
+      "loss": 0.0012,
+      "step": 1870
+    },
+    {
+      "epoch": 12.051282051282051,
+      "grad_norm": 0.006877180654555559,
+      "learning_rate": 3.931623931623932e-05,
+      "loss": 0.0013,
+      "step": 1880
+    },
+    {
+      "epoch": 12.115384615384615,
+      "grad_norm": 0.006645900197327137,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.0013,
+      "step": 1890
+    },
+    {
+      "epoch": 12.179487179487179,
+      "grad_norm": 0.007376631256192923,
+      "learning_rate": 3.760683760683761e-05,
+      "loss": 0.0013,
+      "step": 1900
+    },
+    {
+      "epoch": 12.179487179487179,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.40119558572769165,
+      "eval_runtime": 2.73,
+      "eval_samples_per_second": 101.833,
+      "eval_steps_per_second": 12.821,
+      "step": 1900
+    },
+    {
+      "epoch": 12.243589743589743,
+      "grad_norm": 0.007013231050223112,
+      "learning_rate": 3.675213675213676e-05,
+      "loss": 0.0013,
+      "step": 1910
+    },
+    {
+      "epoch": 12.307692307692308,
+      "grad_norm": 0.006970913149416447,
+      "learning_rate": 3.58974358974359e-05,
+      "loss": 0.0013,
+      "step": 1920
+    },
+    {
+      "epoch": 12.371794871794872,
+      "grad_norm": 0.006338655948638916,
+      "learning_rate": 3.504273504273504e-05,
+      "loss": 0.0013,
+      "step": 1930
+    },
+    {
+      "epoch": 12.435897435897436,
+      "grad_norm": 0.007881653495132923,
+      "learning_rate": 3.418803418803419e-05,
+      "loss": 0.0013,
+      "step": 1940
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 0.005947918631136417,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0012,
+      "step": 1950
+    },
+    {
+      "epoch": 12.564102564102564,
+      "grad_norm": 0.005899305455386639,
+      "learning_rate": 3.247863247863248e-05,
+      "loss": 0.0012,
+      "step": 1960
+    },
+    {
+      "epoch": 12.628205128205128,
+      "grad_norm": 0.0061206454411149025,
+      "learning_rate": 3.162393162393162e-05,
+      "loss": 0.0013,
+      "step": 1970
+    },
+    {
+      "epoch": 12.692307692307692,
+      "grad_norm": 0.00656491843983531,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 0.0012,
+      "step": 1980
+    },
+    {
+      "epoch": 12.756410256410255,
+      "grad_norm": 0.006318471394479275,
+      "learning_rate": 2.9914529914529915e-05,
+      "loss": 0.0012,
+      "step": 1990
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.00670122355222702,
+      "learning_rate": 2.9059829059829063e-05,
+      "loss": 0.0012,
+      "step": 2000
+    },
+    {
+      "epoch": 12.820512820512821,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.4066712558269501,
+      "eval_runtime": 3.6428,
+      "eval_samples_per_second": 76.315,
+      "eval_steps_per_second": 9.608,
+      "step": 2000
+    },
+    {
+      "epoch": 12.884615384615385,
+      "grad_norm": 0.005691882688552141,
+      "learning_rate": 2.8205128205128207e-05,
+      "loss": 0.0012,
+      "step": 2010
+    },
+    {
+      "epoch": 12.948717948717949,
+      "grad_norm": 0.005753946490585804,
+      "learning_rate": 2.7350427350427355e-05,
+      "loss": 0.0012,
+      "step": 2020
+    },
+    {
+      "epoch": 13.012820512820513,
+      "grad_norm": 0.006568002514541149,
+      "learning_rate": 2.64957264957265e-05,
+      "loss": 0.0013,
+      "step": 2030
+    },
+    {
+      "epoch": 13.076923076923077,
+      "grad_norm": 0.005731898359954357,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.0012,
+      "step": 2040
+    },
+    {
+      "epoch": 13.14102564102564,
+      "grad_norm": 0.005868157371878624,
+      "learning_rate": 2.4786324786324787e-05,
+      "loss": 0.0011,
+      "step": 2050
+    },
+    {
+      "epoch": 13.205128205128204,
+      "grad_norm": 0.006337730213999748,
+      "learning_rate": 2.3931623931623935e-05,
+      "loss": 0.0012,
+      "step": 2060
+    },
+    {
+      "epoch": 13.26923076923077,
+      "grad_norm": 0.006973997224122286,
+      "learning_rate": 2.307692307692308e-05,
+      "loss": 0.0011,
+      "step": 2070
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.00554188247770071,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0011,
+      "step": 2080
+    },
+    {
+      "epoch": 13.397435897435898,
+      "grad_norm": 0.006806936115026474,
+      "learning_rate": 2.1367521367521368e-05,
+      "loss": 0.0011,
+      "step": 2090
+    },
+    {
+      "epoch": 13.461538461538462,
+      "grad_norm": 0.005874712951481342,
+      "learning_rate": 2.0512820512820512e-05,
+      "loss": 0.0011,
+      "step": 2100
+    },
+    {
+      "epoch": 13.461538461538462,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.41012829542160034,
+      "eval_runtime": 2.5393,
+      "eval_samples_per_second": 109.477,
+      "eval_steps_per_second": 13.783,
+      "step": 2100
+    },
+    {
+      "epoch": 13.525641025641026,
+      "grad_norm": 0.006118403282016516,
+      "learning_rate": 1.965811965811966e-05,
+      "loss": 0.0012,
+      "step": 2110
+    },
+    {
+      "epoch": 13.58974358974359,
+      "grad_norm": 0.005724759306758642,
+      "learning_rate": 1.8803418803418804e-05,
+      "loss": 0.0012,
+      "step": 2120
+    },
+    {
+      "epoch": 13.653846153846153,
+      "grad_norm": 0.005641784518957138,
+      "learning_rate": 1.794871794871795e-05,
+      "loss": 0.0011,
+      "step": 2130
+    },
+    {
+      "epoch": 13.717948717948717,
+      "grad_norm": 0.006412914022803307,
+      "learning_rate": 1.7094017094017095e-05,
+      "loss": 0.0012,
+      "step": 2140
+    },
+    {
+      "epoch": 13.782051282051283,
+      "grad_norm": 0.0061592236161231995,
+      "learning_rate": 1.623931623931624e-05,
+      "loss": 0.0012,
+      "step": 2150
+    },
+    {
+      "epoch": 13.846153846153847,
+      "grad_norm": 0.006390335038304329,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.0012,
+      "step": 2160
+    },
+    {
+      "epoch": 13.91025641025641,
+      "grad_norm": 0.006186114624142647,
+      "learning_rate": 1.4529914529914531e-05,
+      "loss": 0.0012,
+      "step": 2170
+    },
+    {
+      "epoch": 13.974358974358974,
+      "grad_norm": 0.006987506989389658,
+      "learning_rate": 1.3675213675213677e-05,
+      "loss": 0.0013,
+      "step": 2180
+    },
+    {
+      "epoch": 14.038461538461538,
+      "grad_norm": 0.0060087586753070354,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 0.0011,
+      "step": 2190
+    },
+    {
+      "epoch": 14.102564102564102,
+      "grad_norm": 0.005536227021366358,
+      "learning_rate": 1.1965811965811967e-05,
+      "loss": 0.0011,
+      "step": 2200
+    },
+    {
+      "epoch": 14.102564102564102,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.41235998272895813,
+      "eval_runtime": 3.6965,
+      "eval_samples_per_second": 75.206,
+      "eval_steps_per_second": 9.468,
+      "step": 2200
+    },
+    {
+      "epoch": 14.166666666666666,
+      "grad_norm": 0.00747127179056406,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0011,
+      "step": 2210
+    },
+    {
+      "epoch": 14.23076923076923,
+      "grad_norm": 0.006075258832424879,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.0012,
+      "step": 2220
+    },
+    {
+      "epoch": 14.294871794871796,
+      "grad_norm": 0.005355818197131157,
+      "learning_rate": 9.401709401709402e-06,
+      "loss": 0.0011,
+      "step": 2230
+    },
+    {
+      "epoch": 14.35897435897436,
+      "grad_norm": 0.006171481683850288,
+      "learning_rate": 8.547008547008548e-06,
+      "loss": 0.0012,
+      "step": 2240
+    },
+    {
+      "epoch": 14.423076923076923,
+      "grad_norm": 0.006203506141901016,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 0.0011,
+      "step": 2250
+    },
+    {
+      "epoch": 14.487179487179487,
+      "grad_norm": 0.0053332289680838585,
+      "learning_rate": 6.837606837606839e-06,
+      "loss": 0.0011,
+      "step": 2260
+    },
+    {
+      "epoch": 14.551282051282051,
+      "grad_norm": 0.006036951672285795,
+      "learning_rate": 5.982905982905984e-06,
+      "loss": 0.0012,
+      "step": 2270
+    },
+    {
+      "epoch": 14.615384615384615,
+      "grad_norm": 0.006114748306572437,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 0.0012,
+      "step": 2280
+    },
+    {
+      "epoch": 14.679487179487179,
+      "grad_norm": 0.0059860167093575,
+      "learning_rate": 4.273504273504274e-06,
+      "loss": 0.0011,
+      "step": 2290
+    },
+    {
+      "epoch": 14.743589743589745,
+      "grad_norm": 0.005834794137626886,
+      "learning_rate": 3.4188034188034193e-06,
+      "loss": 0.0012,
+      "step": 2300
+    },
+    {
+      "epoch": 14.743589743589745,
+      "eval_accuracy": 0.9280575539568345,
+      "eval_loss": 0.4135644733905792,
+      "eval_runtime": 2.5193,
+      "eval_samples_per_second": 110.348,
+      "eval_steps_per_second": 13.893,
+      "step": 2300
+    },
+    {
+      "epoch": 14.807692307692308,
+      "grad_norm": 0.005964505951851606,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 0.0012,
+      "step": 2310
+    },
+    {
+      "epoch": 14.871794871794872,
+      "grad_norm": 0.005720064975321293,
+      "learning_rate": 1.7094017094017097e-06,
+      "loss": 0.0011,
+      "step": 2320
+    },
+    {
+      "epoch": 14.935897435897436,
+      "grad_norm": 0.005913382861763239,
+      "learning_rate": 8.547008547008548e-07,
+      "loss": 0.0011,
+      "step": 2330
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.005278407130390406,
+      "learning_rate": 0.0,
+      "loss": 0.0011,
+      "step": 2340
+    },
+    {
+      "epoch": 15.0,
+      "step": 2340,
+      "total_flos": 2.900189697360077e+18,
+      "train_loss": 0.14551133991808146,
+      "train_runtime": 927.2479,
+      "train_samples_per_second": 40.361,
+      "train_steps_per_second": 2.524
     }
   ],
   "logging_steps": 10,
+  "max_steps": 2340,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.900189697360077e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null