End of training

Browse files

Files changed (5) hide show

README.md +5 -5
all_results.json +12 -12
eval_results.json +8 -8
train_results.json +4 -4
trainer_state.json +633 -633

README.md CHANGED Viewed

@@ -23,11 +23,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the medmnist-v2 dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0732
-- Accuracy: 0.9808
-- Precision: 0.9830
-- Recall: 0.9826
-- F1: 0.9825
 ## Model description

 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the medmnist-v2 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2714
+- Accuracy: 0.9141
+- Precision: 0.9095
+- Recall: 0.9007
+- F1: 0.9042
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 9.99,
-    "eval_accuracy": 0.9127963231736816,
-    "eval_f1": 0.9018775351313549,
-    "eval_loss": 0.26074379682540894,
-    "eval_precision": 0.9094064911689247,
-    "eval_recall": 0.8975649435800629,
-    "eval_runtime": 44.5141,
-    "eval_samples_per_second": 185.739,
-    "eval_steps_per_second": 11.614,
     "total_flos": 1.0133154899356189e+19,
-    "train_loss": 0.5219255947714369,
-    "train_runtime": 1565.9689,
-    "train_samples_per_second": 83.016,
-    "train_steps_per_second": 1.296
 }

 {
     "epoch": 9.99,
+    "eval_accuracy": 0.9141267537493952,
+    "eval_f1": 0.9041810830566877,
+    "eval_loss": 0.2713584899902344,
+    "eval_precision": 0.9094870552968058,
+    "eval_recall": 0.9007044159397597,
+    "eval_runtime": 44.7123,
+    "eval_samples_per_second": 184.915,
+    "eval_steps_per_second": 11.563,
     "total_flos": 1.0133154899356189e+19,
+    "train_loss": 0.5615053875692959,
+    "train_runtime": 1549.2005,
+    "train_samples_per_second": 83.914,
+    "train_steps_per_second": 1.31
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 9.99,
-    "eval_accuracy": 0.9127963231736816,
-    "eval_f1": 0.9018775351313549,
-    "eval_loss": 0.26074379682540894,
-    "eval_precision": 0.9094064911689247,
-    "eval_recall": 0.8975649435800629,
-    "eval_runtime": 44.5141,
-    "eval_samples_per_second": 185.739,
-    "eval_steps_per_second": 11.614
 }

 {
     "epoch": 9.99,
+    "eval_accuracy": 0.9141267537493952,
+    "eval_f1": 0.9041810830566877,
+    "eval_loss": 0.2713584899902344,
+    "eval_precision": 0.9094870552968058,
+    "eval_recall": 0.9007044159397597,
+    "eval_runtime": 44.7123,
+    "eval_samples_per_second": 184.915,
+    "eval_steps_per_second": 11.563
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 9.99,
     "total_flos": 1.0133154899356189e+19,
-    "train_loss": 0.5219255947714369,
-    "train_runtime": 1565.9689,
-    "train_samples_per_second": 83.016,
-    "train_steps_per_second": 1.296
 }

 {
     "epoch": 9.99,
     "total_flos": 1.0133154899356189e+19,
+    "train_loss": 0.5615053875692959,
+    "train_runtime": 1549.2005,
+    "train_samples_per_second": 83.914,
+    "train_steps_per_second": 1.31
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.9870401337792643,
-  "best_model_checkpoint": "vit-base-patch16-224-in21k-finetuned-lora-medmnistv2/checkpoint-1626",
   "epoch": 9.98769987699877,
   "eval_steps": 500,
   "global_step": 2030,
@@ -10,1553 +10,1553 @@
   "log_history": [
     {
       "epoch": 0.05,
-      "grad_norm": 1.1422470808029175,
       "learning_rate": 0.004975369458128079,
-      "loss": 1.9628,
       "step": 10
     },
     {
       "epoch": 0.1,
-      "grad_norm": 1.255900502204895,
       "learning_rate": 0.004950738916256157,
-      "loss": 1.3552,
       "step": 20
     },
     {
       "epoch": 0.15,
-      "grad_norm": 1.5407381057739258,
-      "learning_rate": 0.00493103448275862,
-      "loss": 1.0858,
       "step": 30
     },
     {
       "epoch": 0.2,
-      "grad_norm": 2.6224355697631836,
-      "learning_rate": 0.0049064039408866994,
-      "loss": 1.0843,
       "step": 40
     },
     {
       "epoch": 0.25,
-      "grad_norm": 0.8357070088386536,
-      "learning_rate": 0.0048817733990147785,
-      "loss": 0.96,
       "step": 50
     },
     {
       "epoch": 0.3,
-      "grad_norm": 1.080548644065857,
-      "learning_rate": 0.004857142857142858,
-      "loss": 0.8978,
       "step": 60
     },
     {
       "epoch": 0.34,
-      "grad_norm": 1.4522780179977417,
-      "learning_rate": 0.004832512315270936,
-      "loss": 0.8698,
       "step": 70
     },
     {
       "epoch": 0.39,
-      "grad_norm": 0.9388962388038635,
-      "learning_rate": 0.004807881773399015,
-      "loss": 0.9796,
       "step": 80
     },
     {
       "epoch": 0.44,
-      "grad_norm": 1.6392161846160889,
-      "learning_rate": 0.004783251231527094,
-      "loss": 0.814,
       "step": 90
     },
     {
       "epoch": 0.49,
-      "grad_norm": 0.7927560210227966,
-      "learning_rate": 0.004758620689655172,
-      "loss": 0.8127,
       "step": 100
     },
     {
       "epoch": 0.54,
-      "grad_norm": 0.9725190997123718,
-      "learning_rate": 0.004733990147783251,
-      "loss": 0.7416,
       "step": 110
     },
     {
       "epoch": 0.59,
-      "grad_norm": 1.2956442832946777,
-      "learning_rate": 0.00470935960591133,
-      "loss": 0.7281,
       "step": 120
     },
     {
       "epoch": 0.64,
-      "grad_norm": 1.2394323348999023,
-      "learning_rate": 0.0046847290640394095,
-      "loss": 0.7632,
       "step": 130
     },
     {
       "epoch": 0.69,
-      "grad_norm": 1.1683493852615356,
-      "learning_rate": 0.004660098522167488,
-      "loss": 0.7589,
       "step": 140
     },
     {
       "epoch": 0.74,
-      "grad_norm": 0.8499715328216553,
       "learning_rate": 0.004635467980295567,
-      "loss": 0.6864,
       "step": 150
     },
     {
       "epoch": 0.79,
-      "grad_norm": 0.9673293232917786,
       "learning_rate": 0.004610837438423646,
-      "loss": 0.6827,
       "step": 160
     },
     {
       "epoch": 0.84,
-      "grad_norm": 0.7566954493522644,
-      "learning_rate": 0.0045886699507389165,
-      "loss": 0.667,
       "step": 170
     },
     {
       "epoch": 0.89,
-      "grad_norm": 1.0029590129852295,
       "learning_rate": 0.004564039408866995,
-      "loss": 0.7118,
       "step": 180
     },
     {
       "epoch": 0.93,
-      "grad_norm": 0.9083508849143982,
       "learning_rate": 0.004539408866995074,
-      "loss": 0.6388,
       "step": 190
     },
     {
       "epoch": 0.98,
-      "grad_norm": 0.9889862537384033,
       "learning_rate": 0.004514778325123153,
-      "loss": 0.7007,
       "step": 200
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9113712374581939,
-      "eval_f1": 0.8529028766456601,
-      "eval_loss": 0.2457016110420227,
-      "eval_precision": 0.9018735870596898,
-      "eval_recall": 0.8643919959588723,
-      "eval_runtime": 12.8411,
-      "eval_samples_per_second": 186.276,
-      "eval_steps_per_second": 11.681,
       "step": 203
     },
     {
       "epoch": 1.03,
-      "grad_norm": 1.352356195449829,
       "learning_rate": 0.004490147783251232,
-      "loss": 0.7043,
       "step": 210
     },
     {
       "epoch": 1.08,
-      "grad_norm": 0.9853256940841675,
       "learning_rate": 0.00446551724137931,
-      "loss": 0.5867,
       "step": 220
     },
     {
       "epoch": 1.13,
-      "grad_norm": 1.2557787895202637,
       "learning_rate": 0.004440886699507389,
-      "loss": 0.6101,
       "step": 230
     },
     {
       "epoch": 1.18,
-      "grad_norm": 0.9615167379379272,
       "learning_rate": 0.004416256157635468,
-      "loss": 0.7143,
       "step": 240
     },
     {
       "epoch": 1.23,
-      "grad_norm": 0.9772002696990967,
       "learning_rate": 0.004391625615763547,
-      "loss": 0.6388,
       "step": 250
     },
     {
       "epoch": 1.28,
-      "grad_norm": 1.6855661869049072,
       "learning_rate": 0.004366995073891626,
-      "loss": 0.5621,
       "step": 260
     },
     {
       "epoch": 1.33,
-      "grad_norm": 2.439969062805176,
       "learning_rate": 0.004342364532019705,
-      "loss": 0.6839,
       "step": 270
     },
     {
       "epoch": 1.38,
-      "grad_norm": 1.0421786308288574,
       "learning_rate": 0.004317733990147784,
-      "loss": 0.6545,
       "step": 280
     },
     {
       "epoch": 1.43,
-      "grad_norm": 1.445427417755127,
       "learning_rate": 0.004293103448275862,
-      "loss": 0.6383,
       "step": 290
     },
     {
       "epoch": 1.48,
-      "grad_norm": 1.585347056388855,
       "learning_rate": 0.00426847290640394,
-      "loss": 0.6446,
       "step": 300
     },
     {
       "epoch": 1.53,
-      "grad_norm": 1.3732099533081055,
       "learning_rate": 0.004243842364532019,
-      "loss": 0.5853,
       "step": 310
     },
     {
       "epoch": 1.57,
-      "grad_norm": 1.9869935512542725,
       "learning_rate": 0.0042192118226600985,
-      "loss": 0.6442,
       "step": 320
     },
     {
       "epoch": 1.62,
-      "grad_norm": 2.5270144939422607,
       "learning_rate": 0.004194581280788178,
-      "loss": 0.6744,
       "step": 330
     },
     {
       "epoch": 1.67,
-      "grad_norm": 1.2350406646728516,
       "learning_rate": 0.004169950738916256,
-      "loss": 0.711,
       "step": 340
     },
     {
       "epoch": 1.72,
-      "grad_norm": 2.2132787704467773,
       "learning_rate": 0.004145320197044335,
-      "loss": 0.7377,
       "step": 350
     },
     {
       "epoch": 1.77,
-      "grad_norm": 1.414409875869751,
       "learning_rate": 0.004120689655172414,
-      "loss": 0.6735,
       "step": 360
     },
     {
       "epoch": 1.82,
-      "grad_norm": 1.505163311958313,
       "learning_rate": 0.004096059113300492,
-      "loss": 0.6941,
       "step": 370
     },
     {
       "epoch": 1.87,
-      "grad_norm": 1.286877155303955,
       "learning_rate": 0.004071428571428571,
-      "loss": 0.5817,
       "step": 380
     },
     {
       "epoch": 1.92,
-      "grad_norm": 2.4780466556549072,
       "learning_rate": 0.00404679802955665,
-      "loss": 0.6474,
       "step": 390
     },
     {
       "epoch": 1.97,
-      "grad_norm": 1.735863208770752,
       "learning_rate": 0.0040221674876847295,
-      "loss": 0.6322,
       "step": 400
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9423076923076923,
-      "eval_f1": 0.9340154565022668,
-      "eval_loss": 0.21482966840267181,
-      "eval_precision": 0.9423994421185976,
-      "eval_recall": 0.9291886861477701,
-      "eval_runtime": 12.9083,
-      "eval_samples_per_second": 185.306,
-      "eval_steps_per_second": 11.62,
       "step": 406
     },
     {
       "epoch": 2.02,
-      "grad_norm": 1.8992809057235718,
       "learning_rate": 0.003997536945812808,
-      "loss": 0.7819,
       "step": 410
     },
     {
       "epoch": 2.07,
-      "grad_norm": 3.8816006183624268,
       "learning_rate": 0.003972906403940887,
-      "loss": 0.7579,
       "step": 420
     },
     {
       "epoch": 2.12,
-      "grad_norm": 2.3438549041748047,
       "learning_rate": 0.003948275862068966,
-      "loss": 0.6899,
       "step": 430
     },
     {
       "epoch": 2.16,
-      "grad_norm": 2.111189126968384,
       "learning_rate": 0.003923645320197044,
-      "loss": 0.6711,
       "step": 440
     },
     {
       "epoch": 2.21,
-      "grad_norm": 2.7600784301757812,
       "learning_rate": 0.0038990147783251232,
-      "loss": 0.6031,
       "step": 450
     },
     {
       "epoch": 2.26,
-      "grad_norm": 1.7545028924942017,
       "learning_rate": 0.0038743842364532023,
-      "loss": 0.6801,
       "step": 460
     },
     {
       "epoch": 2.31,
-      "grad_norm": 3.5373642444610596,
       "learning_rate": 0.003849753694581281,
-      "loss": 0.6683,
       "step": 470
     },
     {
       "epoch": 2.36,
-      "grad_norm": 2.0872020721435547,
       "learning_rate": 0.00382512315270936,
-      "loss": 0.5974,
       "step": 480
     },
     {
       "epoch": 2.41,
-      "grad_norm": 2.178804636001587,
       "learning_rate": 0.0038004926108374383,
-      "loss": 0.5688,
       "step": 490
     },
     {
       "epoch": 2.46,
-      "grad_norm": 2.1402218341827393,
       "learning_rate": 0.003775862068965517,
-      "loss": 0.6617,
       "step": 500
     },
     {
       "epoch": 2.51,
-      "grad_norm": 3.2831871509552,
       "learning_rate": 0.003751231527093596,
-      "loss": 0.6706,
       "step": 510
     },
     {
       "epoch": 2.56,
-      "grad_norm": 1.9515079259872437,
       "learning_rate": 0.0037266009852216747,
-      "loss": 0.6616,
       "step": 520
     },
     {
       "epoch": 2.61,
-      "grad_norm": 1.7052913904190063,
       "learning_rate": 0.003701970443349754,
-      "loss": 0.6816,
       "step": 530
     },
     {
       "epoch": 2.66,
-      "grad_norm": 1.4746874570846558,
       "learning_rate": 0.0036773399014778324,
-      "loss": 0.613,
       "step": 540
     },
     {
       "epoch": 2.71,
-      "grad_norm": 1.1124660968780518,
       "learning_rate": 0.0036527093596059115,
-      "loss": 0.6295,
       "step": 550
     },
     {
       "epoch": 2.76,
-      "grad_norm": 1.4814788103103638,
       "learning_rate": 0.00362807881773399,
-      "loss": 0.618,
       "step": 560
     },
     {
       "epoch": 2.8,
-      "grad_norm": 1.1870466470718384,
       "learning_rate": 0.003603448275862069,
-      "loss": 0.6529,
       "step": 570
     },
     {
       "epoch": 2.85,
-      "grad_norm": 1.1089264154434204,
       "learning_rate": 0.003578817733990148,
-      "loss": 0.5042,
       "step": 580
     },
     {
       "epoch": 2.9,
-      "grad_norm": 2.6037137508392334,
       "learning_rate": 0.0035541871921182266,
-      "loss": 0.7198,
       "step": 590
     },
     {
       "epoch": 2.95,
-      "grad_norm": 1.4666210412979126,
       "learning_rate": 0.0035295566502463057,
-      "loss": 0.6353,
       "step": 600
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9632107023411371,
-      "eval_f1": 0.9529335555710525,
-      "eval_loss": 0.121844083070755,
-      "eval_precision": 0.9546285621864314,
-      "eval_recall": 0.9542450303236223,
-      "eval_runtime": 12.9205,
-      "eval_samples_per_second": 185.132,
-      "eval_steps_per_second": 11.609,
       "step": 609
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.863990068435669,
       "learning_rate": 0.0035049261083743843,
-      "loss": 0.6389,
       "step": 610
     },
     {
       "epoch": 3.05,
-      "grad_norm": 1.3299729824066162,
       "learning_rate": 0.0034802955665024634,
-      "loss": 0.6781,
       "step": 620
     },
     {
       "epoch": 3.1,
-      "grad_norm": 2.5126378536224365,
       "learning_rate": 0.003455665024630542,
-      "loss": 0.6492,
       "step": 630
     },
     {
       "epoch": 3.15,
-      "grad_norm": 1.380492925643921,
       "learning_rate": 0.0034310344827586207,
-      "loss": 0.631,
       "step": 640
     },
     {
       "epoch": 3.2,
-      "grad_norm": 2.03764009475708,
       "learning_rate": 0.0034064039408867,
-      "loss": 0.6221,
       "step": 650
     },
     {
       "epoch": 3.25,
-      "grad_norm": 1.1895209550857544,
       "learning_rate": 0.0033817733990147785,
-      "loss": 0.5881,
       "step": 660
     },
     {
       "epoch": 3.3,
-      "grad_norm": 1.354785442352295,
       "learning_rate": 0.003357142857142857,
-      "loss": 0.584,
       "step": 670
     },
     {
       "epoch": 3.35,
-      "grad_norm": 1.9887776374816895,
       "learning_rate": 0.003332512315270936,
-      "loss": 0.5914,
       "step": 680
     },
     {
       "epoch": 3.39,
-      "grad_norm": 1.7261571884155273,
       "learning_rate": 0.0033078817733990145,
-      "loss": 0.5608,
       "step": 690
     },
     {
       "epoch": 3.44,
-      "grad_norm": 1.3888462781906128,
       "learning_rate": 0.0032832512315270936,
-      "loss": 0.5832,
       "step": 700
     },
     {
       "epoch": 3.49,
-      "grad_norm": 1.6422044038772583,
       "learning_rate": 0.003258620689655172,
-      "loss": 0.5759,
       "step": 710
     },
     {
       "epoch": 3.54,
-      "grad_norm": 1.2814769744873047,
       "learning_rate": 0.0032339901477832513,
-      "loss": 0.5845,
       "step": 720
     },
     {
       "epoch": 3.59,
-      "grad_norm": 1.835681676864624,
       "learning_rate": 0.00320935960591133,
-      "loss": 0.5756,
       "step": 730
     },
     {
       "epoch": 3.64,
-      "grad_norm": 1.3922501802444458,
       "learning_rate": 0.003184729064039409,
-      "loss": 0.5878,
       "step": 740
     },
     {
       "epoch": 3.69,
-      "grad_norm": 1.3808457851409912,
       "learning_rate": 0.0031600985221674877,
-      "loss": 0.5593,
       "step": 750
     },
     {
       "epoch": 3.74,
-      "grad_norm": 1.3295152187347412,
-      "learning_rate": 0.0031379310344827587,
-      "loss": 0.5563,
       "step": 760
     },
     {
       "epoch": 3.79,
-      "grad_norm": 2.4613001346588135,
-      "learning_rate": 0.003113300492610838,
-      "loss": 0.5341,
       "step": 770
     },
     {
       "epoch": 3.84,
-      "grad_norm": 1.1632391214370728,
-      "learning_rate": 0.0030886699507389165,
-      "loss": 0.6108,
       "step": 780
     },
     {
       "epoch": 3.89,
-      "grad_norm": 1.0384527444839478,
-      "learning_rate": 0.0030640394088669956,
-      "loss": 0.5597,
       "step": 790
     },
     {
       "epoch": 3.94,
-      "grad_norm": 1.5166749954223633,
-      "learning_rate": 0.0030394088669950738,
-      "loss": 0.5153,
       "step": 800
     },
     {
       "epoch": 3.99,
-      "grad_norm": 1.5253658294677734,
-      "learning_rate": 0.0030147783251231524,
-      "loss": 0.6176,
       "step": 810
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.979933110367893,
-      "eval_f1": 0.9781756712736359,
-      "eval_loss": 0.08385530859231949,
-      "eval_precision": 0.9775461189264221,
-      "eval_recall": 0.979303313253159,
-      "eval_runtime": 12.9634,
-      "eval_samples_per_second": 184.519,
-      "eval_steps_per_second": 11.571,
       "step": 813
     },
     {
       "epoch": 4.03,
-      "grad_norm": 1.8829090595245361,
-      "learning_rate": 0.0029901477832512315,
-      "loss": 0.5208,
       "step": 820
     },
     {
       "epoch": 4.08,
-      "grad_norm": 1.4730515480041504,
-      "learning_rate": 0.00296551724137931,
-      "loss": 0.5205,
       "step": 830
     },
     {
       "epoch": 4.13,
-      "grad_norm": 0.6617820858955383,
-      "learning_rate": 0.0029408866995073893,
-      "loss": 0.5029,
       "step": 840
     },
     {
       "epoch": 4.18,
-      "grad_norm": 0.9558489918708801,
-      "learning_rate": 0.002916256157635468,
-      "loss": 0.533,
       "step": 850
     },
     {
       "epoch": 4.23,
-      "grad_norm": 2.0359411239624023,
-      "learning_rate": 0.0028916256157635466,
-      "loss": 0.4633,
       "step": 860
     },
     {
       "epoch": 4.28,
-      "grad_norm": 2.325270414352417,
-      "learning_rate": 0.0028669950738916257,
-      "loss": 0.5877,
       "step": 870
     },
     {
       "epoch": 4.33,
-      "grad_norm": 1.3358855247497559,
-      "learning_rate": 0.0028423645320197043,
-      "loss": 0.4447,
       "step": 880
     },
     {
       "epoch": 4.38,
-      "grad_norm": 1.4927520751953125,
-      "learning_rate": 0.0028177339901477834,
-      "loss": 0.5783,
       "step": 890
     },
     {
       "epoch": 4.43,
-      "grad_norm": 1.231078028678894,
-      "learning_rate": 0.002793103448275862,
-      "loss": 0.5606,
       "step": 900
     },
     {
       "epoch": 4.48,
-      "grad_norm": 1.4861023426055908,
-      "learning_rate": 0.002768472906403941,
-      "loss": 0.5006,
       "step": 910
     },
     {
       "epoch": 4.53,
-      "grad_norm": 1.0326859951019287,
-      "learning_rate": 0.00274384236453202,
-      "loss": 0.4989,
       "step": 920
     },
     {
       "epoch": 4.58,
-      "grad_norm": 1.290980577468872,
-      "learning_rate": 0.0027192118226600985,
-      "loss": 0.514,
       "step": 930
     },
     {
       "epoch": 4.62,
-      "grad_norm": 1.3768541812896729,
-      "learning_rate": 0.0026945812807881776,
-      "loss": 0.5221,
       "step": 940
     },
     {
       "epoch": 4.67,
-      "grad_norm": 4.485782623291016,
-      "learning_rate": 0.0026699507389162562,
-      "loss": 0.4992,
       "step": 950
     },
     {
       "epoch": 4.72,
-      "grad_norm": 1.4199550151824951,
-      "learning_rate": 0.0026453201970443353,
-      "loss": 0.5256,
       "step": 960
     },
     {
       "epoch": 4.77,
-      "grad_norm": 1.4900827407836914,
-      "learning_rate": 0.002620689655172414,
-      "loss": 0.5111,
       "step": 970
     },
     {
       "epoch": 4.82,
-      "grad_norm": 1.874714970588684,
-      "learning_rate": 0.002596059113300493,
-      "loss": 0.4774,
       "step": 980
     },
     {
       "epoch": 4.87,
-      "grad_norm": 1.254228115081787,
-      "learning_rate": 0.0025714285714285713,
-      "loss": 0.4789,
       "step": 990
     },
     {
       "epoch": 4.92,
-      "grad_norm": 2.317281723022461,
-      "learning_rate": 0.00254679802955665,
-      "loss": 0.5338,
       "step": 1000
     },
     {
       "epoch": 4.97,
-      "grad_norm": 1.482914686203003,
-      "learning_rate": 0.002522167487684729,
-      "loss": 0.4913,
       "step": 1010
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9711538461538461,
-      "eval_f1": 0.9707062805947578,
-      "eval_loss": 0.10083355009555817,
-      "eval_precision": 0.9712614809682641,
-      "eval_recall": 0.9717429310005482,
-      "eval_runtime": 12.9897,
-      "eval_samples_per_second": 184.146,
-      "eval_steps_per_second": 11.548,
       "step": 1016
     },
     {
       "epoch": 5.02,
-      "grad_norm": 1.070559024810791,
-      "learning_rate": 0.002497536945812808,
-      "loss": 0.4719,
       "step": 1020
     },
     {
       "epoch": 5.07,
-      "grad_norm": 1.206444263458252,
-      "learning_rate": 0.002472906403940887,
-      "loss": 0.4973,
       "step": 1030
     },
     {
       "epoch": 5.12,
-      "grad_norm": 1.2651773691177368,
-      "learning_rate": 0.0024482758620689654,
-      "loss": 0.5203,
       "step": 1040
     },
     {
       "epoch": 5.17,
-      "grad_norm": 1.162040114402771,
-      "learning_rate": 0.002423645320197044,
-      "loss": 0.4781,
       "step": 1050
     },
     {
       "epoch": 5.22,
-      "grad_norm": 1.2628921270370483,
-      "learning_rate": 0.002399014778325123,
-      "loss": 0.558,
       "step": 1060
     },
     {
       "epoch": 5.26,
-      "grad_norm": 0.6029661297798157,
-      "learning_rate": 0.002374384236453202,
-      "loss": 0.4991,
       "step": 1070
     },
     {
       "epoch": 5.31,
-      "grad_norm": 1.7291909456253052,
-      "learning_rate": 0.002349753694581281,
-      "loss": 0.5331,
       "step": 1080
     },
     {
       "epoch": 5.36,
-      "grad_norm": 0.8556851148605347,
-      "learning_rate": 0.0023251231527093596,
-      "loss": 0.4594,
       "step": 1090
     },
     {
       "epoch": 5.41,
-      "grad_norm": 0.9938213229179382,
-      "learning_rate": 0.0023004926108374387,
-      "loss": 0.4841,
       "step": 1100
     },
     {
       "epoch": 5.46,
-      "grad_norm": 2.558023452758789,
-      "learning_rate": 0.0022758620689655173,
-      "loss": 0.5241,
       "step": 1110
     },
     {
       "epoch": 5.51,
-      "grad_norm": 1.3117694854736328,
-      "learning_rate": 0.0022512315270935964,
-      "loss": 0.4821,
       "step": 1120
     },
     {
       "epoch": 5.56,
-      "grad_norm": 1.2305413484573364,
-      "learning_rate": 0.0022266009852216747,
-      "loss": 0.4234,
       "step": 1130
     },
     {
       "epoch": 5.61,
-      "grad_norm": 1.0140172243118286,
-      "learning_rate": 0.0022019704433497538,
-      "loss": 0.4008,
       "step": 1140
     },
     {
       "epoch": 5.66,
-      "grad_norm": 1.2372822761535645,
-      "learning_rate": 0.0021773399014778324,
-      "loss": 0.4507,
       "step": 1150
     },
     {
       "epoch": 5.71,
-      "grad_norm": 0.8806868195533752,
-      "learning_rate": 0.0021527093596059115,
-      "loss": 0.5398,
       "step": 1160
     },
     {
       "epoch": 5.76,
-      "grad_norm": 0.9182419180870056,
-      "learning_rate": 0.00212807881773399,
-      "loss": 0.4085,
       "step": 1170
     },
     {
       "epoch": 5.81,
-      "grad_norm": 1.4466331005096436,
-      "learning_rate": 0.0021034482758620692,
-      "loss": 0.4966,
       "step": 1180
     },
     {
       "epoch": 5.85,
-      "grad_norm": 1.1195909976959229,
-      "learning_rate": 0.002078817733990148,
-      "loss": 0.4349,
       "step": 1190
     },
     {
       "epoch": 5.9,
-      "grad_norm": 1.7363073825836182,
-      "learning_rate": 0.0020541871921182266,
-      "loss": 0.4528,
       "step": 1200
     },
     {
       "epoch": 5.95,
-      "grad_norm": 1.3727185726165771,
-      "learning_rate": 0.0020295566502463057,
-      "loss": 0.4943,
       "step": 1210
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.979933110367893,
-      "eval_f1": 0.9828335162681155,
-      "eval_loss": 0.08049997687339783,
-      "eval_precision": 0.9843107832686134,
-      "eval_recall": 0.9819606365532088,
-      "eval_runtime": 12.9302,
-      "eval_samples_per_second": 184.993,
-      "eval_steps_per_second": 11.601,
       "step": 1219
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.9201492667198181,
-      "learning_rate": 0.0020049261083743843,
-      "loss": 0.4137,
       "step": 1220
     },
     {
       "epoch": 6.05,
-      "grad_norm": 1.0448100566864014,
-      "learning_rate": 0.001980295566502463,
-      "loss": 0.4731,
       "step": 1230
     },
     {
       "epoch": 6.1,
-      "grad_norm": 7.53134298324585,
-      "learning_rate": 0.001955665024630542,
-      "loss": 0.4018,
       "step": 1240
     },
     {
       "epoch": 6.15,
-      "grad_norm": 1.0926949977874756,
-      "learning_rate": 0.0019310344827586207,
-      "loss": 0.4643,
       "step": 1250
     },
     {
       "epoch": 6.2,
-      "grad_norm": 1.1615904569625854,
-      "learning_rate": 0.0019064039408866996,
-      "loss": 0.4885,
       "step": 1260
     },
     {
       "epoch": 6.25,
-      "grad_norm": 1.0068614482879639,
-      "learning_rate": 0.0018817733990147785,
-      "loss": 0.4001,
       "step": 1270
     },
     {
       "epoch": 6.3,
-      "grad_norm": 1.080955982208252,
-      "learning_rate": 0.0018571428571428573,
-      "loss": 0.4136,
       "step": 1280
     },
     {
       "epoch": 6.35,
-      "grad_norm": 1.4813597202301025,
-      "learning_rate": 0.001832512315270936,
-      "loss": 0.3908,
       "step": 1290
     },
     {
       "epoch": 6.4,
-      "grad_norm": 0.8198271989822388,
-      "learning_rate": 0.0018078817733990149,
-      "loss": 0.4096,
       "step": 1300
     },
     {
       "epoch": 6.45,
-      "grad_norm": 0.9625017642974854,
-      "learning_rate": 0.0017832512315270935,
-      "loss": 0.408,
       "step": 1310
     },
     {
       "epoch": 6.49,
-      "grad_norm": 0.969749391078949,
-      "learning_rate": 0.0017586206896551724,
-      "loss": 0.4371,
       "step": 1320
     },
     {
       "epoch": 6.54,
-      "grad_norm": 1.013454794883728,
-      "learning_rate": 0.0017339901477832513,
-      "loss": 0.4635,
       "step": 1330
     },
     {
       "epoch": 6.59,
-      "grad_norm": 1.1573213338851929,
-      "learning_rate": 0.0017093596059113301,
-      "loss": 0.3503,
       "step": 1340
     },
     {
       "epoch": 6.64,
-      "grad_norm": 0.9733229875564575,
-      "learning_rate": 0.0016847290640394088,
-      "loss": 0.447,
       "step": 1350
     },
     {
       "epoch": 6.69,
-      "grad_norm": 0.6445940136909485,
-      "learning_rate": 0.0016600985221674877,
-      "loss": 0.4405,
       "step": 1360
     },
     {
       "epoch": 6.74,
-      "grad_norm": 1.0442399978637695,
-      "learning_rate": 0.0016354679802955666,
-      "loss": 0.3957,
       "step": 1370
     },
     {
       "epoch": 6.79,
-      "grad_norm": 1.03929603099823,
-      "learning_rate": 0.0016108374384236454,
-      "loss": 0.4509,
       "step": 1380
     },
     {
       "epoch": 6.84,
-      "grad_norm": 0.7856884598731995,
-      "learning_rate": 0.0015862068965517243,
-      "loss": 0.3689,
       "step": 1390
     },
     {
       "epoch": 6.89,
-      "grad_norm": 0.6504011750221252,
-      "learning_rate": 0.001561576354679803,
-      "loss": 0.4059,
       "step": 1400
     },
     {
       "epoch": 6.94,
-      "grad_norm": 1.0724025964736938,
-      "learning_rate": 0.0015369458128078816,
-      "loss": 0.4188,
       "step": 1410
     },
     {
       "epoch": 6.99,
-      "grad_norm": 0.8927863836288452,
-      "learning_rate": 0.0015123152709359605,
-      "loss": 0.426,
       "step": 1420
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.979933110367893,
-      "eval_f1": 0.9780623859702803,
-      "eval_loss": 0.06709808856248856,
-      "eval_precision": 0.9782146710296142,
-      "eval_recall": 0.9786844286441465,
-      "eval_runtime": 12.9674,
-      "eval_samples_per_second": 184.462,
-      "eval_steps_per_second": 11.567,
       "step": 1422
     },
     {
       "epoch": 7.04,
-      "grad_norm": 0.7571507096290588,
-      "learning_rate": 0.0014876847290640394,
-      "loss": 0.3513,
       "step": 1430
     },
     {
       "epoch": 7.08,
-      "grad_norm": 0.9653282761573792,
-      "learning_rate": 0.0014630541871921182,
-      "loss": 0.3661,
       "step": 1440
     },
     {
       "epoch": 7.13,
-      "grad_norm": 1.1139851808547974,
-      "learning_rate": 0.001438423645320197,
-      "loss": 0.3978,
       "step": 1450
     },
     {
       "epoch": 7.18,
-      "grad_norm": 1.7360243797302246,
-      "learning_rate": 0.001413793103448276,
-      "loss": 0.3504,
       "step": 1460
     },
     {
       "epoch": 7.23,
-      "grad_norm": 1.009930968284607,
-      "learning_rate": 0.0013891625615763549,
-      "loss": 0.3718,
       "step": 1470
     },
     {
       "epoch": 7.28,
-      "grad_norm": 1.2110596895217896,
-      "learning_rate": 0.0013645320197044337,
-      "loss": 0.4109,
       "step": 1480
     },
     {
       "epoch": 7.33,
-      "grad_norm": 1.1028022766113281,
-      "learning_rate": 0.0013399014778325122,
-      "loss": 0.4052,
       "step": 1490
     },
     {
       "epoch": 7.38,
-      "grad_norm": 1.0521297454833984,
-      "learning_rate": 0.001315270935960591,
-      "loss": 0.4152,
       "step": 1500
     },
     {
       "epoch": 7.43,
-      "grad_norm": 0.8621806502342224,
-      "learning_rate": 0.00129064039408867,
-      "loss": 0.3573,
       "step": 1510
     },
     {
       "epoch": 7.48,
-      "grad_norm": 1.0334779024124146,
-      "learning_rate": 0.0012660098522167488,
-      "loss": 0.3673,
       "step": 1520
     },
     {
       "epoch": 7.53,
-      "grad_norm": 0.7882916331291199,
-      "learning_rate": 0.0012413793103448277,
-      "loss": 0.3391,
       "step": 1530
     },
     {
       "epoch": 7.58,
-      "grad_norm": 1.2786757946014404,
-      "learning_rate": 0.0012167487684729065,
-      "loss": 0.3939,
       "step": 1540
     },
     {
       "epoch": 7.63,
-      "grad_norm": 1.4354298114776611,
-      "learning_rate": 0.0011921182266009852,
-      "loss": 0.4541,
       "step": 1550
     },
     {
       "epoch": 7.68,
-      "grad_norm": 1.0900424718856812,
-      "learning_rate": 0.001167487684729064,
-      "loss": 0.3183,
       "step": 1560
     },
     {
       "epoch": 7.72,
-      "grad_norm": 0.8424840569496155,
-      "learning_rate": 0.001142857142857143,
-      "loss": 0.3408,
       "step": 1570
     },
     {
       "epoch": 7.77,
-      "grad_norm": 0.6967119574546814,
-      "learning_rate": 0.0011182266009852216,
-      "loss": 0.4029,
       "step": 1580
     },
     {
       "epoch": 7.82,
-      "grad_norm": 0.7286412119865417,
-      "learning_rate": 0.0010935960591133005,
-      "loss": 0.3717,
       "step": 1590
     },
     {
       "epoch": 7.87,
-      "grad_norm": 0.9532930254936218,
-      "learning_rate": 0.0010689655172413793,
-      "loss": 0.3215,
       "step": 1600
     },
     {
       "epoch": 7.92,
-      "grad_norm": 1.0920195579528809,
-      "learning_rate": 0.001044334975369458,
-      "loss": 0.3885,
       "step": 1610
     },
     {
       "epoch": 7.97,
-      "grad_norm": 0.8902508020401001,
-      "learning_rate": 0.0010197044334975369,
-      "loss": 0.4152,
       "step": 1620
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9870401337792643,
-      "eval_f1": 0.9877879659430536,
-      "eval_loss": 0.056644052267074585,
-      "eval_precision": 0.9862146260055851,
-      "eval_recall": 0.9896401486739793,
-      "eval_runtime": 12.9254,
-      "eval_samples_per_second": 185.062,
-      "eval_steps_per_second": 11.605,
       "step": 1626
     },
     {
       "epoch": 8.02,
-      "grad_norm": 0.998824954032898,
-      "learning_rate": 0.0009950738916256158,
-      "loss": 0.289,
       "step": 1630
     },
     {
       "epoch": 8.07,
-      "grad_norm": 0.6882240772247314,
-      "learning_rate": 0.0009704433497536946,
-      "loss": 0.3786,
       "step": 1640
     },
     {
       "epoch": 8.12,
-      "grad_norm": 0.8674384951591492,
-      "learning_rate": 0.0009458128078817735,
-      "loss": 0.4118,
       "step": 1650
     },
     {
       "epoch": 8.17,
-      "grad_norm": 1.109112024307251,
-      "learning_rate": 0.0009211822660098522,
-      "loss": 0.3298,
       "step": 1660
     },
     {
       "epoch": 8.22,
-      "grad_norm": 0.8515803217887878,
-      "learning_rate": 0.000896551724137931,
-      "loss": 0.2702,
       "step": 1670
     },
     {
       "epoch": 8.27,
-      "grad_norm": 1.003696322441101,
-      "learning_rate": 0.0008719211822660099,
-      "loss": 0.3509,
       "step": 1680
     },
     {
       "epoch": 8.31,
-      "grad_norm": 0.8540720343589783,
-      "learning_rate": 0.0008472906403940888,
-      "loss": 0.31,
       "step": 1690
     },
     {
       "epoch": 8.36,
-      "grad_norm": 1.6798268556594849,
-      "learning_rate": 0.0008226600985221674,
-      "loss": 0.3727,
       "step": 1700
     },
     {
       "epoch": 8.41,
-      "grad_norm": 0.8054636120796204,
-      "learning_rate": 0.0007980295566502463,
-      "loss": 0.3159,
       "step": 1710
     },
     {
       "epoch": 8.46,
-      "grad_norm": 1.4890103340148926,
-      "learning_rate": 0.0007733990147783252,
-      "loss": 0.3387,
       "step": 1720
     },
     {
       "epoch": 8.51,
-      "grad_norm": 0.7350850105285645,
-      "learning_rate": 0.000748768472906404,
-      "loss": 0.3237,
       "step": 1730
     },
     {
       "epoch": 8.56,
-      "grad_norm": 1.4844990968704224,
-      "learning_rate": 0.0007241379310344828,
-      "loss": 0.3395,
       "step": 1740
     },
     {
       "epoch": 8.61,
-      "grad_norm": 0.887062132358551,
-      "learning_rate": 0.0006995073891625616,
-      "loss": 0.3418,
       "step": 1750
     },
     {
       "epoch": 8.66,
-      "grad_norm": 0.7276543378829956,
-      "learning_rate": 0.0006748768472906404,
-      "loss": 0.3433,
       "step": 1760
     },
     {
       "epoch": 8.71,
-      "grad_norm": 0.6962388753890991,
-      "learning_rate": 0.0006502463054187192,
-      "loss": 0.3588,
       "step": 1770
     },
     {
       "epoch": 8.76,
-      "grad_norm": 1.764138102531433,
-      "learning_rate": 0.0006256157635467981,
-      "loss": 0.3565,
       "step": 1780
     },
     {
       "epoch": 8.81,
-      "grad_norm": 0.7240989208221436,
-      "learning_rate": 0.0006009852216748769,
-      "loss": 0.3361,
       "step": 1790
     },
     {
       "epoch": 8.86,
-      "grad_norm": 0.9319175481796265,
-      "learning_rate": 0.0005763546798029557,
-      "loss": 0.3313,
       "step": 1800
     },
     {
       "epoch": 8.91,
-      "grad_norm": 0.8015260100364685,
-      "learning_rate": 0.0005517241379310345,
-      "loss": 0.3776,
       "step": 1810
     },
     {
       "epoch": 8.95,
-      "grad_norm": 0.6193283200263977,
-      "learning_rate": 0.0005270935960591134,
-      "loss": 0.2927,
       "step": 1820
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9836956521739131,
-      "eval_f1": 0.9847638806045893,
-      "eval_loss": 0.06579139083623886,
-      "eval_precision": 0.9850023004987147,
-      "eval_recall": 0.9849849759564541,
-      "eval_runtime": 12.7582,
-      "eval_samples_per_second": 187.488,
-      "eval_steps_per_second": 11.757,
       "step": 1829
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.6149892210960388,
-      "learning_rate": 0.0005024630541871921,
-      "loss": 0.3451,
       "step": 1830
     },
     {
       "epoch": 9.05,
-      "grad_norm": 0.7571848034858704,
-      "learning_rate": 0.00047783251231527096,
-      "loss": 0.3187,
       "step": 1840
     },
     {
       "epoch": 9.1,
-      "grad_norm": 0.8765355348587036,
-      "learning_rate": 0.00045320197044334973,
-      "loss": 0.3447,
       "step": 1850
     },
     {
       "epoch": 9.15,
-      "grad_norm": 0.5563300848007202,
-      "learning_rate": 0.0004285714285714286,
-      "loss": 0.3529,
       "step": 1860
     },
     {
       "epoch": 9.2,
-      "grad_norm": 0.7253230810165405,
-      "learning_rate": 0.0004039408866995074,
-      "loss": 0.2695,
       "step": 1870
     },
     {
       "epoch": 9.25,
-      "grad_norm": 0.6665922403335571,
-      "learning_rate": 0.0003793103448275862,
-      "loss": 0.3091,
       "step": 1880
     },
     {
       "epoch": 9.3,
-      "grad_norm": 1.43943452835083,
-      "learning_rate": 0.00035467980295566506,
-      "loss": 0.2942,
       "step": 1890
     },
     {
       "epoch": 9.35,
-      "grad_norm": 2.071869373321533,
-      "learning_rate": 0.00033004926108374383,
-      "loss": 0.3097,
       "step": 1900
     },
     {
       "epoch": 9.4,
-      "grad_norm": 0.6491404175758362,
-      "learning_rate": 0.0003054187192118227,
-      "loss": 0.2895,
       "step": 1910
     },
     {
       "epoch": 9.45,
-      "grad_norm": 0.9849537014961243,
-      "learning_rate": 0.0002807881773399015,
-      "loss": 0.3157,
       "step": 1920
     },
     {
       "epoch": 9.5,
-      "grad_norm": 8.456196784973145,
-      "learning_rate": 0.0002561576354679803,
-      "loss": 0.322,
       "step": 1930
     },
     {
       "epoch": 9.54,
-      "grad_norm": 0.5972003936767578,
-      "learning_rate": 0.0002315270935960591,
-      "loss": 0.2867,
       "step": 1940
     },
     {
       "epoch": 9.59,
-      "grad_norm": 0.42175132036209106,
-      "learning_rate": 0.00020689655172413793,
-      "loss": 0.2804,
       "step": 1950
     },
     {
       "epoch": 9.64,
-      "grad_norm": 1.2799464464187622,
-      "learning_rate": 0.00018226600985221675,
-      "loss": 0.2941,
       "step": 1960
     },
     {
       "epoch": 9.69,
-      "grad_norm": 0.8577640056610107,
-      "learning_rate": 0.00015763546798029557,
-      "loss": 0.3202,
       "step": 1970
     },
     {
       "epoch": 9.74,
-      "grad_norm": 0.9166315197944641,
-      "learning_rate": 0.00013300492610837438,
-      "loss": 0.3404,
       "step": 1980
     },
     {
       "epoch": 9.79,
-      "grad_norm": 1.3336009979248047,
-      "learning_rate": 0.0001083743842364532,
-      "loss": 0.3071,
       "step": 1990
     },
     {
       "epoch": 9.84,
-      "grad_norm": 0.7033586502075195,
-      "learning_rate": 8.374384236453201e-05,
-      "loss": 0.3037,
       "step": 2000
     },
     {
       "epoch": 9.89,
-      "grad_norm": 0.48131078481674194,
-      "learning_rate": 5.9113300492610844e-05,
-      "loss": 0.289,
       "step": 2010
     },
     {
       "epoch": 9.94,
-      "grad_norm": 0.8269424438476562,
-      "learning_rate": 3.4482758620689657e-05,
-      "loss": 0.3021,
       "step": 2020
     },
     {
       "epoch": 9.99,
-      "grad_norm": 1.1306647062301636,
-      "learning_rate": 9.852216748768473e-06,
-      "loss": 0.3154,
       "step": 2030
     },
     {
       "epoch": 9.99,
-      "eval_accuracy": 0.9841137123745819,
-      "eval_f1": 0.9852639526448546,
-      "eval_loss": 0.0536968968808651,
-      "eval_precision": 0.9855005493602992,
-      "eval_recall": 0.9854135689141749,
-      "eval_runtime": 12.8562,
-      "eval_samples_per_second": 186.058,
-      "eval_steps_per_second": 11.668,
       "step": 2030
     },
     {
       "epoch": 9.99,
       "step": 2030,
       "total_flos": 1.0133154899356189e+19,
-      "train_loss": 0.5219255947714369,
-      "train_runtime": 1565.9689,
-      "train_samples_per_second": 83.016,
-      "train_steps_per_second": 1.296
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.9807692307692307,
+  "best_model_checkpoint": "vit-base-patch16-224-in21k-finetuned-lora-medmnistv2/checkpoint-2030",
   "epoch": 9.98769987699877,
   "eval_steps": 500,
   "global_step": 2030,
   "log_history": [
     {
       "epoch": 0.05,
+      "grad_norm": 1.854022741317749,
       "learning_rate": 0.004975369458128079,
+      "loss": 0.5157,
       "step": 10
     },
     {
       "epoch": 0.1,
+      "grad_norm": 2.006150245666504,
       "learning_rate": 0.004950738916256157,
+      "loss": 0.645,
       "step": 20
     },
     {
       "epoch": 0.15,
+      "grad_norm": 1.8034334182739258,
+      "learning_rate": 0.0049261083743842365,
+      "loss": 0.5907,
       "step": 30
     },
     {
       "epoch": 0.2,
+      "grad_norm": 1.7398325204849243,
+      "learning_rate": 0.004903940886699507,
+      "loss": 0.6186,
       "step": 40
     },
     {
       "epoch": 0.25,
+      "grad_norm": 1.3694934844970703,
+      "learning_rate": 0.004879310344827586,
+      "loss": 0.5955,
       "step": 50
     },
     {
       "epoch": 0.3,
+      "grad_norm": 1.134981632232666,
+      "learning_rate": 0.004854679802955665,
+      "loss": 0.5948,
       "step": 60
     },
     {
       "epoch": 0.34,
+      "grad_norm": 1.2749730348587036,
+      "learning_rate": 0.0048300492610837435,
+      "loss": 0.598,
       "step": 70
     },
     {
       "epoch": 0.39,
+      "grad_norm": 2.5001230239868164,
+      "learning_rate": 0.004805418719211823,
+      "loss": 0.6648,
       "step": 80
     },
     {
       "epoch": 0.44,
+      "grad_norm": 1.3467851877212524,
+      "learning_rate": 0.004780788177339902,
+      "loss": 0.6488,
       "step": 90
     },
     {
       "epoch": 0.49,
+      "grad_norm": 1.319006323814392,
+      "learning_rate": 0.00475615763546798,
+      "loss": 0.6469,
       "step": 100
     },
     {
       "epoch": 0.54,
+      "grad_norm": 1.564982295036316,
+      "learning_rate": 0.004731527093596059,
+      "loss": 0.5583,
       "step": 110
     },
     {
       "epoch": 0.59,
+      "grad_norm": 1.2751026153564453,
+      "learning_rate": 0.004706896551724138,
+      "loss": 0.5683,
       "step": 120
     },
     {
       "epoch": 0.64,
+      "grad_norm": 1.8151675462722778,
+      "learning_rate": 0.004682266009852217,
+      "loss": 0.6268,
       "step": 130
     },
     {
       "epoch": 0.69,
+      "grad_norm": 1.337044358253479,
+      "learning_rate": 0.004657635467980295,
+      "loss": 0.6423,
       "step": 140
     },
     {
       "epoch": 0.74,
+      "grad_norm": 1.5720871686935425,
       "learning_rate": 0.004635467980295567,
+      "loss": 0.6581,
       "step": 150
     },
     {
       "epoch": 0.79,
+      "grad_norm": 1.5531283617019653,
       "learning_rate": 0.004610837438423646,
+      "loss": 0.6095,
       "step": 160
     },
     {
       "epoch": 0.84,
+      "grad_norm": 3.048377513885498,
+      "learning_rate": 0.004586206896551724,
+      "loss": 0.661,
       "step": 170
     },
     {
       "epoch": 0.89,
+      "grad_norm": 1.9743188619613647,
       "learning_rate": 0.004564039408866995,
+      "loss": 0.6506,
       "step": 180
     },
     {
       "epoch": 0.93,
+      "grad_norm": 1.9349859952926636,
       "learning_rate": 0.004539408866995074,
+      "loss": 0.6681,
       "step": 190
     },
     {
       "epoch": 0.98,
+      "grad_norm": 1.7585110664367676,
       "learning_rate": 0.004514778325123153,
+      "loss": 0.6525,
       "step": 200
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9326923076923077,
+      "eval_f1": 0.9090572948739559,
+      "eval_loss": 0.20250679552555084,
+      "eval_precision": 0.9259619040327134,
+      "eval_recall": 0.9130050125624415,
+      "eval_runtime": 12.8179,
+      "eval_samples_per_second": 186.614,
+      "eval_steps_per_second": 11.702,
       "step": 203
     },
     {
       "epoch": 1.03,
+      "grad_norm": 1.5931968688964844,
       "learning_rate": 0.004490147783251232,
+      "loss": 0.7042,
       "step": 210
     },
     {
       "epoch": 1.08,
+      "grad_norm": 4.101116180419922,
       "learning_rate": 0.00446551724137931,
+      "loss": 0.4773,
       "step": 220
     },
     {
       "epoch": 1.13,
+      "grad_norm": 3.1857903003692627,
       "learning_rate": 0.004440886699507389,
+      "loss": 0.5874,
       "step": 230
     },
     {
       "epoch": 1.18,
+      "grad_norm": 1.9867714643478394,
       "learning_rate": 0.004416256157635468,
+      "loss": 0.6094,
       "step": 240
     },
     {
       "epoch": 1.23,
+      "grad_norm": 2.3485002517700195,
       "learning_rate": 0.004391625615763547,
+      "loss": 0.589,
       "step": 250
     },
     {
       "epoch": 1.28,
+      "grad_norm": 2.4279944896698,
       "learning_rate": 0.004366995073891626,
+      "loss": 0.6718,
       "step": 260
     },
     {
       "epoch": 1.33,
+      "grad_norm": 2.5905745029449463,
       "learning_rate": 0.004342364532019705,
+      "loss": 0.6379,
       "step": 270
     },
     {
       "epoch": 1.38,
+      "grad_norm": 1.4976040124893188,
       "learning_rate": 0.004317733990147784,
+      "loss": 0.6386,
       "step": 280
     },
     {
       "epoch": 1.43,
+      "grad_norm": 2.4124257564544678,
       "learning_rate": 0.004293103448275862,
+      "loss": 0.6483,
       "step": 290
     },
     {
       "epoch": 1.48,
+      "grad_norm": 1.5323392152786255,
       "learning_rate": 0.00426847290640394,
+      "loss": 0.639,
       "step": 300
     },
     {
       "epoch": 1.53,
+      "grad_norm": 2.58333683013916,
       "learning_rate": 0.004243842364532019,
+      "loss": 0.5527,
       "step": 310
     },
     {
       "epoch": 1.57,
+      "grad_norm": 2.3336663246154785,
       "learning_rate": 0.0042192118226600985,
+      "loss": 0.7489,
       "step": 320
     },
     {
       "epoch": 1.62,
+      "grad_norm": 3.3794748783111572,
       "learning_rate": 0.004194581280788178,
+      "loss": 0.6175,
       "step": 330
     },
     {
       "epoch": 1.67,
+      "grad_norm": 2.078139543533325,
       "learning_rate": 0.004169950738916256,
+      "loss": 0.6445,
       "step": 340
     },
     {
       "epoch": 1.72,
+      "grad_norm": 3.8369834423065186,
       "learning_rate": 0.004145320197044335,
+      "loss": 0.7733,
       "step": 350
     },
     {
       "epoch": 1.77,
+      "grad_norm": 5.295024871826172,
       "learning_rate": 0.004120689655172414,
+      "loss": 0.8105,
       "step": 360
     },
     {
       "epoch": 1.82,
+      "grad_norm": 6.0653181076049805,
       "learning_rate": 0.004096059113300492,
+      "loss": 0.8405,
       "step": 370
     },
     {
       "epoch": 1.87,
+      "grad_norm": 3.94065260887146,
       "learning_rate": 0.004071428571428571,
+      "loss": 0.8379,
       "step": 380
     },
     {
       "epoch": 1.92,
+      "grad_norm": 4.302937030792236,
       "learning_rate": 0.00404679802955665,
+      "loss": 0.8095,
       "step": 390
     },
     {
       "epoch": 1.97,
+      "grad_norm": 4.810948371887207,
       "learning_rate": 0.0040221674876847295,
+      "loss": 0.765,
       "step": 400
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9377090301003345,
+      "eval_f1": 0.9344003800244746,
+      "eval_loss": 0.2109694927930832,
+      "eval_precision": 0.9440505095684633,
+      "eval_recall": 0.9288923374288455,
+      "eval_runtime": 12.7867,
+      "eval_samples_per_second": 187.069,
+      "eval_steps_per_second": 11.731,
       "step": 406
     },
     {
       "epoch": 2.02,
+      "grad_norm": 9.29123306274414,
       "learning_rate": 0.003997536945812808,
+      "loss": 0.8761,
       "step": 410
     },
     {
       "epoch": 2.07,
+      "grad_norm": 3.074866533279419,
       "learning_rate": 0.003972906403940887,
+      "loss": 1.0319,
       "step": 420
     },
     {
       "epoch": 2.12,
+      "grad_norm": 1.6303837299346924,
       "learning_rate": 0.003948275862068966,
+      "loss": 0.7979,
       "step": 430
     },
     {
       "epoch": 2.16,
+      "grad_norm": 1.928175687789917,
       "learning_rate": 0.003923645320197044,
+      "loss": 0.7132,
       "step": 440
     },
     {
       "epoch": 2.21,
+      "grad_norm": 4.943911552429199,
       "learning_rate": 0.0038990147783251232,
+      "loss": 0.7863,
       "step": 450
     },
     {
       "epoch": 2.26,
+      "grad_norm": 2.6557776927948,
       "learning_rate": 0.0038743842364532023,
+      "loss": 0.6522,
       "step": 460
     },
     {
       "epoch": 2.31,
+      "grad_norm": 15.654020309448242,
       "learning_rate": 0.003849753694581281,
+      "loss": 0.8122,
       "step": 470
     },
     {
       "epoch": 2.36,
+      "grad_norm": 4.983061790466309,
       "learning_rate": 0.00382512315270936,
+      "loss": 0.757,
       "step": 480
     },
     {
       "epoch": 2.41,
+      "grad_norm": 2.0351402759552,
       "learning_rate": 0.0038004926108374383,
+      "loss": 0.5953,
       "step": 490
     },
     {
       "epoch": 2.46,
+      "grad_norm": 4.033576488494873,
       "learning_rate": 0.003775862068965517,
+      "loss": 0.6497,
       "step": 500
     },
     {
       "epoch": 2.51,
+      "grad_norm": 3.6152243614196777,
       "learning_rate": 0.003751231527093596,
+      "loss": 0.6615,
       "step": 510
     },
     {
       "epoch": 2.56,
+      "grad_norm": 3.6705260276794434,
       "learning_rate": 0.0037266009852216747,
+      "loss": 0.6813,
       "step": 520
     },
     {
       "epoch": 2.61,
+      "grad_norm": 4.159302234649658,
       "learning_rate": 0.003701970443349754,
+      "loss": 0.6579,
       "step": 530
     },
     {
       "epoch": 2.66,
+      "grad_norm": 2.04949951171875,
       "learning_rate": 0.0036773399014778324,
+      "loss": 0.6976,
       "step": 540
     },
     {
       "epoch": 2.71,
+      "grad_norm": 1.9712501764297485,
       "learning_rate": 0.0036527093596059115,
+      "loss": 0.6729,
       "step": 550
     },
     {
       "epoch": 2.76,
+      "grad_norm": 2.4759750366210938,
       "learning_rate": 0.00362807881773399,
+      "loss": 0.7195,
       "step": 560
     },
     {
       "epoch": 2.8,
+      "grad_norm": 1.463779091835022,
       "learning_rate": 0.003603448275862069,
+      "loss": 0.7682,
       "step": 570
     },
     {
       "epoch": 2.85,
+      "grad_norm": 3.0022284984588623,
       "learning_rate": 0.003578817733990148,
+      "loss": 0.5556,
       "step": 580
     },
     {
       "epoch": 2.9,
+      "grad_norm": 2.585496187210083,
       "learning_rate": 0.0035541871921182266,
+      "loss": 0.7779,
       "step": 590
     },
     {
       "epoch": 2.95,
+      "grad_norm": 1.619903326034546,
       "learning_rate": 0.0035295566502463057,
+      "loss": 0.6514,
       "step": 600
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9489966555183946,
+      "eval_f1": 0.9427879032940832,
+      "eval_loss": 0.20264820754528046,
+      "eval_precision": 0.9456850153895534,
+      "eval_recall": 0.9442313976349834,
+      "eval_runtime": 12.7657,
+      "eval_samples_per_second": 187.377,
+      "eval_steps_per_second": 11.75,
       "step": 609
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.8233991861343384,
       "learning_rate": 0.0035049261083743843,
+      "loss": 0.7235,
       "step": 610
     },
     {
       "epoch": 3.05,
+      "grad_norm": 2.941433906555176,
       "learning_rate": 0.0034802955665024634,
+      "loss": 0.8571,
       "step": 620
     },
     {
       "epoch": 3.1,
+      "grad_norm": 2.526165723800659,
       "learning_rate": 0.003455665024630542,
+      "loss": 0.7949,
       "step": 630
     },
     {
       "epoch": 3.15,
+      "grad_norm": 2.683561086654663,
       "learning_rate": 0.0034310344827586207,
+      "loss": 0.811,
       "step": 640
     },
     {
       "epoch": 3.2,
+      "grad_norm": 4.099231243133545,
       "learning_rate": 0.0034064039408867,
+      "loss": 0.694,
       "step": 650
     },
     {
       "epoch": 3.25,
+      "grad_norm": 7.0789289474487305,
       "learning_rate": 0.0033817733990147785,
+      "loss": 0.6623,
       "step": 660
     },
     {
       "epoch": 3.3,
+      "grad_norm": 4.69476842880249,
       "learning_rate": 0.003357142857142857,
+      "loss": 0.6777,
       "step": 670
     },
     {
       "epoch": 3.35,
+      "grad_norm": 3.9503209590911865,
       "learning_rate": 0.003332512315270936,
+      "loss": 0.6973,
       "step": 680
     },
     {
       "epoch": 3.39,
+      "grad_norm": 2.756246328353882,
       "learning_rate": 0.0033078817733990145,
+      "loss": 0.6769,
       "step": 690
     },
     {
       "epoch": 3.44,
+      "grad_norm": 2.2053091526031494,
       "learning_rate": 0.0032832512315270936,
+      "loss": 0.694,
       "step": 700
     },
     {
       "epoch": 3.49,
+      "grad_norm": 2.942899465560913,
       "learning_rate": 0.003258620689655172,
+      "loss": 0.6559,
       "step": 710
     },
     {
       "epoch": 3.54,
+      "grad_norm": 3.347179651260376,
       "learning_rate": 0.0032339901477832513,
+      "loss": 0.7284,
       "step": 720
     },
     {
       "epoch": 3.59,
+      "grad_norm": 3.367220163345337,
       "learning_rate": 0.00320935960591133,
+      "loss": 0.6454,
       "step": 730
     },
     {
       "epoch": 3.64,
+      "grad_norm": 3.6450581550598145,
       "learning_rate": 0.003184729064039409,
+      "loss": 0.6734,
       "step": 740
     },
     {
       "epoch": 3.69,
+      "grad_norm": 2.7060301303863525,
       "learning_rate": 0.0031600985221674877,
+      "loss": 0.682,
       "step": 750
     },
     {
       "epoch": 3.74,
+      "grad_norm": 2.4949233531951904,
+      "learning_rate": 0.0031354679802955664,
+      "loss": 0.6368,
       "step": 760
     },
     {
       "epoch": 3.79,
+      "grad_norm": 2.195974826812744,
+      "learning_rate": 0.0031108374384236455,
+      "loss": 0.5631,
       "step": 770
     },
     {
       "epoch": 3.84,
+      "grad_norm": 2.8718490600585938,
+      "learning_rate": 0.003086206896551724,
+      "loss": 0.6699,
       "step": 780
     },
     {
       "epoch": 3.89,
+      "grad_norm": 2.896594524383545,
+      "learning_rate": 0.003061576354679803,
+      "loss": 0.6374,
       "step": 790
     },
     {
       "epoch": 3.94,
+      "grad_norm": 2.3888590335845947,
+      "learning_rate": 0.003036945812807882,
+      "loss": 0.6104,
       "step": 800
     },
     {
       "epoch": 3.99,
+      "grad_norm": 3.1360650062561035,
+      "learning_rate": 0.003012315270935961,
+      "loss": 0.6405,
       "step": 810
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9289297658862876,
+      "eval_f1": 0.9267094039271597,
+      "eval_loss": 0.20555561780929565,
+      "eval_precision": 0.9480713468179534,
+      "eval_recall": 0.9174817160045543,
+      "eval_runtime": 12.7217,
+      "eval_samples_per_second": 188.025,
+      "eval_steps_per_second": 11.791,
       "step": 813
     },
     {
       "epoch": 4.03,
+      "grad_norm": 2.944392681121826,
+      "learning_rate": 0.0029876847290640396,
+      "loss": 0.6386,
       "step": 820
     },
     {
       "epoch": 4.08,
+      "grad_norm": 2.1877291202545166,
+      "learning_rate": 0.0029630541871921187,
+      "loss": 0.554,
       "step": 830
     },
     {
       "epoch": 4.13,
+      "grad_norm": 2.3481550216674805,
+      "learning_rate": 0.0029384236453201974,
+      "loss": 0.6096,
       "step": 840
     },
     {
       "epoch": 4.18,
+      "grad_norm": 1.2819880247116089,
+      "learning_rate": 0.002913793103448276,
+      "loss": 0.6056,
       "step": 850
     },
     {
       "epoch": 4.23,
+      "grad_norm": 2.8151116371154785,
+      "learning_rate": 0.0028891625615763547,
+      "loss": 0.529,
       "step": 860
     },
     {
       "epoch": 4.28,
+      "grad_norm": 1.4771710634231567,
+      "learning_rate": 0.0028645320197044333,
+      "loss": 0.6179,
       "step": 870
     },
     {
       "epoch": 4.33,
+      "grad_norm": 1.6470296382904053,
+      "learning_rate": 0.002839901477832512,
+      "loss": 0.5378,
       "step": 880
     },
     {
       "epoch": 4.38,
+      "grad_norm": 1.7947298288345337,
+      "learning_rate": 0.002815270935960591,
+      "loss": 0.6106,
       "step": 890
     },
     {
       "epoch": 4.43,
+      "grad_norm": 1.3656386137008667,
+      "learning_rate": 0.0027906403940886697,
+      "loss": 0.559,
       "step": 900
     },
     {
       "epoch": 4.48,
+      "grad_norm": 1.5877206325531006,
+      "learning_rate": 0.002766009852216749,
+      "loss": 0.6011,
       "step": 910
     },
     {
       "epoch": 4.53,
+      "grad_norm": 1.7223550081253052,
+      "learning_rate": 0.0027413793103448275,
+      "loss": 0.569,
       "step": 920
     },
     {
       "epoch": 4.58,
+      "grad_norm": 3.068004608154297,
+      "learning_rate": 0.0027167487684729066,
+      "loss": 0.579,
       "step": 930
     },
     {
       "epoch": 4.62,
+      "grad_norm": 2.741926908493042,
+      "learning_rate": 0.0026921182266009852,
+      "loss": 0.632,
       "step": 940
     },
     {
       "epoch": 4.67,
+      "grad_norm": 2.4220759868621826,
+      "learning_rate": 0.0026674876847290643,
+      "loss": 0.676,
       "step": 950
     },
     {
       "epoch": 4.72,
+      "grad_norm": 2.406053066253662,
+      "learning_rate": 0.002642857142857143,
+      "loss": 0.6331,
       "step": 960
     },
     {
       "epoch": 4.77,
+      "grad_norm": 3.668957471847534,
+      "learning_rate": 0.0026182266009852216,
+      "loss": 0.5617,
       "step": 970
     },
     {
       "epoch": 4.82,
+      "grad_norm": 2.904611825942993,
+      "learning_rate": 0.0025935960591133007,
+      "loss": 0.5911,
       "step": 980
     },
     {
       "epoch": 4.87,
+      "grad_norm": 2.3104119300842285,
+      "learning_rate": 0.0025689655172413794,
+      "loss": 0.6124,
       "step": 990
     },
     {
       "epoch": 4.92,
+      "grad_norm": 3.4378082752227783,
+      "learning_rate": 0.0025443349753694585,
+      "loss": 0.6497,
       "step": 1000
     },
     {
       "epoch": 4.97,
+      "grad_norm": 3.1942694187164307,
+      "learning_rate": 0.002519704433497537,
+      "loss": 0.6514,
       "step": 1010
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9523411371237458,
+      "eval_f1": 0.9382471321690677,
+      "eval_loss": 0.1361980438232422,
+      "eval_precision": 0.9459238480466342,
+      "eval_recall": 0.9385166217680354,
+      "eval_runtime": 12.797,
+      "eval_samples_per_second": 186.918,
+      "eval_steps_per_second": 11.721,
       "step": 1016
     },
     {
       "epoch": 5.02,
+      "grad_norm": 2.186038017272949,
+      "learning_rate": 0.002495073891625616,
+      "loss": 0.6427,
       "step": 1020
     },
     {
       "epoch": 5.07,
+      "grad_norm": 1.6945507526397705,
+      "learning_rate": 0.0024704433497536944,
+      "loss": 0.6153,
       "step": 1030
     },
     {
       "epoch": 5.12,
+      "grad_norm": 1.6330933570861816,
+      "learning_rate": 0.0024458128078817735,
+      "loss": 0.5831,
       "step": 1040
     },
     {
       "epoch": 5.17,
+      "grad_norm": 5.190056800842285,
+      "learning_rate": 0.002421182266009852,
+      "loss": 0.5627,
       "step": 1050
     },
     {
       "epoch": 5.22,
+      "grad_norm": 1.9557955265045166,
+      "learning_rate": 0.0023965517241379313,
+      "loss": 0.6279,
       "step": 1060
     },
     {
       "epoch": 5.26,
+      "grad_norm": 2.5824782848358154,
+      "learning_rate": 0.00237192118226601,
+      "loss": 0.6097,
       "step": 1070
     },
     {
       "epoch": 5.31,
+      "grad_norm": 2.0462582111358643,
+      "learning_rate": 0.002347290640394089,
+      "loss": 0.6527,
       "step": 1080
     },
     {
       "epoch": 5.36,
+      "grad_norm": 2.071093797683716,
+      "learning_rate": 0.0023226600985221672,
+      "loss": 0.6164,
       "step": 1090
     },
     {
       "epoch": 5.41,
+      "grad_norm": 2.4309191703796387,
+      "learning_rate": 0.0022980295566502463,
+      "loss": 0.5927,
       "step": 1100
     },
     {
       "epoch": 5.46,
+      "grad_norm": 2.204646110534668,
+      "learning_rate": 0.002273399014778325,
+      "loss": 0.5524,
       "step": 1110
     },
     {
       "epoch": 5.51,
+      "grad_norm": 2.399622917175293,
+      "learning_rate": 0.002248768472906404,
+      "loss": 0.493,
       "step": 1120
     },
     {
       "epoch": 5.56,
+      "grad_norm": 2.0351855754852295,
+      "learning_rate": 0.0022241379310344827,
+      "loss": 0.4818,
       "step": 1130
     },
     {
       "epoch": 5.61,
+      "grad_norm": 1.677395224571228,
+      "learning_rate": 0.002199507389162562,
+      "loss": 0.523,
       "step": 1140
     },
     {
       "epoch": 5.66,
+      "grad_norm": 3.4297292232513428,
+      "learning_rate": 0.0021748768472906405,
+      "loss": 0.5055,
       "step": 1150
     },
     {
       "epoch": 5.71,
+      "grad_norm": 1.9771558046340942,
+      "learning_rate": 0.002150246305418719,
+      "loss": 0.5898,
       "step": 1160
     },
     {
       "epoch": 5.76,
+      "grad_norm": 1.6579110622406006,
+      "learning_rate": 0.0021256157635467982,
+      "loss": 0.5073,
       "step": 1170
     },
     {
       "epoch": 5.81,
+      "grad_norm": 2.7034878730773926,
+      "learning_rate": 0.002100985221674877,
+      "loss": 0.6095,
       "step": 1180
     },
     {
       "epoch": 5.85,
+      "grad_norm": 2.2419373989105225,
+      "learning_rate": 0.0020763546798029556,
+      "loss": 0.5336,
       "step": 1190
     },
     {
       "epoch": 5.9,
+      "grad_norm": 5.060290813446045,
+      "learning_rate": 0.0020517241379310346,
+      "loss": 0.5068,
       "step": 1200
     },
     {
       "epoch": 5.95,
+      "grad_norm": 2.3167221546173096,
+      "learning_rate": 0.0020270935960591133,
+      "loss": 0.5778,
       "step": 1210
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9770066889632107,
+      "eval_f1": 0.9737037280009198,
+      "eval_loss": 0.07868464291095734,
+      "eval_precision": 0.9739305124429692,
+      "eval_recall": 0.9746007095898861,
+      "eval_runtime": 12.8063,
+      "eval_samples_per_second": 186.783,
+      "eval_steps_per_second": 11.713,
       "step": 1219
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.2392728328704834,
+      "learning_rate": 0.002002463054187192,
+      "loss": 0.4562,
       "step": 1220
     },
     {
       "epoch": 6.05,
+      "grad_norm": 1.9161555767059326,
+      "learning_rate": 0.001977832512315271,
+      "loss": 0.5549,
       "step": 1230
     },
     {
       "epoch": 6.1,
+      "grad_norm": 3.461010694503784,
+      "learning_rate": 0.0019532019704433497,
+      "loss": 0.4686,
       "step": 1240
     },
     {
       "epoch": 6.15,
+      "grad_norm": 2.4330320358276367,
+      "learning_rate": 0.0019285714285714288,
+      "loss": 0.5092,
       "step": 1250
     },
     {
       "epoch": 6.2,
+      "grad_norm": 3.475228786468506,
+      "learning_rate": 0.0019039408866995075,
+      "loss": 0.5897,
       "step": 1260
     },
     {
       "epoch": 6.25,
+      "grad_norm": 2.0373263359069824,
+      "learning_rate": 0.0018793103448275861,
+      "loss": 0.488,
       "step": 1270
     },
     {
       "epoch": 6.3,
+      "grad_norm": 2.285243272781372,
+      "learning_rate": 0.001854679802955665,
+      "loss": 0.5263,
       "step": 1280
     },
     {
       "epoch": 6.35,
+      "grad_norm": 2.0365989208221436,
+      "learning_rate": 0.0018300492610837439,
+      "loss": 0.4668,
       "step": 1290
     },
     {
       "epoch": 6.4,
+      "grad_norm": 1.457801103591919,
+      "learning_rate": 0.0018054187192118227,
+      "loss": 0.4518,
       "step": 1300
     },
     {
       "epoch": 6.45,
+      "grad_norm": 1.9687854051589966,
+      "learning_rate": 0.0017807881773399016,
+      "loss": 0.4986,
       "step": 1310
     },
     {
       "epoch": 6.49,
+      "grad_norm": 3.3556230068206787,
+      "learning_rate": 0.0017561576354679803,
+      "loss": 0.4955,
       "step": 1320
     },
     {
       "epoch": 6.54,
+      "grad_norm": 2.372751474380493,
+      "learning_rate": 0.0017315270935960591,
+      "loss": 0.542,
       "step": 1330
     },
     {
       "epoch": 6.59,
+      "grad_norm": 2.2720744609832764,
+      "learning_rate": 0.001706896551724138,
+      "loss": 0.4917,
       "step": 1340
     },
     {
       "epoch": 6.64,
+      "grad_norm": 1.2895252704620361,
+      "learning_rate": 0.0016822660098522169,
+      "loss": 0.5833,
       "step": 1350
     },
     {
       "epoch": 6.69,
+      "grad_norm": 2.9902422428131104,
+      "learning_rate": 0.0016576354679802955,
+      "loss": 0.5227,
       "step": 1360
     },
     {
       "epoch": 6.74,
+      "grad_norm": 1.3934229612350464,
+      "learning_rate": 0.0016330049261083744,
+      "loss": 0.503,
       "step": 1370
     },
     {
       "epoch": 6.79,
+      "grad_norm": 1.479251503944397,
+      "learning_rate": 0.001608374384236453,
+      "loss": 0.506,
       "step": 1380
     },
     {
       "epoch": 6.84,
+      "grad_norm": 2.6870193481445312,
+      "learning_rate": 0.001583743842364532,
+      "loss": 0.4654,
       "step": 1390
     },
     {
       "epoch": 6.89,
+      "grad_norm": 1.2971521615982056,
+      "learning_rate": 0.0015591133004926108,
+      "loss": 0.4906,
       "step": 1400
     },
     {
       "epoch": 6.94,
+      "grad_norm": 1.7734407186508179,
+      "learning_rate": 0.0015344827586206897,
+      "loss": 0.4829,
       "step": 1410
     },
     {
       "epoch": 6.99,
+      "grad_norm": 1.2960278987884521,
+      "learning_rate": 0.0015098522167487686,
+      "loss": 0.4759,
       "step": 1420
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9724080267558528,
+      "eval_f1": 0.9714127059477171,
+      "eval_loss": 0.09588505327701569,
+      "eval_precision": 0.9743979044505011,
+      "eval_recall": 0.9692755583510763,
+      "eval_runtime": 12.8496,
+      "eval_samples_per_second": 186.154,
+      "eval_steps_per_second": 11.674,
       "step": 1422
     },
     {
       "epoch": 7.04,
+      "grad_norm": 0.9376949071884155,
+      "learning_rate": 0.0014852216748768474,
+      "loss": 0.3886,
       "step": 1430
     },
     {
       "epoch": 7.08,
+      "grad_norm": 1.449591040611267,
+      "learning_rate": 0.0014605911330049263,
+      "loss": 0.4327,
       "step": 1440
     },
     {
       "epoch": 7.13,
+      "grad_norm": 1.4483599662780762,
+      "learning_rate": 0.0014359605911330052,
+      "loss": 0.4035,
       "step": 1450
     },
     {
       "epoch": 7.18,
+      "grad_norm": 1.8822619915008545,
+      "learning_rate": 0.0014113300492610836,
+      "loss": 0.4234,
       "step": 1460
     },
     {
       "epoch": 7.23,
+      "grad_norm": 2.542346239089966,
+      "learning_rate": 0.0013866995073891625,
+      "loss": 0.4178,
       "step": 1470
     },
     {
       "epoch": 7.28,
+      "grad_norm": 2.098578929901123,
+      "learning_rate": 0.0013620689655172414,
+      "loss": 0.4904,
       "step": 1480
     },
     {
       "epoch": 7.33,
+      "grad_norm": 2.8648364543914795,
+      "learning_rate": 0.0013374384236453203,
+      "loss": 0.4314,
       "step": 1490
     },
     {
       "epoch": 7.38,
+      "grad_norm": 2.2441766262054443,
+      "learning_rate": 0.0013128078817733991,
+      "loss": 0.4915,
       "step": 1500
     },
     {
       "epoch": 7.43,
+      "grad_norm": 2.867161989212036,
+      "learning_rate": 0.001288177339901478,
+      "loss": 0.4285,
       "step": 1510
     },
     {
       "epoch": 7.48,
+      "grad_norm": 2.074552297592163,
+      "learning_rate": 0.0012635467980295567,
+      "loss": 0.4875,
       "step": 1520
     },
     {
       "epoch": 7.53,
+      "grad_norm": 1.6760947704315186,
+      "learning_rate": 0.0012389162561576355,
+      "loss": 0.4438,
       "step": 1530
     },
     {
       "epoch": 7.58,
+      "grad_norm": 3.0626227855682373,
+      "learning_rate": 0.0012142857142857144,
+      "loss": 0.4202,
       "step": 1540
     },
     {
       "epoch": 7.63,
+      "grad_norm": 1.759521722793579,
+      "learning_rate": 0.001189655172413793,
+      "loss": 0.6058,
       "step": 1550
     },
     {
       "epoch": 7.68,
+      "grad_norm": 1.6488869190216064,
+      "learning_rate": 0.001165024630541872,
+      "loss": 0.4106,
       "step": 1560
     },
     {
       "epoch": 7.72,
+      "grad_norm": 1.598101019859314,
+      "learning_rate": 0.0011403940886699508,
+      "loss": 0.3934,
       "step": 1570
     },
     {
       "epoch": 7.77,
+      "grad_norm": 1.9214413166046143,
+      "learning_rate": 0.0011157635467980295,
+      "loss": 0.4484,
       "step": 1580
     },
     {
       "epoch": 7.82,
+      "grad_norm": 1.8111754655838013,
+      "learning_rate": 0.0010911330049261083,
+      "loss": 0.4292,
       "step": 1590
     },
     {
       "epoch": 7.87,
+      "grad_norm": 1.7007110118865967,
+      "learning_rate": 0.0010665024630541872,
+      "loss": 0.3767,
       "step": 1600
     },
     {
       "epoch": 7.92,
+      "grad_norm": 1.5511890649795532,
+      "learning_rate": 0.001041871921182266,
+      "loss": 0.4394,
       "step": 1610
     },
     {
       "epoch": 7.97,
+      "grad_norm": 1.2566757202148438,
+      "learning_rate": 0.0010172413793103447,
+      "loss": 0.482,
       "step": 1620
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9761705685618729,
+      "eval_f1": 0.9732825494984669,
+      "eval_loss": 0.07430998235940933,
+      "eval_precision": 0.9737460251788703,
+      "eval_recall": 0.9737015525572723,
+      "eval_runtime": 12.8992,
+      "eval_samples_per_second": 185.438,
+      "eval_steps_per_second": 11.629,
       "step": 1626
     },
     {
       "epoch": 8.02,
+      "grad_norm": 2.213076114654541,
+      "learning_rate": 0.0009926108374384236,
+      "loss": 0.3732,
       "step": 1630
     },
     {
       "epoch": 8.07,
+      "grad_norm": 1.5906304121017456,
+      "learning_rate": 0.0009679802955665025,
+      "loss": 0.4375,
       "step": 1640
     },
     {
       "epoch": 8.12,
+      "grad_norm": 1.559348464012146,
+      "learning_rate": 0.0009433497536945814,
+      "loss": 0.4711,
       "step": 1650
     },
     {
       "epoch": 8.17,
+      "grad_norm": 1.3519264459609985,
+      "learning_rate": 0.00091871921182266,
+      "loss": 0.4236,
       "step": 1660
     },
     {
       "epoch": 8.22,
+      "grad_norm": 1.181723952293396,
+      "learning_rate": 0.0008940886699507389,
+      "loss": 0.3528,
       "step": 1670
     },
     {
       "epoch": 8.27,
+      "grad_norm": 1.1211256980895996,
+      "learning_rate": 0.0008694581280788178,
+      "loss": 0.4419,
       "step": 1680
     },
     {
       "epoch": 8.31,
+      "grad_norm": 1.1640053987503052,
+      "learning_rate": 0.0008448275862068966,
+      "loss": 0.3888,
       "step": 1690
     },
     {
       "epoch": 8.36,
+      "grad_norm": 2.279167652130127,
+      "learning_rate": 0.0008201970443349754,
+      "loss": 0.4163,
       "step": 1700
     },
     {
       "epoch": 8.41,
+      "grad_norm": 1.6173532009124756,
+      "learning_rate": 0.0007955665024630542,
+      "loss": 0.4028,
       "step": 1710
     },
     {
       "epoch": 8.46,
+      "grad_norm": 2.8598406314849854,
+      "learning_rate": 0.000770935960591133,
+      "loss": 0.4218,
       "step": 1720
     },
     {
       "epoch": 8.51,
+      "grad_norm": 1.727655053138733,
+      "learning_rate": 0.0007463054187192118,
+      "loss": 0.4014,
       "step": 1730
     },
     {
       "epoch": 8.56,
+      "grad_norm": 6.330834865570068,
+      "learning_rate": 0.0007216748768472907,
+      "loss": 0.3819,
       "step": 1740
     },
     {
       "epoch": 8.61,
+      "grad_norm": 2.008993625640869,
+      "learning_rate": 0.0006970443349753696,
+      "loss": 0.4146,
       "step": 1750
     },
     {
       "epoch": 8.66,
+      "grad_norm": 1.3601949214935303,
+      "learning_rate": 0.0006724137931034482,
+      "loss": 0.4091,
       "step": 1760
     },
     {
       "epoch": 8.71,
+      "grad_norm": 1.5751508474349976,
+      "learning_rate": 0.0006477832512315271,
+      "loss": 0.4721,
       "step": 1770
     },
     {
       "epoch": 8.76,
+      "grad_norm": 2.352508544921875,
+      "learning_rate": 0.000623152709359606,
+      "loss": 0.4087,
       "step": 1780
     },
     {
       "epoch": 8.81,
+      "grad_norm": 1.4975714683532715,
+      "learning_rate": 0.0005985221674876847,
+      "loss": 0.3899,
       "step": 1790
     },
     {
       "epoch": 8.86,
+      "grad_norm": 1.4178757667541504,
+      "learning_rate": 0.0005738916256157636,
+      "loss": 0.3813,
       "step": 1800
     },
     {
       "epoch": 8.91,
+      "grad_norm": 2.137474536895752,
+      "learning_rate": 0.0005492610837438424,
+      "loss": 0.4743,
       "step": 1810
     },
     {
       "epoch": 8.95,
+      "grad_norm": 0.9968273639678955,
+      "learning_rate": 0.0005246305418719212,
+      "loss": 0.3729,
       "step": 1820
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.975752508361204,
+      "eval_f1": 0.9761552417357652,
+      "eval_loss": 0.090341717004776,
+      "eval_precision": 0.9777538442850773,
+      "eval_recall": 0.9753874426406991,
+      "eval_runtime": 12.9146,
+      "eval_samples_per_second": 185.217,
+      "eval_steps_per_second": 11.615,
       "step": 1829
     },
     {
       "epoch": 9.0,
+      "grad_norm": 1.4125550985336304,
+      "learning_rate": 0.0005,
+      "loss": 0.4285,
       "step": 1830
     },
     {
       "epoch": 9.05,
+      "grad_norm": 1.411934494972229,
+      "learning_rate": 0.00047536945812807883,
+      "loss": 0.4119,
       "step": 1840
     },
     {
       "epoch": 9.1,
+      "grad_norm": 1.0983872413635254,
+      "learning_rate": 0.00045073891625615765,
+      "loss": 0.4449,
       "step": 1850
     },
     {
       "epoch": 9.15,
+      "grad_norm": 1.1691962480545044,
+      "learning_rate": 0.0004261083743842364,
+      "loss": 0.4178,
       "step": 1860
     },
     {
       "epoch": 9.2,
+      "grad_norm": 1.168599247932434,
+      "learning_rate": 0.0004014778325123153,
+      "loss": 0.356,
       "step": 1870
     },
     {
       "epoch": 9.25,
+      "grad_norm": 2.360109329223633,
+      "learning_rate": 0.00037684729064039405,
+      "loss": 0.3666,
       "step": 1880
     },
     {
       "epoch": 9.3,
+      "grad_norm": 1.499463438987732,
+      "learning_rate": 0.00035221674876847293,
+      "loss": 0.3928,
       "step": 1890
     },
     {
       "epoch": 9.35,
+      "grad_norm": 1.5823447704315186,
+      "learning_rate": 0.00032758620689655175,
+      "loss": 0.3461,
       "step": 1900
     },
     {
       "epoch": 9.4,
+      "grad_norm": 1.3279311656951904,
+      "learning_rate": 0.0003029556650246305,
+      "loss": 0.4023,
       "step": 1910
     },
     {
       "epoch": 9.45,
+      "grad_norm": 1.4666024446487427,
+      "learning_rate": 0.00027832512315270933,
+      "loss": 0.3929,
       "step": 1920
     },
     {
       "epoch": 9.5,
+      "grad_norm": 1.5968170166015625,
+      "learning_rate": 0.0002536945812807882,
+      "loss": 0.3738,
       "step": 1930
     },
     {
       "epoch": 9.54,
+      "grad_norm": 0.8691931962966919,
+      "learning_rate": 0.000229064039408867,
+      "loss": 0.3323,
       "step": 1940
     },
     {
       "epoch": 9.59,
+      "grad_norm": 1.582350254058838,
+      "learning_rate": 0.00020443349753694582,
+      "loss": 0.327,
       "step": 1950
     },
     {
       "epoch": 9.64,
+      "grad_norm": 1.616529107093811,
+      "learning_rate": 0.00017980295566502464,
+      "loss": 0.3701,
       "step": 1960
     },
     {
       "epoch": 9.69,
+      "grad_norm": 2.23984432220459,
+      "learning_rate": 0.00015517241379310346,
+      "loss": 0.3796,
       "step": 1970
     },
     {
       "epoch": 9.74,
+      "grad_norm": 1.5370508432388306,
+      "learning_rate": 0.00013054187192118225,
+      "loss": 0.405,
       "step": 1980
     },
     {
       "epoch": 9.79,
+      "grad_norm": 2.253962755203247,
+      "learning_rate": 0.0001059113300492611,
+      "loss": 0.3793,
       "step": 1990
     },
     {
       "epoch": 9.84,
+      "grad_norm": 1.1481009721755981,
+      "learning_rate": 8.12807881773399e-05,
+      "loss": 0.3496,
       "step": 2000
     },
     {
       "epoch": 9.89,
+      "grad_norm": 0.9593034982681274,
+      "learning_rate": 5.6650246305418716e-05,
+      "loss": 0.3418,
       "step": 2010
     },
     {
       "epoch": 9.94,
+      "grad_norm": 1.4056353569030762,
+      "learning_rate": 3.2019704433497536e-05,
+      "loss": 0.3796,
       "step": 2020
     },
     {
       "epoch": 9.99,
+      "grad_norm": 1.489027500152588,
+      "learning_rate": 7.3891625615763555e-06,
+      "loss": 0.3705,
       "step": 2030
     },
     {
       "epoch": 9.99,
+      "eval_accuracy": 0.9807692307692307,
+      "eval_f1": 0.9825245324491525,
+      "eval_loss": 0.07319223880767822,
+      "eval_precision": 0.9829956117956687,
+      "eval_recall": 0.9825747689517654,
+      "eval_runtime": 12.8452,
+      "eval_samples_per_second": 186.217,
+      "eval_steps_per_second": 11.677,
       "step": 2030
     },
     {
       "epoch": 9.99,
       "step": 2030,
       "total_flos": 1.0133154899356189e+19,
+      "train_loss": 0.5615053875692959,
+      "train_runtime": 1549.2005,
+      "train_samples_per_second": 83.914,
+      "train_steps_per_second": 1.31
     }
   ],
   "logging_steps": 10,