🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +9 -9
eval_results.json +5 -5
runs/Jul17_09-32-17_405903fcfe02/events.out.tfevents.1721209043.405903fcfe02.739.4 +3 -0
train_results.json +4 -4
trainer_state.json +156 -156

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: validation
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.9018181818181819
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-base-food-items-v1
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4941
-- Accuracy: 0.9018
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: beans
       type: imagefolder
       config: default
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.9090909090909091
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # vit-base-food-items-v1
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the beans dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4524
+- Accuracy: 0.9091
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.9236363636363636,
-    "eval_loss": 0.33629149198532104,
-    "eval_runtime": 7.1163,
-    "eval_samples_per_second": 77.287,
-    "eval_steps_per_second": 9.696,
     "total_flos": 7.501829674622976e+17,
-    "train_loss": 0.22265003621578217,
-    "train_runtime": 237.6059,
-    "train_samples_per_second": 40.74,
-    "train_steps_per_second": 2.559
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.9090909090909091,
+    "eval_loss": 0.45239612460136414,
+    "eval_runtime": 6.966,
+    "eval_samples_per_second": 78.955,
+    "eval_steps_per_second": 9.905,
     "total_flos": 7.501829674622976e+17,
+    "train_loss": 0.03790271527280933,
+    "train_runtime": 250.8529,
+    "train_samples_per_second": 38.588,
+    "train_steps_per_second": 2.424
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.9236363636363636,
-    "eval_loss": 0.33629149198532104,
-    "eval_runtime": 7.1163,
-    "eval_samples_per_second": 77.287,
-    "eval_steps_per_second": 9.696
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.9090909090909091,
+    "eval_loss": 0.45239612460136414,
+    "eval_runtime": 6.966,
+    "eval_samples_per_second": 78.955,
+    "eval_steps_per_second": 9.905
 }

runs/Jul17_09-32-17_405903fcfe02/events.out.tfevents.1721209043.405903fcfe02.739.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cae91c84c280b26535650b9c88a0ab24ef8f9791cc8eb4c0a1eb3390e12b2e2b
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 7.501829674622976e+17,
-    "train_loss": 0.22265003621578217,
-    "train_runtime": 237.6059,
-    "train_samples_per_second": 40.74,
-    "train_steps_per_second": 2.559
 }

 {
     "epoch": 4.0,
     "total_flos": 7.501829674622976e+17,
+    "train_loss": 0.03790271527280933,
+    "train_runtime": 250.8529,
+    "train_samples_per_second": 38.588,
+    "train_steps_per_second": 2.424
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.33629149198532104,
-  "best_model_checkpoint": "vit-base-food-items-v1/checkpoint-400",
   "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 608,
@@ -10,486 +10,486 @@
   "log_history": [
     {
       "epoch": 0.06578947368421052,
-      "grad_norm": 2.054168224334717,
       "learning_rate": 0.00019671052631578949,
-      "loss": 2.2227,
       "step": 10
     },
     {
       "epoch": 0.13157894736842105,
-      "grad_norm": 2.418569326400757,
       "learning_rate": 0.00019342105263157894,
-      "loss": 1.7988,
       "step": 20
     },
     {
       "epoch": 0.19736842105263158,
-      "grad_norm": 2.0799572467803955,
       "learning_rate": 0.00019013157894736844,
-      "loss": 1.3952,
       "step": 30
     },
     {
       "epoch": 0.2631578947368421,
-      "grad_norm": 2.5012855529785156,
       "learning_rate": 0.00018684210526315792,
-      "loss": 1.0071,
       "step": 40
     },
     {
       "epoch": 0.32894736842105265,
-      "grad_norm": 1.610549807548523,
       "learning_rate": 0.00018355263157894736,
-      "loss": 0.8514,
       "step": 50
     },
     {
       "epoch": 0.39473684210526316,
-      "grad_norm": 2.7514488697052,
       "learning_rate": 0.00018026315789473684,
-      "loss": 0.6752,
       "step": 60
     },
     {
       "epoch": 0.4605263157894737,
-      "grad_norm": 5.107870101928711,
       "learning_rate": 0.00017697368421052632,
-      "loss": 0.617,
       "step": 70
     },
     {
       "epoch": 0.5263157894736842,
-      "grad_norm": 1.621307611465454,
       "learning_rate": 0.0001736842105263158,
-      "loss": 0.4383,
       "step": 80
     },
     {
       "epoch": 0.5921052631578947,
-      "grad_norm": 2.050955057144165,
       "learning_rate": 0.00017039473684210527,
-      "loss": 0.4703,
       "step": 90
     },
     {
       "epoch": 0.6578947368421053,
-      "grad_norm": 3.5689868927001953,
       "learning_rate": 0.00016710526315789475,
-      "loss": 0.4195,
       "step": 100
     },
     {
       "epoch": 0.6578947368421053,
-      "eval_accuracy": 0.9054545454545454,
-      "eval_loss": 0.5027927756309509,
-      "eval_runtime": 6.6566,
-      "eval_samples_per_second": 82.625,
-      "eval_steps_per_second": 10.366,
       "step": 100
     },
     {
       "epoch": 0.7236842105263158,
-      "grad_norm": 2.683819055557251,
       "learning_rate": 0.00016381578947368422,
-      "loss": 0.3666,
       "step": 110
     },
     {
       "epoch": 0.7894736842105263,
-      "grad_norm": 2.7733426094055176,
       "learning_rate": 0.0001605263157894737,
-      "loss": 0.3876,
       "step": 120
     },
     {
       "epoch": 0.8552631578947368,
-      "grad_norm": 3.341937303543091,
       "learning_rate": 0.00015723684210526318,
-      "loss": 0.3778,
       "step": 130
     },
     {
       "epoch": 0.9210526315789473,
-      "grad_norm": 1.0890475511550903,
       "learning_rate": 0.00015394736842105265,
-      "loss": 0.3368,
       "step": 140
     },
     {
       "epoch": 0.9868421052631579,
-      "grad_norm": 3.217635154724121,
       "learning_rate": 0.0001506578947368421,
-      "loss": 0.2434,
       "step": 150
     },
     {
       "epoch": 1.0526315789473684,
-      "grad_norm": 1.1362298727035522,
       "learning_rate": 0.00014736842105263158,
-      "loss": 0.1537,
       "step": 160
     },
     {
       "epoch": 1.118421052631579,
-      "grad_norm": 0.3043310344219208,
       "learning_rate": 0.00014407894736842106,
-      "loss": 0.1786,
       "step": 170
     },
     {
       "epoch": 1.1842105263157894,
-      "grad_norm": 0.36744824051856995,
       "learning_rate": 0.00014078947368421053,
-      "loss": 0.1534,
       "step": 180
     },
     {
       "epoch": 1.25,
-      "grad_norm": 0.4088458716869354,
       "learning_rate": 0.0001375,
-      "loss": 0.1273,
       "step": 190
     },
     {
       "epoch": 1.3157894736842106,
-      "grad_norm": 0.22641144692897797,
       "learning_rate": 0.00013421052631578948,
-      "loss": 0.1072,
       "step": 200
     },
     {
       "epoch": 1.3157894736842106,
-      "eval_accuracy": 0.8945454545454545,
-      "eval_loss": 0.37944725155830383,
-      "eval_runtime": 6.6833,
-      "eval_samples_per_second": 82.295,
-      "eval_steps_per_second": 10.324,
       "step": 200
     },
     {
       "epoch": 1.381578947368421,
-      "grad_norm": 0.14886893332004547,
       "learning_rate": 0.00013092105263157893,
-      "loss": 0.0846,
       "step": 210
     },
     {
       "epoch": 1.4473684210526316,
-      "grad_norm": 0.17389647662639618,
       "learning_rate": 0.00012763157894736844,
-      "loss": 0.0789,
       "step": 220
     },
     {
       "epoch": 1.513157894736842,
-      "grad_norm": 0.12492559105157852,
       "learning_rate": 0.00012434210526315791,
-      "loss": 0.0605,
       "step": 230
     },
     {
       "epoch": 1.5789473684210527,
-      "grad_norm": 0.14732375741004944,
       "learning_rate": 0.00012105263157894738,
-      "loss": 0.0867,
       "step": 240
     },
     {
       "epoch": 1.6447368421052633,
-      "grad_norm": 0.1113506406545639,
       "learning_rate": 0.00011776315789473684,
-      "loss": 0.0436,
       "step": 250
     },
     {
       "epoch": 1.7105263157894737,
-      "grad_norm": 0.09813081473112106,
       "learning_rate": 0.00011447368421052632,
-      "loss": 0.0416,
       "step": 260
     },
     {
       "epoch": 1.776315789473684,
-      "grad_norm": 6.826725006103516,
       "learning_rate": 0.0001111842105263158,
-      "loss": 0.0514,
       "step": 270
     },
     {
       "epoch": 1.8421052631578947,
-      "grad_norm": 0.10619573295116425,
       "learning_rate": 0.00010789473684210527,
-      "loss": 0.0601,
       "step": 280
     },
     {
       "epoch": 1.9078947368421053,
-      "grad_norm": 0.13959018886089325,
       "learning_rate": 0.00010460526315789475,
-      "loss": 0.0454,
       "step": 290
     },
     {
       "epoch": 1.973684210526316,
-      "grad_norm": 0.08468258380889893,
       "learning_rate": 0.00010131578947368421,
-      "loss": 0.0326,
       "step": 300
     },
     {
       "epoch": 1.973684210526316,
-      "eval_accuracy": 0.9054545454545454,
-      "eval_loss": 0.38323774933815,
-      "eval_runtime": 6.0691,
-      "eval_samples_per_second": 90.622,
-      "eval_steps_per_second": 11.369,
       "step": 300
     },
     {
       "epoch": 2.039473684210526,
-      "grad_norm": 0.07823757082223892,
       "learning_rate": 9.802631578947369e-05,
-      "loss": 0.0392,
       "step": 310
     },
     {
       "epoch": 2.1052631578947367,
-      "grad_norm": 0.07656868547201157,
       "learning_rate": 9.473684210526316e-05,
-      "loss": 0.0288,
       "step": 320
     },
     {
       "epoch": 2.1710526315789473,
-      "grad_norm": 0.07013211399316788,
       "learning_rate": 9.144736842105264e-05,
-      "loss": 0.0313,
       "step": 330
     },
     {
       "epoch": 2.236842105263158,
-      "grad_norm": 0.07913695275783539,
       "learning_rate": 8.81578947368421e-05,
-      "loss": 0.0378,
       "step": 340
     },
     {
       "epoch": 2.3026315789473686,
-      "grad_norm": 0.3869466483592987,
       "learning_rate": 8.486842105263159e-05,
-      "loss": 0.0253,
       "step": 350
     },
     {
       "epoch": 2.3684210526315788,
-      "grad_norm": 0.06490592658519745,
       "learning_rate": 8.157894736842105e-05,
-      "loss": 0.0241,
       "step": 360
     },
     {
       "epoch": 2.4342105263157894,
-      "grad_norm": 0.06631086021661758,
       "learning_rate": 7.828947368421053e-05,
-      "loss": 0.0231,
       "step": 370
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.05489266291260719,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 0.0218,
       "step": 380
     },
     {
       "epoch": 2.5657894736842106,
-      "grad_norm": 0.07426982372999191,
       "learning_rate": 7.171052631578947e-05,
-      "loss": 0.0215,
       "step": 390
     },
     {
       "epoch": 2.6315789473684212,
-      "grad_norm": 0.063384510576725,
       "learning_rate": 6.842105263157895e-05,
-      "loss": 0.0207,
       "step": 400
     },
     {
       "epoch": 2.6315789473684212,
-      "eval_accuracy": 0.9236363636363636,
-      "eval_loss": 0.33629149198532104,
-      "eval_runtime": 6.0608,
-      "eval_samples_per_second": 90.746,
-      "eval_steps_per_second": 11.385,
       "step": 400
     },
     {
       "epoch": 2.6973684210526314,
-      "grad_norm": 0.05782260745763779,
       "learning_rate": 6.513157894736842e-05,
-      "loss": 0.0201,
       "step": 410
     },
     {
       "epoch": 2.763157894736842,
-      "grad_norm": 0.05535552278161049,
       "learning_rate": 6.18421052631579e-05,
-      "loss": 0.0194,
       "step": 420
     },
     {
       "epoch": 2.8289473684210527,
-      "grad_norm": 0.05756945163011551,
       "learning_rate": 5.855263157894737e-05,
-      "loss": 0.0191,
       "step": 430
     },
     {
       "epoch": 2.8947368421052633,
-      "grad_norm": 0.05671467259526253,
       "learning_rate": 5.526315789473685e-05,
-      "loss": 0.0188,
       "step": 440
     },
     {
       "epoch": 2.9605263157894735,
-      "grad_norm": 0.05619660019874573,
       "learning_rate": 5.197368421052632e-05,
-      "loss": 0.0183,
       "step": 450
     },
     {
       "epoch": 3.026315789473684,
-      "grad_norm": 0.05277419090270996,
       "learning_rate": 4.868421052631579e-05,
-      "loss": 0.0177,
       "step": 460
     },
     {
       "epoch": 3.0921052631578947,
-      "grad_norm": 0.05281645059585571,
       "learning_rate": 4.539473684210527e-05,
-      "loss": 0.0174,
       "step": 470
     },
     {
       "epoch": 3.1578947368421053,
-      "grad_norm": 0.06867770105600357,
       "learning_rate": 4.210526315789474e-05,
-      "loss": 0.017,
       "step": 480
     },
     {
       "epoch": 3.223684210526316,
-      "grad_norm": 0.047292064875364304,
       "learning_rate": 3.8815789473684214e-05,
-      "loss": 0.0168,
       "step": 490
     },
     {
       "epoch": 3.2894736842105265,
-      "grad_norm": 0.043311525136232376,
       "learning_rate": 3.5526315789473684e-05,
-      "loss": 0.0167,
       "step": 500
     },
     {
       "epoch": 3.2894736842105265,
-      "eval_accuracy": 0.9236363636363636,
-      "eval_loss": 0.33733832836151123,
-      "eval_runtime": 5.7257,
-      "eval_samples_per_second": 96.057,
-      "eval_steps_per_second": 12.051,
       "step": 500
     },
     {
       "epoch": 3.3552631578947367,
-      "grad_norm": 0.04796218127012253,
       "learning_rate": 3.223684210526316e-05,
-      "loss": 0.0165,
       "step": 510
     },
     {
       "epoch": 3.4210526315789473,
-      "grad_norm": 0.048424966633319855,
       "learning_rate": 2.8947368421052634e-05,
-      "loss": 0.0163,
       "step": 520
     },
     {
       "epoch": 3.486842105263158,
-      "grad_norm": 0.046178512275218964,
       "learning_rate": 2.565789473684211e-05,
-      "loss": 0.0157,
       "step": 530
     },
     {
       "epoch": 3.5526315789473686,
-      "grad_norm": 0.04182315245270729,
       "learning_rate": 2.236842105263158e-05,
-      "loss": 0.0156,
       "step": 540
     },
     {
       "epoch": 3.6184210526315788,
-      "grad_norm": 0.04811399057507515,
       "learning_rate": 1.9078947368421056e-05,
-      "loss": 0.0157,
       "step": 550
     },
     {
       "epoch": 3.6842105263157894,
-      "grad_norm": 0.04523231461644173,
       "learning_rate": 1.5789473684210526e-05,
-      "loss": 0.0157,
       "step": 560
     },
     {
       "epoch": 3.75,
-      "grad_norm": 0.04799880087375641,
       "learning_rate": 1.25e-05,
-      "loss": 0.0155,
       "step": 570
     },
     {
       "epoch": 3.8157894736842106,
-      "grad_norm": 0.04668057709932327,
       "learning_rate": 9.210526315789474e-06,
-      "loss": 0.0154,
       "step": 580
     },
     {
       "epoch": 3.8815789473684212,
-      "grad_norm": 0.044472016394138336,
       "learning_rate": 5.921052631578948e-06,
-      "loss": 0.0154,
       "step": 590
     },
     {
       "epoch": 3.9473684210526314,
-      "grad_norm": 0.05030672252178192,
       "learning_rate": 2.631578947368421e-06,
-      "loss": 0.0153,
       "step": 600
     },
     {
       "epoch": 3.9473684210526314,
-      "eval_accuracy": 0.9236363636363636,
-      "eval_loss": 0.33738574385643005,
-      "eval_runtime": 6.0053,
-      "eval_samples_per_second": 91.586,
-      "eval_steps_per_second": 11.49,
       "step": 600
     },
     {
       "epoch": 4.0,
       "step": 608,
       "total_flos": 7.501829674622976e+17,
-      "train_loss": 0.22265003621578217,
-      "train_runtime": 237.6059,
-      "train_samples_per_second": 40.74,
-      "train_steps_per_second": 2.559
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.45239612460136414,
+  "best_model_checkpoint": "vit-base-food-items-v1/checkpoint-300",
   "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 608,
   "log_history": [
     {
       "epoch": 0.06578947368421052,
+      "grad_norm": 0.04839174449443817,
       "learning_rate": 0.00019671052631578949,
+      "loss": 0.0259,
       "step": 10
     },
     {
       "epoch": 0.13157894736842105,
+      "grad_norm": 5.086187362670898,
       "learning_rate": 0.00019342105263157894,
+      "loss": 0.0743,
       "step": 20
     },
     {
       "epoch": 0.19736842105263158,
+      "grad_norm": 8.687716484069824,
       "learning_rate": 0.00019013157894736844,
+      "loss": 0.0621,
       "step": 30
     },
     {
       "epoch": 0.2631578947368421,
+      "grad_norm": 0.0554538369178772,
       "learning_rate": 0.00018684210526315792,
+      "loss": 0.1584,
       "step": 40
     },
     {
       "epoch": 0.32894736842105265,
+      "grad_norm": 7.25691556930542,
       "learning_rate": 0.00018355263157894736,
+      "loss": 0.0284,
       "step": 50
     },
     {
       "epoch": 0.39473684210526316,
+      "grad_norm": 0.0355791412293911,
       "learning_rate": 0.00018026315789473684,
+      "loss": 0.1607,
       "step": 60
     },
     {
       "epoch": 0.4605263157894737,
+      "grad_norm": 6.474045276641846,
       "learning_rate": 0.00017697368421052632,
+      "loss": 0.2034,
       "step": 70
     },
     {
       "epoch": 0.5263157894736842,
+      "grad_norm": 0.047177255153656006,
       "learning_rate": 0.0001736842105263158,
+      "loss": 0.1755,
       "step": 80
     },
     {
       "epoch": 0.5921052631578947,
+      "grad_norm": 7.999953269958496,
       "learning_rate": 0.00017039473684210527,
+      "loss": 0.078,
       "step": 90
     },
     {
       "epoch": 0.6578947368421053,
+      "grad_norm": 0.2906012237071991,
       "learning_rate": 0.00016710526315789475,
+      "loss": 0.1773,
       "step": 100
     },
     {
       "epoch": 0.6578947368421053,
+      "eval_accuracy": 0.8472727272727273,
+      "eval_loss": 0.7279737591743469,
+      "eval_runtime": 6.7097,
+      "eval_samples_per_second": 81.971,
+      "eval_steps_per_second": 10.284,
       "step": 100
     },
     {
       "epoch": 0.7236842105263158,
+      "grad_norm": 0.038031741976737976,
       "learning_rate": 0.00016381578947368422,
+      "loss": 0.1011,
       "step": 110
     },
     {
       "epoch": 0.7894736842105263,
+      "grad_norm": 0.8751915097236633,
       "learning_rate": 0.0001605263157894737,
+      "loss": 0.1059,
       "step": 120
     },
     {
       "epoch": 0.8552631578947368,
+      "grad_norm": 0.08943302929401398,
       "learning_rate": 0.00015723684210526318,
+      "loss": 0.0334,
       "step": 130
     },
     {
       "epoch": 0.9210526315789473,
+      "grad_norm": 0.17175784707069397,
       "learning_rate": 0.00015394736842105265,
+      "loss": 0.1515,
       "step": 140
     },
     {
       "epoch": 0.9868421052631579,
+      "grad_norm": 0.053591687232255936,
       "learning_rate": 0.0001506578947368421,
+      "loss": 0.1301,
       "step": 150
     },
     {
       "epoch": 1.0526315789473684,
+      "grad_norm": 0.026137366890907288,
       "learning_rate": 0.00014736842105263158,
+      "loss": 0.0102,
       "step": 160
     },
     {
       "epoch": 1.118421052631579,
+      "grad_norm": 0.09105370193719864,
       "learning_rate": 0.00014407894736842106,
+      "loss": 0.0066,
       "step": 170
     },
     {
       "epoch": 1.1842105263157894,
+      "grad_norm": 0.050408605486154556,
       "learning_rate": 0.00014078947368421053,
+      "loss": 0.0679,
       "step": 180
     },
     {
       "epoch": 1.25,
+      "grad_norm": 0.051493316888809204,
       "learning_rate": 0.0001375,
+      "loss": 0.007,
       "step": 190
     },
     {
       "epoch": 1.3157894736842106,
+      "grad_norm": 0.023582015186548233,
       "learning_rate": 0.00013421052631578948,
+      "loss": 0.0589,
       "step": 200
     },
     {
       "epoch": 1.3157894736842106,
+      "eval_accuracy": 0.8872727272727273,
+      "eval_loss": 0.5529205203056335,
+      "eval_runtime": 5.9487,
+      "eval_samples_per_second": 92.458,
+      "eval_steps_per_second": 11.599,
       "step": 200
     },
     {
       "epoch": 1.381578947368421,
+      "grad_norm": 0.0221235528588295,
       "learning_rate": 0.00013092105263157893,
+      "loss": 0.0046,
       "step": 210
     },
     {
       "epoch": 1.4473684210526316,
+      "grad_norm": 6.497156620025635,
       "learning_rate": 0.00012763157894736844,
+      "loss": 0.0086,
       "step": 220
     },
     {
       "epoch": 1.513157894736842,
+      "grad_norm": 0.013416736386716366,
       "learning_rate": 0.00012434210526315791,
+      "loss": 0.0042,
       "step": 230
     },
     {
       "epoch": 1.5789473684210527,
+      "grad_norm": 0.012088390998542309,
       "learning_rate": 0.00012105263157894738,
+      "loss": 0.1094,
       "step": 240
     },
     {
       "epoch": 1.6447368421052633,
+      "grad_norm": 7.198599338531494,
       "learning_rate": 0.00011776315789473684,
+      "loss": 0.045,
       "step": 250
     },
     {
       "epoch": 1.7105263157894737,
+      "grad_norm": 0.031135905534029007,
       "learning_rate": 0.00011447368421052632,
+      "loss": 0.0331,
       "step": 260
     },
     {
       "epoch": 1.776315789473684,
+      "grad_norm": 0.07299932837486267,
       "learning_rate": 0.0001111842105263158,
+      "loss": 0.0535,
       "step": 270
     },
     {
       "epoch": 1.8421052631578947,
+      "grad_norm": 0.02018345519900322,
       "learning_rate": 0.00010789473684210527,
+      "loss": 0.0241,
       "step": 280
     },
     {
       "epoch": 1.9078947368421053,
+      "grad_norm": 0.012926718220114708,
       "learning_rate": 0.00010460526315789475,
+      "loss": 0.033,
       "step": 290
     },
     {
       "epoch": 1.973684210526316,
+      "grad_norm": 8.804197311401367,
       "learning_rate": 0.00010131578947368421,
+      "loss": 0.043,
       "step": 300
     },
     {
       "epoch": 1.973684210526316,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.45239612460136414,
+      "eval_runtime": 5.7174,
+      "eval_samples_per_second": 96.197,
+      "eval_steps_per_second": 12.068,
       "step": 300
     },
     {
       "epoch": 2.039473684210526,
+      "grad_norm": 21.062307357788086,
       "learning_rate": 9.802631578947369e-05,
+      "loss": 0.0327,
       "step": 310
     },
     {
       "epoch": 2.1052631578947367,
+      "grad_norm": 0.009257642552256584,
       "learning_rate": 9.473684210526316e-05,
+      "loss": 0.0151,
       "step": 320
     },
     {
       "epoch": 2.1710526315789473,
+      "grad_norm": 0.014151917770504951,
       "learning_rate": 9.144736842105264e-05,
+      "loss": 0.0248,
       "step": 330
     },
     {
       "epoch": 2.236842105263158,
+      "grad_norm": 0.013802828267216682,
       "learning_rate": 8.81578947368421e-05,
+      "loss": 0.003,
       "step": 340
     },
     {
       "epoch": 2.3026315789473686,
+      "grad_norm": 0.014456182718276978,
       "learning_rate": 8.486842105263159e-05,
+      "loss": 0.0035,
       "step": 350
     },
     {
       "epoch": 2.3684210526315788,
+      "grad_norm": 0.006758903618901968,
       "learning_rate": 8.157894736842105e-05,
+      "loss": 0.0024,
       "step": 360
     },
     {
       "epoch": 2.4342105263157894,
+      "grad_norm": 0.009314753115177155,
       "learning_rate": 7.828947368421053e-05,
+      "loss": 0.0024,
       "step": 370
     },
     {
       "epoch": 2.5,
+      "grad_norm": 0.006471664644777775,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0022,
       "step": 380
     },
     {
       "epoch": 2.5657894736842106,
+      "grad_norm": 0.013896413147449493,
       "learning_rate": 7.171052631578947e-05,
+      "loss": 0.0023,
       "step": 390
     },
     {
       "epoch": 2.6315789473684212,
+      "grad_norm": 0.009549788199365139,
       "learning_rate": 6.842105263157895e-05,
+      "loss": 0.0022,
       "step": 400
     },
     {
       "epoch": 2.6315789473684212,
+      "eval_accuracy": 0.8909090909090909,
+      "eval_loss": 0.5150398015975952,
+      "eval_runtime": 6.2356,
+      "eval_samples_per_second": 88.203,
+      "eval_steps_per_second": 11.065,
       "step": 400
     },
     {
       "epoch": 2.6973684210526314,
+      "grad_norm": 0.00833881739526987,
       "learning_rate": 6.513157894736842e-05,
+      "loss": 0.0024,
       "step": 410
     },
     {
       "epoch": 2.763157894736842,
+      "grad_norm": 0.006957135163247585,
       "learning_rate": 6.18421052631579e-05,
+      "loss": 0.0021,
       "step": 420
     },
     {
       "epoch": 2.8289473684210527,
+      "grad_norm": 0.006556599400937557,
       "learning_rate": 5.855263157894737e-05,
+      "loss": 0.0021,
       "step": 430
     },
     {
       "epoch": 2.8947368421052633,
+      "grad_norm": 0.007122657261788845,
       "learning_rate": 5.526315789473685e-05,
+      "loss": 0.0021,
       "step": 440
     },
     {
       "epoch": 2.9605263157894735,
+      "grad_norm": 0.0069893728941679,
       "learning_rate": 5.197368421052632e-05,
+      "loss": 0.002,
       "step": 450
     },
     {
       "epoch": 3.026315789473684,
+      "grad_norm": 0.006159682292491198,
       "learning_rate": 4.868421052631579e-05,
+      "loss": 0.002,
       "step": 460
     },
     {
       "epoch": 3.0921052631578947,
+      "grad_norm": 0.0069947754964232445,
       "learning_rate": 4.539473684210527e-05,
+      "loss": 0.0019,
       "step": 470
     },
     {
       "epoch": 3.1578947368421053,
+      "grad_norm": 0.007419601548463106,
       "learning_rate": 4.210526315789474e-05,
+      "loss": 0.0018,
       "step": 480
     },
     {
       "epoch": 3.223684210526316,
+      "grad_norm": 0.006330096162855625,
       "learning_rate": 3.8815789473684214e-05,
+      "loss": 0.0018,
       "step": 490
     },
     {
       "epoch": 3.2894736842105265,
+      "grad_norm": 0.006105512380599976,
       "learning_rate": 3.5526315789473684e-05,
+      "loss": 0.0018,
       "step": 500
     },
     {
       "epoch": 3.2894736842105265,
+      "eval_accuracy": 0.9018181818181819,
+      "eval_loss": 0.49247637391090393,
+      "eval_runtime": 6.5136,
+      "eval_samples_per_second": 84.439,
+      "eval_steps_per_second": 10.593,
       "step": 500
     },
     {
       "epoch": 3.3552631578947367,
+      "grad_norm": 0.006337973289191723,
       "learning_rate": 3.223684210526316e-05,
+      "loss": 0.0018,
       "step": 510
     },
     {
       "epoch": 3.4210526315789473,
+      "grad_norm": 0.005863433238118887,
       "learning_rate": 2.8947368421052634e-05,
+      "loss": 0.0018,
       "step": 520
     },
     {
       "epoch": 3.486842105263158,
+      "grad_norm": 0.0057103936560451984,
       "learning_rate": 2.565789473684211e-05,
+      "loss": 0.0017,
       "step": 530
     },
     {
       "epoch": 3.5526315789473686,
+      "grad_norm": 0.004713858477771282,
       "learning_rate": 2.236842105263158e-05,
+      "loss": 0.0018,
       "step": 540
     },
     {
       "epoch": 3.6184210526315788,
+      "grad_norm": 0.007430619560182095,
       "learning_rate": 1.9078947368421056e-05,
+      "loss": 0.0017,
       "step": 550
     },
     {
       "epoch": 3.6842105263157894,
+      "grad_norm": 0.0051925876177847385,
       "learning_rate": 1.5789473684210526e-05,
+      "loss": 0.0018,
       "step": 560
     },
     {
       "epoch": 3.75,
+      "grad_norm": 0.0064788335002958775,
       "learning_rate": 1.25e-05,
+      "loss": 0.0017,
       "step": 570
     },
     {
       "epoch": 3.8157894736842106,
+      "grad_norm": 0.006365407258272171,
       "learning_rate": 9.210526315789474e-06,
+      "loss": 0.0017,
       "step": 580
     },
     {
       "epoch": 3.8815789473684212,
+      "grad_norm": 0.005164624657481909,
       "learning_rate": 5.921052631578948e-06,
+      "loss": 0.0018,
       "step": 590
     },
     {
       "epoch": 3.9473684210526314,
+      "grad_norm": 0.006292811129242182,
       "learning_rate": 2.631578947368421e-06,
+      "loss": 0.0017,
       "step": 600
     },
     {
       "epoch": 3.9473684210526314,
+      "eval_accuracy": 0.9018181818181819,
+      "eval_loss": 0.4941176474094391,
+      "eval_runtime": 6.4553,
+      "eval_samples_per_second": 85.201,
+      "eval_steps_per_second": 10.689,
       "step": 600
     },
     {
       "epoch": 4.0,
       "step": 608,
       "total_flos": 7.501829674622976e+17,
+      "train_loss": 0.03790271527280933,
+      "train_runtime": 250.8529,
+      "train_samples_per_second": 38.588,
+      "train_steps_per_second": 2.424
     }
   ],
   "logging_steps": 10,