End of training

Browse files

Files changed (5) hide show

README.md +34 -25
all_results.json +6 -11
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +310 -586

README.md CHANGED Viewed

@@ -8,6 +8,9 @@ datasets:
 - oxford102_flower_dataset
 metrics:
 - accuracy
 model-index:
 - name: resnet-50-finetuned-oxfordflowers
   results:
@@ -23,7 +26,16 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.85
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +45,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the oxford102_flower_dataset dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5915
-- Accuracy: 0.85
 ## Model description
@@ -63,28 +78,22 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 4.5224        | 1.0   | 32   | 4.2939          | 0.25     |
-| 2.8139        | 2.0   | 64   | 2.1128          | 0.4892   |
-| 1.4505        | 3.0   | 96   | 1.2261          | 0.6843   |
-| 0.5751        | 4.0   | 128  | 1.0176          | 0.7441   |
-| 0.2265        | 5.0   | 160  | 0.8487          | 0.7559   |
-| 0.0531        | 6.0   | 192  | 0.7609          | 0.8      |
-| 0.0411        | 7.0   | 224  | 0.7191          | 0.8029   |
-| 0.0351        | 8.0   | 256  | 0.6987          | 0.8078   |
-| 0.0107        | 9.0   | 288  | 0.6843          | 0.8225   |
-| 0.0094        | 10.0  | 320  | 0.6314          | 0.8343   |
-| 0.0081        | 11.0  | 352  | 0.6320          | 0.8353   |
-| 0.0053        | 12.0  | 384  | 0.6049          | 0.8353   |
-| 0.0048        | 13.0  | 416  | 0.5961          | 0.8373   |
-| 0.0024        | 14.0  | 448  | 0.5880          | 0.8471   |
-| 0.0028        | 15.0  | 480  | 0.5927          | 0.8441   |
-| 0.0023        | 16.0  | 512  | 0.5878          | 0.8520   |
-| 0.0027        | 17.0  | 544  | 0.5872          | 0.8471   |
-| 0.0028        | 18.0  | 576  | 0.5892          | 0.8451   |
-| 0.002         | 19.0  | 608  | 0.5933          | 0.8412   |
-| 0.0017        | 20.0  | 640  | 0.5915          | 0.85     |
 ### Framework versions

 - oxford102_flower_dataset
 metrics:
 - accuracy
+- precision
+- recall
+- f1
 model-index:
 - name: resnet-50-finetuned-oxfordflowers
   results:
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8284273865669215
+    - name: Precision
+      type: precision
+      value: 0.8492938596426545
+    - name: Recall
+      type: recall
+      value: 0.8284273865669215
+    - name: F1
+      type: f1
+      value: 0.8283468243702176
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the oxford102_flower_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6286
+- Accuracy: 0.8284
+- Precision: 0.8493
+- Recall: 0.8284
+- F1: 0.8283
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | Precision | Recall | F1     |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:---------:|:------:|:------:|
+| 4.5237        | 1.0   | 32   | 4.3400          | 0.3451   | 0.4129    | 0.3451 | 0.2875 |
+| 2.8508        | 2.0   | 64   | 1.9785          | 0.5206   | 0.5610    | 0.5206 | 0.4816 |
+| 1.346         | 3.0   | 96   | 1.1449          | 0.7088   | 0.7738    | 0.7088 | 0.6957 |
+| 0.5544        | 4.0   | 128  | 0.9265          | 0.7539   | 0.8162    | 0.7539 | 0.7480 |
+| 0.1847        | 5.0   | 160  | 0.7754          | 0.8029   | 0.8324    | 0.8029 | 0.7997 |
+| 0.0863        | 6.0   | 192  | 0.7393          | 0.8020   | 0.8450    | 0.8020 | 0.8000 |
+| 0.0516        | 7.0   | 224  | 0.6631          | 0.8284   | 0.8569    | 0.8284 | 0.8259 |
+| 0.023         | 8.0   | 256  | 0.5880          | 0.8471   | 0.8631    | 0.8471 | 0.8429 |
+| 0.011         | 9.0   | 288  | 0.5422          | 0.8569   | 0.8686    | 0.8569 | 0.8520 |
+| 0.0079        | 10.0  | 320  | 0.5335          | 0.8510   | 0.8637    | 0.8510 | 0.8470 |
+| 0.0072        | 11.0  | 352  | 0.5107          | 0.8647   | 0.8735    | 0.8647 | 0.8605 |
+| 0.0086        | 12.0  | 384  | 0.5290          | 0.8578   | 0.8720    | 0.8578 | 0.8548 |
+| 0.0058        | 13.0  | 416  | 0.5161          | 0.8569   | 0.8658    | 0.8569 | 0.8523 |
+| 0.0027        | 14.0  | 448  | 0.5139          | 0.8588   | 0.8702    | 0.8588 | 0.8538 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "epoch": 20.0,
-    "eval_accuracy": 0.7801268498942917,
-    "eval_loss": 0.8647737503051758,
-    "eval_runtime": 123.7654,
-    "eval_samples_per_second": 49.683,
-    "eval_steps_per_second": 0.396,
-    "total_flos": 4.36977436041216e+17,
-    "train_loss": 0.5368185924002319,
-    "train_runtime": 902.6693,
-    "train_samples_per_second": 22.6,
-    "train_steps_per_second": 0.709
 }

 {
+    "epoch": 14.0,
+    "total_flos": 3.058842052288512e+17,
+    "train_loss": 0.7544229235707982,
+    "train_runtime": 674.4917,
+    "train_samples_per_second": 30.245,
+    "train_steps_per_second": 0.949
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9f6515139de92486682b8ab4b26eaa75f616f163f3c2214015877cb8aa5c5dc
 size 95122680

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fda6a9820f2992de0ff984ceec1a98f0df2dd245077d01a5db17936e7e095e2
 size 95122680

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "total_flos": 4.36977436041216e+17,
-    "train_loss": 0.5368185924002319,
-    "train_runtime": 902.6693,
-    "train_samples_per_second": 22.6,
-    "train_steps_per_second": 0.709
 }

 {
+    "epoch": 14.0,
+    "total_flos": 3.058842052288512e+17,
+    "train_loss": 0.7544229235707982,
+    "train_runtime": 674.4917,
+    "train_samples_per_second": 30.245,
+    "train_steps_per_second": 0.949
 }

trainer_state.json CHANGED Viewed

@@ -1,1097 +1,812 @@
 {
-  "best_metric": 0.8519607843137255,
-  "best_model_checkpoint": "resnet-50-finetuned-oxfordflowers/checkpoint-512",
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 640,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15625,
-      "grad_norm": 1.6800851821899414,
       "learning_rate": 0.0009921875,
-      "loss": 4.6507,
       "step": 5
     },
     {
       "epoch": 0.3125,
-      "grad_norm": 1.4043323993682861,
       "learning_rate": 0.000984375,
-      "loss": 4.6146,
       "step": 10
     },
     {
       "epoch": 0.46875,
-      "grad_norm": 1.4668281078338623,
       "learning_rate": 0.0009765625,
-      "loss": 4.6484,
       "step": 15
     },
     {
       "epoch": 0.625,
-      "grad_norm": 1.4262796640396118,
       "learning_rate": 0.00096875,
-      "loss": 4.6292,
       "step": 20
     },
     {
       "epoch": 0.78125,
-      "grad_norm": 1.1266566514968872,
       "learning_rate": 0.0009609375,
-      "loss": 4.5702,
       "step": 25
     },
     {
       "epoch": 0.9375,
-      "grad_norm": 1.0406345129013062,
       "learning_rate": 0.000953125,
-      "loss": 4.5224,
       "step": 30
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.25,
-      "eval_loss": 4.293937683105469,
-      "eval_runtime": 15.9684,
-      "eval_samples_per_second": 63.876,
-      "eval_steps_per_second": 2.004,
       "step": 32
     },
     {
       "epoch": 1.09375,
-      "grad_norm": 2.009798765182495,
       "learning_rate": 0.0009453125,
-      "loss": 4.2571,
       "step": 35
     },
     {
       "epoch": 1.25,
-      "grad_norm": 1.697478175163269,
       "learning_rate": 0.0009375,
-      "loss": 3.9421,
       "step": 40
     },
     {
       "epoch": 1.40625,
-      "grad_norm": 2.285863161087036,
       "learning_rate": 0.0009296875000000001,
-      "loss": 3.6971,
       "step": 45
     },
     {
       "epoch": 1.5625,
-      "grad_norm": 2.211660623550415,
       "learning_rate": 0.0009218750000000001,
-      "loss": 3.3611,
       "step": 50
     },
     {
       "epoch": 1.71875,
-      "grad_norm": 2.331829786300659,
       "learning_rate": 0.0009140625,
-      "loss": 3.1108,
       "step": 55
     },
     {
       "epoch": 1.875,
-      "grad_norm": 2.799659013748169,
       "learning_rate": 0.00090625,
-      "loss": 2.8139,
       "step": 60
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4892156862745098,
-      "eval_loss": 2.112804651260376,
-      "eval_runtime": 16.5487,
-      "eval_samples_per_second": 61.636,
-      "eval_steps_per_second": 1.934,
       "step": 64
     },
     {
       "epoch": 2.03125,
-      "grad_norm": 2.7438573837280273,
       "learning_rate": 0.0008984375,
-      "loss": 2.6103,
       "step": 65
     },
     {
       "epoch": 2.1875,
-      "grad_norm": 2.3204867839813232,
       "learning_rate": 0.000890625,
-      "loss": 2.0599,
       "step": 70
     },
     {
       "epoch": 2.34375,
-      "grad_norm": 2.3990378379821777,
       "learning_rate": 0.0008828125,
-      "loss": 1.7052,
       "step": 75
     },
     {
       "epoch": 2.5,
-      "grad_norm": 3.4195637702941895,
       "learning_rate": 0.000875,
-      "loss": 1.5619,
       "step": 80
     },
     {
       "epoch": 2.65625,
-      "grad_norm": 2.6798551082611084,
       "learning_rate": 0.0008671875,
-      "loss": 1.4689,
       "step": 85
     },
     {
       "epoch": 2.8125,
-      "grad_norm": 3.0105719566345215,
       "learning_rate": 0.000859375,
-      "loss": 1.4125,
       "step": 90
     },
     {
       "epoch": 2.96875,
-      "grad_norm": 3.218193531036377,
       "learning_rate": 0.0008515625,
-      "loss": 1.4505,
       "step": 95
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6843137254901961,
-      "eval_loss": 1.226142406463623,
-      "eval_runtime": 16.601,
-      "eval_samples_per_second": 61.442,
-      "eval_steps_per_second": 1.928,
       "step": 96
     },
     {
       "epoch": 3.125,
-      "grad_norm": 2.6317319869995117,
       "learning_rate": 0.00084375,
-      "loss": 0.7778,
       "step": 100
     },
     {
       "epoch": 3.28125,
-      "grad_norm": 2.3407766819000244,
       "learning_rate": 0.0008359375,
-      "loss": 0.8178,
       "step": 105
     },
     {
       "epoch": 3.4375,
-      "grad_norm": 2.060016632080078,
       "learning_rate": 0.000828125,
-      "loss": 0.7545,
       "step": 110
     },
     {
       "epoch": 3.59375,
-      "grad_norm": 2.2562413215637207,
       "learning_rate": 0.0008203125,
-      "loss": 0.6023,
       "step": 115
     },
     {
       "epoch": 3.75,
-      "grad_norm": 2.7784945964813232,
       "learning_rate": 0.0008125000000000001,
-      "loss": 0.5268,
       "step": 120
     },
     {
       "epoch": 3.90625,
-      "grad_norm": 2.47145676612854,
       "learning_rate": 0.0008046875000000001,
-      "loss": 0.5751,
       "step": 125
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7441176470588236,
-      "eval_loss": 1.0175817012786865,
-      "eval_runtime": 18.5424,
-      "eval_samples_per_second": 55.009,
-      "eval_steps_per_second": 1.726,
       "step": 128
     },
     {
       "epoch": 4.0625,
-      "grad_norm": 1.2707927227020264,
       "learning_rate": 0.0007968750000000001,
-      "loss": 0.41,
       "step": 130
     },
     {
       "epoch": 4.21875,
-      "grad_norm": 2.2418272495269775,
       "learning_rate": 0.0007890625,
-      "loss": 0.2771,
       "step": 135
     },
     {
       "epoch": 4.375,
-      "grad_norm": 1.0117669105529785,
       "learning_rate": 0.00078125,
-      "loss": 0.2848,
       "step": 140
     },
     {
       "epoch": 4.53125,
-      "grad_norm": 1.5163785219192505,
       "learning_rate": 0.0007734375,
-      "loss": 0.2322,
       "step": 145
     },
     {
       "epoch": 4.6875,
-      "grad_norm": 1.693102478981018,
       "learning_rate": 0.000765625,
-      "loss": 0.292,
       "step": 150
     },
     {
       "epoch": 4.84375,
-      "grad_norm": 1.6366838216781616,
       "learning_rate": 0.0007578125,
-      "loss": 0.2391,
       "step": 155
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.1743065118789673,
       "learning_rate": 0.00075,
-      "loss": 0.2265,
       "step": 160
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7558823529411764,
-      "eval_loss": 0.8487027287483215,
-      "eval_runtime": 20.2945,
-      "eval_samples_per_second": 50.26,
-      "eval_steps_per_second": 1.577,
       "step": 160
     },
     {
       "epoch": 5.15625,
-      "grad_norm": 0.5249314308166504,
       "learning_rate": 0.0007421875,
-      "loss": 0.1254,
       "step": 165
     },
     {
       "epoch": 5.3125,
-      "grad_norm": 0.41112297773361206,
       "learning_rate": 0.000734375,
-      "loss": 0.0917,
       "step": 170
     },
     {
       "epoch": 5.46875,
-      "grad_norm": 1.9200881719589233,
       "learning_rate": 0.0007265625,
-      "loss": 0.1139,
       "step": 175
     },
     {
       "epoch": 5.625,
-      "grad_norm": 0.7506140470504761,
       "learning_rate": 0.00071875,
-      "loss": 0.116,
       "step": 180
     },
     {
       "epoch": 5.78125,
-      "grad_norm": 1.2240333557128906,
       "learning_rate": 0.0007109375,
-      "loss": 0.1251,
       "step": 185
     },
     {
       "epoch": 5.9375,
-      "grad_norm": 1.3143774271011353,
       "learning_rate": 0.000703125,
-      "loss": 0.0531,
       "step": 190
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.7608510255813599,
-      "eval_runtime": 24.6873,
-      "eval_samples_per_second": 41.317,
-      "eval_steps_per_second": 1.296,
       "step": 192
     },
     {
       "epoch": 6.09375,
-      "grad_norm": 1.9283502101898193,
       "learning_rate": 0.0006953125,
-      "loss": 0.1274,
       "step": 195
     },
     {
       "epoch": 6.25,
-      "grad_norm": 0.5062114000320435,
       "learning_rate": 0.0006875,
-      "loss": 0.0358,
       "step": 200
     },
     {
       "epoch": 6.40625,
-      "grad_norm": 1.057132601737976,
       "learning_rate": 0.0006796875000000001,
-      "loss": 0.0426,
       "step": 205
     },
     {
       "epoch": 6.5625,
-      "grad_norm": 0.2724122107028961,
       "learning_rate": 0.0006718750000000001,
-      "loss": 0.0668,
       "step": 210
     },
     {
       "epoch": 6.71875,
-      "grad_norm": 0.3335299789905548,
       "learning_rate": 0.0006640625,
-      "loss": 0.0838,
       "step": 215
     },
     {
       "epoch": 6.875,
-      "grad_norm": 0.5840352177619934,
       "learning_rate": 0.00065625,
-      "loss": 0.0411,
       "step": 220
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8029411764705883,
-      "eval_loss": 0.7190886735916138,
-      "eval_runtime": 18.919,
-      "eval_samples_per_second": 53.914,
-      "eval_steps_per_second": 1.691,
       "step": 224
     },
     {
       "epoch": 7.03125,
-      "grad_norm": 0.6974908709526062,
       "learning_rate": 0.0006484375,
-      "loss": 0.0412,
       "step": 225
     },
     {
       "epoch": 7.1875,
-      "grad_norm": 0.27331459522247314,
       "learning_rate": 0.000640625,
-      "loss": 0.0238,
       "step": 230
     },
     {
       "epoch": 7.34375,
-      "grad_norm": 0.26315683126449585,
       "learning_rate": 0.0006328125,
-      "loss": 0.0181,
       "step": 235
     },
     {
       "epoch": 7.5,
-      "grad_norm": 0.979246199131012,
       "learning_rate": 0.000625,
-      "loss": 0.0368,
       "step": 240
     },
     {
       "epoch": 7.65625,
-      "grad_norm": 0.18979792296886444,
       "learning_rate": 0.0006171875,
-      "loss": 0.0293,
       "step": 245
     },
     {
       "epoch": 7.8125,
-      "grad_norm": 2.098189115524292,
       "learning_rate": 0.000609375,
-      "loss": 0.0263,
       "step": 250
     },
     {
       "epoch": 7.96875,
-      "grad_norm": 0.20951713621616364,
       "learning_rate": 0.0006015625,
-      "loss": 0.0351,
       "step": 255
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.807843137254902,
-      "eval_loss": 0.698701798915863,
-      "eval_runtime": 20.5747,
-      "eval_samples_per_second": 49.575,
-      "eval_steps_per_second": 1.555,
       "step": 256
     },
     {
       "epoch": 8.125,
-      "grad_norm": 0.08398638665676117,
       "learning_rate": 0.00059375,
-      "loss": 0.0138,
       "step": 260
     },
     {
       "epoch": 8.28125,
-      "grad_norm": 0.94996577501297,
       "learning_rate": 0.0005859375,
-      "loss": 0.0176,
       "step": 265
     },
     {
       "epoch": 8.4375,
-      "grad_norm": 0.14498768746852875,
       "learning_rate": 0.000578125,
-      "loss": 0.0149,
       "step": 270
     },
     {
       "epoch": 8.59375,
-      "grad_norm": 0.1302383691072464,
       "learning_rate": 0.0005703125,
-      "loss": 0.0146,
       "step": 275
     },
     {
       "epoch": 8.75,
-      "grad_norm": 0.3484581708908081,
       "learning_rate": 0.0005625000000000001,
-      "loss": 0.0183,
       "step": 280
     },
     {
       "epoch": 8.90625,
-      "grad_norm": 0.1543685644865036,
       "learning_rate": 0.0005546875000000001,
-      "loss": 0.0107,
       "step": 285
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.8225490196078431,
-      "eval_loss": 0.6843494176864624,
-      "eval_runtime": 16.0725,
-      "eval_samples_per_second": 63.462,
-      "eval_steps_per_second": 1.991,
       "step": 288
     },
     {
       "epoch": 9.0625,
-      "grad_norm": 0.9732298851013184,
       "learning_rate": 0.000546875,
-      "loss": 0.0156,
       "step": 290
     },
     {
       "epoch": 9.21875,
-      "grad_norm": 0.09730440378189087,
       "learning_rate": 0.0005390625,
-      "loss": 0.0114,
       "step": 295
     },
     {
       "epoch": 9.375,
-      "grad_norm": 0.41419529914855957,
       "learning_rate": 0.00053125,
-      "loss": 0.0101,
       "step": 300
     },
     {
       "epoch": 9.53125,
-      "grad_norm": 0.055323634296655655,
       "learning_rate": 0.0005234375,
-      "loss": 0.0074,
       "step": 305
     },
     {
       "epoch": 9.6875,
-      "grad_norm": 0.07538346946239471,
       "learning_rate": 0.000515625,
-      "loss": 0.0051,
       "step": 310
     },
     {
       "epoch": 9.84375,
-      "grad_norm": 0.037017084658145905,
       "learning_rate": 0.0005078125,
-      "loss": 0.0133,
       "step": 315
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.05076463520526886,
       "learning_rate": 0.0005,
-      "loss": 0.0094,
       "step": 320
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8343137254901961,
-      "eval_loss": 0.6314178109169006,
-      "eval_runtime": 16.9633,
-      "eval_samples_per_second": 60.13,
-      "eval_steps_per_second": 1.886,
       "step": 320
     },
     {
       "epoch": 10.15625,
-      "grad_norm": 0.04146264120936394,
       "learning_rate": 0.0004921875,
       "loss": 0.0045,
       "step": 325
     },
     {
       "epoch": 10.3125,
-      "grad_norm": 1.678152084350586,
       "learning_rate": 0.000484375,
-      "loss": 0.0111,
       "step": 330
     },
     {
       "epoch": 10.46875,
-      "grad_norm": 0.08414560556411743,
       "learning_rate": 0.0004765625,
-      "loss": 0.004,
       "step": 335
     },
     {
       "epoch": 10.625,
-      "grad_norm": 0.062152933329343796,
       "learning_rate": 0.00046875,
-      "loss": 0.0058,
       "step": 340
     },
     {
       "epoch": 10.78125,
-      "grad_norm": 0.18813878297805786,
       "learning_rate": 0.00046093750000000003,
-      "loss": 0.0059,
       "step": 345
     },
     {
       "epoch": 10.9375,
-      "grad_norm": 0.03264420107007027,
       "learning_rate": 0.000453125,
-      "loss": 0.0081,
       "step": 350
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.8352941176470589,
-      "eval_loss": 0.6319591999053955,
-      "eval_runtime": 16.0721,
-      "eval_samples_per_second": 63.464,
-      "eval_steps_per_second": 1.991,
       "step": 352
     },
     {
       "epoch": 11.09375,
-      "grad_norm": 0.01650502346456051,
       "learning_rate": 0.0004453125,
-      "loss": 0.0058,
       "step": 355
     },
     {
       "epoch": 11.25,
-      "grad_norm": 0.03100210428237915,
       "learning_rate": 0.0004375,
-      "loss": 0.0032,
       "step": 360
     },
     {
       "epoch": 11.40625,
-      "grad_norm": 0.31530651450157166,
       "learning_rate": 0.0004296875,
-      "loss": 0.0055,
       "step": 365
     },
     {
       "epoch": 11.5625,
-      "grad_norm": 0.018279677256941795,
       "learning_rate": 0.000421875,
-      "loss": 0.0042,
       "step": 370
     },
     {
       "epoch": 11.71875,
-      "grad_norm": 0.039065517485141754,
       "learning_rate": 0.0004140625,
-      "loss": 0.004,
       "step": 375
     },
     {
       "epoch": 11.875,
-      "grad_norm": 0.17956194281578064,
       "learning_rate": 0.00040625000000000004,
-      "loss": 0.0053,
       "step": 380
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8352941176470589,
-      "eval_loss": 0.6048569679260254,
-      "eval_runtime": 16.0302,
-      "eval_samples_per_second": 63.63,
-      "eval_steps_per_second": 1.996,
       "step": 384
     },
     {
       "epoch": 12.03125,
-      "grad_norm": 0.0491081103682518,
       "learning_rate": 0.00039843750000000003,
-      "loss": 0.004,
       "step": 385
     },
     {
       "epoch": 12.1875,
-      "grad_norm": 0.06726662814617157,
       "learning_rate": 0.000390625,
-      "loss": 0.0032,
       "step": 390
     },
     {
       "epoch": 12.34375,
-      "grad_norm": 0.0226299911737442,
       "learning_rate": 0.0003828125,
-      "loss": 0.0027,
       "step": 395
     },
     {
       "epoch": 12.5,
-      "grad_norm": 0.021714534610509872,
       "learning_rate": 0.000375,
-      "loss": 0.0029,
       "step": 400
     },
     {
       "epoch": 12.65625,
-      "grad_norm": 0.07769683748483658,
       "learning_rate": 0.0003671875,
-      "loss": 0.0034,
       "step": 405
     },
     {
       "epoch": 12.8125,
-      "grad_norm": 0.017162494361400604,
       "learning_rate": 0.000359375,
-      "loss": 0.0029,
       "step": 410
     },
     {
       "epoch": 12.96875,
-      "grad_norm": 0.08164256066083908,
       "learning_rate": 0.0003515625,
-      "loss": 0.0048,
       "step": 415
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.8372549019607843,
-      "eval_loss": 0.5961340665817261,
-      "eval_runtime": 18.3515,
-      "eval_samples_per_second": 55.581,
-      "eval_steps_per_second": 1.744,
       "step": 416
     },
     {
       "epoch": 13.125,
-      "grad_norm": 0.05423242226243019,
       "learning_rate": 0.00034375,
-      "loss": 0.0024,
       "step": 420
     },
     {
       "epoch": 13.28125,
-      "grad_norm": 0.19008223712444305,
       "learning_rate": 0.00033593750000000003,
-      "loss": 0.0083,
       "step": 425
     },
     {
       "epoch": 13.4375,
-      "grad_norm": 0.0373542457818985,
       "learning_rate": 0.000328125,
-      "loss": 0.002,
       "step": 430
     },
     {
       "epoch": 13.59375,
-      "grad_norm": 0.014899961650371552,
       "learning_rate": 0.0003203125,
-      "loss": 0.0029,
       "step": 435
     },
     {
       "epoch": 13.75,
-      "grad_norm": 0.03342936560511589,
       "learning_rate": 0.0003125,
-      "loss": 0.0031,
       "step": 440
     },
     {
       "epoch": 13.90625,
-      "grad_norm": 0.018663976341485977,
       "learning_rate": 0.0003046875,
-      "loss": 0.0024,
       "step": 445
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8470588235294118,
-      "eval_loss": 0.588026225566864,
-      "eval_runtime": 16.6123,
-      "eval_samples_per_second": 61.4,
-      "eval_steps_per_second": 1.926,
       "step": 448
     },
     {
-      "epoch": 14.0625,
-      "grad_norm": 0.03626991808414459,
-      "learning_rate": 0.000296875,
-      "loss": 0.004,
-      "step": 450
-    },
-    {
-      "epoch": 14.21875,
-      "grad_norm": 0.021257249638438225,
-      "learning_rate": 0.0002890625,
-      "loss": 0.0026,
-      "step": 455
-    },
-    {
-      "epoch": 14.375,
-      "grad_norm": 0.032649360597133636,
-      "learning_rate": 0.00028125000000000003,
-      "loss": 0.002,
-      "step": 460
-    },
-    {
-      "epoch": 14.53125,
-      "grad_norm": 0.022741030901670456,
-      "learning_rate": 0.0002734375,
-      "loss": 0.007,
-      "step": 465
-    },
-    {
-      "epoch": 14.6875,
-      "grad_norm": 0.020442800596356392,
-      "learning_rate": 0.000265625,
-      "loss": 0.0023,
-      "step": 470
-    },
-    {
-      "epoch": 14.84375,
-      "grad_norm": 0.022834857925772667,
-      "learning_rate": 0.0002578125,
-      "loss": 0.0031,
-      "step": 475
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.014007111079990864,
-      "learning_rate": 0.00025,
-      "loss": 0.0028,
-      "step": 480
-    },
-    {
-      "epoch": 15.0,
-      "eval_accuracy": 0.8441176470588235,
-      "eval_loss": 0.5926622748374939,
-      "eval_runtime": 16.2356,
-      "eval_samples_per_second": 62.825,
-      "eval_steps_per_second": 1.971,
-      "step": 480
-    },
-    {
-      "epoch": 15.15625,
-      "grad_norm": 0.00949984509497881,
-      "learning_rate": 0.0002421875,
-      "loss": 0.0023,
-      "step": 485
-    },
-    {
-      "epoch": 15.3125,
-      "grad_norm": 0.04143200442194939,
-      "learning_rate": 0.000234375,
-      "loss": 0.0021,
-      "step": 490
-    },
-    {
-      "epoch": 15.46875,
-      "grad_norm": 0.012401225045323372,
-      "learning_rate": 0.0002265625,
-      "loss": 0.0021,
-      "step": 495
-    },
-    {
-      "epoch": 15.625,
-      "grad_norm": 0.040582917630672455,
-      "learning_rate": 0.00021875,
-      "loss": 0.0031,
-      "step": 500
-    },
-    {
-      "epoch": 15.78125,
-      "grad_norm": 0.025907032191753387,
-      "learning_rate": 0.0002109375,
-      "loss": 0.0021,
-      "step": 505
-    },
-    {
-      "epoch": 15.9375,
-      "grad_norm": 0.008175536058843136,
-      "learning_rate": 0.00020312500000000002,
-      "loss": 0.0023,
-      "step": 510
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8519607843137255,
-      "eval_loss": 0.5878445506095886,
-      "eval_runtime": 16.1518,
-      "eval_samples_per_second": 63.151,
-      "eval_steps_per_second": 1.981,
-      "step": 512
-    },
-    {
-      "epoch": 16.09375,
-      "grad_norm": 0.3129185140132904,
-      "learning_rate": 0.0001953125,
-      "loss": 0.0044,
-      "step": 515
-    },
-    {
-      "epoch": 16.25,
-      "grad_norm": 0.030808325856924057,
-      "learning_rate": 0.0001875,
-      "loss": 0.0036,
-      "step": 520
-    },
-    {
-      "epoch": 16.40625,
-      "grad_norm": 0.019886957481503487,
-      "learning_rate": 0.0001796875,
-      "loss": 0.0026,
-      "step": 525
-    },
-    {
-      "epoch": 16.5625,
-      "grad_norm": 0.019268082454800606,
-      "learning_rate": 0.000171875,
-      "loss": 0.0034,
-      "step": 530
-    },
-    {
-      "epoch": 16.71875,
-      "grad_norm": 0.025241246446967125,
-      "learning_rate": 0.0001640625,
-      "loss": 0.0019,
-      "step": 535
-    },
-    {
-      "epoch": 16.875,
-      "grad_norm": 0.01479440089315176,
-      "learning_rate": 0.00015625,
-      "loss": 0.0027,
-      "step": 540
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.8470588235294118,
-      "eval_loss": 0.5872153043746948,
-      "eval_runtime": 16.056,
-      "eval_samples_per_second": 63.528,
-      "eval_steps_per_second": 1.993,
-      "step": 544
-    },
-    {
-      "epoch": 17.03125,
-      "grad_norm": 0.01011387724429369,
-      "learning_rate": 0.0001484375,
-      "loss": 0.0019,
-      "step": 545
-    },
-    {
-      "epoch": 17.1875,
-      "grad_norm": 0.020896941423416138,
-      "learning_rate": 0.00014062500000000002,
-      "loss": 0.0022,
-      "step": 550
-    },
-    {
-      "epoch": 17.34375,
-      "grad_norm": 0.040105391293764114,
-      "learning_rate": 0.0001328125,
-      "loss": 0.002,
-      "step": 555
-    },
-    {
-      "epoch": 17.5,
-      "grad_norm": 0.016236811876296997,
-      "learning_rate": 0.000125,
-      "loss": 0.0024,
-      "step": 560
-    },
-    {
-      "epoch": 17.65625,
-      "grad_norm": 0.010203810408711433,
-      "learning_rate": 0.0001171875,
-      "loss": 0.002,
-      "step": 565
-    },
-    {
-      "epoch": 17.8125,
-      "grad_norm": 0.01675267145037651,
-      "learning_rate": 0.000109375,
-      "loss": 0.0019,
-      "step": 570
-    },
-    {
-      "epoch": 17.96875,
-      "grad_norm": 0.08755680918693542,
-      "learning_rate": 0.00010156250000000001,
-      "loss": 0.0028,
-      "step": 575
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.8450980392156863,
-      "eval_loss": 0.5891793966293335,
-      "eval_runtime": 15.883,
-      "eval_samples_per_second": 64.22,
-      "eval_steps_per_second": 2.015,
-      "step": 576
-    },
-    {
-      "epoch": 18.125,
-      "grad_norm": 0.060470979660749435,
-      "learning_rate": 9.375e-05,
-      "loss": 0.003,
-      "step": 580
-    },
-    {
-      "epoch": 18.28125,
-      "grad_norm": 0.02452988736331463,
-      "learning_rate": 8.59375e-05,
-      "loss": 0.0017,
-      "step": 585
-    },
-    {
-      "epoch": 18.4375,
-      "grad_norm": 0.02058909274637699,
-      "learning_rate": 7.8125e-05,
-      "loss": 0.002,
-      "step": 590
-    },
-    {
-      "epoch": 18.59375,
-      "grad_norm": 0.01303939614444971,
-      "learning_rate": 7.031250000000001e-05,
-      "loss": 0.0025,
-      "step": 595
-    },
-    {
-      "epoch": 18.75,
-      "grad_norm": 0.006279917433857918,
-      "learning_rate": 6.25e-05,
-      "loss": 0.0027,
-      "step": 600
-    },
-    {
-      "epoch": 18.90625,
-      "grad_norm": 0.022672630846500397,
-      "learning_rate": 5.46875e-05,
-      "loss": 0.002,
-      "step": 605
-    },
-    {
-      "epoch": 19.0,
-      "eval_accuracy": 0.8411764705882353,
-      "eval_loss": 0.5932831764221191,
-      "eval_runtime": 16.4628,
-      "eval_samples_per_second": 61.958,
-      "eval_steps_per_second": 1.944,
-      "step": 608
-    },
-    {
-      "epoch": 19.0625,
-      "grad_norm": 0.15350750088691711,
-      "learning_rate": 4.6875e-05,
-      "loss": 0.0034,
-      "step": 610
-    },
-    {
-      "epoch": 19.21875,
-      "grad_norm": 0.01092343870550394,
-      "learning_rate": 3.90625e-05,
-      "loss": 0.002,
-      "step": 615
-    },
-    {
-      "epoch": 19.375,
-      "grad_norm": 0.008441799320280552,
-      "learning_rate": 3.125e-05,
-      "loss": 0.0022,
-      "step": 620
-    },
-    {
-      "epoch": 19.53125,
-      "grad_norm": 0.012427592650055885,
-      "learning_rate": 2.34375e-05,
-      "loss": 0.0026,
-      "step": 625
-    },
-    {
-      "epoch": 19.6875,
-      "grad_norm": 0.019600288942456245,
-      "learning_rate": 1.5625e-05,
-      "loss": 0.0016,
-      "step": 630
-    },
-    {
-      "epoch": 19.84375,
-      "grad_norm": 0.0400865413248539,
-      "learning_rate": 7.8125e-06,
-      "loss": 0.0031,
-      "step": 635
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.03250521048903465,
-      "learning_rate": 0.0,
-      "loss": 0.0017,
-      "step": 640
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.85,
-      "eval_loss": 0.5915272235870361,
-      "eval_runtime": 17.7209,
-      "eval_samples_per_second": 57.559,
-      "eval_steps_per_second": 1.806,
-      "step": 640
-    },
-    {
-      "epoch": 20.0,
-      "step": 640,
-      "total_flos": 4.36977436041216e+17,
-      "train_loss": 0.5368185924002319,
-      "train_runtime": 902.6693,
-      "train_samples_per_second": 22.6,
-      "train_steps_per_second": 0.709
     }
   ],
   "logging_steps": 5,
@@ -1100,6 +815,15 @@
   "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,
@@ -1111,7 +835,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.36977436041216e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8647058823529412,
+  "best_model_checkpoint": "resnet-50-finetuned-oxfordflowers/checkpoint-352",
+  "epoch": 14.0,
   "eval_steps": 500,
+  "global_step": 448,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15625,
+      "grad_norm": 1.7320846319198608,
       "learning_rate": 0.0009921875,
+      "loss": 4.6558,
       "step": 5
     },
     {
       "epoch": 0.3125,
+      "grad_norm": 1.359827995300293,
       "learning_rate": 0.000984375,
+      "loss": 4.6228,
       "step": 10
     },
     {
       "epoch": 0.46875,
+      "grad_norm": 1.5728328227996826,
       "learning_rate": 0.0009765625,
+      "loss": 4.6629,
       "step": 15
     },
     {
       "epoch": 0.625,
+      "grad_norm": 1.514758586883545,
       "learning_rate": 0.00096875,
+      "loss": 4.6269,
       "step": 20
     },
     {
       "epoch": 0.78125,
+      "grad_norm": 1.0490564107894897,
       "learning_rate": 0.0009609375,
+      "loss": 4.5619,
       "step": 25
     },
     {
       "epoch": 0.9375,
+      "grad_norm": 1.087933897972107,
       "learning_rate": 0.000953125,
+      "loss": 4.5237,
       "step": 30
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.34509803921568627,
+      "eval_f1": 0.2874778237337216,
+      "eval_loss": 4.340012073516846,
+      "eval_precision": 0.4128804980040239,
+      "eval_recall": 0.34509803921568627,
+      "eval_runtime": 16.4984,
+      "eval_samples_per_second": 61.824,
+      "eval_steps_per_second": 1.94,
       "step": 32
     },
     {
       "epoch": 1.09375,
+      "grad_norm": 1.3993674516677856,
       "learning_rate": 0.0009453125,
+      "loss": 4.3376,
       "step": 35
     },
     {
       "epoch": 1.25,
+      "grad_norm": 1.5965288877487183,
       "learning_rate": 0.0009375,
+      "loss": 4.0528,
       "step": 40
     },
     {
       "epoch": 1.40625,
+      "grad_norm": 2.107327938079834,
       "learning_rate": 0.0009296875000000001,
+      "loss": 3.7811,
       "step": 45
     },
     {
       "epoch": 1.5625,
+      "grad_norm": 2.1875929832458496,
       "learning_rate": 0.0009218750000000001,
+      "loss": 3.3976,
       "step": 50
     },
     {
       "epoch": 1.71875,
+      "grad_norm": 2.3979506492614746,
       "learning_rate": 0.0009140625,
+      "loss": 3.0782,
       "step": 55
     },
     {
       "epoch": 1.875,
+      "grad_norm": 3.099531888961792,
       "learning_rate": 0.00090625,
+      "loss": 2.8508,
       "step": 60
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5205882352941177,
+      "eval_f1": 0.4815844148221795,
+      "eval_loss": 1.9784579277038574,
+      "eval_precision": 0.5609503268219397,
+      "eval_recall": 0.5205882352941177,
+      "eval_runtime": 14.6742,
+      "eval_samples_per_second": 69.51,
+      "eval_steps_per_second": 2.181,
       "step": 64
     },
     {
       "epoch": 2.03125,
+      "grad_norm": 3.019045829772949,
       "learning_rate": 0.0008984375,
+      "loss": 2.5847,
       "step": 65
     },
     {
       "epoch": 2.1875,
+      "grad_norm": 2.6212832927703857,
       "learning_rate": 0.000890625,
+      "loss": 2.0135,
       "step": 70
     },
     {
       "epoch": 2.34375,
+      "grad_norm": 2.5014185905456543,
       "learning_rate": 0.0008828125,
+      "loss": 1.6579,
       "step": 75
     },
     {
       "epoch": 2.5,
+      "grad_norm": 2.89278244972229,
       "learning_rate": 0.000875,
+      "loss": 1.5167,
       "step": 80
     },
     {
       "epoch": 2.65625,
+      "grad_norm": 2.6624577045440674,
       "learning_rate": 0.0008671875,
+      "loss": 1.3679,
       "step": 85
     },
     {
       "epoch": 2.8125,
+      "grad_norm": 2.6109840869903564,
       "learning_rate": 0.000859375,
+      "loss": 1.2521,
       "step": 90
     },
     {
       "epoch": 2.96875,
+      "grad_norm": 3.0059635639190674,
       "learning_rate": 0.0008515625,
+      "loss": 1.346,
       "step": 95
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7088235294117647,
+      "eval_f1": 0.695694394140452,
+      "eval_loss": 1.1449469327926636,
+      "eval_precision": 0.7737617026219967,
+      "eval_recall": 0.7088235294117647,
+      "eval_runtime": 15.7476,
+      "eval_samples_per_second": 64.772,
+      "eval_steps_per_second": 2.032,
       "step": 96
     },
     {
       "epoch": 3.125,
+      "grad_norm": 2.714418411254883,
       "learning_rate": 0.00084375,
+      "loss": 0.6888,
       "step": 100
     },
     {
       "epoch": 3.28125,
+      "grad_norm": 2.7836403846740723,
       "learning_rate": 0.0008359375,
+      "loss": 0.7027,
       "step": 105
     },
     {
       "epoch": 3.4375,
+      "grad_norm": 2.305562973022461,
       "learning_rate": 0.000828125,
+      "loss": 0.5808,
       "step": 110
     },
     {
       "epoch": 3.59375,
+      "grad_norm": 2.350442409515381,
       "learning_rate": 0.0008203125,
+      "loss": 0.5346,
       "step": 115
     },
     {
       "epoch": 3.75,
+      "grad_norm": 1.3235565423965454,
       "learning_rate": 0.0008125000000000001,
+      "loss": 0.4357,
       "step": 120
     },
     {
       "epoch": 3.90625,
+      "grad_norm": 2.181887626647949,
       "learning_rate": 0.0008046875000000001,
+      "loss": 0.5544,
       "step": 125
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.753921568627451,
+      "eval_f1": 0.7480454731222893,
+      "eval_loss": 0.9264965653419495,
+      "eval_precision": 0.8162285484733582,
+      "eval_recall": 0.753921568627451,
+      "eval_runtime": 16.1579,
+      "eval_samples_per_second": 63.127,
+      "eval_steps_per_second": 1.98,
       "step": 128
     },
     {
       "epoch": 4.0625,
+      "grad_norm": 1.2976504564285278,
       "learning_rate": 0.0007968750000000001,
+      "loss": 0.4729,
       "step": 130
     },
     {
       "epoch": 4.21875,
+      "grad_norm": 1.4201076030731201,
       "learning_rate": 0.0007890625,
+      "loss": 0.2202,
       "step": 135
     },
     {
       "epoch": 4.375,
+      "grad_norm": 1.6992279291152954,
       "learning_rate": 0.00078125,
+      "loss": 0.2482,
       "step": 140
     },
     {
       "epoch": 4.53125,
+      "grad_norm": 1.4370797872543335,
       "learning_rate": 0.0007734375,
+      "loss": 0.2159,
       "step": 145
     },
     {
       "epoch": 4.6875,
+      "grad_norm": 1.7889351844787598,
       "learning_rate": 0.000765625,
+      "loss": 0.2127,
       "step": 150
     },
     {
       "epoch": 4.84375,
+      "grad_norm": 0.961966872215271,
       "learning_rate": 0.0007578125,
+      "loss": 0.2415,
       "step": 155
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.1151365041732788,
       "learning_rate": 0.00075,
+      "loss": 0.1847,
       "step": 160
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8029411764705883,
+      "eval_f1": 0.7996802939138055,
+      "eval_loss": 0.775350034236908,
+      "eval_precision": 0.8323794596323556,
+      "eval_recall": 0.8029411764705883,
+      "eval_runtime": 16.7669,
+      "eval_samples_per_second": 60.834,
+      "eval_steps_per_second": 1.909,
       "step": 160
     },
     {
       "epoch": 5.15625,
+      "grad_norm": 0.6469184756278992,
       "learning_rate": 0.0007421875,
+      "loss": 0.1029,
       "step": 165
     },
     {
       "epoch": 5.3125,
+      "grad_norm": 0.43876633048057556,
       "learning_rate": 0.000734375,
+      "loss": 0.0573,
       "step": 170
     },
     {
       "epoch": 5.46875,
+      "grad_norm": 0.9715489149093628,
       "learning_rate": 0.0007265625,
+      "loss": 0.073,
       "step": 175
     },
     {
       "epoch": 5.625,
+      "grad_norm": 0.6452958583831787,
       "learning_rate": 0.00071875,
+      "loss": 0.1527,
       "step": 180
     },
     {
       "epoch": 5.78125,
+      "grad_norm": 1.4150739908218384,
       "learning_rate": 0.0007109375,
+      "loss": 0.0969,
       "step": 185
     },
     {
       "epoch": 5.9375,
+      "grad_norm": 0.9330568313598633,
       "learning_rate": 0.000703125,
+      "loss": 0.0863,
       "step": 190
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8019607843137255,
+      "eval_f1": 0.80000704547531,
+      "eval_loss": 0.7392613887786865,
+      "eval_precision": 0.8450064476152622,
+      "eval_recall": 0.8019607843137255,
+      "eval_runtime": 14.7972,
+      "eval_samples_per_second": 68.932,
+      "eval_steps_per_second": 2.163,
       "step": 192
     },
     {
       "epoch": 6.09375,
+      "grad_norm": 0.7720392346382141,
       "learning_rate": 0.0006953125,
+      "loss": 0.071,
       "step": 195
     },
     {
       "epoch": 6.25,
+      "grad_norm": 1.0389519929885864,
       "learning_rate": 0.0006875,
+      "loss": 0.0748,
       "step": 200
     },
     {
       "epoch": 6.40625,
+      "grad_norm": 1.150804042816162,
       "learning_rate": 0.0006796875000000001,
+      "loss": 0.0419,
       "step": 205
     },
     {
       "epoch": 6.5625,
+      "grad_norm": 2.15278959274292,
       "learning_rate": 0.0006718750000000001,
+      "loss": 0.0953,
       "step": 210
     },
     {
       "epoch": 6.71875,
+      "grad_norm": 0.3684898912906647,
       "learning_rate": 0.0006640625,
+      "loss": 0.051,
       "step": 215
     },
     {
       "epoch": 6.875,
+      "grad_norm": 0.40336862206459045,
       "learning_rate": 0.00065625,
+      "loss": 0.0516,
       "step": 220
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8284313725490197,
+      "eval_f1": 0.8258508358061349,
+      "eval_loss": 0.6630767583847046,
+      "eval_precision": 0.8569142400730454,
+      "eval_recall": 0.8284313725490197,
+      "eval_runtime": 14.5794,
+      "eval_samples_per_second": 69.962,
+      "eval_steps_per_second": 2.195,
       "step": 224
     },
     {
       "epoch": 7.03125,
+      "grad_norm": 0.3206132650375366,
       "learning_rate": 0.0006484375,
+      "loss": 0.0309,
       "step": 225
     },
     {
       "epoch": 7.1875,
+      "grad_norm": 0.5986069440841675,
       "learning_rate": 0.000640625,
+      "loss": 0.0247,
       "step": 230
     },
     {
       "epoch": 7.34375,
+      "grad_norm": 0.12066510319709778,
       "learning_rate": 0.0006328125,
+      "loss": 0.0395,
       "step": 235
     },
     {
       "epoch": 7.5,
+      "grad_norm": 0.16991862654685974,
       "learning_rate": 0.000625,
+      "loss": 0.0355,
       "step": 240
     },
     {
       "epoch": 7.65625,
+      "grad_norm": 0.12674580514431,
       "learning_rate": 0.0006171875,
+      "loss": 0.0223,
       "step": 245
     },
     {
       "epoch": 7.8125,
+      "grad_norm": 0.26299160718917847,
       "learning_rate": 0.000609375,
+      "loss": 0.0229,
       "step": 250
     },
     {
       "epoch": 7.96875,
+      "grad_norm": 1.2256274223327637,
       "learning_rate": 0.0006015625,
+      "loss": 0.023,
       "step": 255
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8470588235294118,
+      "eval_f1": 0.8428671541662826,
+      "eval_loss": 0.587995171546936,
+      "eval_precision": 0.863074478385897,
+      "eval_recall": 0.8470588235294118,
+      "eval_runtime": 14.5991,
+      "eval_samples_per_second": 69.867,
+      "eval_steps_per_second": 2.192,
       "step": 256
     },
     {
       "epoch": 8.125,
+      "grad_norm": 0.1445535123348236,
       "learning_rate": 0.00059375,
+      "loss": 0.0148,
       "step": 260
     },
     {
       "epoch": 8.28125,
+      "grad_norm": 0.80363529920578,
       "learning_rate": 0.0005859375,
+      "loss": 0.0138,
       "step": 265
     },
     {
       "epoch": 8.4375,
+      "grad_norm": 0.08668403327465057,
       "learning_rate": 0.000578125,
+      "loss": 0.0133,
       "step": 270
     },
     {
       "epoch": 8.59375,
+      "grad_norm": 0.14351984858512878,
       "learning_rate": 0.0005703125,
+      "loss": 0.0091,
       "step": 275
     },
     {
       "epoch": 8.75,
+      "grad_norm": 0.21965286135673523,
       "learning_rate": 0.0005625000000000001,
+      "loss": 0.0096,
       "step": 280
     },
     {
       "epoch": 8.90625,
+      "grad_norm": 0.2289452701807022,
       "learning_rate": 0.0005546875000000001,
+      "loss": 0.011,
       "step": 285
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8568627450980392,
+      "eval_f1": 0.8520284357156945,
+      "eval_loss": 0.5421529412269592,
+      "eval_precision": 0.8685615038556214,
+      "eval_recall": 0.8568627450980392,
+      "eval_runtime": 15.0954,
+      "eval_samples_per_second": 67.57,
+      "eval_steps_per_second": 2.12,
       "step": 288
     },
     {
       "epoch": 9.0625,
+      "grad_norm": 0.08616359531879425,
       "learning_rate": 0.000546875,
+      "loss": 0.028,
       "step": 290
     },
     {
       "epoch": 9.21875,
+      "grad_norm": 0.09607744216918945,
       "learning_rate": 0.0005390625,
+      "loss": 0.0066,
       "step": 295
     },
     {
       "epoch": 9.375,
+      "grad_norm": 0.08231505751609802,
       "learning_rate": 0.00053125,
+      "loss": 0.0059,
       "step": 300
     },
     {
       "epoch": 9.53125,
+      "grad_norm": 0.1094212606549263,
       "learning_rate": 0.0005234375,
+      "loss": 0.0071,
       "step": 305
     },
     {
       "epoch": 9.6875,
+      "grad_norm": 0.2680395841598511,
       "learning_rate": 0.000515625,
+      "loss": 0.0097,
       "step": 310
     },
     {
       "epoch": 9.84375,
+      "grad_norm": 0.059513527899980545,
       "learning_rate": 0.0005078125,
+      "loss": 0.0088,
       "step": 315
     },
     {
       "epoch": 10.0,
+      "grad_norm": 0.05216934159398079,
       "learning_rate": 0.0005,
+      "loss": 0.0079,
       "step": 320
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.8509803921568627,
+      "eval_f1": 0.8469890554498172,
+      "eval_loss": 0.5335255265235901,
+      "eval_precision": 0.8636809133132662,
+      "eval_recall": 0.8509803921568627,
+      "eval_runtime": 15.0591,
+      "eval_samples_per_second": 67.733,
+      "eval_steps_per_second": 2.125,
       "step": 320
     },
     {
       "epoch": 10.15625,
+      "grad_norm": 0.031231796368956566,
       "learning_rate": 0.0004921875,
       "loss": 0.0045,
       "step": 325
     },
     {
       "epoch": 10.3125,
+      "grad_norm": 0.03108547069132328,
       "learning_rate": 0.000484375,
+      "loss": 0.0041,
       "step": 330
     },
     {
       "epoch": 10.46875,
+      "grad_norm": 0.04625704139471054,
       "learning_rate": 0.0004765625,
+      "loss": 0.0033,
       "step": 335
     },
     {
       "epoch": 10.625,
+      "grad_norm": 0.0934106633067131,
       "learning_rate": 0.00046875,
+      "loss": 0.005,
       "step": 340
     },
     {
       "epoch": 10.78125,
+      "grad_norm": 0.031285736709833145,
       "learning_rate": 0.00046093750000000003,
+      "loss": 0.004,
       "step": 345
     },
     {
       "epoch": 10.9375,
+      "grad_norm": 0.052936799824237823,
       "learning_rate": 0.000453125,
+      "loss": 0.0072,
       "step": 350
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8647058823529412,
+      "eval_f1": 0.8604589215066042,
+      "eval_loss": 0.5107002854347229,
+      "eval_precision": 0.8735360179996857,
+      "eval_recall": 0.8647058823529412,
+      "eval_runtime": 14.8358,
+      "eval_samples_per_second": 68.753,
+      "eval_steps_per_second": 2.157,
       "step": 352
     },
     {
       "epoch": 11.09375,
+      "grad_norm": 0.02143882028758526,
       "learning_rate": 0.0004453125,
+      "loss": 0.0039,
       "step": 355
     },
     {
       "epoch": 11.25,
+      "grad_norm": 0.06976446509361267,
       "learning_rate": 0.0004375,
+      "loss": 0.0033,
       "step": 360
     },
     {
       "epoch": 11.40625,
+      "grad_norm": 0.08110585063695908,
       "learning_rate": 0.0004296875,
+      "loss": 0.0039,
       "step": 365
     },
     {
       "epoch": 11.5625,
+      "grad_norm": 0.025856945663690567,
       "learning_rate": 0.000421875,
+      "loss": 0.0052,
       "step": 370
     },
     {
       "epoch": 11.71875,
+      "grad_norm": 0.059996578842401505,
       "learning_rate": 0.0004140625,
+      "loss": 0.0076,
       "step": 375
     },
     {
       "epoch": 11.875,
+      "grad_norm": 0.1558006852865219,
       "learning_rate": 0.00040625000000000004,
+      "loss": 0.0086,
       "step": 380
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8578431372549019,
+      "eval_f1": 0.8548177831549634,
+      "eval_loss": 0.5290006995201111,
+      "eval_precision": 0.8719719142513259,
+      "eval_recall": 0.8578431372549019,
+      "eval_runtime": 14.675,
+      "eval_samples_per_second": 69.506,
+      "eval_steps_per_second": 2.181,
       "step": 384
     },
     {
       "epoch": 12.03125,
+      "grad_norm": 0.2643249034881592,
       "learning_rate": 0.00039843750000000003,
+      "loss": 0.0052,
       "step": 385
     },
     {
       "epoch": 12.1875,
+      "grad_norm": 0.03377879783511162,
       "learning_rate": 0.000390625,
+      "loss": 0.0042,
       "step": 390
     },
     {
       "epoch": 12.34375,
+      "grad_norm": 0.4935762286186218,
       "learning_rate": 0.0003828125,
+      "loss": 0.0044,
       "step": 395
     },
     {
       "epoch": 12.5,
+      "grad_norm": 0.011438349261879921,
       "learning_rate": 0.000375,
+      "loss": 0.0026,
       "step": 400
     },
     {
       "epoch": 12.65625,
+      "grad_norm": 0.0676066130399704,
       "learning_rate": 0.0003671875,
+      "loss": 0.004,
       "step": 405
     },
     {
       "epoch": 12.8125,
+      "grad_norm": 0.014333638362586498,
       "learning_rate": 0.000359375,
+      "loss": 0.0033,
       "step": 410
     },
     {
       "epoch": 12.96875,
+      "grad_norm": 0.11364184319972992,
       "learning_rate": 0.0003515625,
+      "loss": 0.0058,
       "step": 415
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.8568627450980392,
+      "eval_f1": 0.8523334959912007,
+      "eval_loss": 0.5160782933235168,
+      "eval_precision": 0.865809422059422,
+      "eval_recall": 0.8568627450980392,
+      "eval_runtime": 14.822,
+      "eval_samples_per_second": 68.817,
+      "eval_steps_per_second": 2.159,
       "step": 416
     },
     {
       "epoch": 13.125,
+      "grad_norm": 0.013512840494513512,
       "learning_rate": 0.00034375,
+      "loss": 0.0023,
       "step": 420
     },
     {
       "epoch": 13.28125,
+      "grad_norm": 0.16694830358028412,
       "learning_rate": 0.00033593750000000003,
+      "loss": 0.0076,
       "step": 425
     },
     {
       "epoch": 13.4375,
+      "grad_norm": 0.025320900604128838,
       "learning_rate": 0.000328125,
+      "loss": 0.0023,
       "step": 430
     },
     {
       "epoch": 13.59375,
+      "grad_norm": 0.015468744561076164,
       "learning_rate": 0.0003203125,
+      "loss": 0.0035,
       "step": 435
     },
     {
       "epoch": 13.75,
+      "grad_norm": 0.03578919544816017,
       "learning_rate": 0.0003125,
+      "loss": 0.0027,
       "step": 440
     },
     {
       "epoch": 13.90625,
+      "grad_norm": 0.023722629994153976,
       "learning_rate": 0.0003046875,
+      "loss": 0.0027,
       "step": 445
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8588235294117647,
+      "eval_f1": 0.8538315193219463,
+      "eval_loss": 0.5138522982597351,
+      "eval_precision": 0.8702200713230125,
+      "eval_recall": 0.8588235294117647,
+      "eval_runtime": 15.3283,
+      "eval_samples_per_second": 66.544,
+      "eval_steps_per_second": 2.088,
       "step": 448
     },
     {
+      "epoch": 14.0,
+      "step": 448,
+      "total_flos": 3.058842052288512e+17,
+      "train_loss": 0.7544229235707982,
+      "train_runtime": 674.4917,
+      "train_samples_per_second": 30.245,
+      "train_steps_per_second": 0.949
     }
   ],
   "logging_steps": 5,
   "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,
       "attributes": {}
     }
   },
+  "total_flos": 3.058842052288512e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null