End of training

Browse files

Files changed (10) hide show

README.md +43 -43
all_results.json +10 -10
config.json +4 -10
eval_results.json +6 -6
model.safetensors +2 -2
runs/Dec01_09-41-13_DESKTOP-SKBE9FB/events.out.tfevents.1733067674.DESKTOP-SKBE9FB.19616.0 +3 -0
runs/Dec01_09-41-13_DESKTOP-SKBE9FB/events.out.tfevents.1733068268.DESKTOP-SKBE9FB.19616.1 +3 -0
train_results.json +5 -5
trainer_state.json +381 -1149
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8836363636363637
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +32,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3399
-- Accuracy: 0.8836
 ## Model description
@@ -67,46 +67,46 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 1.2888        | 0.99  | 40   | 1.2042          | 0.4927   |
-| 0.8739        | 1.99  | 80   | 0.6776          | 0.7491   |
-| 0.7913        | 2.98  | 120  | 0.5920          | 0.7618   |
-| 0.6803        | 4.0   | 161  | 0.5377          | 0.7691   |
-| 0.624         | 4.99  | 201  | 0.5212          | 0.7745   |
-| 0.6068        | 5.99  | 241  | 0.5286          | 0.82     |
-| 0.6274        | 6.98  | 281  | 0.4594          | 0.84     |
-| 0.5571        | 8.0   | 322  | 0.4194          | 0.8491   |
-| 0.5803        | 8.99  | 362  | 0.4615          | 0.82     |
-| 0.5856        | 9.99  | 402  | 0.4559          | 0.8364   |
-| 0.5364        | 10.98 | 442  | 0.3981          | 0.8582   |
-| 0.5287        | 12.0  | 483  | 0.3939          | 0.8418   |
-| 0.4689        | 12.99 | 523  | 0.4536          | 0.8327   |
-| 0.422         | 13.99 | 563  | 0.3476          | 0.8745   |
-| 0.5027        | 14.98 | 603  | 0.3864          | 0.8545   |
-| 0.4776        | 16.0  | 644  | 0.3470          | 0.8636   |
-| 0.4598        | 16.99 | 684  | 0.3690          | 0.8655   |
-| 0.4846        | 17.99 | 724  | 0.3708          | 0.8655   |
-| 0.4126        | 18.98 | 764  | 0.3506          | 0.86     |
-| 0.4497        | 20.0  | 805  | 0.3338          | 0.8655   |
-| 0.4594        | 20.99 | 845  | 0.3469          | 0.8673   |
-| 0.4163        | 21.99 | 885  | 0.3703          | 0.8582   |
-| 0.3539        | 22.98 | 925  | 0.3594          | 0.8636   |
-| 0.3751        | 24.0  | 966  | 0.3559          | 0.8582   |
-| 0.3598        | 24.99 | 1006 | 0.3316          | 0.8818   |
-| 0.3839        | 25.99 | 1046 | 0.3482          | 0.8764   |
-| 0.3029        | 26.98 | 1086 | 0.3474          | 0.88     |
-| 0.286         | 28.0  | 1127 | 0.3399          | 0.8836   |
-| 0.361         | 28.99 | 1167 | 0.3660          | 0.8709   |
-| 0.3283        | 29.99 | 1207 | 0.3968          | 0.8655   |
-| 0.3192        | 30.98 | 1247 | 0.3601          | 0.8745   |
-| 0.3127        | 32.0  | 1288 | 0.3793          | 0.8745   |
-| 0.2907        | 32.99 | 1328 | 0.4207          | 0.8691   |
-| 0.2715        | 33.99 | 1368 | 0.4298          | 0.8727   |
-| 0.2984        | 34.98 | 1408 | 0.4065          | 0.8818   |
-| 0.2584        | 36.0  | 1449 | 0.4050          | 0.8836   |
-| 0.2137        | 36.99 | 1489 | 0.4129          | 0.8836   |
-| 0.24          | 37.99 | 1529 | 0.4160          | 0.88     |
-| 0.2326        | 38.98 | 1569 | 0.4104          | 0.8782   |
-| 0.2121        | 39.75 | 1600 | 0.4130          | 0.8782   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.616822429906542
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6580
+- Accuracy: 0.6168
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 1.0   | 8    | 4.5659          | 0.4112   |
+| 4.5175        | 2.0   | 16   | 3.6471          | 0.4112   |
+| 3.927         | 3.0   | 24   | 1.6286          | 0.4112   |
+| 1.6081        | 4.0   | 32   | 0.6781          | 0.5888   |
+| 0.7702        | 5.0   | 40   | 0.8357          | 0.5888   |
+| 0.7702        | 6.0   | 48   | 0.6766          | 0.5888   |
+| 0.7502        | 7.0   | 56   | 0.7522          | 0.4112   |
+| 0.7266        | 8.0   | 64   | 0.6792          | 0.5888   |
+| 0.6954        | 9.0   | 72   | 0.6881          | 0.5888   |
+| 0.6808        | 10.0  | 80   | 0.6780          | 0.5888   |
+| 0.6808        | 11.0  | 88   | 0.7130          | 0.5888   |
+| 0.7068        | 12.0  | 96   | 0.6771          | 0.5888   |
+| 0.6792        | 13.0  | 104  | 0.6779          | 0.5888   |
+| 0.6841        | 14.0  | 112  | 0.6766          | 0.5888   |
+| 0.6777        | 15.0  | 120  | 0.6861          | 0.5888   |
+| 0.6777        | 16.0  | 128  | 0.6773          | 0.5888   |
+| 0.6818        | 17.0  | 136  | 0.6806          | 0.5888   |
+| 0.6747        | 18.0  | 144  | 0.6929          | 0.5888   |
+| 0.6814        | 19.0  | 152  | 0.6767          | 0.5888   |
+| 0.6714        | 20.0  | 160  | 0.6745          | 0.5888   |
+| 0.6714        | 21.0  | 168  | 0.6852          | 0.5888   |
+| 0.6765        | 22.0  | 176  | 0.6816          | 0.5514   |
+| 0.6822        | 23.0  | 184  | 0.6983          | 0.5888   |
+| 0.6816        | 24.0  | 192  | 0.6706          | 0.5888   |
+| 0.6868        | 25.0  | 200  | 0.6982          | 0.5701   |
+| 0.6868        | 26.0  | 208  | 0.6878          | 0.5701   |
+| 0.6724        | 27.0  | 216  | 0.6785          | 0.5888   |
+| 0.6613        | 28.0  | 224  | 0.6843          | 0.5888   |
+| 0.6501        | 29.0  | 232  | 0.7126          | 0.5888   |
+| 0.6566        | 30.0  | 240  | 0.6917          | 0.5701   |
+| 0.6566        | 31.0  | 248  | 0.7020          | 0.5607   |
+| 0.6583        | 32.0  | 256  | 0.6782          | 0.5888   |
+| 0.6501        | 33.0  | 264  | 0.6647          | 0.5888   |
+| 0.654         | 34.0  | 272  | 0.6603          | 0.5981   |
+| 0.6604        | 35.0  | 280  | 0.6873          | 0.5794   |
+| 0.6604        | 36.0  | 288  | 0.6591          | 0.5794   |
+| 0.6456        | 37.0  | 296  | 0.6580          | 0.6168   |
+| 0.6483        | 38.0  | 304  | 0.6702          | 0.5981   |
+| 0.6151        | 39.0  | 312  | 0.6785          | 0.5981   |
+| 0.6291        | 40.0  | 320  | 0.6806          | 0.5981   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 39.75,
-    "eval_accuracy": 0.8836363636363637,
-    "eval_loss": 0.3399273157119751,
-    "eval_runtime": 3.0032,
-    "eval_samples_per_second": 183.136,
-    "eval_steps_per_second": 11.654,
-    "train_loss": 0.4701251982152462,
-    "train_runtime": 1462.7895,
-    "train_samples_per_second": 70.085,
-    "train_steps_per_second": 1.094
 }

 {
+    "epoch": 40.0,
+    "eval_accuracy": 0.616822429906542,
+    "eval_loss": 0.6579955816268921,
+    "eval_runtime": 2.141,
+    "eval_samples_per_second": 49.976,
+    "eval_steps_per_second": 3.269,
+    "train_loss": 0.9269241958856582,
+    "train_runtime": 591.2866,
+    "train_samples_per_second": 33.689,
+    "train_steps_per_second": 0.541
 }

config.json CHANGED Viewed

@@ -17,20 +17,14 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
-    "0": "Mild",
-    "1": "Moderate",
-    "2": "No_DR",
-    "3": "Proliferate_DR",
-    "4": "Severe"
   },
   "image_size": 256,
   "initializer_range": 0.02,
   "label2id": {
-    "Mild": 0,
-    "Moderate": 1,
-    "No_DR": 2,
-    "Proliferate_DR": 3,
-    "Severe": 4
   },
   "layer_norm_eps": 1e-05,
   "mlp_ratio": 4.0,

   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
+    "0": "HR",
+    "1": "No HR"
   },
   "image_size": 256,
   "initializer_range": 0.02,
   "label2id": {
+    "HR": 0,
+    "No HR": 1
   },
   "layer_norm_eps": 1e-05,
   "mlp_ratio": 4.0,

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 39.75,
-    "eval_accuracy": 0.8836363636363637,
-    "eval_loss": 0.3399273157119751,
-    "eval_runtime": 3.0032,
-    "eval_samples_per_second": 183.136,
-    "eval_steps_per_second": 11.654
 }

 {
+    "epoch": 40.0,
+    "eval_accuracy": 0.616822429906542,
+    "eval_loss": 0.6579955816268921,
+    "eval_runtime": 2.141,
+    "eval_samples_per_second": 49.976,
+    "eval_steps_per_second": 3.269
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6774402736e4138f445efc5c4e4436abacf3a6bd35d451fb16e2a45b57bcbe5a
-size 110359372

 version https://git-lfs.github.com/spec/v1
+oid sha256:691a7da7dff5da0f33c5a07a6d3ca99d97e130cf310c3632dabed4a981c7d394
+size 110350128

runs/Dec01_09-41-13_DESKTOP-SKBE9FB/events.out.tfevents.1733067674.DESKTOP-SKBE9FB.19616.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57cc2384fedf0484f726ed692720df5cf6105b2cc20baffb080dc01e56ed2f0a
+size 22896

runs/Dec01_09-41-13_DESKTOP-SKBE9FB/events.out.tfevents.1733068268.DESKTOP-SKBE9FB.19616.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50490b997cfbe439388d6e3f6e241df528bc44b5cf513bfed84d4c1be0ec3a4b
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 39.75,
-    "train_loss": 0.4701251982152462,
-    "train_runtime": 1462.7895,
-    "train_samples_per_second": 70.085,
-    "train_steps_per_second": 1.094
 }

 {
+    "epoch": 40.0,
+    "train_loss": 0.9269241958856582,
+    "train_runtime": 591.2866,
+    "train_samples_per_second": 33.689,
+    "train_steps_per_second": 0.541
 }

trainer_state.json CHANGED Viewed

@@ -1,1349 +1,581 @@
 {
-  "best_metric": 0.8836363636363637,
-  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-RD-aptos19\\checkpoint-1127",
-  "epoch": 39.75155279503105,
   "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.25,
-      "learning_rate": 9.375e-06,
-      "loss": 1.608,
-      "step": 10
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 1.875e-05,
-      "loss": 1.5856,
-      "step": 20
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 2.8125e-05,
-      "loss": 1.4604,
-      "step": 30
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 3.75e-05,
-      "loss": 1.2888,
-      "step": 40
-    },
-    {
-      "epoch": 0.99,
-      "eval_accuracy": 0.49272727272727274,
-      "eval_loss": 1.2042264938354492,
-      "eval_runtime": 5.5152,
-      "eval_samples_per_second": 99.724,
-      "eval_steps_per_second": 6.346,
-      "step": 40
-    },
-    {
-      "epoch": 1.24,
       "learning_rate": 4.6874999999999994e-05,
-      "loss": 1.1325,
-      "step": 50
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 5.625e-05,
-      "loss": 1.0479,
-      "step": 60
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 6.5625e-05,
-      "loss": 0.8743,
-      "step": 70
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 7.5e-05,
-      "loss": 0.8739,
-      "step": 80
     },
     {
-      "epoch": 1.99,
-      "eval_accuracy": 0.7490909090909091,
-      "eval_loss": 0.6776268482208252,
-      "eval_runtime": 3.6594,
-      "eval_samples_per_second": 150.299,
-      "eval_steps_per_second": 9.564,
-      "step": 80
     },
     {
-      "epoch": 2.24,
-      "learning_rate": 8.437499999999999e-05,
-      "loss": 0.7431,
-      "step": 90
-    },
-    {
-      "epoch": 2.48,
       "learning_rate": 9.374999999999999e-05,
-      "loss": 0.7607,
-      "step": 100
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.00010312499999999999,
-      "loss": 0.7128,
-      "step": 110
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.0001125,
-      "loss": 0.7913,
-      "step": 120
-    },
-    {
-      "epoch": 2.98,
-      "eval_accuracy": 0.7618181818181818,
-      "eval_loss": 0.5920261740684509,
-      "eval_runtime": 2.9432,
-      "eval_samples_per_second": 186.871,
-      "eval_steps_per_second": 11.892,
-      "step": 120
     },
     {
-      "epoch": 3.23,
-      "learning_rate": 0.000121875,
-      "loss": 0.6503,
-      "step": 130
     },
     {
-      "epoch": 3.48,
-      "learning_rate": 0.00013125,
-      "loss": 0.7039,
-      "step": 140
-    },
-    {
-      "epoch": 3.73,
       "learning_rate": 0.000140625,
-      "loss": 0.7053,
-      "step": 150
-    },
-    {
-      "epoch": 3.98,
-      "learning_rate": 0.00015,
-      "loss": 0.6803,
-      "step": 160
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.769090909090909,
-      "eval_loss": 0.537731945514679,
-      "eval_runtime": 3.0452,
-      "eval_samples_per_second": 180.611,
-      "eval_steps_per_second": 11.493,
-      "step": 161
     },
     {
-      "epoch": 4.22,
-      "learning_rate": 0.00014895833333333333,
-      "loss": 0.7187,
-      "step": 170
-    },
-    {
-      "epoch": 4.47,
-      "learning_rate": 0.00014791666666666667,
-      "loss": 0.6562,
-      "step": 180
-    },
-    {
-      "epoch": 4.72,
-      "learning_rate": 0.00014687499999999998,
-      "loss": 0.6117,
-      "step": 190
-    },
-    {
-      "epoch": 4.97,
       "learning_rate": 0.00014583333333333332,
-      "loss": 0.624,
-      "step": 200
-    },
-    {
-      "epoch": 4.99,
-      "eval_accuracy": 0.7745454545454545,
-      "eval_loss": 0.5211531519889832,
-      "eval_runtime": 3.0242,
-      "eval_samples_per_second": 181.865,
-      "eval_steps_per_second": 11.573,
-      "step": 201
-    },
-    {
-      "epoch": 5.22,
-      "learning_rate": 0.00014479166666666666,
-      "loss": 0.6747,
-      "step": 210
-    },
-    {
-      "epoch": 5.47,
-      "learning_rate": 0.00014375,
-      "loss": 0.7065,
-      "step": 220
-    },
-    {
-      "epoch": 5.71,
-      "learning_rate": 0.0001427083333333333,
-      "loss": 0.6179,
-      "step": 230
     },
     {
-      "epoch": 5.96,
-      "learning_rate": 0.00014166666666666665,
-      "loss": 0.6068,
-      "step": 240
     },
     {
-      "epoch": 5.99,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.5285586714744568,
-      "eval_runtime": 3.1978,
-      "eval_samples_per_second": 171.996,
-      "eval_steps_per_second": 10.945,
-      "step": 241
     },
     {
-      "epoch": 6.21,
       "learning_rate": 0.000140625,
-      "loss": 0.6493,
-      "step": 250
-    },
-    {
-      "epoch": 6.46,
-      "learning_rate": 0.00013958333333333333,
-      "loss": 0.6105,
-      "step": 260
-    },
-    {
-      "epoch": 6.71,
-      "learning_rate": 0.00013854166666666667,
-      "loss": 0.6449,
-      "step": 270
-    },
-    {
-      "epoch": 6.96,
-      "learning_rate": 0.00013749999999999998,
-      "loss": 0.6274,
-      "step": 280
-    },
-    {
-      "epoch": 6.98,
-      "eval_accuracy": 0.84,
-      "eval_loss": 0.4594345986843109,
-      "eval_runtime": 3.1042,
-      "eval_samples_per_second": 177.178,
-      "eval_steps_per_second": 11.275,
-      "step": 281
     },
     {
-      "epoch": 7.2,
-      "learning_rate": 0.00013645833333333332,
-      "loss": 0.5433,
-      "step": 290
     },
     {
-      "epoch": 7.45,
       "learning_rate": 0.00013541666666666666,
-      "loss": 0.6004,
-      "step": 300
-    },
-    {
-      "epoch": 7.7,
-      "learning_rate": 0.000134375,
-      "loss": 0.5892,
-      "step": 310
-    },
-    {
-      "epoch": 7.95,
-      "learning_rate": 0.0001333333333333333,
-      "loss": 0.5571,
-      "step": 320
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8490909090909091,
-      "eval_loss": 0.4194428324699402,
-      "eval_runtime": 3.0642,
-      "eval_samples_per_second": 179.491,
-      "eval_steps_per_second": 11.422,
-      "step": 322
-    },
-    {
-      "epoch": 8.2,
-      "learning_rate": 0.00013229166666666665,
-      "loss": 0.5527,
-      "step": 330
-    },
-    {
-      "epoch": 8.45,
-      "learning_rate": 0.00013125,
-      "loss": 0.5555,
-      "step": 340
     },
     {
-      "epoch": 8.7,
       "learning_rate": 0.00013020833333333333,
-      "loss": 0.5514,
-      "step": 350
-    },
-    {
-      "epoch": 8.94,
-      "learning_rate": 0.00012916666666666667,
-      "loss": 0.5803,
-      "step": 360
-    },
-    {
-      "epoch": 8.99,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.4614850878715515,
-      "eval_runtime": 2.9457,
-      "eval_samples_per_second": 186.714,
-      "eval_steps_per_second": 11.882,
-      "step": 362
-    },
-    {
-      "epoch": 9.19,
-      "learning_rate": 0.00012812499999999998,
-      "loss": 0.5186,
-      "step": 370
-    },
-    {
-      "epoch": 9.44,
-      "learning_rate": 0.00012708333333333332,
-      "loss": 0.543,
-      "step": 380
     },
     {
-      "epoch": 9.69,
-      "learning_rate": 0.00012604166666666666,
-      "loss": 0.5885,
-      "step": 390
     },
     {
-      "epoch": 9.94,
       "learning_rate": 0.000125,
-      "loss": 0.5856,
-      "step": 400
-    },
-    {
-      "epoch": 9.99,
-      "eval_accuracy": 0.8363636363636363,
-      "eval_loss": 0.4558989107608795,
-      "eval_runtime": 3.4123,
-      "eval_samples_per_second": 161.181,
-      "eval_steps_per_second": 10.257,
-      "step": 402
-    },
-    {
-      "epoch": 10.19,
-      "learning_rate": 0.00012395833333333332,
-      "loss": 0.4907,
-      "step": 410
-    },
-    {
-      "epoch": 10.43,
-      "learning_rate": 0.00012291666666666665,
-      "loss": 0.4828,
-      "step": 420
-    },
-    {
-      "epoch": 10.68,
-      "learning_rate": 0.000121875,
-      "loss": 0.5777,
-      "step": 430
     },
     {
-      "epoch": 10.93,
-      "learning_rate": 0.00012083333333333332,
-      "loss": 0.5364,
-      "step": 440
     },
     {
-      "epoch": 10.98,
-      "eval_accuracy": 0.8581818181818182,
-      "eval_loss": 0.39813804626464844,
-      "eval_runtime": 3.2318,
-      "eval_samples_per_second": 170.185,
-      "eval_steps_per_second": 10.83,
-      "step": 442
     },
     {
-      "epoch": 11.18,
       "learning_rate": 0.00011979166666666666,
-      "loss": 0.5193,
-      "step": 450
-    },
-    {
-      "epoch": 11.43,
-      "learning_rate": 0.00011874999999999999,
-      "loss": 0.4665,
-      "step": 460
-    },
-    {
-      "epoch": 11.68,
-      "learning_rate": 0.00011770833333333333,
-      "loss": 0.5583,
-      "step": 470
-    },
-    {
-      "epoch": 11.93,
-      "learning_rate": 0.00011666666666666665,
-      "loss": 0.5287,
-      "step": 480
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8418181818181818,
-      "eval_loss": 0.3938743770122528,
-      "eval_runtime": 3.0907,
-      "eval_samples_per_second": 177.952,
-      "eval_steps_per_second": 11.324,
-      "step": 483
     },
     {
-      "epoch": 12.17,
-      "learning_rate": 0.00011562499999999999,
-      "loss": 0.5208,
-      "step": 490
-    },
-    {
-      "epoch": 12.42,
       "learning_rate": 0.00011458333333333332,
-      "loss": 0.5369,
-      "step": 500
-    },
-    {
-      "epoch": 12.67,
-      "learning_rate": 0.00011354166666666666,
-      "loss": 0.4893,
-      "step": 510
-    },
-    {
-      "epoch": 12.92,
-      "learning_rate": 0.0001125,
-      "loss": 0.4689,
-      "step": 520
-    },
-    {
-      "epoch": 12.99,
-      "eval_accuracy": 0.8327272727272728,
-      "eval_loss": 0.45357394218444824,
-      "eval_runtime": 3.2638,
-      "eval_samples_per_second": 168.516,
-      "eval_steps_per_second": 10.724,
-      "step": 523
-    },
-    {
-      "epoch": 13.17,
-      "learning_rate": 0.00011145833333333332,
-      "loss": 0.5399,
-      "step": 530
     },
     {
-      "epoch": 13.42,
-      "learning_rate": 0.00011041666666666666,
-      "loss": 0.5117,
-      "step": 540
     },
     {
-      "epoch": 13.66,
       "learning_rate": 0.00010937499999999999,
-      "loss": 0.5289,
-      "step": 550
-    },
-    {
-      "epoch": 13.91,
-      "learning_rate": 0.00010833333333333333,
-      "loss": 0.422,
-      "step": 560
-    },
-    {
-      "epoch": 13.99,
-      "eval_accuracy": 0.8745454545454545,
-      "eval_loss": 0.3475695550441742,
-      "eval_runtime": 2.9537,
-      "eval_samples_per_second": 186.206,
-      "eval_steps_per_second": 11.849,
-      "step": 563
-    },
-    {
-      "epoch": 14.16,
-      "learning_rate": 0.00010729166666666665,
-      "loss": 0.4511,
-      "step": 570
-    },
-    {
-      "epoch": 14.41,
-      "learning_rate": 0.00010625,
-      "loss": 0.492,
-      "step": 580
     },
     {
-      "epoch": 14.66,
-      "learning_rate": 0.00010520833333333332,
-      "loss": 0.4903,
-      "step": 590
     },
     {
-      "epoch": 14.91,
       "learning_rate": 0.00010416666666666666,
-      "loss": 0.5027,
-      "step": 600
-    },
-    {
-      "epoch": 14.98,
-      "eval_accuracy": 0.8545454545454545,
-      "eval_loss": 0.3863639831542969,
-      "eval_runtime": 2.9867,
-      "eval_samples_per_second": 184.147,
-      "eval_steps_per_second": 11.718,
-      "step": 603
-    },
-    {
-      "epoch": 15.16,
-      "learning_rate": 0.00010312499999999999,
-      "loss": 0.5208,
-      "step": 610
-    },
-    {
-      "epoch": 15.4,
-      "learning_rate": 0.00010208333333333333,
-      "loss": 0.5145,
-      "step": 620
-    },
-    {
-      "epoch": 15.65,
-      "learning_rate": 0.00010104166666666667,
-      "loss": 0.4778,
-      "step": 630
     },
     {
-      "epoch": 15.9,
-      "learning_rate": 9.999999999999999e-05,
-      "loss": 0.4776,
-      "step": 640
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.8636363636363636,
-      "eval_loss": 0.3469507396221161,
-      "eval_runtime": 3.0532,
-      "eval_samples_per_second": 180.137,
-      "eval_steps_per_second": 11.463,
-      "step": 644
     },
     {
-      "epoch": 16.15,
       "learning_rate": 9.895833333333332e-05,
-      "loss": 0.4958,
-      "step": 650
-    },
-    {
-      "epoch": 16.4,
-      "learning_rate": 9.791666666666666e-05,
-      "loss": 0.3966,
-      "step": 660
-    },
-    {
-      "epoch": 16.65,
-      "learning_rate": 9.6875e-05,
-      "loss": 0.4172,
-      "step": 670
-    },
-    {
-      "epoch": 16.89,
-      "learning_rate": 9.583333333333332e-05,
-      "loss": 0.4598,
-      "step": 680
-    },
-    {
-      "epoch": 16.99,
-      "eval_accuracy": 0.8654545454545455,
-      "eval_loss": 0.3689936697483063,
-      "eval_runtime": 2.9832,
-      "eval_samples_per_second": 184.366,
-      "eval_steps_per_second": 11.732,
-      "step": 684
     },
     {
-      "epoch": 17.14,
-      "learning_rate": 9.479166666666665e-05,
-      "loss": 0.4649,
-      "step": 690
     },
     {
-      "epoch": 17.39,
       "learning_rate": 9.374999999999999e-05,
-      "loss": 0.4638,
-      "step": 700
-    },
-    {
-      "epoch": 17.64,
-      "learning_rate": 9.270833333333333e-05,
-      "loss": 0.4742,
-      "step": 710
-    },
-    {
-      "epoch": 17.89,
-      "learning_rate": 9.166666666666667e-05,
-      "loss": 0.4846,
-      "step": 720
-    },
-    {
-      "epoch": 17.99,
-      "eval_accuracy": 0.8654545454545455,
-      "eval_loss": 0.3708234429359436,
-      "eval_runtime": 2.9987,
-      "eval_samples_per_second": 183.412,
-      "eval_steps_per_second": 11.672,
-      "step": 724
-    },
-    {
-      "epoch": 18.14,
-      "learning_rate": 9.062499999999998e-05,
-      "loss": 0.529,
-      "step": 730
     },
     {
-      "epoch": 18.39,
-      "learning_rate": 8.958333333333332e-05,
-      "loss": 0.469,
-      "step": 740
     },
     {
-      "epoch": 18.63,
       "learning_rate": 8.854166666666666e-05,
-      "loss": 0.4244,
-      "step": 750
-    },
-    {
-      "epoch": 18.88,
-      "learning_rate": 8.75e-05,
-      "loss": 0.4126,
-      "step": 760
-    },
-    {
-      "epoch": 18.98,
-      "eval_accuracy": 0.86,
-      "eval_loss": 0.35055941343307495,
-      "eval_runtime": 3.0008,
-      "eval_samples_per_second": 183.287,
-      "eval_steps_per_second": 11.664,
-      "step": 764
-    },
-    {
-      "epoch": 19.13,
-      "learning_rate": 8.645833333333331e-05,
-      "loss": 0.3954,
-      "step": 770
-    },
-    {
-      "epoch": 19.38,
-      "learning_rate": 8.541666666666665e-05,
-      "loss": 0.3751,
-      "step": 780
     },
     {
-      "epoch": 19.63,
-      "learning_rate": 8.437499999999999e-05,
-      "loss": 0.4208,
-      "step": 790
     },
     {
-      "epoch": 19.88,
       "learning_rate": 8.333333333333333e-05,
-      "loss": 0.4497,
-      "step": 800
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.8654545454545455,
-      "eval_loss": 0.3338177800178528,
-      "eval_runtime": 3.0437,
-      "eval_samples_per_second": 180.7,
-      "eval_steps_per_second": 11.499,
-      "step": 805
-    },
-    {
-      "epoch": 20.12,
-      "learning_rate": 8.229166666666667e-05,
-      "loss": 0.4148,
-      "step": 810
-    },
-    {
-      "epoch": 20.37,
-      "learning_rate": 8.124999999999998e-05,
-      "loss": 0.481,
-      "step": 820
-    },
-    {
-      "epoch": 20.62,
-      "learning_rate": 8.020833333333332e-05,
-      "loss": 0.4227,
-      "step": 830
-    },
-    {
-      "epoch": 20.87,
-      "learning_rate": 7.916666666666666e-05,
-      "loss": 0.4594,
-      "step": 840
     },
     {
-      "epoch": 20.99,
-      "eval_accuracy": 0.8672727272727273,
-      "eval_loss": 0.34694474935531616,
-      "eval_runtime": 3.0287,
-      "eval_samples_per_second": 181.595,
-      "eval_steps_per_second": 11.556,
-      "step": 845
     },
     {
-      "epoch": 21.12,
       "learning_rate": 7.8125e-05,
-      "loss": 0.409,
-      "step": 850
-    },
-    {
-      "epoch": 21.37,
-      "learning_rate": 7.708333333333331e-05,
-      "loss": 0.3531,
-      "step": 860
-    },
-    {
-      "epoch": 21.61,
-      "learning_rate": 7.604166666666665e-05,
-      "loss": 0.3841,
-      "step": 870
-    },
-    {
-      "epoch": 21.86,
-      "learning_rate": 7.5e-05,
-      "loss": 0.4163,
-      "step": 880
-    },
-    {
-      "epoch": 21.99,
-      "eval_accuracy": 0.8581818181818182,
-      "eval_loss": 0.370274156332016,
-      "eval_runtime": 3.0552,
-      "eval_samples_per_second": 180.019,
-      "eval_steps_per_second": 11.456,
-      "step": 885
     },
     {
-      "epoch": 22.11,
-      "learning_rate": 7.395833333333333e-05,
-      "loss": 0.4063,
-      "step": 890
     },
     {
-      "epoch": 22.36,
       "learning_rate": 7.291666666666666e-05,
-      "loss": 0.3833,
-      "step": 900
-    },
-    {
-      "epoch": 22.61,
-      "learning_rate": 7.1875e-05,
-      "loss": 0.4317,
-      "step": 910
-    },
-    {
-      "epoch": 22.86,
-      "learning_rate": 7.083333333333332e-05,
-      "loss": 0.3539,
-      "step": 920
-    },
-    {
-      "epoch": 22.98,
-      "eval_accuracy": 0.8636363636363636,
-      "eval_loss": 0.359360009431839,
-      "eval_runtime": 3.0137,
-      "eval_samples_per_second": 182.499,
-      "eval_steps_per_second": 11.614,
-      "step": 925
-    },
-    {
-      "epoch": 23.11,
-      "learning_rate": 6.979166666666666e-05,
-      "loss": 0.3941,
-      "step": 930
     },
     {
-      "epoch": 23.35,
-      "learning_rate": 6.874999999999999e-05,
-      "loss": 0.4038,
-      "step": 940
     },
     {
-      "epoch": 23.6,
       "learning_rate": 6.770833333333333e-05,
-      "loss": 0.3463,
-      "step": 950
-    },
-    {
-      "epoch": 23.85,
-      "learning_rate": 6.666666666666666e-05,
-      "loss": 0.3751,
-      "step": 960
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.8581818181818182,
-      "eval_loss": 0.3558811843395233,
-      "eval_runtime": 2.9952,
-      "eval_samples_per_second": 183.626,
-      "eval_steps_per_second": 11.685,
-      "step": 966
-    },
-    {
-      "epoch": 24.1,
-      "learning_rate": 6.5625e-05,
-      "loss": 0.4075,
-      "step": 970
-    },
-    {
-      "epoch": 24.35,
-      "learning_rate": 6.458333333333334e-05,
-      "loss": 0.3459,
-      "step": 980
     },
     {
-      "epoch": 24.6,
-      "learning_rate": 6.354166666666666e-05,
-      "loss": 0.3511,
-      "step": 990
-    },
-    {
-      "epoch": 24.84,
       "learning_rate": 6.25e-05,
-      "loss": 0.3598,
-      "step": 1000
-    },
-    {
-      "epoch": 24.99,
-      "eval_accuracy": 0.8818181818181818,
-      "eval_loss": 0.3315516710281372,
-      "eval_runtime": 2.9972,
-      "eval_samples_per_second": 183.503,
-      "eval_steps_per_second": 11.677,
-      "step": 1006
-    },
-    {
-      "epoch": 25.09,
-      "learning_rate": 6.145833333333333e-05,
-      "loss": 0.344,
-      "step": 1010
-    },
-    {
-      "epoch": 25.34,
-      "learning_rate": 6.041666666666666e-05,
-      "loss": 0.3362,
-      "step": 1020
-    },
-    {
-      "epoch": 25.59,
-      "learning_rate": 5.937499999999999e-05,
-      "loss": 0.3773,
-      "step": 1030
     },
     {
-      "epoch": 25.84,
-      "learning_rate": 5.8333333333333326e-05,
-      "loss": 0.3839,
-      "step": 1040
     },
     {
-      "epoch": 25.99,
-      "eval_accuracy": 0.8763636363636363,
-      "eval_loss": 0.3481975495815277,
-      "eval_runtime": 3.0472,
-      "eval_samples_per_second": 180.492,
-      "eval_steps_per_second": 11.486,
-      "step": 1046
     },
     {
-      "epoch": 26.09,
       "learning_rate": 5.729166666666666e-05,
-      "loss": 0.3839,
-      "step": 1050
-    },
-    {
-      "epoch": 26.34,
-      "learning_rate": 5.625e-05,
-      "loss": 0.385,
-      "step": 1060
-    },
-    {
-      "epoch": 26.58,
-      "learning_rate": 5.520833333333333e-05,
-      "loss": 0.3951,
-      "step": 1070
-    },
-    {
-      "epoch": 26.83,
-      "learning_rate": 5.4166666666666664e-05,
-      "loss": 0.3029,
-      "step": 1080
-    },
-    {
-      "epoch": 26.98,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.3473585844039917,
-      "eval_runtime": 3.4048,
-      "eval_samples_per_second": 161.536,
-      "eval_steps_per_second": 10.28,
-      "step": 1086
     },
     {
-      "epoch": 27.08,
-      "learning_rate": 5.3125e-05,
-      "loss": 0.3123,
-      "step": 1090
     },
     {
-      "epoch": 27.33,
       "learning_rate": 5.208333333333333e-05,
-      "loss": 0.3633,
-      "step": 1100
-    },
-    {
-      "epoch": 27.58,
-      "learning_rate": 5.104166666666666e-05,
-      "loss": 0.3304,
-      "step": 1110
-    },
-    {
-      "epoch": 27.83,
-      "learning_rate": 4.9999999999999996e-05,
-      "loss": 0.286,
-      "step": 1120
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.8836363636363637,
-      "eval_loss": 0.3399273157119751,
-      "eval_runtime": 3.3703,
-      "eval_samples_per_second": 163.19,
-      "eval_steps_per_second": 10.385,
-      "step": 1127
-    },
-    {
-      "epoch": 28.07,
-      "learning_rate": 4.895833333333333e-05,
-      "loss": 0.332,
-      "step": 1130
-    },
-    {
-      "epoch": 28.32,
-      "learning_rate": 4.791666666666666e-05,
-      "loss": 0.3077,
-      "step": 1140
     },
     {
-      "epoch": 28.57,
       "learning_rate": 4.6874999999999994e-05,
-      "loss": 0.3023,
-      "step": 1150
-    },
-    {
-      "epoch": 28.82,
-      "learning_rate": 4.5833333333333334e-05,
-      "loss": 0.361,
-      "step": 1160
-    },
-    {
-      "epoch": 28.99,
-      "eval_accuracy": 0.8709090909090909,
-      "eval_loss": 0.36599376797676086,
-      "eval_runtime": 3.5838,
-      "eval_samples_per_second": 153.466,
-      "eval_steps_per_second": 9.766,
-      "step": 1167
-    },
-    {
-      "epoch": 29.07,
-      "learning_rate": 4.479166666666666e-05,
-      "loss": 0.3393,
-      "step": 1170
-    },
-    {
-      "epoch": 29.32,
-      "learning_rate": 4.375e-05,
-      "loss": 0.3026,
-      "step": 1180
     },
     {
-      "epoch": 29.57,
-      "learning_rate": 4.2708333333333326e-05,
-      "loss": 0.3044,
-      "step": 1190
     },
     {
-      "epoch": 29.81,
       "learning_rate": 4.1666666666666665e-05,
-      "loss": 0.3283,
-      "step": 1200
-    },
-    {
-      "epoch": 29.99,
-      "eval_accuracy": 0.8654545454545455,
-      "eval_loss": 0.396790087223053,
-      "eval_runtime": 3.0612,
-      "eval_samples_per_second": 179.667,
-      "eval_steps_per_second": 11.433,
-      "step": 1207
-    },
-    {
-      "epoch": 30.06,
-      "learning_rate": 4.062499999999999e-05,
-      "loss": 0.3777,
-      "step": 1210
-    },
-    {
-      "epoch": 30.31,
-      "learning_rate": 3.958333333333333e-05,
-      "loss": 0.3046,
-      "step": 1220
-    },
-    {
-      "epoch": 30.56,
-      "learning_rate": 3.854166666666666e-05,
-      "loss": 0.3262,
-      "step": 1230
     },
     {
-      "epoch": 30.81,
-      "learning_rate": 3.75e-05,
-      "loss": 0.3192,
-      "step": 1240
     },
     {
-      "epoch": 30.98,
-      "eval_accuracy": 0.8745454545454545,
-      "eval_loss": 0.36006399989128113,
-      "eval_runtime": 3.0327,
-      "eval_samples_per_second": 181.356,
-      "eval_steps_per_second": 11.541,
-      "step": 1247
     },
     {
-      "epoch": 31.06,
       "learning_rate": 3.645833333333333e-05,
-      "loss": 0.3318,
-      "step": 1250
-    },
-    {
-      "epoch": 31.3,
-      "learning_rate": 3.541666666666666e-05,
-      "loss": 0.2833,
-      "step": 1260
-    },
-    {
-      "epoch": 31.55,
-      "learning_rate": 3.4374999999999995e-05,
-      "loss": 0.2922,
-      "step": 1270
-    },
-    {
-      "epoch": 31.8,
-      "learning_rate": 3.333333333333333e-05,
-      "loss": 0.3127,
-      "step": 1280
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.8745454545454545,
-      "eval_loss": 0.3793076276779175,
-      "eval_runtime": 3.0087,
-      "eval_samples_per_second": 182.801,
-      "eval_steps_per_second": 11.633,
-      "step": 1288
     },
     {
-      "epoch": 32.05,
-      "learning_rate": 3.229166666666667e-05,
-      "loss": 0.3219,
-      "step": 1290
-    },
-    {
-      "epoch": 32.3,
       "learning_rate": 3.125e-05,
-      "loss": 0.2643,
-      "step": 1300
-    },
-    {
-      "epoch": 32.55,
-      "learning_rate": 3.020833333333333e-05,
-      "loss": 0.282,
-      "step": 1310
-    },
-    {
-      "epoch": 32.8,
-      "learning_rate": 2.9166666666666663e-05,
-      "loss": 0.2907,
-      "step": 1320
-    },
-    {
-      "epoch": 32.99,
-      "eval_accuracy": 0.8690909090909091,
-      "eval_loss": 0.4207320809364319,
-      "eval_runtime": 3.4088,
-      "eval_samples_per_second": 161.347,
-      "eval_steps_per_second": 10.268,
-      "step": 1328
-    },
-    {
-      "epoch": 33.04,
-      "learning_rate": 2.8125e-05,
-      "loss": 0.3023,
-      "step": 1330
     },
     {
-      "epoch": 33.29,
-      "learning_rate": 2.7083333333333332e-05,
-      "loss": 0.2788,
-      "step": 1340
     },
     {
-      "epoch": 33.54,
       "learning_rate": 2.6041666666666665e-05,
-      "loss": 0.2674,
-      "step": 1350
-    },
-    {
-      "epoch": 33.79,
-      "learning_rate": 2.4999999999999998e-05,
-      "loss": 0.2715,
-      "step": 1360
-    },
-    {
-      "epoch": 33.99,
-      "eval_accuracy": 0.8727272727272727,
-      "eval_loss": 0.42976346611976624,
-      "eval_runtime": 3.6254,
-      "eval_samples_per_second": 151.709,
-      "eval_steps_per_second": 9.654,
-      "step": 1368
-    },
-    {
-      "epoch": 34.04,
-      "learning_rate": 2.395833333333333e-05,
-      "loss": 0.3249,
-      "step": 1370
-    },
-    {
-      "epoch": 34.29,
-      "learning_rate": 2.2916666666666667e-05,
-      "loss": 0.2499,
-      "step": 1380
     },
     {
-      "epoch": 34.53,
-      "learning_rate": 2.1875e-05,
-      "loss": 0.3107,
-      "step": 1390
     },
     {
-      "epoch": 34.78,
       "learning_rate": 2.0833333333333333e-05,
-      "loss": 0.2984,
-      "step": 1400
-    },
-    {
-      "epoch": 34.98,
-      "eval_accuracy": 0.8818181818181818,
-      "eval_loss": 0.4064685106277466,
-      "eval_runtime": 3.0877,
-      "eval_samples_per_second": 178.124,
-      "eval_steps_per_second": 11.335,
-      "step": 1408
-    },
-    {
-      "epoch": 35.03,
-      "learning_rate": 1.9791666666666665e-05,
-      "loss": 0.2951,
-      "step": 1410
-    },
-    {
-      "epoch": 35.28,
-      "learning_rate": 1.875e-05,
-      "loss": 0.2617,
-      "step": 1420
-    },
-    {
-      "epoch": 35.53,
-      "learning_rate": 1.770833333333333e-05,
-      "loss": 0.2896,
-      "step": 1430
     },
     {
-      "epoch": 35.78,
-      "learning_rate": 1.6666666666666664e-05,
-      "loss": 0.2584,
-      "step": 1440
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.8836363636363637,
-      "eval_loss": 0.405016154050827,
-      "eval_runtime": 3.0267,
-      "eval_samples_per_second": 181.716,
-      "eval_steps_per_second": 11.564,
-      "step": 1449
     },
     {
-      "epoch": 36.02,
       "learning_rate": 1.5625e-05,
-      "loss": 0.3017,
-      "step": 1450
-    },
-    {
-      "epoch": 36.27,
-      "learning_rate": 1.4583333333333331e-05,
-      "loss": 0.2874,
-      "step": 1460
-    },
-    {
-      "epoch": 36.52,
-      "learning_rate": 1.3541666666666666e-05,
-      "loss": 0.2804,
-      "step": 1470
-    },
-    {
-      "epoch": 36.77,
-      "learning_rate": 1.2499999999999999e-05,
-      "loss": 0.2137,
-      "step": 1480
-    },
-    {
-      "epoch": 36.99,
-      "eval_accuracy": 0.8836363636363637,
-      "eval_loss": 0.4129485487937927,
-      "eval_runtime": 3.0673,
-      "eval_samples_per_second": 179.31,
-      "eval_steps_per_second": 11.411,
-      "step": 1489
     },
     {
-      "epoch": 37.02,
-      "learning_rate": 1.1458333333333333e-05,
-      "loss": 0.2319,
-      "step": 1490
     },
     {
-      "epoch": 37.27,
       "learning_rate": 1.0416666666666666e-05,
-      "loss": 0.2636,
-      "step": 1500
-    },
-    {
-      "epoch": 37.52,
-      "learning_rate": 9.375e-06,
-      "loss": 0.2013,
-      "step": 1510
-    },
-    {
-      "epoch": 37.76,
-      "learning_rate": 8.333333333333332e-06,
-      "loss": 0.24,
-      "step": 1520
-    },
-    {
-      "epoch": 37.99,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.4160398244857788,
-      "eval_runtime": 3.0337,
-      "eval_samples_per_second": 181.296,
-      "eval_steps_per_second": 11.537,
-      "step": 1529
-    },
-    {
-      "epoch": 38.01,
-      "learning_rate": 7.291666666666666e-06,
-      "loss": 0.3177,
-      "step": 1530
     },
     {
-      "epoch": 38.26,
-      "learning_rate": 6.2499999999999995e-06,
-      "loss": 0.2696,
-      "step": 1540
     },
     {
-      "epoch": 38.51,
       "learning_rate": 5.208333333333333e-06,
-      "loss": 0.2581,
-      "step": 1550
-    },
-    {
-      "epoch": 38.76,
-      "learning_rate": 4.166666666666666e-06,
-      "loss": 0.2326,
-      "step": 1560
-    },
-    {
-      "epoch": 38.98,
-      "eval_accuracy": 0.8781818181818182,
-      "eval_loss": 0.4104275703430176,
-      "eval_runtime": 3.0605,
-      "eval_samples_per_second": 179.71,
-      "eval_steps_per_second": 11.436,
-      "step": 1569
     },
     {
-      "epoch": 39.01,
-      "learning_rate": 3.1249999999999997e-06,
-      "loss": 0.2493,
-      "step": 1570
     },
     {
-      "epoch": 39.25,
-      "learning_rate": 2.083333333333333e-06,
-      "loss": 0.2637,
-      "step": 1580
     },
     {
-      "epoch": 39.5,
-      "learning_rate": 1.0416666666666665e-06,
-      "loss": 0.2323,
-      "step": 1590
     },
     {
-      "epoch": 39.75,
-      "learning_rate": 0.0,
-      "loss": 0.2121,
-      "step": 1600
-    },
-    {
-      "epoch": 39.75,
-      "eval_accuracy": 0.8781818181818182,
-      "eval_loss": 0.4129771888256073,
-      "eval_runtime": 3.0837,
-      "eval_samples_per_second": 178.356,
-      "eval_steps_per_second": 11.35,
-      "step": 1600
-    },
-    {
-      "epoch": 39.75,
-      "step": 1600,
-      "total_flos": 3.3152976312025743e+18,
-      "train_loss": 0.4701251982152462,
-      "train_runtime": 1462.7895,
-      "train_samples_per_second": 70.085,
-      "train_steps_per_second": 1.094
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 40,
   "save_steps": 500,
-  "total_flos": 3.3152976312025743e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.616822429906542,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-RD-aptos19\\checkpoint-296",
+  "epoch": 40.0,
   "eval_steps": 500,
+  "global_step": 320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.411214953271028,
+      "eval_loss": 4.565852165222168,
+      "eval_runtime": 2.7444,
+      "eval_samples_per_second": 38.988,
+      "eval_steps_per_second": 2.551,
+      "step": 8
     },
     {
+      "epoch": 1.25,
       "learning_rate": 4.6874999999999994e-05,
+      "loss": 4.5175,
+      "step": 10
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.411214953271028,
+      "eval_loss": 3.647094964981079,
+      "eval_runtime": 1.9164,
+      "eval_samples_per_second": 55.833,
+      "eval_steps_per_second": 3.653,
+      "step": 16
     },
     {
+      "epoch": 2.5,
       "learning_rate": 9.374999999999999e-05,
+      "loss": 3.927,
+      "step": 20
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.411214953271028,
+      "eval_loss": 1.6286081075668335,
+      "eval_runtime": 1.9645,
+      "eval_samples_per_second": 54.468,
+      "eval_steps_per_second": 3.563,
+      "step": 24
     },
     {
+      "epoch": 3.75,
       "learning_rate": 0.000140625,
+      "loss": 1.6081,
+      "step": 30
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6780943274497986,
+      "eval_runtime": 1.9235,
+      "eval_samples_per_second": 55.629,
+      "eval_steps_per_second": 3.639,
+      "step": 32
     },
     {
+      "epoch": 5.0,
       "learning_rate": 0.00014583333333333332,
+      "loss": 0.7702,
+      "step": 40
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.8356828689575195,
+      "eval_runtime": 2.0574,
+      "eval_samples_per_second": 52.007,
+      "eval_steps_per_second": 3.402,
+      "step": 40
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6765593886375427,
+      "eval_runtime": 1.9495,
+      "eval_samples_per_second": 54.887,
+      "eval_steps_per_second": 3.591,
+      "step": 48
     },
     {
+      "epoch": 6.25,
       "learning_rate": 0.000140625,
+      "loss": 0.7502,
+      "step": 50
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.411214953271028,
+      "eval_loss": 0.7522286176681519,
+      "eval_runtime": 2.091,
+      "eval_samples_per_second": 51.172,
+      "eval_steps_per_second": 3.348,
+      "step": 56
     },
     {
+      "epoch": 7.5,
       "learning_rate": 0.00013541666666666666,
+      "loss": 0.7266,
+      "step": 60
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.679230809211731,
+      "eval_runtime": 2.0074,
+      "eval_samples_per_second": 53.301,
+      "eval_steps_per_second": 3.487,
+      "step": 64
     },
     {
+      "epoch": 8.75,
       "learning_rate": 0.00013020833333333333,
+      "loss": 0.6954,
+      "step": 70
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6881440877914429,
+      "eval_runtime": 1.8339,
+      "eval_samples_per_second": 58.345,
+      "eval_steps_per_second": 3.817,
+      "step": 72
     },
     {
+      "epoch": 10.0,
       "learning_rate": 0.000125,
+      "loss": 0.6808,
+      "step": 80
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6780060529708862,
+      "eval_runtime": 1.8679,
+      "eval_samples_per_second": 57.282,
+      "eval_steps_per_second": 3.747,
+      "step": 80
     },
     {
+      "epoch": 11.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.7129637598991394,
+      "eval_runtime": 2.0595,
+      "eval_samples_per_second": 51.955,
+      "eval_steps_per_second": 3.399,
+      "step": 88
     },
     {
+      "epoch": 11.25,
       "learning_rate": 0.00011979166666666666,
+      "loss": 0.7068,
+      "step": 90
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6770886778831482,
+      "eval_runtime": 1.8579,
+      "eval_samples_per_second": 57.591,
+      "eval_steps_per_second": 3.768,
+      "step": 96
     },
     {
+      "epoch": 12.5,
       "learning_rate": 0.00011458333333333332,
+      "loss": 0.6792,
+      "step": 100
     },
     {
+      "epoch": 13.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6779045462608337,
+      "eval_runtime": 1.9391,
+      "eval_samples_per_second": 55.179,
+      "eval_steps_per_second": 3.61,
+      "step": 104
     },
     {
+      "epoch": 13.75,
       "learning_rate": 0.00010937499999999999,
+      "loss": 0.6841,
+      "step": 110
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6766365170478821,
+      "eval_runtime": 2.0285,
+      "eval_samples_per_second": 52.749,
+      "eval_steps_per_second": 3.451,
+      "step": 112
     },
     {
+      "epoch": 15.0,
       "learning_rate": 0.00010416666666666666,
+      "loss": 0.6777,
+      "step": 120
     },
     {
+      "epoch": 15.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6860565543174744,
+      "eval_runtime": 2.0915,
+      "eval_samples_per_second": 51.159,
+      "eval_steps_per_second": 3.347,
+      "step": 120
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6773396134376526,
+      "eval_runtime": 1.948,
+      "eval_samples_per_second": 54.928,
+      "eval_steps_per_second": 3.593,
+      "step": 128
     },
     {
+      "epoch": 16.25,
       "learning_rate": 9.895833333333332e-05,
+      "loss": 0.6818,
+      "step": 130
     },
     {
+      "epoch": 17.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6805893182754517,
+      "eval_runtime": 1.8914,
+      "eval_samples_per_second": 56.57,
+      "eval_steps_per_second": 3.701,
+      "step": 136
     },
     {
+      "epoch": 17.5,
       "learning_rate": 9.374999999999999e-05,
+      "loss": 0.6747,
+      "step": 140
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6928897500038147,
+      "eval_runtime": 1.9231,
+      "eval_samples_per_second": 55.639,
+      "eval_steps_per_second": 3.64,
+      "step": 144
     },
     {
+      "epoch": 18.75,
       "learning_rate": 8.854166666666666e-05,
+      "loss": 0.6814,
+      "step": 150
     },
     {
+      "epoch": 19.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6767390370368958,
+      "eval_runtime": 1.8514,
+      "eval_samples_per_second": 57.793,
+      "eval_steps_per_second": 3.781,
+      "step": 152
     },
     {
+      "epoch": 20.0,
       "learning_rate": 8.333333333333333e-05,
+      "loss": 0.6714,
+      "step": 160
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6744682788848877,
+      "eval_runtime": 1.9225,
+      "eval_samples_per_second": 55.658,
+      "eval_steps_per_second": 3.641,
+      "step": 160
     },
     {
+      "epoch": 21.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6852397322654724,
+      "eval_runtime": 1.91,
+      "eval_samples_per_second": 56.022,
+      "eval_steps_per_second": 3.665,
+      "step": 168
     },
     {
+      "epoch": 21.25,
       "learning_rate": 7.8125e-05,
+      "loss": 0.6765,
+      "step": 170
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.5514018691588785,
+      "eval_loss": 0.6815980672836304,
+      "eval_runtime": 1.932,
+      "eval_samples_per_second": 55.384,
+      "eval_steps_per_second": 3.623,
+      "step": 176
     },
     {
+      "epoch": 22.5,
       "learning_rate": 7.291666666666666e-05,
+      "loss": 0.6822,
+      "step": 180
     },
     {
+      "epoch": 23.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6982948184013367,
+      "eval_runtime": 1.964,
+      "eval_samples_per_second": 54.482,
+      "eval_steps_per_second": 3.564,
+      "step": 184
     },
     {
+      "epoch": 23.75,
       "learning_rate": 6.770833333333333e-05,
+      "loss": 0.6816,
+      "step": 190
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6706489324569702,
+      "eval_runtime": 1.8679,
+      "eval_samples_per_second": 57.282,
+      "eval_steps_per_second": 3.747,
+      "step": 192
     },
     {
+      "epoch": 25.0,
       "learning_rate": 6.25e-05,
+      "loss": 0.6868,
+      "step": 200
     },
     {
+      "epoch": 25.0,
+      "eval_accuracy": 0.5700934579439252,
+      "eval_loss": 0.6981963515281677,
+      "eval_runtime": 1.8699,
+      "eval_samples_per_second": 57.221,
+      "eval_steps_per_second": 3.743,
+      "step": 200
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.5700934579439252,
+      "eval_loss": 0.687846839427948,
+      "eval_runtime": 1.861,
+      "eval_samples_per_second": 57.497,
+      "eval_steps_per_second": 3.762,
+      "step": 208
     },
     {
+      "epoch": 26.25,
       "learning_rate": 5.729166666666666e-05,
+      "loss": 0.6724,
+      "step": 210
     },
     {
+      "epoch": 27.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.678459107875824,
+      "eval_runtime": 2.0455,
+      "eval_samples_per_second": 52.31,
+      "eval_steps_per_second": 3.422,
+      "step": 216
     },
     {
+      "epoch": 27.5,
       "learning_rate": 5.208333333333333e-05,
+      "loss": 0.6613,
+      "step": 220
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6843389272689819,
+      "eval_runtime": 1.9034,
+      "eval_samples_per_second": 56.214,
+      "eval_steps_per_second": 3.678,
+      "step": 224
     },
     {
+      "epoch": 28.75,
       "learning_rate": 4.6874999999999994e-05,
+      "loss": 0.6501,
+      "step": 230
     },
     {
+      "epoch": 29.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.7126495242118835,
+      "eval_runtime": 1.8679,
+      "eval_samples_per_second": 57.283,
+      "eval_steps_per_second": 3.747,
+      "step": 232
     },
     {
+      "epoch": 30.0,
       "learning_rate": 4.1666666666666665e-05,
+      "loss": 0.6566,
+      "step": 240
     },
     {
+      "epoch": 30.0,
+      "eval_accuracy": 0.5700934579439252,
+      "eval_loss": 0.6917204260826111,
+      "eval_runtime": 1.9,
+      "eval_samples_per_second": 56.317,
+      "eval_steps_per_second": 3.684,
+      "step": 240
     },
     {
+      "epoch": 31.0,
+      "eval_accuracy": 0.5607476635514018,
+      "eval_loss": 0.7020335793495178,
+      "eval_runtime": 1.9735,
+      "eval_samples_per_second": 54.219,
+      "eval_steps_per_second": 3.547,
+      "step": 248
     },
     {
+      "epoch": 31.25,
       "learning_rate": 3.645833333333333e-05,
+      "loss": 0.6583,
+      "step": 250
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.6781743764877319,
+      "eval_runtime": 1.9435,
+      "eval_samples_per_second": 55.056,
+      "eval_steps_per_second": 3.602,
+      "step": 256
     },
     {
+      "epoch": 32.5,
       "learning_rate": 3.125e-05,
+      "loss": 0.6501,
+      "step": 260
     },
     {
+      "epoch": 33.0,
+      "eval_accuracy": 0.5887850467289719,
+      "eval_loss": 0.664716362953186,
+      "eval_runtime": 1.995,
+      "eval_samples_per_second": 53.635,
+      "eval_steps_per_second": 3.509,
+      "step": 264
     },
     {
+      "epoch": 33.75,
       "learning_rate": 2.6041666666666665e-05,
+      "loss": 0.654,
+      "step": 270
     },
     {
+      "epoch": 34.0,
+      "eval_accuracy": 0.5981308411214953,
+      "eval_loss": 0.6602646112442017,
+      "eval_runtime": 1.9045,
+      "eval_samples_per_second": 56.184,
+      "eval_steps_per_second": 3.676,
+      "step": 272
     },
     {
+      "epoch": 35.0,
       "learning_rate": 2.0833333333333333e-05,
+      "loss": 0.6604,
+      "step": 280
     },
     {
+      "epoch": 35.0,
+      "eval_accuracy": 0.5794392523364486,
+      "eval_loss": 0.6873165965080261,
+      "eval_runtime": 2.238,
+      "eval_samples_per_second": 47.81,
+      "eval_steps_per_second": 3.128,
+      "step": 280
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.5794392523364486,
+      "eval_loss": 0.6591372489929199,
+      "eval_runtime": 1.8624,
+      "eval_samples_per_second": 57.451,
+      "eval_steps_per_second": 3.758,
+      "step": 288
     },
     {
+      "epoch": 36.25,
       "learning_rate": 1.5625e-05,
+      "loss": 0.6456,
+      "step": 290
     },
     {
+      "epoch": 37.0,
+      "eval_accuracy": 0.616822429906542,
+      "eval_loss": 0.6579955816268921,
+      "eval_runtime": 1.9735,
+      "eval_samples_per_second": 54.218,
+      "eval_steps_per_second": 3.547,
+      "step": 296
     },
     {
+      "epoch": 37.5,
       "learning_rate": 1.0416666666666666e-05,
+      "loss": 0.6483,
+      "step": 300
     },
     {
+      "epoch": 38.0,
+      "eval_accuracy": 0.5981308411214953,
+      "eval_loss": 0.6702041029930115,
+      "eval_runtime": 1.9475,
+      "eval_samples_per_second": 54.943,
+      "eval_steps_per_second": 3.594,
+      "step": 304
     },
     {
+      "epoch": 38.75,
       "learning_rate": 5.208333333333333e-06,
+      "loss": 0.6151,
+      "step": 310
     },
     {
+      "epoch": 39.0,
+      "eval_accuracy": 0.5981308411214953,
+      "eval_loss": 0.6784998774528503,
+      "eval_runtime": 2.054,
+      "eval_samples_per_second": 52.094,
+      "eval_steps_per_second": 3.408,
+      "step": 312
     },
     {
+      "epoch": 40.0,
+      "learning_rate": 0.0,
+      "loss": 0.6291,
+      "step": 320
     },
     {
+      "epoch": 40.0,
+      "eval_accuracy": 0.5981308411214953,
+      "eval_loss": 0.6806396245956421,
+      "eval_runtime": 1.92,
+      "eval_samples_per_second": 55.73,
+      "eval_steps_per_second": 3.646,
+      "step": 320
     },
     {
+      "epoch": 40.0,
+      "step": 320,
+      "total_flos": 6.480838238876467e+17,
+      "train_loss": 0.9269241958856582,
+      "train_runtime": 591.2866,
+      "train_samples_per_second": 33.689,
+      "train_steps_per_second": 0.541
     }
   ],
   "logging_steps": 10,
+  "max_steps": 320,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 40,
   "save_steps": 500,
+  "total_flos": 6.480838238876467e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d41457681f0be08d99e46049a60802a8f950427547581a04725627c603b7d2f4
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:286446616bdd5be4f0ebdfa59bcd1e531fbeabf7ae4299f8fc32c01515d20841
 size 4792