beit-mass-secondstep

Browse files

Files changed (7) hide show

README.md +46 -53
all_results.json +6 -6
config.json +4 -4
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +442 -568
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -19,11 +19,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/beit-base-patch16-224](https://huggingface.co/microsoft/beit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3752
-- Accuracy: 0.9388
-- Precision: 0.9451
-- Recall: 0.9388
-- F1 Score: 0.9412
 ## Model description
@@ -43,11 +43,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 32
-- eval_batch_size: 32
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
@@ -55,51 +55,44 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch   | Step | Validation Loss | Accuracy | Precision | Recall | F1 Score |
-|:-------------:|:-------:|:----:|:---------------:|:--------:|:---------:|:------:|:--------:|
-| No log        | 0.9412  | 4    | 0.3599          | 0.8644   | 0.8831    | 0.8644 | 0.8152   |
-| No log        | 1.8824  | 8    | 0.2752          | 0.8983   | 0.8983    | 0.8983 | 0.8983   |
-| No log        | 2.8235  | 12   | 0.1735          | 0.9322   | 0.9293    | 0.9322 | 0.9286   |
-| 0.2978        | 4.0     | 17   | 0.1745          | 0.9153   | 0.9311    | 0.9153 | 0.9200   |
-| 0.2978        | 4.9412  | 21   | 0.1888          | 0.9153   | 0.9196    | 0.9153 | 0.9171   |
-| 0.2978        | 5.8824  | 25   | 0.2819          | 0.8983   | 0.9092    | 0.8983 | 0.9024   |
-| 0.2978        | 6.8235  | 29   | 0.5332          | 0.9153   | 0.9230    | 0.9153 | 0.9010   |
-| 0.0283        | 8.0     | 34   | 0.5418          | 0.9153   | 0.9311    | 0.9153 | 0.9200   |
-| 0.0283        | 8.9412  | 38   | 0.6494          | 0.8983   | 0.9092    | 0.8983 | 0.8758   |
-| 0.0283        | 9.8824  | 42   | 0.5615          | 0.9153   | 0.9455    | 0.9153 | 0.9222   |
-| 0.0061        | 10.8235 | 46   | 0.8767          | 0.8983   | 0.8910    | 0.8983 | 0.8857   |
-| 0.0061        | 12.0    | 51   | 0.3859          | 0.9492   | 0.9619    | 0.9492 | 0.9520   |
-| 0.0061        | 12.9412 | 55   | 0.4550          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0061        | 13.8824 | 59   | 0.4314          | 0.9492   | 0.9477    | 0.9492 | 0.9479   |
-| 0.01          | 14.8235 | 63   | 0.4127          | 0.9492   | 0.9619    | 0.9492 | 0.9520   |
-| 0.01          | 16.0    | 68   | 0.3285          | 0.9492   | 0.9477    | 0.9492 | 0.9479   |
-| 0.01          | 16.9412 | 72   | 0.3180          | 0.9492   | 0.9477    | 0.9492 | 0.9479   |
-| 0.0076        | 17.8824 | 76   | 0.4482          | 0.9322   | 0.9293    | 0.9322 | 0.9286   |
-| 0.0076        | 18.8235 | 80   | 0.4437          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0076        | 20.0    | 85   | 0.4819          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0076        | 20.9412 | 89   | 0.5133          | 0.9322   | 0.9293    | 0.9322 | 0.9286   |
-| 0.0003        | 21.8824 | 93   | 0.4540          | 0.9492   | 0.9477    | 0.9492 | 0.9479   |
-| 0.0003        | 22.8235 | 97   | 0.3857          | 0.9153   | 0.9196    | 0.9153 | 0.9171   |
-| 0.0003        | 24.0    | 102  | 0.4077          | 0.8983   | 0.9092    | 0.8983 | 0.9024   |
-| 0.0028        | 24.9412 | 106  | 0.3956          | 0.9492   | 0.9477    | 0.9492 | 0.9479   |
-| 0.0028        | 25.8824 | 110  | 0.4671          | 0.9322   | 0.9293    | 0.9322 | 0.9286   |
-| 0.0028        | 26.8235 | 114  | 0.3811          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0028        | 28.0    | 119  | 0.3700          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0006        | 28.9412 | 123  | 0.4028          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0006        | 29.8824 | 127  | 0.6924          | 0.9153   | 0.9106    | 0.9153 | 0.9080   |
-| 0.0006        | 30.8235 | 131  | 0.6949          | 0.9153   | 0.9106    | 0.9153 | 0.9080   |
-| 0.0033        | 32.0    | 136  | 0.5889          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0033        | 32.9412 | 140  | 0.5128          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0033        | 33.8824 | 144  | 0.4411          | 0.9492   | 0.9522    | 0.9492 | 0.9502   |
-| 0.0033        | 34.8235 | 148  | 0.4420          | 0.9492   | 0.9522    | 0.9492 | 0.9502   |
-| 0.0013        | 36.0    | 153  | 0.5616          | 0.9322   | 0.9322    | 0.9322 | 0.9322   |
-| 0.0013        | 36.9412 | 157  | 0.6365          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0013        | 37.8824 | 161  | 0.6695          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0001        | 38.8235 | 165  | 0.6846          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0001        | 40.0    | 170  | 0.6930          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0001        | 40.9412 | 174  | 0.6958          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0001        | 41.8824 | 178  | 0.6967          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
-| 0.0044        | 42.3529 | 180  | 0.6952          | 0.9153   | 0.9120    | 0.9153 | 0.9132   |
 ### Framework versions

 This model is a fine-tuned version of [microsoft/beit-base-patch16-224](https://huggingface.co/microsoft/beit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8528
+- Accuracy: 0.8268
+- Precision: 0.8303
+- Recall: 0.8268
+- F1 Score: 0.8283
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 48
+- eval_batch_size: 48
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 192
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | Precision | Recall | F1 Score |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:---------:|:------:|:--------:|
+| No log        | 0.8   | 2    | 0.6993          | 0.5882   | 0.5390    | 0.5882 | 0.5541   |
+| No log        | 2.0   | 5    | 0.5971          | 0.6863   | 0.6806    | 0.6863 | 0.6033   |
+| No log        | 2.8   | 7    | 0.5306          | 0.8039   | 0.8000    | 0.8039 | 0.8006   |
+| No log        | 4.0   | 10   | 0.4828          | 0.7255   | 0.7229    | 0.7255 | 0.6859   |
+| No log        | 4.8   | 12   | 0.3812          | 0.7843   | 0.7786    | 0.7843 | 0.7784   |
+| 0.5413        | 6.0   | 15   | 0.5268          | 0.7451   | 0.7461    | 0.7451 | 0.7141   |
+| 0.5413        | 6.8   | 17   | 0.5349          | 0.7451   | 0.8556    | 0.7451 | 0.7502   |
+| 0.5413        | 8.0   | 20   | 0.4120          | 0.8039   | 0.8485    | 0.8039 | 0.7756   |
+| 0.5413        | 8.8   | 22   | 0.3156          | 0.8039   | 0.8003    | 0.8039 | 0.7963   |
+| 0.5413        | 10.0  | 25   | 0.3217          | 0.8039   | 0.8061    | 0.8039 | 0.7909   |
+| 0.5413        | 10.8  | 27   | 0.5161          | 0.7843   | 0.7870    | 0.7843 | 0.7664   |
+| 0.0919        | 12.0  | 30   | 0.3677          | 0.8431   | 0.8498    | 0.8431 | 0.8451   |
+| 0.0919        | 12.8  | 32   | 0.4631          | 0.8431   | 0.8407    | 0.8431 | 0.8405   |
+| 0.0919        | 14.0  | 35   | 0.5001          | 0.8235   | 0.8214    | 0.8235 | 0.8221   |
+| 0.0919        | 14.8  | 37   | 0.4489          | 0.8431   | 0.8431    | 0.8431 | 0.8431   |
+| 0.0919        | 16.0  | 40   | 0.5892          | 0.7843   | 0.7799    | 0.7843 | 0.7731   |
+| 0.0919        | 16.8  | 42   | 0.6579          | 0.7843   | 0.7799    | 0.7843 | 0.7731   |
+| 0.006         | 18.0  | 45   | 0.7038          | 0.7843   | 0.7799    | 0.7843 | 0.7731   |
+| 0.006         | 18.8  | 47   | 0.5864          | 0.8627   | 0.8737    | 0.8627 | 0.8651   |
+| 0.006         | 20.0  | 50   | 0.5488          | 0.8627   | 0.8737    | 0.8627 | 0.8651   |
+| 0.006         | 20.8  | 52   | 0.6651          | 0.8039   | 0.8003    | 0.8039 | 0.7963   |
+| 0.006         | 22.0  | 55   | 0.6265          | 0.8039   | 0.8000    | 0.8039 | 0.8006   |
+| 0.006         | 22.8  | 57   | 0.5229          | 0.8627   | 0.8653    | 0.8627 | 0.8637   |
+| 0.0048        | 24.0  | 60   | 0.5421          | 0.8627   | 0.8653    | 0.8627 | 0.8637   |
+| 0.0048        | 24.8  | 62   | 0.6335          | 0.8235   | 0.8205    | 0.8235 | 0.8187   |
+| 0.0048        | 26.0  | 65   | 1.0379          | 0.8039   | 0.8201    | 0.8039 | 0.7841   |
+| 0.0048        | 26.8  | 67   | 0.9758          | 0.8235   | 0.8366    | 0.8235 | 0.8089   |
+| 0.0048        | 28.0  | 70   | 0.6117          | 0.8235   | 0.8205    | 0.8235 | 0.8187   |
+| 0.0048        | 28.8  | 72   | 0.5403          | 0.8627   | 0.8613    | 0.8627 | 0.8617   |
+| 0.0063        | 30.0  | 75   | 0.6469          | 0.8431   | 0.8407    | 0.8431 | 0.8405   |
+| 0.0063        | 30.8  | 77   | 0.7014          | 0.8235   | 0.8205    | 0.8235 | 0.8187   |
+| 0.0063        | 32.0  | 80   | 0.7514          | 0.8235   | 0.8205    | 0.8235 | 0.8187   |
+| 0.0063        | 32.8  | 82   | 0.7771          | 0.8235   | 0.8248    | 0.8235 | 0.8144   |
+| 0.0063        | 34.0  | 85   | 0.7599          | 0.8039   | 0.8003    | 0.8039 | 0.7963   |
+| 0.0063        | 34.8  | 87   | 0.7554          | 0.8039   | 0.8003    | 0.8039 | 0.7963   |
+| 0.0045        | 36.0  | 90   | 0.7308          | 0.8039   | 0.8003    | 0.8039 | 0.7963   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 42.35294117647059,
-    "total_flos": 1.7260934287224177e+18,
-    "train_loss": 0.030212831471969064,
-    "train_runtime": 1290.1323,
-    "train_samples_per_second": 18.347,
-    "train_steps_per_second": 0.14
 }

 {
+    "epoch": 36.0,
+    "total_flos": 1.2659877490145034e+18,
+    "train_loss": 0.10912525819407569,
+    "train_runtime": 949.2365,
+    "train_samples_per_second": 21.523,
+    "train_steps_per_second": 0.095
 }

config.json CHANGED Viewed

@@ -14,15 +14,15 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
-    "0": "Absent",
-    "1": "Present"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "Absent": 0,
-    "Present": 1
   },
   "layer_norm_eps": 1e-12,
   "layer_scale_init_value": 0.1,

   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
+    "0": "Benign",
+    "1": "Malignant"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "Benign": 0,
+    "Malignant": 1
   },
   "layer_norm_eps": 1e-12,
   "layer_scale_init_value": 0.1,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1863f0a5e1f1f4b18eb39a004179d276e7f5248526fcdb80acc0894ce28ef4c
 size 343080328

 version https://git-lfs.github.com/spec/v1
+oid sha256:070c5b244ea67c14e33049ce84f0a492470a5f8f7b7bcefcb07dc7846bf3c7d3
 size 343080328

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 42.35294117647059,
-    "total_flos": 1.7260934287224177e+18,
-    "train_loss": 0.030212831471969064,
-    "train_runtime": 1290.1323,
-    "train_samples_per_second": 18.347,
-    "train_steps_per_second": 0.14
 }

 {
+    "epoch": 36.0,
+    "total_flos": 1.2659877490145034e+18,
+    "train_loss": 0.10912525819407569,
+    "train_runtime": 949.2365,
+    "train_samples_per_second": 21.523,
+    "train_steps_per_second": 0.095
 }

trainer_state.json CHANGED Viewed

@@ -1,642 +1,516 @@
 {
-  "best_metric": 0.9491525423728814,
-  "best_model_checkpoint": "beit-base-patch16-224/checkpoint-51",
-  "epoch": 42.35294117647059,
   "eval_steps": 500,
-  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.9411764705882353,
-      "eval_accuracy": 0.864406779661017,
-      "eval_f1_score": 0.8151914626490897,
-      "eval_loss": 0.35985592007637024,
-      "eval_precision": 0.8831092928112214,
-      "eval_recall": 0.864406779661017,
-      "eval_runtime": 0.994,
-      "eval_samples_per_second": 59.356,
-      "eval_steps_per_second": 2.012,
-      "step": 4
-    },
-    {
-      "epoch": 1.8823529411764706,
-      "eval_accuracy": 0.8983050847457628,
-      "eval_f1_score": 0.8983050847457628,
-      "eval_loss": 0.2752338945865631,
-      "eval_precision": 0.8983050847457628,
-      "eval_recall": 0.8983050847457628,
-      "eval_runtime": 1.1891,
-      "eval_samples_per_second": 49.617,
-      "eval_steps_per_second": 1.682,
-      "step": 8
-    },
-    {
-      "epoch": 2.8235294117647056,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9286307743436357,
-      "eval_loss": 0.17347723245620728,
-      "eval_precision": 0.9293164462655988,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.0218,
-      "eval_samples_per_second": 57.739,
-      "eval_steps_per_second": 1.957,
       "step": 12
     },
     {
-      "epoch": 3.5294117647058822,
-      "grad_norm": 5.715649604797363,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.2978,
       "step": 15
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9199970045680336,
-      "eval_loss": 0.17451411485671997,
-      "eval_precision": 0.9311215290299315,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.228,
-      "eval_samples_per_second": 48.047,
-      "eval_steps_per_second": 1.629,
       "step": 17
     },
     {
-      "epoch": 4.9411764705882355,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9170563800358625,
-      "eval_loss": 0.1887725591659546,
-      "eval_precision": 0.9196471809062606,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.0748,
-      "eval_samples_per_second": 54.895,
-      "eval_steps_per_second": 1.861,
-      "step": 21
-    },
-    {
-      "epoch": 5.882352941176471,
-      "eval_accuracy": 0.8983050847457628,
-      "eval_f1_score": 0.9023521272915945,
-      "eval_loss": 0.2818872034549713,
-      "eval_precision": 0.9092193117616847,
-      "eval_recall": 0.8983050847457628,
-      "eval_runtime": 1.2817,
-      "eval_samples_per_second": 46.032,
-      "eval_steps_per_second": 1.56,
       "step": 25
     },
     {
-      "epoch": 6.823529411764706,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.900974731483206,
-      "eval_loss": 0.5331762433052063,
-      "eval_precision": 0.9229583975346687,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1367,
-      "eval_samples_per_second": 51.907,
-      "eval_steps_per_second": 1.76,
-      "step": 29
     },
     {
-      "epoch": 7.0588235294117645,
-      "grad_norm": 3.518982410430908,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.0283,
       "step": 30
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9199970045680336,
-      "eval_loss": 0.5418176054954529,
-      "eval_precision": 0.9311215290299315,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.0994,
-      "eval_samples_per_second": 53.664,
-      "eval_steps_per_second": 1.819,
-      "step": 34
-    },
-    {
-      "epoch": 8.941176470588236,
-      "eval_accuracy": 0.8983050847457628,
-      "eval_f1_score": 0.8757595139110971,
-      "eval_loss": 0.6493940353393555,
-      "eval_precision": 0.9092009685230025,
-      "eval_recall": 0.8983050847457628,
-      "eval_runtime": 1.1076,
-      "eval_samples_per_second": 53.266,
-      "eval_steps_per_second": 1.806,
-      "step": 38
-    },
-    {
-      "epoch": 9.882352941176471,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9222355815847652,
-      "eval_loss": 0.5614629983901978,
-      "eval_precision": 0.9455205811138014,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.107,
-      "eval_samples_per_second": 53.298,
-      "eval_steps_per_second": 1.807,
       "step": 42
     },
     {
-      "epoch": 10.588235294117647,
-      "grad_norm": 0.022936690598726273,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.0061,
       "step": 45
     },
     {
-      "epoch": 10.823529411764707,
-      "eval_accuracy": 0.8983050847457628,
-      "eval_f1_score": 0.8857329111566401,
-      "eval_loss": 0.8766900897026062,
-      "eval_precision": 0.8910232266164471,
-      "eval_recall": 0.8983050847457628,
-      "eval_runtime": 1.0968,
-      "eval_samples_per_second": 53.791,
-      "eval_steps_per_second": 1.823,
-      "step": 46
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.9519982027408203,
-      "eval_loss": 0.3859255313873291,
-      "eval_precision": 0.961864406779661,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.1019,
-      "eval_samples_per_second": 53.546,
-      "eval_steps_per_second": 1.815,
-      "step": 51
-    },
-    {
-      "epoch": 12.941176470588236,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.4550356864929199,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1103,
-      "eval_samples_per_second": 53.137,
-      "eval_steps_per_second": 1.801,
       "step": 55
     },
     {
-      "epoch": 13.882352941176471,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.947908749000523,
-      "eval_loss": 0.4313892722129822,
-      "eval_precision": 0.9476985709538053,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.1142,
-      "eval_samples_per_second": 52.955,
-      "eval_steps_per_second": 1.795,
-      "step": 59
     },
     {
-      "epoch": 14.117647058823529,
-      "grad_norm": 5.196343898773193,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.01,
       "step": 60
     },
     {
-      "epoch": 14.823529411764707,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.9519982027408203,
-      "eval_loss": 0.41266247630119324,
-      "eval_precision": 0.961864406779661,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.1128,
-      "eval_samples_per_second": 53.019,
-      "eval_steps_per_second": 1.797,
-      "step": 63
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.947908749000523,
-      "eval_loss": 0.3284989297389984,
-      "eval_precision": 0.9476985709538053,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.1075,
-      "eval_samples_per_second": 53.271,
-      "eval_steps_per_second": 1.806,
-      "step": 68
-    },
-    {
-      "epoch": 16.941176470588236,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.947908749000523,
-      "eval_loss": 0.3179616332054138,
-      "eval_precision": 0.9476985709538053,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.0963,
-      "eval_samples_per_second": 53.819,
-      "eval_steps_per_second": 1.824,
       "step": 72
     },
     {
-      "epoch": 17.647058823529413,
-      "grad_norm": 5.957318305969238,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.0076,
       "step": 75
     },
     {
-      "epoch": 17.88235294117647,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9286307743436357,
-      "eval_loss": 0.44822579622268677,
-      "eval_precision": 0.9293164462655988,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1817,
-      "eval_samples_per_second": 49.929,
-      "eval_steps_per_second": 1.693,
-      "step": 76
-    },
-    {
-      "epoch": 18.823529411764707,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.44370484352111816,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1079,
-      "eval_samples_per_second": 53.253,
-      "eval_steps_per_second": 1.805,
-      "step": 80
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.4818989932537079,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.3186,
-      "eval_samples_per_second": 44.744,
-      "eval_steps_per_second": 1.517,
-      "step": 85
     },
     {
-      "epoch": 20.941176470588236,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9286307743436357,
-      "eval_loss": 0.5132895112037659,
-      "eval_precision": 0.9293164462655988,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1055,
-      "eval_samples_per_second": 53.367,
-      "eval_steps_per_second": 1.809,
-      "step": 89
     },
     {
-      "epoch": 21.176470588235293,
-      "grad_norm": 0.27098149061203003,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.0003,
-      "step": 90
     },
     {
-      "epoch": 21.88235294117647,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.947908749000523,
-      "eval_loss": 0.45395800471305847,
-      "eval_precision": 0.9476985709538053,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.1075,
-      "eval_samples_per_second": 53.275,
-      "eval_steps_per_second": 1.806,
-      "step": 93
     },
     {
-      "epoch": 22.823529411764707,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9170563800358625,
-      "eval_loss": 0.38566043972969055,
-      "eval_precision": 0.9196471809062606,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.0947,
-      "eval_samples_per_second": 53.897,
-      "eval_steps_per_second": 1.827,
-      "step": 97
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8983050847457628,
-      "eval_f1_score": 0.9023521272915945,
-      "eval_loss": 0.4077180027961731,
-      "eval_precision": 0.9092193117616847,
-      "eval_recall": 0.8983050847457628,
-      "eval_runtime": 1.1092,
-      "eval_samples_per_second": 53.192,
-      "eval_steps_per_second": 1.803,
-      "step": 102
-    },
-    {
-      "epoch": 24.705882352941178,
-      "grad_norm": 0.018473587930202484,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 0.0028,
-      "step": 105
-    },
-    {
-      "epoch": 24.941176470588236,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.947908749000523,
-      "eval_loss": 0.3955690562725067,
-      "eval_precision": 0.9476985709538053,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.2914,
-      "eval_samples_per_second": 45.688,
-      "eval_steps_per_second": 1.549,
-      "step": 106
-    },
-    {
-      "epoch": 25.88235294117647,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9286307743436357,
-      "eval_loss": 0.4670986831188202,
-      "eval_precision": 0.9293164462655988,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1219,
-      "eval_samples_per_second": 52.592,
-      "eval_steps_per_second": 1.783,
-      "step": 110
-    },
-    {
-      "epoch": 26.823529411764707,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.3811493515968323,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.2582,
-      "eval_samples_per_second": 46.893,
-      "eval_steps_per_second": 1.59,
-      "step": 114
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.3700270354747772,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1041,
-      "eval_samples_per_second": 53.436,
-      "eval_steps_per_second": 1.811,
-      "step": 119
-    },
-    {
-      "epoch": 28.235294117647058,
-      "grad_norm": 0.08375111222267151,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0006,
-      "step": 120
-    },
-    {
-      "epoch": 28.941176470588236,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.40281012654304504,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1715,
-      "eval_samples_per_second": 50.362,
-      "eval_steps_per_second": 1.707,
-      "step": 123
-    },
-    {
-      "epoch": 29.88235294117647,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9080138226098403,
-      "eval_loss": 0.6924118995666504,
-      "eval_precision": 0.9106172049888072,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1072,
-      "eval_samples_per_second": 53.287,
-      "eval_steps_per_second": 1.806,
-      "step": 127
-    },
-    {
-      "epoch": 30.823529411764707,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9080138226098403,
-      "eval_loss": 0.6948609948158264,
-      "eval_precision": 0.9106172049888072,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1092,
-      "eval_samples_per_second": 53.191,
-      "eval_steps_per_second": 1.803,
-      "step": 131
-    },
-    {
-      "epoch": 31.764705882352942,
-      "grad_norm": 0.0031740041449666023,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.0033,
-      "step": 135
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.5888532996177673,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1154,
-      "eval_samples_per_second": 52.896,
-      "eval_steps_per_second": 1.793,
-      "step": 136
-    },
-    {
-      "epoch": 32.94117647058823,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.5128433108329773,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.0996,
-      "eval_samples_per_second": 53.657,
-      "eval_steps_per_second": 1.819,
-      "step": 140
-    },
-    {
-      "epoch": 33.88235294117647,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.9502338280215176,
-      "eval_loss": 0.44105064868927,
-      "eval_precision": 0.9521964718090626,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.3012,
-      "eval_samples_per_second": 45.342,
-      "eval_steps_per_second": 1.537,
-      "step": 144
-    },
-    {
-      "epoch": 34.8235294117647,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_f1_score": 0.9502338280215176,
-      "eval_loss": 0.4420201778411865,
-      "eval_precision": 0.9521964718090626,
-      "eval_recall": 0.9491525423728814,
-      "eval_runtime": 1.1093,
-      "eval_samples_per_second": 53.188,
-      "eval_steps_per_second": 1.803,
-      "step": 148
-    },
-    {
-      "epoch": 35.294117647058826,
-      "grad_norm": 0.0013447869569063187,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0013,
-      "step": 150
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.9322033898305084,
-      "eval_f1_score": 0.9322033898305084,
-      "eval_loss": 0.5615989565849304,
-      "eval_precision": 0.9322033898305084,
-      "eval_recall": 0.9322033898305084,
-      "eval_runtime": 1.1347,
-      "eval_samples_per_second": 51.997,
-      "eval_steps_per_second": 1.763,
-      "step": 153
-    },
-    {
-      "epoch": 36.94117647058823,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6365456581115723,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.0934,
-      "eval_samples_per_second": 53.961,
-      "eval_steps_per_second": 1.829,
-      "step": 157
-    },
-    {
-      "epoch": 37.88235294117647,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6694910526275635,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.0997,
-      "eval_samples_per_second": 53.65,
-      "eval_steps_per_second": 1.819,
-      "step": 161
-    },
-    {
-      "epoch": 38.8235294117647,
-      "grad_norm": 0.0024713820312172174,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.0001,
-      "step": 165
-    },
-    {
-      "epoch": 38.8235294117647,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6845612525939941,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1919,
-      "eval_samples_per_second": 49.501,
-      "eval_steps_per_second": 1.678,
-      "step": 165
-    },
-    {
-      "epoch": 40.0,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6930243968963623,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1022,
-      "eval_samples_per_second": 53.53,
-      "eval_steps_per_second": 1.815,
-      "step": 170
-    },
-    {
-      "epoch": 40.94117647058823,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6957547068595886,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.1025,
-      "eval_samples_per_second": 53.515,
-      "eval_steps_per_second": 1.814,
-      "step": 174
-    },
-    {
-      "epoch": 41.88235294117647,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6966932415962219,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.0997,
-      "eval_samples_per_second": 53.649,
-      "eval_steps_per_second": 1.819,
-      "step": 178
-    },
-    {
-      "epoch": 42.35294117647059,
-      "grad_norm": 0.0012529775267466903,
-      "learning_rate": 0.0,
-      "loss": 0.0044,
-      "step": 180
-    },
-    {
-      "epoch": 42.35294117647059,
-      "eval_accuracy": 0.9152542372881356,
-      "eval_f1_score": 0.9131812483342053,
-      "eval_loss": 0.6952070593833923,
-      "eval_precision": 0.912013958125623,
-      "eval_recall": 0.9152542372881356,
-      "eval_runtime": 1.142,
-      "eval_samples_per_second": 51.664,
-      "eval_steps_per_second": 1.751,
-      "step": 180
-    },
-    {
-      "epoch": 42.35294117647059,
-      "step": 180,
-      "total_flos": 1.7260934287224177e+18,
-      "train_loss": 0.030212831471969064,
-      "train_runtime": 1290.1323,
-      "train_samples_per_second": 18.347,
-      "train_steps_per_second": 0.14
-    },
-    {
-      "epoch": 42.35294117647059,
-      "eval_accuracy": 0.9387755102040817,
-      "eval_f1_score": 0.9412065766745571,
-      "eval_loss": 0.3751787841320038,
-      "eval_precision": 0.9451036228444866,
-      "eval_recall": 0.9387755102040817,
-      "eval_runtime": 3.0643,
-      "eval_samples_per_second": 47.972,
-      "eval_steps_per_second": 1.632,
-      "step": 180
     }
   ],
   "logging_steps": 15,
-  "max_steps": 180,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 45,
   "save_steps": 500,
-  "total_flos": 1.7260934287224177e+18,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8627450980392157,
+  "best_model_checkpoint": "beit-base-patch16-224/checkpoint-47",
+  "epoch": 36.0,
   "eval_steps": 500,
+  "global_step": 90,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.8,
+      "eval_accuracy": 0.5882352941176471,
+      "eval_f1_score": 0.554074074074074,
+      "eval_loss": 0.6992508172988892,
+      "eval_precision": 0.5390243902439025,
+      "eval_recall": 0.5882352941176471,
+      "eval_runtime": 0.8655,
+      "eval_samples_per_second": 58.922,
+      "eval_steps_per_second": 2.311,
+      "step": 2
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6862745098039216,
+      "eval_f1_score": 0.6032520325203252,
+      "eval_loss": 0.5970537662506104,
+      "eval_precision": 0.6805555555555555,
+      "eval_recall": 0.6862745098039216,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 56.925,
+      "eval_steps_per_second": 2.232,
+      "step": 5
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.800595238095238,
+      "eval_loss": 0.5305531024932861,
+      "eval_precision": 0.7999999999999999,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9046,
+      "eval_samples_per_second": 56.379,
+      "eval_steps_per_second": 2.211,
+      "step": 7
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7254901960784313,
+      "eval_f1_score": 0.6858974358974359,
+      "eval_loss": 0.48283636569976807,
+      "eval_precision": 0.722943722943723,
+      "eval_recall": 0.7254901960784313,
+      "eval_runtime": 0.9029,
+      "eval_samples_per_second": 56.482,
+      "eval_steps_per_second": 2.215,
+      "step": 10
+    },
+    {
+      "epoch": 4.8,
+      "eval_accuracy": 0.7843137254901961,
+      "eval_f1_score": 0.7784340451310011,
+      "eval_loss": 0.3811856508255005,
+      "eval_precision": 0.7786357786357786,
+      "eval_recall": 0.7843137254901961,
+      "eval_runtime": 0.92,
+      "eval_samples_per_second": 55.436,
+      "eval_steps_per_second": 2.174,
       "step": 12
     },
     {
+      "epoch": 6.0,
+      "grad_norm": 4.578022480010986,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.5413,
+      "step": 15
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7450980392156863,
+      "eval_f1_score": 0.7141125541125543,
+      "eval_loss": 0.5268120765686035,
+      "eval_precision": 0.7461240310077519,
+      "eval_recall": 0.7450980392156863,
+      "eval_runtime": 0.9096,
+      "eval_samples_per_second": 56.066,
+      "eval_steps_per_second": 2.199,
       "step": 15
     },
     {
+      "epoch": 6.8,
+      "eval_accuracy": 0.7450980392156863,
+      "eval_f1_score": 0.7502256608639587,
+      "eval_loss": 0.5349109768867493,
+      "eval_precision": 0.8555555555555555,
+      "eval_recall": 0.7450980392156863,
+      "eval_runtime": 0.9137,
+      "eval_samples_per_second": 55.818,
+      "eval_steps_per_second": 2.189,
       "step": 17
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7756410256410257,
+      "eval_loss": 0.4119790494441986,
+      "eval_precision": 0.8484848484848485,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9237,
+      "eval_samples_per_second": 55.215,
+      "eval_steps_per_second": 2.165,
+      "step": 20
+    },
+    {
+      "epoch": 8.8,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7962962962962962,
+      "eval_loss": 0.3156317472457886,
+      "eval_precision": 0.8002699055330634,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9335,
+      "eval_samples_per_second": 54.63,
+      "eval_steps_per_second": 2.142,
+      "step": 22
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7908622908622909,
+      "eval_loss": 0.3216821253299713,
+      "eval_precision": 0.806060606060606,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9256,
+      "eval_samples_per_second": 55.1,
+      "eval_steps_per_second": 2.161,
       "step": 25
     },
     {
+      "epoch": 10.8,
+      "eval_accuracy": 0.7843137254901961,
+      "eval_f1_score": 0.7664197530864199,
+      "eval_loss": 0.5160595774650574,
+      "eval_precision": 0.7869918699186993,
+      "eval_recall": 0.7843137254901961,
+      "eval_runtime": 0.9267,
+      "eval_samples_per_second": 55.031,
+      "eval_steps_per_second": 2.158,
+      "step": 27
     },
     {
+      "epoch": 12.0,
+      "grad_norm": 3.5482540130615234,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0919,
       "step": 30
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8431372549019608,
+      "eval_f1_score": 0.845117845117845,
+      "eval_loss": 0.36771491169929504,
+      "eval_precision": 0.849780701754386,
+      "eval_recall": 0.8431372549019608,
+      "eval_runtime": 0.942,
+      "eval_samples_per_second": 54.142,
+      "eval_steps_per_second": 2.123,
+      "step": 30
+    },
+    {
+      "epoch": 12.8,
+      "eval_accuracy": 0.8431372549019608,
+      "eval_f1_score": 0.8404761904761906,
+      "eval_loss": 0.46310773491859436,
+      "eval_precision": 0.8407407407407408,
+      "eval_recall": 0.8431372549019608,
+      "eval_runtime": 0.9403,
+      "eval_samples_per_second": 54.24,
+      "eval_steps_per_second": 2.127,
+      "step": 32
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.8221343873517787,
+      "eval_loss": 0.5000560879707336,
+      "eval_precision": 0.8214285714285714,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 0.9615,
+      "eval_samples_per_second": 53.039,
+      "eval_steps_per_second": 2.08,
+      "step": 35
+    },
+    {
+      "epoch": 14.8,
+      "eval_accuracy": 0.8431372549019608,
+      "eval_f1_score": 0.8431372549019608,
+      "eval_loss": 0.4489041268825531,
+      "eval_precision": 0.8431372549019608,
+      "eval_recall": 0.8431372549019608,
+      "eval_runtime": 0.9337,
+      "eval_samples_per_second": 54.621,
+      "eval_steps_per_second": 2.142,
+      "step": 37
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7843137254901961,
+      "eval_f1_score": 0.7731065973862385,
+      "eval_loss": 0.5892294049263,
+      "eval_precision": 0.7799145299145298,
+      "eval_recall": 0.7843137254901961,
+      "eval_runtime": 1.0872,
+      "eval_samples_per_second": 46.909,
+      "eval_steps_per_second": 1.84,
+      "step": 40
+    },
+    {
+      "epoch": 16.8,
+      "eval_accuracy": 0.7843137254901961,
+      "eval_f1_score": 0.7731065973862385,
+      "eval_loss": 0.6578794717788696,
+      "eval_precision": 0.7799145299145298,
+      "eval_recall": 0.7843137254901961,
+      "eval_runtime": 0.9215,
+      "eval_samples_per_second": 55.345,
+      "eval_steps_per_second": 2.17,
       "step": 42
     },
     {
+      "epoch": 18.0,
+      "grad_norm": 3.25277042388916,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.006,
       "step": 45
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7843137254901961,
+      "eval_f1_score": 0.7731065973862385,
+      "eval_loss": 0.703818678855896,
+      "eval_precision": 0.7799145299145298,
+      "eval_recall": 0.7843137254901961,
+      "eval_runtime": 1.0077,
+      "eval_samples_per_second": 50.61,
+      "eval_steps_per_second": 1.985,
+      "step": 45
     },
     {
+      "epoch": 18.8,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_f1_score": 0.865142065142065,
+      "eval_loss": 0.5864243507385254,
+      "eval_precision": 0.8736559139784946,
+      "eval_recall": 0.8627450980392157,
+      "eval_runtime": 0.9259,
+      "eval_samples_per_second": 55.08,
+      "eval_steps_per_second": 2.16,
+      "step": 47
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_f1_score": 0.865142065142065,
+      "eval_loss": 0.5488199591636658,
+      "eval_precision": 0.8736559139784946,
+      "eval_recall": 0.8627450980392157,
+      "eval_runtime": 0.9318,
+      "eval_samples_per_second": 54.735,
+      "eval_steps_per_second": 2.146,
+      "step": 50
+    },
+    {
+      "epoch": 20.8,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7962962962962962,
+      "eval_loss": 0.6650967597961426,
+      "eval_precision": 0.8002699055330634,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9328,
+      "eval_samples_per_second": 54.677,
+      "eval_steps_per_second": 2.144,
+      "step": 52
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.800595238095238,
+      "eval_loss": 0.6264931559562683,
+      "eval_precision": 0.7999999999999999,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9317,
+      "eval_samples_per_second": 54.741,
+      "eval_steps_per_second": 2.147,
       "step": 55
     },
     {
+      "epoch": 22.8,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_f1_score": 0.8636815920398009,
+      "eval_loss": 0.5228903889656067,
+      "eval_precision": 0.8653198653198653,
+      "eval_recall": 0.8627450980392157,
+      "eval_runtime": 0.9295,
+      "eval_samples_per_second": 54.868,
+      "eval_steps_per_second": 2.152,
+      "step": 57
     },
     {
+      "epoch": 24.0,
+      "grad_norm": 0.0452270582318306,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0048,
+      "step": 60
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_f1_score": 0.8636815920398009,
+      "eval_loss": 0.542142927646637,
+      "eval_precision": 0.8653198653198653,
+      "eval_recall": 0.8627450980392157,
+      "eval_runtime": 0.9409,
+      "eval_samples_per_second": 54.206,
+      "eval_steps_per_second": 2.126,
       "step": 60
     },
     {
+      "epoch": 24.8,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.8187187641980918,
+      "eval_loss": 0.6334545016288757,
+      "eval_precision": 0.8204633204633205,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 0.9368,
+      "eval_samples_per_second": 54.438,
+      "eval_steps_per_second": 2.135,
+      "step": 62
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7840755735492576,
+      "eval_loss": 1.0379055738449097,
+      "eval_precision": 0.82010582010582,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.927,
+      "eval_samples_per_second": 55.015,
+      "eval_steps_per_second": 2.157,
+      "step": 65
+    },
+    {
+      "epoch": 26.8,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.808888888888889,
+      "eval_loss": 0.9758451581001282,
+      "eval_precision": 0.8365853658536586,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 0.927,
+      "eval_samples_per_second": 55.017,
+      "eval_steps_per_second": 2.158,
+      "step": 67
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.8187187641980918,
+      "eval_loss": 0.6116669774055481,
+      "eval_precision": 0.8204633204633205,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 0.9261,
+      "eval_samples_per_second": 55.07,
+      "eval_steps_per_second": 2.16,
+      "step": 70
+    },
+    {
+      "epoch": 28.8,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_f1_score": 0.8616600790513834,
+      "eval_loss": 0.540273904800415,
+      "eval_precision": 0.8613095238095237,
+      "eval_recall": 0.8627450980392157,
+      "eval_runtime": 0.9247,
+      "eval_samples_per_second": 55.15,
+      "eval_steps_per_second": 2.163,
       "step": 72
     },
     {
+      "epoch": 30.0,
+      "grad_norm": 0.026938632130622864,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0063,
       "step": 75
     },
     {
+      "epoch": 30.0,
+      "eval_accuracy": 0.8431372549019608,
+      "eval_f1_score": 0.8404761904761906,
+      "eval_loss": 0.6468568444252014,
+      "eval_precision": 0.8407407407407408,
+      "eval_recall": 0.8431372549019608,
+      "eval_runtime": 0.9235,
+      "eval_samples_per_second": 55.223,
+      "eval_steps_per_second": 2.166,
+      "step": 75
     },
     {
+      "epoch": 30.8,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.8187187641980918,
+      "eval_loss": 0.7013790607452393,
+      "eval_precision": 0.8204633204633205,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 1.1388,
+      "eval_samples_per_second": 44.785,
+      "eval_steps_per_second": 1.756,
+      "step": 77
     },
     {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.8187187641980918,
+      "eval_loss": 0.7514360547065735,
+      "eval_precision": 0.8204633204633205,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 0.9424,
+      "eval_samples_per_second": 54.118,
+      "eval_steps_per_second": 2.122,
+      "step": 80
     },
     {
+      "epoch": 32.8,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1_score": 0.8143599433160132,
+      "eval_loss": 0.7771488428115845,
+      "eval_precision": 0.8247863247863249,
+      "eval_recall": 0.8235294117647058,
+      "eval_runtime": 0.9338,
+      "eval_samples_per_second": 54.616,
+      "eval_steps_per_second": 2.142,
+      "step": 82
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7962962962962962,
+      "eval_loss": 0.7598747611045837,
+      "eval_precision": 0.8002699055330634,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9331,
+      "eval_samples_per_second": 54.655,
+      "eval_steps_per_second": 2.143,
+      "step": 85
     },
     {
+      "epoch": 34.8,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7962962962962962,
+      "eval_loss": 0.7554459571838379,
+      "eval_precision": 0.8002699055330634,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9307,
+      "eval_samples_per_second": 54.796,
+      "eval_steps_per_second": 2.149,
+      "step": 87
     },
     {
+      "epoch": 36.0,
+      "grad_norm": 0.014645076356828213,
+      "learning_rate": 0.0,
+      "loss": 0.0045,
+      "step": 90
     },
     {
+      "epoch": 36.0,
+      "eval_accuracy": 0.803921568627451,
+      "eval_f1_score": 0.7962962962962962,
+      "eval_loss": 0.7308478951454163,
+      "eval_precision": 0.8002699055330634,
+      "eval_recall": 0.803921568627451,
+      "eval_runtime": 0.9231,
+      "eval_samples_per_second": 55.246,
+      "eval_steps_per_second": 2.167,
+      "step": 90
     },
     {
+      "epoch": 36.0,
+      "step": 90,
+      "total_flos": 1.2659877490145034e+18,
+      "train_loss": 0.10912525819407569,
+      "train_runtime": 949.2365,
+      "train_samples_per_second": 21.523,
+      "train_steps_per_second": 0.095
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.8267716535433071,
+      "eval_f1_score": 0.8283048858023182,
+      "eval_loss": 0.8527529239654541,
+      "eval_precision": 0.8302904444636728,
+      "eval_recall": 0.8267716535433071,
+      "eval_runtime": 2.5545,
+      "eval_samples_per_second": 49.716,
+      "eval_steps_per_second": 1.174,
+      "step": 90
     }
   ],
   "logging_steps": 15,
+  "max_steps": 90,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 45,
   "save_steps": 500,
+  "total_flos": 1.2659877490145034e+18,
+  "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f84ad3380b312710e9817387d47973045f268d1a4130faf2df2cc0c2c171617
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9c4f61894c45d65bf229deb2fd4dc876cbd903f9e7da4c19cfe4a3825e08c68
 size 4984