Model save

Browse files

Files changed (7) hide show

README.md +22 -20
adapter_model.safetensors +1 -1
all_results.json +7 -7
runs/Feb26_17-02-37_LCEEE-HAL/events.out.tfevents.1740610958.LCEEE-HAL.3015176.0 +2 -2
tokenizer.json +2 -2
train_results.json +7 -7
trainer_state.json +173 -153

README.md CHANGED Viewed

@@ -18,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7220
-- Balanced Accuracy: 0.6118
-- Accuracy: 0.6615
 ## Model description
@@ -51,23 +51,25 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Balanced Accuracy | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:-----------------:|:--------:|
-| No log        | 1.0   | 96   | 0.6740          | 0.5680            | 0.5260   |
-| No log        | 2.0   | 192  | 0.6547          | 0.6243            | 0.6823   |
-| No log        | 3.0   | 288  | 0.6300          | 0.6719            | 0.6927   |
-| No log        | 4.0   | 384  | 0.6242          | 0.6735            | 0.6823   |
-| No log        | 5.0   | 480  | 0.6103          | 0.6707            | 0.6979   |
-| 0.6274        | 6.0   | 576  | 0.6159          | 0.6777            | 0.6927   |
-| 0.6274        | 7.0   | 672  | 0.6264          | 0.6713            | 0.7083   |
-| 0.6274        | 8.0   | 768  | 0.6304          | 0.6551            | 0.6875   |
-| 0.6274        | 9.0   | 864  | 0.6457          | 0.6630            | 0.6667   |
-| 0.6274        | 10.0  | 960  | 0.6843          | 0.6164            | 0.6771   |
-| 0.5593        | 11.0  | 1056 | 0.6747          | 0.6418            | 0.6927   |
-| 0.5593        | 12.0  | 1152 | 0.6588          | 0.6484            | 0.6823   |
-| 0.5593        | 13.0  | 1248 | 0.6911          | 0.6269            | 0.6771   |
-| 0.5593        | 14.0  | 1344 | 0.7006          | 0.6409            | 0.6875   |
-| 0.5593        | 15.0  | 1440 | 0.6882          | 0.6518            | 0.6771   |
-| 0.4936        | 16.0  | 1536 | 0.7000          | 0.6439            | 0.6823   |
-| 0.4936        | 17.0  | 1632 | 0.7220          | 0.6118            | 0.6615   |
 ### Framework versions

 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8755
+- Balanced Accuracy: 0.7620
+- Accuracy: 0.7703
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Balanced Accuracy | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:-----------------:|:--------:|
+| No log        | 1.0   | 105  | 0.6539          | 0.6583            | 0.6699   |
+| No log        | 2.0   | 210  | 0.6195          | 0.6923            | 0.7033   |
+| No log        | 3.0   | 315  | 0.6555          | 0.6903            | 0.6651   |
+| No log        | 4.0   | 420  | 0.5576          | 0.7073            | 0.7129   |
+| 0.6494        | 5.0   | 525  | 0.5759          | 0.7387            | 0.6794   |
+| 0.6494        | 6.0   | 630  | 0.6838          | 0.7417            | 0.7129   |
+| 0.6494        | 7.0   | 735  | 0.5210          | 0.7229            | 0.7225   |
+| 0.6494        | 8.0   | 840  | 0.5587          | 0.7535            | 0.7273   |
+| 0.6494        | 9.0   | 945  | 0.5491          | 0.7622            | 0.7703   |
+| 0.4708        | 10.0  | 1050 | 0.5130          | 0.7211            | 0.7273   |
+| 0.4708        | 11.0  | 1155 | 0.5937          | 0.7195            | 0.7273   |
+| 0.4708        | 12.0  | 1260 | 0.5614          | 0.7424            | 0.7368   |
+| 0.4708        | 13.0  | 1365 | 0.6149          | 0.7461            | 0.7416   |
+| 0.4708        | 14.0  | 1470 | 0.6935          | 0.7225            | 0.7321   |
+| 0.3052        | 15.0  | 1575 | 0.6925          | 0.7180            | 0.7273   |
+| 0.3052        | 16.0  | 1680 | 0.7422          | 0.7544            | 0.7608   |
+| 0.3052        | 17.0  | 1785 | 0.8234          | 0.7522            | 0.7608   |
+| 0.3052        | 18.0  | 1890 | 0.8475          | 0.7620            | 0.7703   |
+| 0.3052        | 19.0  | 1995 | 0.8755          | 0.7620            | 0.7703   |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e131b03255cc50af798f9cbbb008566f82070f514a62220b2483e15de1629898
 size 54593240

 version https://git-lfs.github.com/spec/v1
+oid sha256:b57159f3a36ea7f6ae4743b74b4bcf2968dec71a1413e56ecc4a88bb07b6d986
 size 54593240

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 17.0,
-    "total_flos": 2.0631847563185357e+17,
-    "train_loss": 0.5514274087606692,
-    "train_runtime": 18758.2394,
-    "train_samples": 768,
-    "train_samples_per_second": 0.819,
-    "train_steps_per_second": 0.102
 }

 {
+    "epoch": 19.0,
+    "total_flos": 5.3616756937324954e+17,
+    "train_loss": 0.3997560008725427,
+    "train_runtime": 41381.9003,
+    "train_samples": 834,
+    "train_samples_per_second": 0.403,
+    "train_steps_per_second": 0.051
 }

runs/Feb26_17-02-37_LCEEE-HAL/events.out.tfevents.1740610958.LCEEE-HAL.3015176.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:809f1ec918751facfafc0d1e0b9507adb6c25d5e4c3bdada38bcedb3333d3ade
-size 13200

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0d2609274043f638268f5bf157c1e882479e88236146504d3a778546c73ca55
+size 13938

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd751a4191592ee601080b532d487e2444024e3205900acca92b7c94791e29dd
-size 17210060

 version https://git-lfs.github.com/spec/v1
+oid sha256:00224c78475a2ff2e27556796824b19aed9bd853b1925d36728fd05fd9d7693b
+size 17210230

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 17.0,
-    "total_flos": 2.0631847563185357e+17,
-    "train_loss": 0.5514274087606692,
-    "train_runtime": 18758.2394,
-    "train_samples": 768,
-    "train_samples_per_second": 0.819,
-    "train_steps_per_second": 0.102
 }

 {
+    "epoch": 19.0,
+    "total_flos": 5.3616756937324954e+17,
+    "train_loss": 0.3997560008725427,
+    "train_runtime": 41381.9003,
+    "train_samples": 834,
+    "train_samples_per_second": 0.403,
+    "train_steps_per_second": 0.051
 }

trainer_state.json CHANGED Viewed

@@ -1,216 +1,236 @@
 {
-  "best_metric": 0.7083333333333334,
-  "best_model_checkpoint": "Output_llama3_80-20/checkpoint-672",
-  "epoch": 17.0,
   "eval_steps": 500,
-  "global_step": 1632,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5260416666666666,
-      "eval_balanced_accuracy": 0.568034188034188,
-      "eval_loss": 0.6740227341651917,
-      "eval_runtime": 86.2229,
-      "eval_samples_per_second": 2.227,
-      "eval_steps_per_second": 0.278,
-      "step": 96
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6822916666666666,
-      "eval_balanced_accuracy": 0.6242846661775495,
-      "eval_loss": 0.6547484993934631,
-      "eval_runtime": 85.2498,
-      "eval_samples_per_second": 2.252,
-      "eval_steps_per_second": 0.282,
-      "step": 192
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6927083333333334,
-      "eval_balanced_accuracy": 0.671880181275561,
-      "eval_loss": 0.6299501061439514,
-      "eval_runtime": 84.0275,
-      "eval_samples_per_second": 2.285,
-      "eval_steps_per_second": 0.286,
-      "step": 288
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6822916666666666,
-      "eval_balanced_accuracy": 0.6735393319551735,
-      "eval_loss": 0.6242036819458008,
-      "eval_runtime": 84.0436,
-      "eval_samples_per_second": 2.285,
-      "eval_steps_per_second": 0.286,
-      "step": 384
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.6979166666666666,
-      "eval_balanced_accuracy": 0.6707152496626181,
-      "eval_loss": 0.6103450059890747,
-      "eval_runtime": 84.9699,
-      "eval_samples_per_second": 2.26,
-      "eval_steps_per_second": 0.282,
-      "step": 480
-    },
-    {
-      "epoch": 5.208333333333333,
-      "grad_norm": 43.049320220947266,
-      "learning_rate": 7.395833333333335e-06,
-      "loss": 0.6274,
       "step": 500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6927083333333334,
-      "eval_balanced_accuracy": 0.6776683087027915,
-      "eval_loss": 0.6159375309944153,
-      "eval_runtime": 85.0216,
-      "eval_samples_per_second": 2.258,
-      "eval_steps_per_second": 0.282,
-      "step": 576
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7083333333333334,
-      "eval_balanced_accuracy": 0.6712523719165084,
-      "eval_loss": 0.6264284253120422,
-      "eval_runtime": 85.8317,
-      "eval_samples_per_second": 2.237,
-      "eval_steps_per_second": 0.28,
-      "step": 672
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6875,
-      "eval_balanced_accuracy": 0.6550618415025194,
-      "eval_loss": 0.6303848624229431,
-      "eval_runtime": 83.7759,
-      "eval_samples_per_second": 2.292,
-      "eval_steps_per_second": 0.286,
-      "step": 768
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.6666666666666666,
-      "eval_balanced_accuracy": 0.6630481980026053,
-      "eval_loss": 0.6457447409629822,
-      "eval_runtime": 84.2188,
-      "eval_samples_per_second": 2.28,
-      "eval_steps_per_second": 0.285,
-      "step": 864
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.6770833333333334,
-      "eval_balanced_accuracy": 0.6164383561643836,
-      "eval_loss": 0.6843230128288269,
-      "eval_runtime": 84.6517,
-      "eval_samples_per_second": 2.268,
-      "eval_steps_per_second": 0.284,
-      "step": 960
-    },
-    {
-      "epoch": 10.416666666666666,
-      "grad_norm": 21.24892234802246,
-      "learning_rate": 4.791666666666668e-06,
-      "loss": 0.5593,
       "step": 1000
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.6927083333333334,
-      "eval_balanced_accuracy": 0.6418487851228452,
-      "eval_loss": 0.6747085452079773,
-      "eval_runtime": 83.9693,
-      "eval_samples_per_second": 2.287,
-      "eval_steps_per_second": 0.286,
-      "step": 1056
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.6822916666666666,
-      "eval_balanced_accuracy": 0.6483826407275239,
-      "eval_loss": 0.6588295102119446,
-      "eval_runtime": 84.8037,
-      "eval_samples_per_second": 2.264,
-      "eval_steps_per_second": 0.283,
-      "step": 1152
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.6770833333333334,
-      "eval_balanced_accuracy": 0.6268656716417911,
-      "eval_loss": 0.6911186575889587,
-      "eval_runtime": 85.1959,
-      "eval_samples_per_second": 2.254,
-      "eval_steps_per_second": 0.282,
-      "step": 1248
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.6875,
-      "eval_balanced_accuracy": 0.6409090909090909,
-      "eval_loss": 0.7006358504295349,
-      "eval_runtime": 84.6723,
-      "eval_samples_per_second": 2.268,
-      "eval_steps_per_second": 0.283,
-      "step": 1344
     },
     {
-      "epoch": 15.0,
-      "eval_accuracy": 0.6770833333333334,
-      "eval_balanced_accuracy": 0.6517857142857143,
-      "eval_loss": 0.6882149577140808,
-      "eval_runtime": 83.7055,
-      "eval_samples_per_second": 2.294,
-      "eval_steps_per_second": 0.287,
-      "step": 1440
-    },
-    {
-      "epoch": 15.625,
-      "grad_norm": 77.84115600585938,
-      "learning_rate": 2.1875000000000002e-06,
-      "loss": 0.4936,
       "step": 1500
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.6822916666666666,
-      "eval_balanced_accuracy": 0.6438670908448215,
-      "eval_loss": 0.6999824047088623,
-      "eval_runtime": 84.378,
-      "eval_samples_per_second": 2.275,
-      "eval_steps_per_second": 0.284,
-      "step": 1536
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.6614583333333334,
-      "eval_balanced_accuracy": 0.6117507195595044,
-      "eval_loss": 0.7219934463500977,
-      "eval_runtime": 84.9653,
-      "eval_samples_per_second": 2.26,
-      "eval_steps_per_second": 0.282,
-      "step": 1632
     },
     {
-      "epoch": 17.0,
-      "step": 1632,
-      "total_flos": 2.0631847563185357e+17,
-      "train_loss": 0.5514274087606692,
-      "train_runtime": 18758.2394,
-      "train_samples_per_second": 0.819,
-      "train_steps_per_second": 0.102
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1920,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
@@ -235,7 +255,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0631847563185357e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7703349282296651,
+  "best_model_checkpoint": "Output_llama3_80-20/checkpoint-945",
+  "epoch": 19.0,
   "eval_steps": 500,
+  "global_step": 1995,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6698564593301436,
+      "eval_balanced_accuracy": 0.6583002457931557,
+      "eval_loss": 0.6538845300674438,
+      "eval_runtime": 197.5626,
+      "eval_samples_per_second": 1.058,
+      "eval_steps_per_second": 0.137,
+      "step": 105
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7033492822966507,
+      "eval_balanced_accuracy": 0.6922929814496079,
+      "eval_loss": 0.619515597820282,
+      "eval_runtime": 199.2963,
+      "eval_samples_per_second": 1.049,
+      "eval_steps_per_second": 0.135,
+      "step": 210
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6650717703349283,
+      "eval_balanced_accuracy": 0.6903409090909092,
+      "eval_loss": 0.6554874777793884,
+      "eval_runtime": 197.6424,
+      "eval_samples_per_second": 1.057,
+      "eval_steps_per_second": 0.137,
+      "step": 315
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7129186602870813,
+      "eval_balanced_accuracy": 0.7072901325478644,
+      "eval_loss": 0.5575785040855408,
+      "eval_runtime": 196.6661,
+      "eval_samples_per_second": 1.063,
+      "eval_steps_per_second": 0.137,
+      "step": 420
     },
     {
+      "epoch": 4.761904761904762,
+      "grad_norm": 12.616178512573242,
+      "learning_rate": 7.61904761904762e-06,
+      "loss": 0.6494,
       "step": 500
     },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6794258373205742,
+      "eval_balanced_accuracy": 0.7386645962732918,
+      "eval_loss": 0.5758755803108215,
+      "eval_runtime": 196.7588,
+      "eval_samples_per_second": 1.062,
+      "eval_steps_per_second": 0.137,
+      "step": 525
+    },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7129186602870813,
+      "eval_balanced_accuracy": 0.7417343793779769,
+      "eval_loss": 0.6838177442550659,
+      "eval_runtime": 199.6172,
+      "eval_samples_per_second": 1.047,
+      "eval_steps_per_second": 0.135,
+      "step": 630
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.722488038277512,
+      "eval_balanced_accuracy": 0.7229395604395604,
+      "eval_loss": 0.5210055708885193,
+      "eval_runtime": 197.9194,
+      "eval_samples_per_second": 1.056,
+      "eval_steps_per_second": 0.136,
+      "step": 735
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_balanced_accuracy": 0.7535104364326376,
+      "eval_loss": 0.558698296546936,
+      "eval_runtime": 147.8334,
+      "eval_samples_per_second": 1.414,
+      "eval_steps_per_second": 0.183,
+      "step": 840
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.7703349282296651,
+      "eval_balanced_accuracy": 0.7622394339261809,
+      "eval_loss": 0.5491181015968323,
+      "eval_runtime": 147.6758,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 945
     },
     {
+      "epoch": 9.523809523809524,
+      "grad_norm": 23.234663009643555,
+      "learning_rate": 5.2380952380952384e-06,
+      "loss": 0.4708,
       "step": 1000
     },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_balanced_accuracy": 0.7211467551622419,
+      "eval_loss": 0.5130271911621094,
+      "eval_runtime": 147.7065,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 1050
+    },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_balanced_accuracy": 0.7194849959448499,
+      "eval_loss": 0.5936519503593445,
+      "eval_runtime": 147.7154,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 1155
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.7368421052631579,
+      "eval_balanced_accuracy": 0.7424242424242424,
+      "eval_loss": 0.5613722205162048,
+      "eval_runtime": 147.7519,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 1260
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.7416267942583732,
+      "eval_balanced_accuracy": 0.7461009174311927,
+      "eval_loss": 0.6149305701255798,
+      "eval_runtime": 147.8796,
+      "eval_samples_per_second": 1.413,
+      "eval_steps_per_second": 0.183,
+      "step": 1365
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.7320574162679426,
+      "eval_balanced_accuracy": 0.722541382667965,
+      "eval_loss": 0.6935343146324158,
+      "eval_runtime": 147.7695,
+      "eval_samples_per_second": 1.414,
+      "eval_steps_per_second": 0.183,
+      "step": 1470
     },
     {
+      "epoch": 14.285714285714286,
+      "grad_norm": 22.915342330932617,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.3052,
       "step": 1500
     },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_balanced_accuracy": 0.7179752066115702,
+      "eval_loss": 0.6924564242362976,
+      "eval_runtime": 147.6901,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 1575
+    },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.7607655502392344,
+      "eval_balanced_accuracy": 0.7543859649122807,
+      "eval_loss": 0.7421520352363586,
+      "eval_runtime": 147.7078,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 1680
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.7607655502392344,
+      "eval_balanced_accuracy": 0.7522470835723847,
+      "eval_loss": 0.823431134223938,
+      "eval_runtime": 147.7864,
+      "eval_samples_per_second": 1.414,
+      "eval_steps_per_second": 0.183,
+      "step": 1785
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7703349282296651,
+      "eval_balanced_accuracy": 0.7620493358633775,
+      "eval_loss": 0.847453773021698,
+      "eval_runtime": 147.8029,
+      "eval_samples_per_second": 1.414,
+      "eval_steps_per_second": 0.183,
+      "step": 1890
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.7703349282296651,
+      "eval_balanced_accuracy": 0.7620493358633775,
+      "eval_loss": 0.8755035996437073,
+      "eval_runtime": 147.7297,
+      "eval_samples_per_second": 1.415,
+      "eval_steps_per_second": 0.183,
+      "step": 1995
+    },
+    {
+      "epoch": 19.0,
+      "step": 1995,
+      "total_flos": 5.3616756937324954e+17,
+      "train_loss": 0.3997560008725427,
+      "train_runtime": 41381.9003,
+      "train_samples_per_second": 0.403,
+      "train_steps_per_second": 0.051
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 5.3616756937324954e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null