End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +199 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: stackexchange_codereview
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # stackexchange_codereview
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.7186

 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: stackexchange_codereview
 # stackexchange_codereview
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on the mlfoundations-dev/stackexchange_codereview dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.7186

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.9774436090225564,
+    "eval_loss": 0.7185549139976501,
+    "eval_runtime": 70.7881,
+    "eval_samples_per_second": 25.273,
+    "eval_steps_per_second": 0.396,
+    "total_flos": 331447994941440.0,
+    "train_loss": 0.7033214352347634,
+    "train_runtime": 12042.9211,
+    "train_samples_per_second": 8.467,
+    "train_steps_per_second": 0.016
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.9774436090225564,
+    "eval_loss": 0.7185549139976501,
+    "eval_runtime": 70.7881,
+    "eval_samples_per_second": 25.273,
+    "eval_steps_per_second": 0.396
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.9774436090225564,
+    "total_flos": 331447994941440.0,
+    "train_loss": 0.7033214352347634,
+    "train_runtime": 12042.9211,
+    "train_samples_per_second": 8.467,
+    "train_steps_per_second": 0.016
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,199 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9774436090225564,
+  "eval_steps": 500,
+  "global_step": 198,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15037593984962405,
+      "grad_norm": 10.319588848192522,
+      "learning_rate": 5e-06,
+      "loss": 0.9599,
+      "step": 10
+    },
+    {
+      "epoch": 0.3007518796992481,
+      "grad_norm": 1.0338807806874135,
+      "learning_rate": 5e-06,
+      "loss": 0.8336,
+      "step": 20
+    },
+    {
+      "epoch": 0.45112781954887216,
+      "grad_norm": 0.6910926553714657,
+      "learning_rate": 5e-06,
+      "loss": 0.7791,
+      "step": 30
+    },
+    {
+      "epoch": 0.6015037593984962,
+      "grad_norm": 1.0761644360414062,
+      "learning_rate": 5e-06,
+      "loss": 0.7583,
+      "step": 40
+    },
+    {
+      "epoch": 0.7518796992481203,
+      "grad_norm": 0.6947583128003021,
+      "learning_rate": 5e-06,
+      "loss": 0.7441,
+      "step": 50
+    },
+    {
+      "epoch": 0.9022556390977443,
+      "grad_norm": 0.6992165317159396,
+      "learning_rate": 5e-06,
+      "loss": 0.7377,
+      "step": 60
+    },
+    {
+      "epoch": 0.9924812030075187,
+      "eval_loss": 0.7360510230064392,
+      "eval_runtime": 71.1419,
+      "eval_samples_per_second": 25.147,
+      "eval_steps_per_second": 0.394,
+      "step": 66
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 0.8078315357639781,
+      "learning_rate": 5e-06,
+      "loss": 0.7494,
+      "step": 70
+    },
+    {
+      "epoch": 1.2030075187969924,
+      "grad_norm": 0.7080326935985787,
+      "learning_rate": 5e-06,
+      "loss": 0.6823,
+      "step": 80
+    },
+    {
+      "epoch": 1.3533834586466165,
+      "grad_norm": 0.9139892615025267,
+      "learning_rate": 5e-06,
+      "loss": 0.6835,
+      "step": 90
+    },
+    {
+      "epoch": 1.5037593984962405,
+      "grad_norm": 0.7719225630624682,
+      "learning_rate": 5e-06,
+      "loss": 0.6778,
+      "step": 100
+    },
+    {
+      "epoch": 1.6541353383458648,
+      "grad_norm": 0.690505807116012,
+      "learning_rate": 5e-06,
+      "loss": 0.6741,
+      "step": 110
+    },
+    {
+      "epoch": 1.8045112781954886,
+      "grad_norm": 0.8408786966441595,
+      "learning_rate": 5e-06,
+      "loss": 0.6786,
+      "step": 120
+    },
+    {
+      "epoch": 1.954887218045113,
+      "grad_norm": 0.9105349697754412,
+      "learning_rate": 5e-06,
+      "loss": 0.6668,
+      "step": 130
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7167445421218872,
+      "eval_runtime": 70.8575,
+      "eval_samples_per_second": 25.248,
+      "eval_steps_per_second": 0.395,
+      "step": 133
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.7611289966467718,
+      "learning_rate": 5e-06,
+      "loss": 0.6702,
+      "step": 140
+    },
+    {
+      "epoch": 2.255639097744361,
+      "grad_norm": 0.7215253637975946,
+      "learning_rate": 5e-06,
+      "loss": 0.6221,
+      "step": 150
+    },
+    {
+      "epoch": 2.406015037593985,
+      "grad_norm": 0.7012758019701782,
+      "learning_rate": 5e-06,
+      "loss": 0.6227,
+      "step": 160
+    },
+    {
+      "epoch": 2.556390977443609,
+      "grad_norm": 0.8277361299197685,
+      "learning_rate": 5e-06,
+      "loss": 0.625,
+      "step": 170
+    },
+    {
+      "epoch": 2.706766917293233,
+      "grad_norm": 0.6173084956333096,
+      "learning_rate": 5e-06,
+      "loss": 0.6189,
+      "step": 180
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.7220685374712632,
+      "learning_rate": 5e-06,
+      "loss": 0.6284,
+      "step": 190
+    },
+    {
+      "epoch": 2.9774436090225564,
+      "eval_loss": 0.7185549139976501,
+      "eval_runtime": 70.2334,
+      "eval_samples_per_second": 25.472,
+      "eval_steps_per_second": 0.399,
+      "step": 198
+    },
+    {
+      "epoch": 2.9774436090225564,
+      "step": 198,
+      "total_flos": 331447994941440.0,
+      "train_loss": 0.7033214352347634,
+      "train_runtime": 12042.9211,
+      "train_samples_per_second": 8.467,
+      "train_steps_per_second": 0.016
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 198,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 331447994941440.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed