End of training

Browse files

Files changed (7) hide show

README.md +6 -1
all_results.json +10 -10
args.bin +2 -2
eval_results.json +6 -6
events.out.tfevents.1716992485.isl-gpu27.3581638.1 +3 -0
train_results.json +4 -4
trainer_state.json +11 -92

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: apache-2.0
 base_model: JackFram/llama-68m
 tags:
 - generated_from_trainer
 model-index:
 - name: recreate_llama_68M_vanilla
   results: []
@@ -13,7 +15,10 @@ should probably proofread and complete it, then remove this comment. -->
 # recreate_llama_68M_vanilla
-This model is a fine-tuned version of [JackFram/llama-68m](https://huggingface.co/JackFram/llama-68m) on an unknown dataset.
 ## Model description

 base_model: JackFram/llama-68m
 tags:
 - generated_from_trainer
+metrics:
+- accuracy
 model-index:
 - name: recreate_llama_68M_vanilla
   results: []
 # recreate_llama_68M_vanilla
+This model is a fine-tuned version of [JackFram/llama-68m](https://huggingface.co/JackFram/llama-68m) on the anon8231489123/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json dataset.
+It achieves the following results on the evaluation set:
+- Loss: 4.3086
+- Accuracy: 0.4590
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.3512457254518808,
-    "eval_loss": 9.549426078796387,
-    "eval_runtime": 2.7507,
     "eval_samples": 10,
-    "eval_samples_per_second": 3.635,
-    "eval_steps_per_second": 0.364,
-    "perplexity": 14036.636436049854,
     "total_flos": 1601895923712000.0,
-    "train_loss": 11.46164576212565,
-    "train_runtime": 150.2617,
     "train_samples": 1000,
-    "train_samples_per_second": 19.965,
-    "train_steps_per_second": 0.639
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.45896433805569126,
+    "eval_loss": 4.308589935302734,
+    "eval_runtime": 2.8119,
     "eval_samples": 10,
+    "eval_samples_per_second": 3.556,
+    "eval_steps_per_second": 0.356,
+    "perplexity": 74.33559700443098,
     "total_flos": 1601895923712000.0,
+    "train_loss": 4.819753979879712,
+    "train_runtime": 153.0154,
     "train_samples": 1000,
+    "train_samples_per_second": 19.606,
+    "train_steps_per_second": 1.647
 }

args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7565f26b6b3335b4c74c77cbb2af2017cb5dcb6983320e6a9a66a11f8e0ac811
-size 5908

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0612c3c9d86d6249df50bee087bc8118d35203b4807ae34f25b74705525d44
+size 6036

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.3512457254518808,
-    "eval_loss": 9.549426078796387,
-    "eval_runtime": 2.7507,
     "eval_samples": 10,
-    "eval_samples_per_second": 3.635,
-    "eval_steps_per_second": 0.364,
-    "perplexity": 14036.636436049854
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.45896433805569126,
+    "eval_loss": 4.308589935302734,
+    "eval_runtime": 2.8119,
     "eval_samples": 10,
+    "eval_samples_per_second": 3.556,
+    "eval_steps_per_second": 0.356,
+    "perplexity": 74.33559700443098
 }

events.out.tfevents.1716992485.isl-gpu27.3581638.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85ffc476d8337347b72ca9cfa202beea19e8d9c599d44b60da44f727e63d6072
+size 411

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 1601895923712000.0,
-    "train_loss": 11.46164576212565,
-    "train_runtime": 150.2617,
     "train_samples": 1000,
-    "train_samples_per_second": 19.965,
-    "train_steps_per_second": 0.639
 }

 {
     "epoch": 3.0,
     "total_flos": 1601895923712000.0,
+    "train_loss": 4.819753979879712,
+    "train_runtime": 153.0154,
     "train_samples": 1000,
+    "train_samples_per_second": 19.606,
+    "train_steps_per_second": 1.647
 }

trainer_state.json CHANGED Viewed

@@ -2,108 +2,27 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
-  "eval_steps": 10,
-  "global_step": 96,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.3125,
-      "eval_accuracy": 0.367562286272594,
-      "eval_loss": 7.9370436668396,
-      "eval_runtime": 2.8708,
-      "eval_samples_per_second": 3.483,
-      "eval_steps_per_second": 0.348,
-      "step": 10
-    },
-    {
-      "epoch": 0.625,
-      "eval_accuracy": 0.34782608695652173,
-      "eval_loss": 8.680798530578613,
-      "eval_runtime": 2.66,
-      "eval_samples_per_second": 3.759,
-      "eval_steps_per_second": 0.376,
-      "step": 20
-    },
-    {
-      "epoch": 0.9375,
-      "eval_accuracy": 0.10293111871030777,
-      "eval_loss": 10.979837417602539,
-      "eval_runtime": 2.7406,
-      "eval_samples_per_second": 3.649,
-      "eval_steps_per_second": 0.365,
-      "step": 30
-    },
-    {
-      "epoch": 1.25,
-      "eval_accuracy": 0.24934049829018076,
-      "eval_loss": 10.302330017089844,
-      "eval_runtime": 2.7648,
-      "eval_samples_per_second": 3.617,
-      "eval_steps_per_second": 0.362,
-      "step": 40
-    },
-    {
-      "epoch": 1.5625,
-      "eval_accuracy": 0.35012212994626285,
-      "eval_loss": 9.768780708312988,
-      "eval_runtime": 2.7184,
-      "eval_samples_per_second": 3.679,
-      "eval_steps_per_second": 0.368,
-      "step": 50
-    },
-    {
-      "epoch": 1.875,
-      "eval_accuracy": 0.35100146555935513,
-      "eval_loss": 9.619012832641602,
-      "eval_runtime": 2.8506,
-      "eval_samples_per_second": 3.508,
-      "eval_steps_per_second": 0.351,
-      "step": 60
-    },
-    {
-      "epoch": 2.1875,
-      "eval_accuracy": 0.35095261358085,
-      "eval_loss": 9.561655044555664,
-      "eval_runtime": 2.7142,
-      "eval_samples_per_second": 3.684,
-      "eval_steps_per_second": 0.368,
-      "step": 70
-    },
-    {
-      "epoch": 2.5,
-      "eval_accuracy": 0.35109916951636544,
-      "eval_loss": 9.547042846679688,
-      "eval_runtime": 2.8217,
-      "eval_samples_per_second": 3.544,
-      "eval_steps_per_second": 0.354,
-      "step": 80
-    },
-    {
-      "epoch": 2.8125,
-      "eval_accuracy": 0.35109916951636544,
-      "eval_loss": 9.548730850219727,
-      "eval_runtime": 2.742,
-      "eval_samples_per_second": 3.647,
-      "eval_steps_per_second": 0.365,
-      "step": 90
-    },
     {
       "epoch": 3.0,
-      "step": 96,
       "total_flos": 1601895923712000.0,
-      "train_loss": 11.46164576212565,
-      "train_runtime": 150.2617,
-      "train_samples_per_second": 19.965,
-      "train_steps_per_second": 0.639
     }
   ],
-  "logging_steps": 100,
-  "max_steps": 96,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -117,7 +36,7 @@
     }
   },
   "total_flos": 1601895923712000.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
+  "eval_steps": 1000,
+  "global_step": 252,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 3.0,
+      "step": 252,
       "total_flos": 1601895923712000.0,
+      "train_loss": 4.819753979879712,
+      "train_runtime": 153.0154,
+      "train_samples_per_second": 19.606,
+      "train_steps_per_second": 1.647
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 252,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 10000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
     }
   },
   "total_flos": 1601895923712000.0,
+  "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null
 }