Model save

Browse files

Files changed (6) hide show

README.md +7 -11
adapter_model.safetensors +1 -1
all_results.json +8 -8
eval_results.json +4 -4
train_results.json +4 -4
trainer_state.json +91 -175

README.md CHANGED Viewed

@@ -2,13 +2,9 @@
 license: other
 library_name: peft
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
-datasets:
-- ruozhiba
 base_model: 01-ai/Yi-6B
 model-index:
 - name: Yi-6B-ruozhiba
@@ -20,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Yi-6B-ruozhiba
-This model is a fine-tuned version of [01-ai/Yi-6B](https://huggingface.co/01-ai/Yi-6B) on the ruozhiba dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.2134
 ## Model description
@@ -54,11 +50,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.948         | 1.0   | 217  | 1.9488          |
-| 1.7781        | 2.0   | 434  | 1.9393          |
-| 1.4563        | 3.0   | 651  | 2.0187          |
-| 1.3206        | 4.0   | 868  | 2.1767          |
-| 1.1018        | 5.0   | 1085 | 2.2134          |
 ### Framework versions

 license: other
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: 01-ai/Yi-6B
 model-index:
 - name: Yi-6B-ruozhiba
 # Yi-6B-ruozhiba
+This model is a fine-tuned version of [01-ai/Yi-6B](https://huggingface.co/01-ai/Yi-6B) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.9288
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.2958        | 1.0   | 55   | 1.9636          |
+| 1.8837        | 2.0   | 110  | 1.9193          |
+| 1.7174        | 3.0   | 165  | 1.9123          |
+| 1.6515        | 4.0   | 220  | 1.9246          |
+| 1.6337        | 5.0   | 275  | 1.9288          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6085ec1693fc53c95aa3dd4c6d6c929835ec9eb23fe8336c9ae1c5bfbee8f76a
 size 72673912

 version https://git-lfs.github.com/spec/v1
+oid sha256:486b40eefed28fbfe0cd8a26cbe038d7910ed6a56e8b4a8821c14505d364ce55
 size 72673912

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_loss": 2.2133874893188477,
-    "eval_runtime": 1.2237,
     "eval_samples": 23,
-    "eval_samples_per_second": 18.796,
-    "eval_steps_per_second": 4.903,
-    "train_loss": 0.005994410009428104,
-    "train_runtime": 16.2081,
     "train_samples": 217,
-    "train_samples_per_second": 66.942,
-    "train_steps_per_second": 66.942
 }

 {
     "epoch": 5.0,
+    "eval_loss": 1.9287786483764648,
+    "eval_runtime": 1.2455,
     "eval_samples": 23,
+    "eval_samples_per_second": 18.466,
+    "eval_steps_per_second": 4.817,
+    "train_loss": 1.8268643422560258,
+    "train_runtime": 238.6826,
     "train_samples": 217,
+    "train_samples_per_second": 4.546,
+    "train_steps_per_second": 1.152
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "eval_loss": 2.2133874893188477,
-    "eval_runtime": 1.2237,
     "eval_samples": 23,
-    "eval_samples_per_second": 18.796,
-    "eval_steps_per_second": 4.903
 }

 {
     "epoch": 5.0,
+    "eval_loss": 1.9287786483764648,
+    "eval_runtime": 1.2455,
     "eval_samples": 23,
+    "eval_samples_per_second": 18.466,
+    "eval_steps_per_second": 4.817
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "train_loss": 0.005994410009428104,
-    "train_runtime": 16.2081,
     "train_samples": 217,
-    "train_samples_per_second": 66.942,
-    "train_steps_per_second": 66.942
 }

 {
     "epoch": 5.0,
+    "train_loss": 1.8268643422560258,
+    "train_runtime": 238.6826,
     "train_samples": 217,
+    "train_samples_per_second": 4.546,
+    "train_steps_per_second": 1.152
 }

trainer_state.json CHANGED Viewed

@@ -3,236 +3,152 @@
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 1085,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 4.587155963302753e-07,
-      "loss": 2.9047,
       "step": 1
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 1.834862385321101e-05,
-      "loss": 2.6449,
-      "step": 40
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 3.669724770642202e-05,
-      "loss": 2.2297,
-      "step": 80
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 4.998433068104634e-05,
-      "loss": 2.0343,
-      "step": 120
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 4.9663895022434335e-05,
-      "loss": 1.9288,
-      "step": 160
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 4.893515717147499e-05,
-      "loss": 1.948,
-      "step": 200
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.9487614631652832,
-      "eval_runtime": 2.7263,
-      "eval_samples_per_second": 8.436,
-      "eval_steps_per_second": 8.436,
-      "step": 217
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 4.7810181129491795e-05,
-      "loss": 1.9046,
-      "step": 240
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 4.630759048306189e-05,
-      "loss": 1.8033,
-      "step": 280
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 4.4452260097026376e-05,
-      "loss": 1.7401,
-      "step": 320
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 4.227490431976606e-05,
-      "loss": 1.8471,
-      "step": 360
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 3.981156851786102e-05,
-      "loss": 1.7781,
-      "step": 400
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.9392595291137695,
-      "eval_runtime": 2.7235,
-      "eval_samples_per_second": 8.445,
-      "eval_steps_per_second": 8.445,
-      "step": 434
     },
     {
-      "epoch": 2.03,
-      "learning_rate": 3.710303235760038e-05,
-      "loss": 1.6503,
-      "step": 440
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 3.41941347118094e-05,
-      "loss": 1.5325,
-      "step": 480
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 3.113303136792597e-05,
-      "loss": 1.4801,
-      "step": 520
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 2.7970397825710876e-05,
-      "loss": 1.5216,
-      "step": 560
     },
     {
-      "epoch": 2.76,
-      "learning_rate": 2.4758590381998137e-05,
-      "loss": 1.426,
-      "step": 600
     },
     {
-      "epoch": 2.95,
-      "learning_rate": 2.1550779390435147e-05,
-      "loss": 1.4563,
-      "step": 640
     },
     {
       "epoch": 3.0,
-      "eval_loss": 2.018707036972046,
-      "eval_runtime": 2.7309,
-      "eval_samples_per_second": 8.422,
-      "eval_steps_per_second": 8.422,
-      "step": 651
-    },
-    {
-      "epoch": 3.13,
-      "learning_rate": 1.840006904479584e-05,
-      "loss": 1.2741,
-      "step": 680
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 1.5358618257547464e-05,
-      "loss": 1.1991,
-      "step": 720
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 1.2476777187220119e-05,
-      "loss": 1.2377,
-      "step": 760
     },
     {
-      "epoch": 3.69,
-      "learning_rate": 9.802253709067949e-06,
-      "loss": 1.2592,
-      "step": 800
     },
     {
-      "epoch": 3.87,
-      "learning_rate": 7.3793236278095755e-06,
-      "loss": 1.3206,
-      "step": 840
     },
     {
       "epoch": 4.0,
-      "eval_loss": 2.17669677734375,
-      "eval_runtime": 2.7315,
-      "eval_samples_per_second": 8.42,
-      "eval_steps_per_second": 8.42,
-      "step": 868
-    },
-    {
-      "epoch": 4.06,
-      "learning_rate": 5.248097707101035e-06,
-      "loss": 1.1614,
-      "step": 880
-    },
-    {
-      "epoch": 4.24,
-      "learning_rate": 3.443857649812915e-06,
-      "loss": 1.1929,
-      "step": 920
-    },
-    {
-      "epoch": 4.42,
-      "learning_rate": 1.9964720217269558e-06,
-      "loss": 1.0971,
-      "step": 960
     },
     {
-      "epoch": 4.61,
-      "learning_rate": 9.299017878319383e-07,
-      "loss": 1.091,
-      "step": 1000
     },
     {
-      "epoch": 4.79,
-      "learning_rate": 2.6180364689323554e-07,
-      "loss": 1.1938,
-      "step": 1040
     },
     {
-      "epoch": 4.98,
-      "learning_rate": 3.237730954069873e-09,
-      "loss": 1.1018,
-      "step": 1080
     },
     {
       "epoch": 5.0,
-      "eval_loss": 2.2133874893188477,
-      "eval_runtime": 1.2338,
-      "eval_samples_per_second": 18.641,
-      "eval_steps_per_second": 4.863,
-      "step": 1085
     },
     {
       "epoch": 5.0,
-      "step": 1085,
-      "total_flos": 6960819918102528.0,
-      "train_loss": 0.005994410009428104,
-      "train_runtime": 16.2081,
-      "train_samples_per_second": 66.942,
-      "train_steps_per_second": 66.942
     }
   ],
-  "logging_steps": 40,
-  "max_steps": 1085,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 20,
-  "total_flos": 6960819918102528.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 275,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 1.7857142857142857e-06,
+      "loss": 2.5611,
       "step": 1
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 2.5326,
+      "step": 20
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.970937357800635e-05,
+      "loss": 2.2958,
+      "step": 40
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.9636107683181763,
+      "eval_runtime": 1.2207,
+      "eval_samples_per_second": 18.842,
+      "eval_steps_per_second": 4.915,
+      "step": 55
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 4.7957734321334915e-05,
+      "loss": 1.9545,
+      "step": 60
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 4.4728512734909844e-05,
+      "loss": 1.8763,
+      "step": 80
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 4.022954469173914e-05,
+      "loss": 1.8837,
+      "step": 100
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.9193000793457031,
+      "eval_runtime": 1.2166,
+      "eval_samples_per_second": 18.905,
+      "eval_steps_per_second": 4.932,
+      "step": 110
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 3.475038819391789e-05,
+      "loss": 1.7375,
+      "step": 120
     },
     {
+      "epoch": 2.55,
+      "learning_rate": 2.864368713521274e-05,
+      "loss": 1.7612,
+      "step": 140
     },
     {
+      "epoch": 2.91,
+      "learning_rate": 2.2302474793696117e-05,
+      "loss": 1.7174,
+      "step": 160
     },
     {
       "epoch": 3.0,
+      "eval_loss": 1.9123048782348633,
+      "eval_runtime": 1.2199,
+      "eval_samples_per_second": 18.853,
+      "eval_steps_per_second": 4.918,
+      "step": 165
     },
     {
+      "epoch": 3.27,
+      "learning_rate": 1.613487782393661e-05,
+      "loss": 1.6455,
+      "step": 180
     },
     {
+      "epoch": 3.64,
+      "learning_rate": 1.0537848824653418e-05,
+      "loss": 1.6657,
+      "step": 200
     },
     {
       "epoch": 4.0,
+      "learning_rate": 5.871618079580327e-06,
+      "loss": 1.6515,
+      "step": 220
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 1.9245940446853638,
+      "eval_runtime": 1.269,
+      "eval_samples_per_second": 18.125,
+      "eval_steps_per_second": 4.728,
+      "step": 220
     },
     {
+      "epoch": 4.36,
+      "learning_rate": 2.4365087825904355e-06,
+      "loss": 1.5988,
+      "step": 240
     },
     {
+      "epoch": 4.73,
+      "learning_rate": 4.536079419643374e-07,
+      "loss": 1.6337,
+      "step": 260
     },
     {
       "epoch": 5.0,
+      "eval_loss": 1.9287786483764648,
+      "eval_runtime": 1.2179,
+      "eval_samples_per_second": 18.886,
+      "eval_steps_per_second": 4.927,
+      "step": 275
     },
     {
       "epoch": 5.0,
+      "step": 275,
+      "total_flos": 9506378566434816.0,
+      "train_loss": 1.8268643422560258,
+      "train_runtime": 238.6826,
+      "train_samples_per_second": 4.546,
+      "train_steps_per_second": 1.152
     }
   ],
+  "logging_steps": 20,
+  "max_steps": 275,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 20,
+  "total_flos": 9506378566434816.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }