Model save

Files changed (8) hide show

README.md CHANGED Viewed

@@ -2,11 +2,10 @@
 license: apache-2.0
 library_name: peft
 tags:
-- alignment-handbook
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 datasets:
-- HuggingFaceH4/ultrachat_200k
 model-index:
 - name: Test_with_new_script
   results: []
@@ -17,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Test_with_new_script
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the HuggingFaceH4/ultrachat_200k dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0914
 ## Model description
@@ -39,12 +38,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
-- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 2
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 64
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
@@ -56,7 +54,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.1117        | 1.0   | 18   | 1.0914          |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 datasets:
+- generator
 model-index:
 - name: Test_with_new_script
   results: []
 # Test_with_new_script
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0905
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
+- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 2
 - total_train_batch_size: 64
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.11          | 1.0   | 18   | 1.0905          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "down_proj",
     "o_proj",
     "gate_proj",
-    "q_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "o_proj",
+    "down_proj",
+    "up_proj",
+    "v_proj",
     "gate_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a556de130555737da15606adb66dd0e66194f78ed23944c51c1073777131b36
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:14d37b719ded8577e0c19e669ca2cebb01db619d1866b04e1652272e8172b6b1
 size 83946192

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
-    "eval_loss": 1.0914130210876465,
-    "eval_runtime": 15.6172,
     "eval_samples": 124,
-    "eval_samples_per_second": 7.94,
-    "eval_steps_per_second": 0.512,
-    "train_loss": 1.161470651626587,
-    "train_runtime": 443.1723,
     "train_samples": 1143,
-    "train_samples_per_second": 2.579,
-    "train_steps_per_second": 0.041
 }

 {
     "epoch": 1.0,
+    "eval_loss": 1.0904877185821533,
+    "eval_runtime": 15.5995,
     "eval_samples": 124,
+    "eval_samples_per_second": 7.949,
+    "eval_steps_per_second": 0.513,
+    "train_loss": 1.168492575486501,
+    "train_runtime": 457.8696,
     "train_samples": 1143,
+    "train_samples_per_second": 2.496,
+    "train_steps_per_second": 0.039
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_loss": 1.0914130210876465,
-    "eval_runtime": 15.6172,
     "eval_samples": 124,
-    "eval_samples_per_second": 7.94,
-    "eval_steps_per_second": 0.512
 }

 {
     "epoch": 1.0,
+    "eval_loss": 1.0904877185821533,
+    "eval_runtime": 15.5995,
     "eval_samples": 124,
+    "eval_samples_per_second": 7.949,
+    "eval_steps_per_second": 0.513
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 1.161470651626587,
-    "train_runtime": 443.1723,
     "train_samples": 1143,
-    "train_samples_per_second": 2.579,
-    "train_steps_per_second": 0.041
 }

 {
     "epoch": 1.0,
+    "train_loss": 1.168492575486501,
+    "train_runtime": 457.8696,
     "train_samples": 1143,
+    "train_samples_per_second": 2.496,
+    "train_steps_per_second": 0.039
 }

trainer_state.json CHANGED Viewed

@@ -11,43 +11,43 @@
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
-      "loss": 1.2833,
       "step": 1
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.00018314696123025454,
-      "loss": 1.2373,
       "step": 5
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
-      "loss": 1.168,
       "step": 10
     },
     {
       "epoch": 0.83,
       "learning_rate": 1.6853038769745467e-05,
-      "loss": 1.1117,
       "step": 15
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.0914130210876465,
-      "eval_runtime": 15.7258,
-      "eval_samples_per_second": 7.885,
-      "eval_steps_per_second": 0.509,
       "step": 18
     },
     {
       "epoch": 1.0,
       "step": 18,
       "total_flos": 1.0560439065981747e+17,
-      "train_loss": 1.161470651626587,
-      "train_runtime": 443.1723,
-      "train_samples_per_second": 2.579,
-      "train_steps_per_second": 0.041
     }
   ],
   "logging_steps": 5,
@@ -56,7 +56,7 @@
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 1.0560439065981747e+17,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
+      "loss": 1.3159,
       "step": 1
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.00018314696123025454,
+      "loss": 1.2515,
       "step": 5
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
+      "loss": 1.1683,
       "step": 10
     },
     {
       "epoch": 0.83,
       "learning_rate": 1.6853038769745467e-05,
+      "loss": 1.11,
       "step": 15
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.0904877185821533,
+      "eval_runtime": 15.6992,
+      "eval_samples_per_second": 7.899,
+      "eval_steps_per_second": 0.51,
       "step": 18
     },
     {
       "epoch": 1.0,
       "step": 18,
       "total_flos": 1.0560439065981747e+17,
+      "train_loss": 1.168492575486501,
+      "train_runtime": 457.8696,
+      "train_samples_per_second": 2.496,
+      "train_steps_per_second": 0.039
     }
   ],
   "logging_steps": 5,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 1.0560439065981747e+17,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f31dabe80950b12d6098c0f5d3b662eee5c22504bfac428a3670697aac3bdf5
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:61a0e14ac8baf459cacbf69a626c50bdbd4c30f0415167c5ee51730735ba152c
 size 4856