Model save

Browse files

Files changed (4) hide show

README.md +75 -0
all_results.json +8 -0
train_results.json +8 -0
trainer_state.json +284 -0

README.md ADDED Viewed

	@@ -0,0 +1,75 @@

+---
+base_model: alignment-handbook/zephyr-7b-sft-full
+library_name: peft
+license: apache-2.0
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: gshf_lora_iter_3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gshf_lora_iter_3
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6864
+- Rewards/chosen: -1.0331
+- Rewards/rejected: -1.1393
+- Rewards/accuracies: 0.5780
+- Rewards/margins: 0.1061
+- Logps/rejected: -401.6631
+- Logps/chosen: -412.7206
+- Logits/rejected: -2.2917
+- Logits/chosen: -2.4065
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 128
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5977        | 0.61  | 100  | 0.6864          | -1.0331        | -1.1393          | 0.5780             | 0.1061          | -401.6631      | -412.7206    | -2.2917         | -2.4065       |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6085586136037653,
+    "train_runtime": 7087.3831,
+    "train_samples": 21135,
+    "train_samples_per_second": 2.982,
+    "train_steps_per_second": 0.023
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6085586136037653,
+    "train_runtime": 7087.3831,
+    "train_samples": 21135,
+    "train_samples_per_second": 2.982,
+    "train_steps_per_second": 0.023
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,284 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9992429977289932,
+  "eval_steps": 100,
+  "global_step": 165,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9411764705882356e-07,
+      "logits/chosen": -2.707052707672119,
+      "logits/rejected": -2.5629069805145264,
+      "logps/chosen": -140.5702667236328,
+      "logps/rejected": -149.23953247070312,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.9411764705882355e-06,
+      "logits/chosen": -2.6915149688720703,
+      "logits/rejected": -2.6174051761627197,
+      "logps/chosen": -127.6676025390625,
+      "logps/rejected": -134.06060791015625,
+      "loss": 0.6906,
+      "rewards/accuracies": 0.5277777910232544,
+      "rewards/chosen": 0.011390692554414272,
+      "rewards/margins": 0.004895765800029039,
+      "rewards/rejected": 0.00649492722004652,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.994932636402032e-06,
+      "logits/chosen": -2.697421073913574,
+      "logits/rejected": -2.6101489067077637,
+      "logps/chosen": -119.96502685546875,
+      "logps/rejected": -128.2425537109375,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.09520833939313889,
+      "rewards/margins": 0.04998597502708435,
+      "rewards/rejected": 0.04522235691547394,
+      "step": 20
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.905416503522124e-06,
+      "logits/chosen": -2.696227550506592,
+      "logits/rejected": -2.5642526149749756,
+      "logps/chosen": -150.34628295898438,
+      "logps/rejected": -169.03726196289062,
+      "loss": 0.634,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.12244757264852524,
+      "rewards/margins": 0.17084087431430817,
+      "rewards/rejected": -0.2932884693145752,
+      "step": 30
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.707922373336524e-06,
+      "logits/chosen": -2.538926601409912,
+      "logits/rejected": -2.455259323120117,
+      "logps/chosen": -162.61892700195312,
+      "logps/rejected": -183.95986938476562,
+      "loss": 0.6185,
+      "rewards/accuracies": 0.6468750238418579,
+      "rewards/chosen": -0.24682824313640594,
+      "rewards/margins": 0.21059636771678925,
+      "rewards/rejected": -0.4574246406555176,
+      "step": 40
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.411315662967732e-06,
+      "logits/chosen": -2.5605010986328125,
+      "logits/rejected": -2.4333040714263916,
+      "logps/chosen": -166.7479248046875,
+      "logps/rejected": -208.0742645263672,
+      "loss": 0.59,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -0.3265220522880554,
+      "rewards/margins": 0.3464210033416748,
+      "rewards/rejected": -0.6729430556297302,
+      "step": 50
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.028910905897229e-06,
+      "logits/chosen": -2.540019989013672,
+      "logits/rejected": -2.388812780380249,
+      "logps/chosen": -173.4254913330078,
+      "logps/rejected": -209.1867218017578,
+      "loss": 0.6063,
+      "rewards/accuracies": 0.715624988079071,
+      "rewards/chosen": -0.3530834913253784,
+      "rewards/margins": 0.3775056302547455,
+      "rewards/rejected": -0.7305890917778015,
+      "step": 60
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.577874068920446e-06,
+      "logits/chosen": -2.474632978439331,
+      "logits/rejected": -2.355051040649414,
+      "logps/chosen": -178.6104278564453,
+      "logps/rejected": -210.9853057861328,
+      "loss": 0.5931,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.4069199562072754,
+      "rewards/margins": 0.3201315402984619,
+      "rewards/rejected": -0.7270514369010925,
+      "step": 70
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.0784519801008546e-06,
+      "logits/chosen": -2.416491985321045,
+      "logits/rejected": -2.2601351737976074,
+      "logps/chosen": -188.75547790527344,
+      "logps/rejected": -218.71762084960938,
+      "loss": 0.6059,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.48314571380615234,
+      "rewards/margins": 0.3314744830131531,
+      "rewards/rejected": -0.8146201372146606,
+      "step": 80
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.553063458334059e-06,
+      "logits/chosen": -2.461280107498169,
+      "logits/rejected": -2.3336400985717773,
+      "logps/chosen": -193.59939575195312,
+      "logps/rejected": -233.89682006835938,
+      "loss": 0.5949,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.5311333537101746,
+      "rewards/margins": 0.3859925866127014,
+      "rewards/rejected": -0.9171259999275208,
+      "step": 90
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.025292943281429e-06,
+      "logits/chosen": -2.468966245651245,
+      "logits/rejected": -2.3661489486694336,
+      "logps/chosen": -179.36941528320312,
+      "logps/rejected": -225.336669921875,
+      "loss": 0.5977,
+      "rewards/accuracies": 0.715624988079071,
+      "rewards/chosen": -0.4190208911895752,
+      "rewards/margins": 0.38450565934181213,
+      "rewards/rejected": -0.8035264015197754,
+      "step": 100
+    },
+    {
+      "epoch": 0.61,
+      "eval_logits/chosen": -2.406489849090576,
+      "eval_logits/rejected": -2.2917134761810303,
+      "eval_logps/chosen": -412.7205810546875,
+      "eval_logps/rejected": -401.6630859375,
+      "eval_loss": 0.6863529086112976,
+      "eval_rewards/accuracies": 0.578000009059906,
+      "eval_rewards/chosen": -1.033116102218628,
+      "eval_rewards/margins": 0.10613465309143066,
+      "eval_rewards/rejected": -1.1392508745193481,
+      "eval_runtime": 381.8968,
+      "eval_samples_per_second": 5.237,
+      "eval_steps_per_second": 0.655,
+      "step": 100
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.5188318011445907e-06,
+      "logits/chosen": -2.464691638946533,
+      "logits/rejected": -2.3220224380493164,
+      "logps/chosen": -182.71714782714844,
+      "logps/rejected": -227.18356323242188,
+      "loss": 0.5785,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -0.4125642776489258,
+      "rewards/margins": 0.46859368681907654,
+      "rewards/rejected": -0.8811580538749695,
+      "step": 110
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.0564148305586296e-06,
+      "logits/chosen": -2.4078032970428467,
+      "logits/rejected": -2.303321361541748,
+      "logps/chosen": -178.89767456054688,
+      "logps/rejected": -210.9845733642578,
+      "loss": 0.6082,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": -0.4273001551628113,
+      "rewards/margins": 0.29686012864112854,
+      "rewards/rejected": -0.7241603136062622,
+      "step": 120
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.587997083462197e-07,
+      "logits/chosen": -2.425297498703003,
+      "logits/rejected": -2.2869625091552734,
+      "logps/chosen": -173.35562133789062,
+      "logps/rejected": -225.9993133544922,
+      "loss": 0.5929,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.3401731550693512,
+      "rewards/margins": 0.4647199511528015,
+      "rewards/rejected": -0.8048931360244751,
+      "step": 130
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.438351873250492e-07,
+      "logits/chosen": -2.324622631072998,
+      "logits/rejected": -2.229893922805786,
+      "logps/chosen": -169.2745819091797,
+      "logps/rejected": -208.8419647216797,
+      "loss": 0.5979,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.3650784194469452,
+      "rewards/margins": 0.3623533844947815,
+      "rewards/rejected": -0.7274317145347595,
+      "step": 140
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.2565987432367032e-07,
+      "logits/chosen": -2.3950939178466797,
+      "logits/rejected": -2.2864699363708496,
+      "logps/chosen": -173.4356689453125,
+      "logps/rejected": -218.30789184570312,
+      "loss": 0.5972,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -0.38028424978256226,
+      "rewards/margins": 0.3941970765590668,
+      "rewards/rejected": -0.7744813561439514,
+      "step": 150
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4067554877743861e-08,
+      "logits/chosen": -2.344088554382324,
+      "logits/rejected": -2.264390468597412,
+      "logps/chosen": -165.1439208984375,
+      "logps/rejected": -209.009765625,
+      "loss": 0.592,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.360766738653183,
+      "rewards/margins": 0.41205891966819763,
+      "rewards/rejected": -0.7728255987167358,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "step": 165,
+      "total_flos": 0.0,
+      "train_loss": 0.6085586136037653,
+      "train_runtime": 7087.3831,
+      "train_samples_per_second": 2.982,
+      "train_steps_per_second": 0.023
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 165,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}