Model save

Browse files

Files changed (9) hide show

README.md +14 -14
all_results.json +18 -18
eval_results.json +14 -14
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,17 +15,17 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3023.6533
-- Rewards/chosen: -0.6906
-- Rewards/rejected: -0.6752
-- Rewards/accuracies: 0.4671
-- Rewards/margins: -0.0155
-- Rewards/safe Rewards: -0.6907
-- Rewards/unsafe Rewards: -0.6886
-- Logps/rejected: -159.8684
-- Logps/chosen: -199.9275
-- Logits/rejected: -1.4133
-- Logits/chosen: -1.7139
 ## Model description
@@ -62,9 +62,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Rewards/safe Rewards | Rewards/unsafe Rewards | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------------:|:----------------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 6785.8539     | 0.27  | 500  | 3119.0669       | -0.6463        | -0.6344          | 0.4765             | -0.0119         | -0.6475              | -0.6439                | -155.7914      | -195.4988    | -1.4656         | -1.7600       |
-| 6458.732      | 0.54  | 1000 | 3057.4275       | -0.6406        | -0.6321          | 0.4848             | -0.0085         | -0.6397              | -0.6374                | -155.5639      | -194.9297    | -1.4110         | -1.7036       |
-| 5925.3711     | 0.81  | 1500 | 3026.4443       | -0.7053        | -0.6899          | 0.4667             | -0.0154         | -0.7055              | -0.7034                | -161.3376      | -201.3946    | -1.3719         | -1.6829       |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6777
+- Rewards/chosen: -0.1371
+- Rewards/rejected: -0.0830
+- Rewards/accuracies: 0.4693
+- Rewards/margins: -0.0541
+- Rewards/safe Rewards: -0.1332
+- Rewards/unsafe Rewards: -0.1263
+- Logps/rejected: -92.4348
+- Logps/chosen: -131.0029
+- Logits/rejected: -1.8308
+- Logits/chosen: -2.0825
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Rewards/safe Rewards | Rewards/unsafe Rewards | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------------:|:----------------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 131.6857      | 0.27  | 500  | 0.8894          | -0.1023        | -0.0129          | 0.4546             | -0.0893         | -0.1043              | -0.1017                | -92.3648       | -130.9681    | -1.8032         | -2.0565       |
+| 34.7958       | 0.54  | 1000 | 0.7397          | -0.1263        | -0.1290          | 0.5028             | 0.0026          | -0.1237              | -0.1264                | -92.4809       | -130.9922    | -1.7990         | -2.0551       |
+| 15.9924       | 0.81  | 1500 | 0.6823          | -0.1578        | -0.1077          | 0.4713             | -0.0501         | -0.1557              | -0.1535                | -92.4596       | -131.0237    | -1.8335         | -2.0849       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,23 +1,23 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -1.7139310836791992,
-    "eval_logits/rejected": -1.4132570028305054,
-    "eval_logps/chosen": -199.92747497558594,
-    "eval_logps/rejected": -159.868408203125,
-    "eval_loss": 3023.6533203125,
-    "eval_rewards/accuracies": 0.46708616614341736,
-    "eval_rewards/chosen": -0.6906158924102783,
-    "eval_rewards/margins": -0.015450715087354183,
-    "eval_rewards/rejected": -0.6751651763916016,
-    "eval_rewards/safe_rewards": -0.6906617283821106,
-    "eval_rewards/unsafe_rewards": -0.6885586977005005,
-    "eval_runtime": 1795.035,
     "eval_samples": 33044,
-    "eval_samples_per_second": 18.409,
-    "eval_steps_per_second": 1.151,
-    "train_loss": 6725.912355355221,
-    "train_runtime": 39534.0439,
     "train_samples": 59478,
-    "train_samples_per_second": 1.504,
-    "train_steps_per_second": 0.047
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.0824697017669678,
+    "eval_logits/rejected": -1.830767273902893,
+    "eval_logps/chosen": -131.0029296875,
+    "eval_logps/rejected": -92.43484497070312,
+    "eval_loss": 0.6776853799819946,
+    "eval_rewards/accuracies": 0.4693247675895691,
+    "eval_rewards/chosen": -0.13705651462078094,
+    "eval_rewards/margins": -0.0540921576321125,
+    "eval_rewards/rejected": -0.08296435326337814,
+    "eval_rewards/safe_rewards": -0.1332445591688156,
+    "eval_rewards/unsafe_rewards": -0.12632378935813904,
+    "eval_runtime": 2192.4744,
     "eval_samples": 33044,
+    "eval_samples_per_second": 15.072,
+    "eval_steps_per_second": 0.942,
+    "train_loss": 67.04043597990268,
+    "train_runtime": 46860.0347,
     "train_samples": 59478,
+    "train_samples_per_second": 1.269,
+    "train_steps_per_second": 0.04
 }

eval_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -1.7139310836791992,
-    "eval_logits/rejected": -1.4132570028305054,
-    "eval_logps/chosen": -199.92747497558594,
-    "eval_logps/rejected": -159.868408203125,
-    "eval_loss": 3023.6533203125,
-    "eval_rewards/accuracies": 0.46708616614341736,
-    "eval_rewards/chosen": -0.6906158924102783,
-    "eval_rewards/margins": -0.015450715087354183,
-    "eval_rewards/rejected": -0.6751651763916016,
-    "eval_rewards/safe_rewards": -0.6906617283821106,
-    "eval_rewards/unsafe_rewards": -0.6885586977005005,
-    "eval_runtime": 1795.035,
     "eval_samples": 33044,
-    "eval_samples_per_second": 18.409,
-    "eval_steps_per_second": 1.151
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.0824697017669678,
+    "eval_logits/rejected": -1.830767273902893,
+    "eval_logps/chosen": -131.0029296875,
+    "eval_logps/rejected": -92.43484497070312,
+    "eval_loss": 0.6776853799819946,
+    "eval_rewards/accuracies": 0.4693247675895691,
+    "eval_rewards/chosen": -0.13705651462078094,
+    "eval_rewards/margins": -0.0540921576321125,
+    "eval_rewards/rejected": -0.08296435326337814,
+    "eval_rewards/safe_rewards": -0.1332445591688156,
+    "eval_rewards/unsafe_rewards": -0.12632378935813904,
+    "eval_runtime": 2192.4744,
     "eval_samples": 33044,
+    "eval_samples_per_second": 15.072,
+    "eval_steps_per_second": 0.942
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01237913dca4e700daa4070cc683b6c13eda89cf78d0c54d3d09c82bdaa0842a
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:005b34c91ebaa026860cca1e704abc2402ba69afd83236ee5d27f7e1e15d031c
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ac1f6a38f78078267979eae09aa2b664f60205c937f1fca757e3921367dcc91
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe8d611e1e8a1c0bd56081caa5c4f58848991500b8d808474c45e165dcff2970
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdfc8fe0bf89b7b810c08d39643a79f057791b632edd8ed43ac59f0f49be6560
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ed22c07e58842f8b48f59a68fe182733f40403ad2009f48c3335fc1cbfc9ae0
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 6725.912355355221,
-    "train_runtime": 39534.0439,
     "train_samples": 59478,
-    "train_samples_per_second": 1.504,
-    "train_steps_per_second": 0.047
 }

 {
     "epoch": 1.0,
+    "train_loss": 67.04043597990268,
+    "train_runtime": 46860.0347,
     "train_samples": 59478,
+    "train_samples_per_second": 1.269,
+    "train_steps_per_second": 0.04
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ed17eaa36b3513ff95ee3b96b854d0972cbc8b033863f035e366e1ef021a0ad
 size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:f72d18ce63262d3807c3741e2f37efb3616938ca3f3f1a048863334c1a483281
 size 6200