Model save

Browse files

Files changed (9) hide show

README.md +44 -44
all_results.json +16 -16
eval_results.json +12 -12
model.safetensors +1 -1
runs/Oct06_14-30-18_xe8545-a100-22/events.out.tfevents.1728231189.xe8545-a100-22.2422281.1 +3 -0
runs/Oct07_05-34-25_xe8545-a100-22/events.out.tfevents.1728272702.xe8545-a100-22.2437144.0 +3 -0
train_results.json +4 -4
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,15 +17,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5703
-- Rewards/chosen: -13.1875
-- Rewards/rejected: -14.6875
-- Rewards/accuracies: 0.5898
-- Rewards/margins: 1.5
-- Logps/rejected: -1760.0
-- Logps/chosen: -1640.0
-- Logits/rejected: 8.0
-- Logits/chosen: 6.0312
 ## Model description
@@ -62,41 +62,41 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6384        | 0.0838 | 80   | 0.6899          | -0.7109        | -0.7969          | 0.5566             | 0.0854          | -368.0         | -390.0       | -9.8125         | -10.125       |
-| 0.6225        | 0.1675 | 160  | 0.7090          | -1.4844        | -1.6094          | 0.5508             | 0.1279          | -450.0         | -466.0       | -9.25           | -9.6875       |
-| 0.6067        | 0.2513 | 240  | 0.7372          | -2.1875        | -2.375           | 0.5625             | 0.1865          | -528.0         | -540.0       | -6.75           | -7.5312       |
-| 0.63          | 0.3351 | 320  | 0.7781          | -2.9688        | -3.1719          | 0.5723             | 0.2051          | -604.0         | -616.0       | -4.3125         | -5.2188       |
-| 0.6294        | 0.4188 | 400  | 0.7330          | -2.5938        | -2.8594          | 0.5977             | 0.2773          | -576.0         | -576.0       | -4.6562         | -5.75         |
-| 0.6199        | 0.5026 | 480  | 0.7532          | -3.3438        | -3.6719          | 0.5820             | 0.3301          | -656.0         | -652.0       | -7.9688         | -8.9375       |
-| 0.5935        | 0.5864 | 560  | 0.7359          | -4.0625        | -4.4062          | 0.5859             | 0.3262          | -728.0         | -724.0       | -7.9062         | -8.875        |
-| 0.5859        | 0.6702 | 640  | 0.7149          | -3.6719        | -4.125           | 0.6191             | 0.4648          | -704.0         | -684.0       | -5.125          | -6.4062       |
-| 0.6127        | 0.7539 | 720  | 0.7057          | -3.7031        | -4.0312          | 0.6016             | 0.3320          | -692.0         | -688.0       | -6.875          | -8.0          |
-| 0.6012        | 0.8377 | 800  | 0.7512          | -3.6406        | -3.9375          | 0.5938             | 0.2988          | -684.0         | -684.0       | -10.75          | -11.125       |
-| 0.5948        | 0.9215 | 880  | 0.7496          | -3.0938        | -3.4531          | 0.5918             | 0.3457          | -632.0         | -628.0       | -4.9688         | -6.875        |
-| 0.434         | 1.0052 | 960  | 0.7349          | -4.4062        | -4.9688          | 0.6289             | 0.5703          | -784.0         | -760.0       | -2.8906         | -4.75         |
-| 0.1948        | 1.0890 | 1040 | 1.0377          | -7.0           | -7.75            | 0.6211             | 0.7539          | -1064.0        | -1016.0      | 1.125           | -0.8477       |
-| 0.2139        | 1.1728 | 1120 | 0.9297          | -7.7188        | -8.375           | 0.6133             | 0.6562          | -1128.0        | -1088.0      | 3.2969          | 1.5469        |
-| 0.1666        | 1.2565 | 1200 | 1.0332          | -8.375         | -9.0625          | 0.5840             | 0.7109          | -1200.0        | -1152.0      | 2.9219          | 1.0859        |
-| 0.1994        | 1.3403 | 1280 | 0.9937          | -7.4688        | -8.25            | 0.5918             | 0.7969          | -1112.0        | -1064.0      | 0.4863          | -1.6797       |
-| 0.1836        | 1.4241 | 1360 | 0.9652          | -7.4688        | -8.3125          | 0.6074             | 0.8359          | -1120.0        | -1064.0      | 1.3984          | -0.7383       |
-| 0.153         | 1.5079 | 1440 | 1.1797          | -9.6875        | -10.625          | 0.5938             | 0.9102          | -1352.0        | -1288.0      | 4.0             | 1.9219        |
-| 0.1398        | 1.5916 | 1520 | 1.0459          | -9.0           | -9.9375          | 0.5996             | 0.9609          | -1280.0        | -1216.0      | 4.1875          | 2.1562        |
-| 0.1634        | 1.6754 | 1600 | 1.0131          | -9.0625        | -10.0            | 0.5977             | 0.9375          | -1288.0        | -1224.0      | 2.4062          | 0.1006        |
-| 0.1777        | 1.7592 | 1680 | 1.0902          | -8.6875        | -9.625           | 0.625              | 0.9219          | -1248.0        | -1192.0      | 3.5312          | 1.1875        |
-| 0.1536        | 1.8429 | 1760 | 1.0046          | -9.125         | -10.0625         | 0.6074             | 0.9180          | -1296.0        | -1232.0      | 3.8281          | 1.6797        |
-| 0.1713        | 1.9267 | 1840 | 1.0627          | -9.3125        | -10.375          | 0.6230             | 1.0781          | -1328.0        | -1248.0      | 5.2812          | 3.0781        |
-| 0.0282        | 2.0105 | 1920 | 1.0638          | -9.0625        | -10.125          | 0.6133             | 1.0625          | -1304.0        | -1224.0      | 4.125           | 1.8281        |
-| 0.0234        | 2.0942 | 2000 | 1.3751          | -11.625        | -12.8125         | 0.5957             | 1.2266          | -1568.0        | -1480.0      | 6.5938          | 4.5           |
-| 0.0167        | 2.1780 | 2080 | 1.4855          | -12.625        | -14.0            | 0.5977             | 1.375           | -1688.0        | -1584.0      | 7.5             | 5.4375        |
-| 0.0366        | 2.2618 | 2160 | 1.4665          | -12.1875       | -13.5625         | 0.5957             | 1.3594          | -1648.0        | -1536.0      | 7.3125          | 5.25          |
-| 0.0268        | 2.3455 | 2240 | 1.5465          | -12.8125       | -14.1875         | 0.5996             | 1.3594          | -1712.0        | -1600.0      | 7.6875          | 5.7188        |
-| 0.0241        | 2.4293 | 2320 | 1.5025          | -12.25         | -13.6875         | 0.5996             | 1.4219          | -1656.0        | -1544.0      | 7.25            | 5.1875        |
-| 0.0261        | 2.5131 | 2400 | 1.5371          | -12.75         | -14.1875         | 0.5938             | 1.4375          | -1712.0        | -1592.0      | 7.5312          | 5.5           |
-| 0.0245        | 2.5969 | 2480 | 1.5284          | -12.625        | -14.0625         | 0.5977             | 1.4453          | -1696.0        | -1584.0      | 7.625           | 5.5625        |
-| 0.0249        | 2.6806 | 2560 | 1.5392          | -12.8125       | -14.25           | 0.5938             | 1.4766          | -1712.0        | -1600.0      | 7.7812          | 5.7188        |
-| 0.02          | 2.7644 | 2640 | 1.5571          | -13.0625       | -14.5625         | 0.5898             | 1.4922          | -1744.0        | -1624.0      | 7.9375          | 5.9375        |
-| 0.0194        | 2.8482 | 2720 | 1.5688          | -13.1875       | -14.6875         | 0.5898             | 1.5             | -1760.0        | -1640.0      | 8.0625          | 6.0312        |
-| 0.0163        | 2.9319 | 2800 | 1.5703          | -13.1875       | -14.6875         | 0.5898             | 1.5             | -1760.0        | -1640.0      | 8.0             | 6.0312        |
 ### Framework versions

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6190
+- Rewards/chosen: -13.625
+- Rewards/rejected: -15.0625
+- Rewards/accuracies: 0.5996
+- Rewards/margins: 1.4688
+- Logps/rejected: -1800.0
+- Logps/chosen: -1680.0
+- Logits/rejected: 1.0625
+- Logits/chosen: -0.2695
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6378        | 0.0838 | 80   | 0.6868          | -0.6758        | -0.7656          | 0.5684             | 0.0918          | -366.0         | -386.0       | -9.875          | -10.125       |
+| 0.6219        | 0.1675 | 160  | 0.6949          | -0.9102        | -1.0547          | 0.5977             | 0.1406          | -394.0         | -410.0       | -10.125         | -10.5         |
+| 0.6151        | 0.2513 | 240  | 0.7637          | -2.4531        | -2.6562          | 0.5566             | 0.2031          | -552.0         | -564.0       | -10.9375        | -11.25        |
+| 0.6607        | 0.3351 | 320  | 0.7307          | -2.7344        | -2.9375          | 0.5742             | 0.1992          | -584.0         | -592.0       | -14.25          | -14.4375      |
+| 0.6304        | 0.4188 | 400  | 0.7129          | -2.7344        | -3.0156          | 0.5898             | 0.2715          | -588.0         | -592.0       | -12.5           | -13.0         |
+| 0.623         | 0.5026 | 480  | 0.7718          | -2.5469        | -2.9375          | 0.5859             | 0.3887          | -584.0         | -572.0       | -8.0625         | -9.0          |
+| 0.6091        | 0.5864 | 560  | 0.7543          | -3.3281        | -3.6562          | 0.5957             | 0.3320          | -656.0         | -652.0       | -12.0           | -12.75        |
+| 0.583         | 0.6702 | 640  | 0.7081          | -3.25          | -3.7031          | 0.6406             | 0.4648          | -660.0         | -644.0       | -9.0            | -10.0625      |
+| 0.6183        | 0.7539 | 720  | 0.7397          | -3.7812        | -4.0938          | 0.5996             | 0.3242          | -700.0         | -696.0       | -8.5625         | -9.4375       |
+| 0.5988        | 0.8377 | 800  | 0.7986          | -4.4688        | -4.9375          | 0.5898             | 0.4609          | -784.0         | -764.0       | -7.9062         | -8.9375       |
+| 0.5882        | 0.9215 | 880  | 0.7997          | -3.2656        | -3.6562          | 0.5879             | 0.3906          | -656.0         | -644.0       | -8.3125         | -9.1875       |
+| 0.4256        | 1.0052 | 960  | 0.7816          | -4.5312        | -5.1875          | 0.6172             | 0.6367          | -808.0         | -772.0       | -6.75           | -7.9062       |
+| 0.2006        | 1.0890 | 1040 | 0.9734          | -5.9688        | -6.6875          | 0.6094             | 0.7383          | -960.0         | -916.0       | -4.7812         | -6.0625       |
+| 0.1977        | 1.1728 | 1120 | 0.9420          | -6.25          | -7.0             | 0.6094             | 0.7578          | -988.0         | -944.0       | -5.0            | -6.25         |
+| 0.1717        | 1.2565 | 1200 | 1.0548          | -7.4688        | -8.25            | 0.5918             | 0.7852          | -1112.0        | -1064.0      | -4.5            | -5.8125       |
+| 0.1881        | 1.3403 | 1280 | 0.9567          | -6.9688        | -7.8125          | 0.6035             | 0.8672          | -1072.0        | -1012.0      | -3.2188         | -4.4688       |
+| 0.1897        | 1.4241 | 1360 | 0.9563          | -6.9688        | -7.8438          | 0.6055             | 0.8867          | -1072.0        | -1016.0      | -4.2812         | -5.6875       |
+| 0.1383        | 1.5079 | 1440 | 1.1196          | -8.5625        | -9.5             | 0.6055             | 0.9922          | -1240.0        | -1176.0      | -2.5938         | -3.9062       |
+| 0.146         | 1.5916 | 1520 | 1.0767          | -9.5           | -10.5            | 0.6055             | 1.0078          | -1336.0        | -1264.0      | -1.6797         | -3.0312       |
+| 0.1831        | 1.6754 | 1600 | 0.9776          | -8.0625        | -8.9375          | 0.6055             | 0.8516          | -1184.0        | -1128.0      | -2.2344         | -3.5938       |
+| 0.1667        | 1.7592 | 1680 | 1.0210          | -7.75          | -8.625           | 0.5957             | 0.9023          | -1152.0        | -1088.0      | -1.7344         | -3.2344       |
+| 0.1514        | 1.8429 | 1760 | 1.0214          | -8.6875        | -9.6875          | 0.6133             | 0.9805          | -1256.0        | -1184.0      | -1.1719         | -2.5312       |
+| 0.1594        | 1.9267 | 1840 | 1.0633          | -8.8125        | -9.75            | 0.5977             | 0.9727          | -1264.0        | -1200.0      | -1.2344         | -2.625        |
+| 0.0307        | 2.0105 | 1920 | 1.0948          | -8.75          | -9.75            | 0.6172             | 1.0312          | -1264.0        | -1192.0      | -1.4531         | -2.9844       |
+| 0.0214        | 2.0942 | 2000 | 1.5354          | -12.25         | -13.3125         | 0.6094             | 1.1016          | -1624.0        | -1544.0      | 0.1973          | -1.2031       |
+| 0.0186        | 2.1780 | 2080 | 1.5790          | -13.5625       | -14.9375         | 0.6055             | 1.3906          | -1784.0        | -1680.0      | 0.4902          | -0.9102       |
+| 0.0395        | 2.2618 | 2160 | 1.5234          | -12.0625       | -13.1875         | 0.6035             | 1.1406          | -1608.0        | -1520.0      | 0.5391          | -0.7656       |
+| 0.0217        | 2.3455 | 2240 | 1.5867          | -13.1875       | -14.5625         | 0.6035             | 1.375           | -1744.0        | -1632.0      | 0.8945          | -0.4141       |
+| 0.0268        | 2.4293 | 2320 | 1.5888          | -13.0          | -14.375          | 0.6035             | 1.4219          | -1728.0        | -1616.0      | 0.6797          | -0.6758       |
+| 0.0238        | 2.5131 | 2400 | 1.6647          | -13.625        | -15.0625         | 0.6055             | 1.4453          | -1792.0        | -1680.0      | 0.9648          | -0.3633       |
+| 0.0227        | 2.5969 | 2480 | 1.5873          | -13.125        | -14.5625         | 0.6094             | 1.4375          | -1744.0        | -1632.0      | 0.9258          | -0.4199       |
+| 0.0233        | 2.6806 | 2560 | 1.5836          | -13.1875       | -14.625          | 0.6035             | 1.4297          | -1752.0        | -1640.0      | 0.9297          | -0.4180       |
+| 0.021         | 2.7644 | 2640 | 1.5917          | -13.4375       | -14.9375         | 0.6094             | 1.4609          | -1776.0        | -1664.0      | 1.0078          | -0.3223       |
+| 0.0221        | 2.8482 | 2720 | 1.6077          | -13.5625       | -15.0            | 0.6035             | 1.4609          | -1792.0        | -1672.0      | 1.0469          | -0.2793       |
+| 0.0182        | 2.9319 | 2800 | 1.6190          | -13.625        | -15.0625         | 0.5996             | 1.4688          | -1800.0        | -1680.0      | 1.0625          | -0.2695       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": 0.53125,
-    "eval_logits/rejected": 2.40625,
-    "eval_logps/chosen": -1632.0,
-    "eval_logps/rejected": -1728.0,
-    "eval_loss": 1.5954219102859497,
-    "eval_rewards/accuracies": 0.60546875,
-    "eval_rewards/chosen": -13.125,
-    "eval_rewards/margins": 1.3046875,
-    "eval_rewards/rejected": -14.4375,
-    "eval_runtime": 46.8279,
     "eval_samples": 2000,
-    "eval_samples_per_second": 42.71,
-    "eval_steps_per_second": 0.683,
     "total_flos": 0.0,
-    "train_loss": 0.27230105622692674,
-    "train_runtime": 12616.2292,
     "train_samples": 61119,
-    "train_samples_per_second": 14.533,
-    "train_steps_per_second": 0.227
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": 6.03125,
+    "eval_logits/rejected": 8.0625,
+    "eval_logps/chosen": -1640.0,
+    "eval_logps/rejected": -1760.0,
+    "eval_loss": 1.570968747138977,
+    "eval_rewards/accuracies": 0.58984375,
+    "eval_rewards/chosen": -13.1875,
+    "eval_rewards/margins": 1.5,
+    "eval_rewards/rejected": -14.6875,
+    "eval_runtime": 46.4721,
     "eval_samples": 2000,
+    "eval_samples_per_second": 43.037,
+    "eval_steps_per_second": 0.689,
     "total_flos": 0.0,
+    "train_loss": 0.2725709742172434,
+    "train_runtime": 12848.3898,
     "train_samples": 61119,
+    "train_samples_per_second": 14.271,
+    "train_steps_per_second": 0.223
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": 0.53125,
-    "eval_logits/rejected": 2.40625,
-    "eval_logps/chosen": -1632.0,
-    "eval_logps/rejected": -1728.0,
-    "eval_loss": 1.5954219102859497,
-    "eval_rewards/accuracies": 0.60546875,
-    "eval_rewards/chosen": -13.125,
-    "eval_rewards/margins": 1.3046875,
-    "eval_rewards/rejected": -14.4375,
-    "eval_runtime": 46.8279,
     "eval_samples": 2000,
-    "eval_samples_per_second": 42.71,
-    "eval_steps_per_second": 0.683
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": 6.03125,
+    "eval_logits/rejected": 8.0625,
+    "eval_logps/chosen": -1640.0,
+    "eval_logps/rejected": -1760.0,
+    "eval_loss": 1.570968747138977,
+    "eval_rewards/accuracies": 0.58984375,
+    "eval_rewards/chosen": -13.1875,
+    "eval_rewards/margins": 1.5,
+    "eval_rewards/rejected": -14.6875,
+    "eval_runtime": 46.4721,
     "eval_samples": 2000,
+    "eval_samples_per_second": 43.037,
+    "eval_steps_per_second": 0.689
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21670fe06ce3aa8d2e6bf2fd073f536f60f474a108bdf2afaada591e3297982b
 size 2159808696

 version https://git-lfs.github.com/spec/v1
+oid sha256:38039d5eccb823cfff424ee8f1920682a7cc7b53a509c3ee81af97620feb6afb
 size 2159808696

runs/Oct06_14-30-18_xe8545-a100-22/events.out.tfevents.1728231189.xe8545-a100-22.2422281.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c443871bfcb289f7178e54e393dc1c1fa12831afa9524acd951cfe60f514bb70
+size 828

runs/Oct07_05-34-25_xe8545-a100-22/events.out.tfevents.1728272702.xe8545-a100-22.2437144.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2affcba54e32b39805bf8c0d1f8f43b900e01f0dfb49fbda22a9e1611e3d1438
+size 230878

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 0.0,
-    "train_loss": 0.27230105622692674,
-    "train_runtime": 12616.2292,
     "train_samples": 61119,
-    "train_samples_per_second": 14.533,
-    "train_steps_per_second": 0.227
 }

 {
     "epoch": 3.0,
     "total_flos": 0.0,
+    "train_loss": 0.2725709742172434,
+    "train_runtime": 12848.3898,
     "train_samples": 61119,
+    "train_samples_per_second": 14.271,
+    "train_steps_per_second": 0.223
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbd3173082e109bde939d1add2fe75f094a12ea0232ad4b3ed9313a57e7e5a80
 size 7672

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d5f26a14b09f4528573f175fc5f90341acc67f55d171b6caea994426b48d768
 size 7672