Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +85 -85
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/kifish-k/huggingface/runs/ez3kxa2t)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/kifish-k/huggingface/runs/xot29f9k)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.08129200656737245,
-    "train_runtime": 12851.1722,
     "train_samples": 7500,
-    "train_samples_per_second": 0.584,
-    "train_steps_per_second": 0.005
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.01571170037346621,
+    "train_runtime": 7483.8014,
     "train_samples": 7500,
+    "train_samples_per_second": 1.002,
+    "train_steps_per_second": 0.008
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24a93abebdeb133d4ec524e1aa55cdda9ade6d1994ab1707e3982dffca6c0051
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdb632cde9539e3209be92868df94c5e5b4bd1a2474dadd18204c4a1afba3bc8
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00597f114878a6eaff7d2af7891a1ca57a344de7a63c93eae3cb7b71377121f0
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:6030d136e478d0aa2020a1c3931dd8050c750caada245d98f1147a7a154cd1c3
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a5af5fe712c2c2abf81fef39eba2383fbd77fd8c89ff3ad221b1d5137a2e64f
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7f6b4e94ff3267dbbb54bb1e83ef4891ff7cea80d7e0d407414b4654a7df050
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4003c925ff951f7281814aeffc391620e3cd828437b268222c2660bdfad9c12d
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d88e1ceab35f6614fbf7731a012e90c34f88b13c3cdc4b72457cf17539d3690
 size 1089994880

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.08129200656737245,
-    "train_runtime": 12851.1722,
     "train_samples": 7500,
-    "train_samples_per_second": 0.584,
-    "train_steps_per_second": 0.005
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.01571170037346621,
+    "train_runtime": 7483.8014,
     "train_samples": 7500,
+    "train_samples_per_second": 1.002,
+    "train_steps_per_second": 0.008
 }

trainer_state.json CHANGED Viewed

@@ -9,162 +9,162 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 613.2511436462403,
       "epoch": 0.08528784648187633,
-      "grad_norm": 1.4833499193191528,
-      "kl": 0.00018868446350097656,
       "learning_rate": 2.5e-06,
       "loss": 0.0,
-      "reward": 0.633258955925703,
-      "reward_std": 0.32811579667031765,
-      "rewards/accuracy_reward": 0.6328125290572644,
-      "rewards/format_reward": 0.00044642859138548373,
       "step": 5
     },
     {
-      "completion_length": 622.7888648986816,
       "epoch": 0.17057569296375266,
-      "grad_norm": 5.005911350250244,
-      "kl": 23.51236982345581,
       "learning_rate": 2.956412726139078e-06,
-      "loss": 0.9434,
-      "reward": 0.7042411074042321,
-      "reward_std": 0.28605092857033015,
-      "rewards/accuracy_reward": 0.7037946790456772,
-      "rewards/format_reward": 0.00044642859138548373,
       "step": 10
     },
     {
-      "completion_length": 622.0384216308594,
       "epoch": 0.255863539445629,
-      "grad_norm": 0.3033592402935028,
-      "kl": 0.011827850341796875,
       "learning_rate": 2.7836719084521715e-06,
-      "loss": 0.0005,
-      "reward": 0.7473214641213417,
-      "reward_std": 0.24078086167573928,
-      "rewards/accuracy_reward": 0.7473214641213417,
       "rewards/format_reward": 0.0,
       "step": 15
     },
     {
-      "completion_length": 617.8234657287597,
       "epoch": 0.3411513859275053,
-      "grad_norm": 0.11973369121551514,
-      "kl": 0.13522472381591796,
       "learning_rate": 2.4946839873611927e-06,
-      "loss": 0.0054,
-      "reward": 0.7578125327825547,
-      "reward_std": 0.21702875867486,
-      "rewards/accuracy_reward": 0.7578125327825547,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
-      "completion_length": 612.831502532959,
       "epoch": 0.42643923240938164,
-      "grad_norm": 0.2234116494655609,
-      "kl": 0.0034147262573242187,
       "learning_rate": 2.1156192081791355e-06,
-      "loss": 0.0001,
-      "reward": 0.747544676065445,
-      "reward_std": 0.20008923448622226,
-      "rewards/accuracy_reward": 0.747544676065445,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
-      "completion_length": 611.4951187133789,
       "epoch": 0.511727078891258,
-      "grad_norm": 0.23166193068027496,
-      "kl": 0.0030916213989257814,
       "learning_rate": 1.6808050203829845e-06,
       "loss": 0.0001,
-      "reward": 0.7486607506871223,
-      "reward_std": 0.19252096004784108,
-      "rewards/accuracy_reward": 0.7486607506871223,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
-      "completion_length": 599.3102935791015,
       "epoch": 0.5970149253731343,
-      "grad_norm": 0.34214457869529724,
-      "kl": 0.003481292724609375,
       "learning_rate": 1.2296174432791415e-06,
       "loss": 0.0001,
-      "reward": 0.7500000327825547,
-      "reward_std": 0.17259779190644622,
-      "rewards/accuracy_reward": 0.7500000327825547,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
-      "completion_length": 592.0377464294434,
       "epoch": 0.6823027718550106,
-      "grad_norm": 0.126151442527771,
-      "kl": 0.004676437377929688,
       "learning_rate": 8.029152419343472e-07,
-      "loss": 0.0002,
-      "reward": 0.7714286059141159,
-      "reward_std": 0.18749583773314954,
-      "rewards/accuracy_reward": 0.7714286059141159,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
-      "completion_length": 608.4870819091797,
       "epoch": 0.767590618336887,
-      "grad_norm": 0.07366354763507843,
-      "kl": 0.0032756805419921877,
       "learning_rate": 4.3933982822017883e-07,
-      "loss": 0.0001,
-      "reward": 0.7595982506871224,
-      "reward_std": 0.16678393790498375,
-      "rewards/accuracy_reward": 0.7595982506871224,
       "rewards/format_reward": 0.0,
       "step": 45
     },
     {
-      "completion_length": 609.9491363525391,
       "epoch": 0.8528784648187633,
-      "grad_norm": 0.08962756395339966,
-      "kl": 0.0033018112182617186,
       "learning_rate": 1.718159615201853e-07,
-      "loss": 0.0001,
-      "reward": 0.7435268208384513,
-      "reward_std": 0.18068666788749396,
-      "rewards/accuracy_reward": 0.7435268208384513,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
-      "completion_length": 596.2395317077637,
       "epoch": 0.9381663113006397,
-      "grad_norm": 0.08790023624897003,
-      "kl": 0.00357818603515625,
       "learning_rate": 2.4570139579284723e-08,
-      "loss": 0.0001,
-      "reward": 0.7866071850061417,
-      "reward_std": 0.1857817579060793,
-      "rewards/accuracy_reward": 0.7866071850061417,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
-      "completion_length": 594.5562032063802,
       "epoch": 0.9893390191897654,
-      "kl": 0.003570556640625,
-      "reward": 0.7671131292978922,
-      "reward_std": 0.18057130742818117,
-      "rewards/accuracy_reward": 0.7671131292978922,
       "rewards/format_reward": 0.0,
       "step": 58,
       "total_flos": 0.0,
-      "train_loss": 0.08129200656737245,
-      "train_runtime": 12851.1722,
-      "train_samples_per_second": 0.584,
-      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 5,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 613.9678833007813,
       "epoch": 0.08528784648187633,
+      "grad_norm": 1.6863154172897339,
+      "kl": 0.0001811981201171875,
       "learning_rate": 2.5e-06,
       "loss": 0.0,
+      "reward": 0.6475446730852127,
+      "reward_std": 0.32297179140150545,
+      "rewards/accuracy_reward": 0.646651816368103,
+      "rewards/format_reward": 0.0008928571827709675,
       "step": 5
     },
     {
+      "completion_length": 623.497127532959,
       "epoch": 0.17057569296375266,
+      "grad_norm": 5.361064910888672,
+      "kl": 4.185117244720459,
       "learning_rate": 2.956412726139078e-06,
+      "loss": 0.1668,
+      "reward": 0.695758955180645,
+      "reward_std": 0.2824364464730024,
+      "rewards/accuracy_reward": 0.6948660999536515,
+      "rewards/format_reward": 0.0008928571827709675,
       "step": 10
     },
     {
+      "completion_length": 621.0348518371582,
       "epoch": 0.255863539445629,
+      "grad_norm": 0.34819459915161133,
+      "kl": 0.006930732727050781,
       "learning_rate": 2.7836719084521715e-06,
+      "loss": 0.0003,
+      "reward": 0.7484375357627868,
+      "reward_std": 0.23940655626356602,
+      "rewards/accuracy_reward": 0.7484375357627868,
       "rewards/format_reward": 0.0,
       "step": 15
     },
     {
+      "completion_length": 617.9591751098633,
       "epoch": 0.3411513859275053,
+      "grad_norm": 5.891634941101074,
+      "kl": 0.007678604125976563,
       "learning_rate": 2.4946839873611927e-06,
+      "loss": 0.0003,
+      "reward": 0.7546875327825546,
+      "reward_std": 0.23243394643068313,
+      "rewards/accuracy_reward": 0.7546875327825546,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
+      "completion_length": 625.6734642028808,
       "epoch": 0.42643923240938164,
+      "grad_norm": 0.4985528588294983,
+      "kl": 0.06998424530029297,
       "learning_rate": 2.1156192081791355e-06,
+      "loss": 0.0028,
+      "reward": 0.7497768148779869,
+      "reward_std": 0.20579003393650055,
+      "rewards/accuracy_reward": 0.7497768148779869,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
+      "completion_length": 621.3915466308594,
       "epoch": 0.511727078891258,
+      "grad_norm": 0.4441167712211609,
+      "kl": 0.0034616470336914064,
       "learning_rate": 1.6808050203829845e-06,
       "loss": 0.0001,
+      "reward": 0.7517857521772384,
+      "reward_std": 0.19103028811514378,
+      "rewards/accuracy_reward": 0.7517857521772384,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
+      "completion_length": 611.6134216308594,
       "epoch": 0.5970149253731343,
+      "grad_norm": 0.45489344000816345,
+      "kl": 0.003511810302734375,
       "learning_rate": 1.2296174432791415e-06,
       "loss": 0.0001,
+      "reward": 0.7323660954833031,
+      "reward_std": 0.19216552414000035,
+      "rewards/accuracy_reward": 0.7323660954833031,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
+      "completion_length": 594.996004486084,
       "epoch": 0.6823027718550106,
+      "grad_norm": 0.38299915194511414,
+      "kl": 0.0036407470703125,
       "learning_rate": 8.029152419343472e-07,
+      "loss": 0.0001,
+      "reward": 0.7618303939700126,
+      "reward_std": 0.182381122559309,
+      "rewards/accuracy_reward": 0.7618303939700126,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
+      "completion_length": 607.5631973266602,
       "epoch": 0.767590618336887,
+      "grad_norm": 0.1558612883090973,
+      "kl": 0.003850555419921875,
       "learning_rate": 4.3933982822017883e-07,
+      "loss": 0.0002,
+      "reward": 0.7508928924798965,
+      "reward_std": 0.19622449725866317,
+      "rewards/accuracy_reward": 0.7508928924798965,
       "rewards/format_reward": 0.0,
       "step": 45
     },
     {
+      "completion_length": 610.1696670532226,
       "epoch": 0.8528784648187633,
+      "grad_norm": 0.11370094120502472,
+      "kl": 0.004032135009765625,
       "learning_rate": 1.718159615201853e-07,
+      "loss": 0.0002,
+      "reward": 0.7486607491970062,
+      "reward_std": 0.17984699215739966,
+      "rewards/accuracy_reward": 0.7486607491970062,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
+      "completion_length": 603.7953384399414,
       "epoch": 0.9381663113006397,
+      "grad_norm": 0.09367287904024124,
+      "kl": 0.0048553466796875,
       "learning_rate": 2.4570139579284723e-08,
+      "loss": 0.0002,
+      "reward": 0.7750000357627869,
+      "reward_std": 0.18225797163322568,
+      "rewards/accuracy_reward": 0.7750000357627869,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
+      "completion_length": 598.5974960327148,
       "epoch": 0.9893390191897654,
+      "kl": 0.003758112589518229,
+      "reward": 0.7678571765621504,
+      "reward_std": 0.18772160820662975,
+      "rewards/accuracy_reward": 0.7678571765621504,
       "rewards/format_reward": 0.0,
       "step": 58,
       "total_flos": 0.0,
+      "train_loss": 0.01571170037346621,
+      "train_runtime": 7483.8014,
+      "train_samples_per_second": 1.002,
+      "train_steps_per_second": 0.008
     }
   ],
   "logging_steps": 5,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03a0cf36012692bc8f8d495df3134fbd53fbdbf21083651acc2f91d15b60f19a
 size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9997f26134981ab163e535c40b79bb04034a38f546fd59ac1605c593626e8e0
 size 7544