Model save

Browse files

Files changed (12) hide show

README.md +3 -3
all_results.json +3 -3
config.json +1 -1
generation_config.json +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
tokenizer_config.json +0 -1
train_results.json +3 -3
trainer_state.json +115 -89
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/caijf-USTC/huggingface/runs/8dhrl9y4)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
@@ -35,9 +35,9 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 ### Framework versions
 - TRL: 0.16.0.dev0
-- Transformers: 4.49.0.dev0
 - Pytorch: 2.5.1
-- Datasets: 3.3.0
 - Tokenizers: 0.21.0
 ## Citations

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/caijf-USTC/huggingface/runs/2l0ywuxv)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
 ### Framework versions
 - TRL: 0.16.0.dev0
+- Transformers: 4.49.0
 - Pytorch: 2.5.1
+- Datasets: 3.3.2
 - Tokenizers: 0.21.0
 ## Citations

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0014648210027220997,
-    "train_runtime": 13165.6558,
     "train_samples": 7500,
-    "train_samples_per_second": 0.57,
     "train_steps_per_second": 0.004
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.04403019331170824,
+    "train_runtime": 12949.6635,
     "train_samples": 7500,
+    "train_samples_per_second": 0.579,
     "train_steps_per_second": 0.004
 }

config.json CHANGED Viewed

@@ -22,7 +22,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.49.0.dev0",
   "use_cache": false,
   "use_mrope": false,
   "use_sliding_window": false,

   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
   "use_cache": false,
   "use_mrope": false,
   "use_sliding_window": false,

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "bos_token_id": 151643,
   "eos_token_id": 151643,
   "max_new_tokens": 2048,
-  "transformers_version": "4.49.0.dev0"
 }

   "bos_token_id": 151643,
   "eos_token_id": 151643,
   "max_new_tokens": 2048,
+  "transformers_version": "4.49.0"
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7547a9cb1541f12d9eccc5eed04484ea49cf6453d1310c36fda81f400b382ff
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3797589222016a3a611e96dc5a69737991986dc2c060c32d13e9c000f56bea5
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e8ade0b82fa0b5f3b7e336330c6bf7ca2932caab1f9621c96ba76e39f3841d3
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:8049419da69fd759a2e43e1aba7e8fde6fe4f81c376c18fd58697db119a219ee
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9c7c319881619560c296c1f5fc148928ac2c00014ace3e621d3940537fa882d
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:6101942e8e37c192f1b8bdc504842bafb68a1b7914889a5e162468c241e03fc6
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af4c5874389c104b9ba33995242e2383d7578a5e938b4865f9c70130e569a0c0
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ff45b93884d6dd43ac45c9567a2caf807d9245490744f7698612ac41f84b94e
 size 1089994880

tokenizer_config.json CHANGED Viewed

@@ -202,7 +202,6 @@
   "extra_special_tokens": {},
   "model_max_length": 131072,
   "pad_token": "<|endoftext|>",
-  "padding_side": "left",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

   "extra_special_tokens": {},
   "model_max_length": 131072,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0014648210027220997,
-    "train_runtime": 13165.6558,
     "train_samples": 7500,
-    "train_samples_per_second": 0.57,
     "train_steps_per_second": 0.004
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.04403019331170824,
+    "train_runtime": 12949.6635,
     "train_samples": 7500,
+    "train_samples_per_second": 0.579,
     "train_steps_per_second": 0.004
 }

trainer_state.json CHANGED Viewed

@@ -9,161 +9,187 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 614.1698936462402,
       "epoch": 0.08528784648187633,
-      "grad_norm": 1.6420103311538696,
-      "kl": 0.00021245479583740235,
       "learning_rate": 2.5e-06,
-      "loss": 0.0,
-      "reward": 0.6379464596509934,
-      "reward_std": 0.3210102315992117,
-      "rewards/accuracy_reward": 0.6375000312924385,
-      "rewards/format_reward": 0.00044642859138548373,
       "step": 5
     },
     {
-      "completion_length": 624.264535522461,
       "epoch": 0.17057569296375266,
-      "grad_norm": 1526.457275390625,
-      "kl": 0.14271965026855468,
       "learning_rate": 2.956412726139078e-06,
-      "loss": 0.0057,
-      "reward": 0.6959821730852127,
-      "reward_std": 0.28622329905629157,
-      "rewards/accuracy_reward": 0.6955357447266579,
-      "rewards/format_reward": 0.00044642859138548373,
       "step": 10
     },
     {
-      "completion_length": 616.0730186462403,
       "epoch": 0.255863539445629,
-      "grad_norm": 0.11626364290714264,
-      "kl": 0.0034526824951171876,
       "learning_rate": 2.7836719084521715e-06,
-      "loss": 0.0001,
-      "reward": 0.7558036059141159,
-      "reward_std": 0.22891067173331975,
-      "rewards/accuracy_reward": 0.7555803924798965,
-      "rewards/format_reward": 0.00022321429569274187,
       "step": 15
     },
     {
-      "completion_length": 602.7257011413574,
       "epoch": 0.3411513859275053,
-      "grad_norm": 0.3678954541683197,
-      "kl": 0.0035373687744140623,
       "learning_rate": 2.4946839873611927e-06,
-      "loss": 0.0001,
-      "reward": 0.7736607491970062,
-      "reward_std": 0.1879386292770505,
-      "rewards/accuracy_reward": 0.7736607491970062,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
-      "completion_length": 606.3076171875,
       "epoch": 0.42643923240938164,
-      "grad_norm": 0.08185073733329773,
-      "kl": 0.008475685119628906,
       "learning_rate": 2.1156192081791355e-06,
-      "loss": 0.0003,
-      "reward": 0.7618303924798966,
-      "reward_std": 0.18782664239406585,
-      "rewards/accuracy_reward": 0.7618303924798966,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
-      "completion_length": 615.8890892028809,
       "epoch": 0.511727078891258,
-      "grad_norm": 0.1566159576177597,
-      "kl": 0.0039794921875,
       "learning_rate": 1.6808050203829845e-06,
-      "loss": 0.0002,
-      "reward": 0.7493303924798965,
-      "reward_std": 0.18519791485741735,
-      "rewards/accuracy_reward": 0.7493303924798965,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
-      "completion_length": 610.3998023986817,
       "epoch": 0.5970149253731343,
-      "grad_norm": 0.07447274774312973,
-      "kl": 0.004097747802734375,
       "learning_rate": 1.2296174432791415e-06,
-      "loss": 0.0002,
-      "reward": 0.7495536029338836,
-      "reward_std": 0.1825955007225275,
-      "rewards/accuracy_reward": 0.7495536029338836,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
-      "completion_length": 595.3044914245605,
       "epoch": 0.6823027718550106,
-      "grad_norm": 0.07800718396902084,
-      "kl": 0.0040496826171875,
       "learning_rate": 8.029152419343472e-07,
-      "loss": 0.0002,
-      "reward": 0.7689732506871223,
-      "reward_std": 0.17793030026368797,
-      "rewards/accuracy_reward": 0.7689732506871223,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
-      "completion_length": 614.7270347595215,
       "epoch": 0.767590618336887,
-      "grad_norm": 0.07937229424715042,
-      "kl": 0.004020309448242188,
       "learning_rate": 4.3933982822017883e-07,
-      "loss": 0.0002,
-      "reward": 0.7448661088943481,
-      "reward_std": 0.20116904862225055,
-      "rewards/accuracy_reward": 0.7446428954601287,
-      "rewards/format_reward": 0.00022321429569274187,
       "step": 45
     },
     {
-      "completion_length": 618.0094017028808,
       "epoch": 0.8528784648187633,
-      "grad_norm": 0.074642114341259,
-      "kl": 0.003514862060546875,
       "learning_rate": 1.718159615201853e-07,
-      "loss": 0.0001,
-      "reward": 0.743750037252903,
-      "reward_std": 0.18902343986555933,
-      "rewards/accuracy_reward": 0.743750037252903,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
-      "completion_length": 605.6493591308594,
       "epoch": 0.9381663113006397,
-      "grad_norm": 0.08093011379241943,
-      "kl": 0.0038265228271484376,
       "learning_rate": 2.4570139579284723e-08,
-      "loss": 0.0002,
-      "reward": 0.7801339656114579,
-      "reward_std": 0.19253778588026763,
-      "rewards/accuracy_reward": 0.7801339656114579,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
-      "completion_length": 596.0093282063802,
       "epoch": 0.9893390191897654,
-      "kl": 0.003498077392578125,
-      "reward": 0.7726934800545374,
-      "reward_std": 0.18784288999934992,
-      "rewards/accuracy_reward": 0.7726934800545374,
       "rewards/format_reward": 0.0,
       "step": 58,
       "total_flos": 0.0,
-      "train_loss": 0.0014648210027220997,
-      "train_runtime": 13165.6558,
-      "train_samples_per_second": 0.57,
       "train_steps_per_second": 0.004
     }
   ],

   "is_world_process_zero": true,
   "log_history": [
     {
+      "clip_ratio": 0.0,
+      "completion_length": 594.6719055175781,
+      "epoch": 0.017057569296375266,
+      "grad_norm": 0.39008715748786926,
+      "kl": 0.0,
+      "learning_rate": 5e-07,
+      "loss": -0.0015,
+      "reward": 0.5937500223517418,
+      "reward_std": 0.36258383840322495,
+      "rewards/accuracy_reward": 0.5937500223517418,
+      "rewards/format_reward": 0.0,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 605.4260902404785,
       "epoch": 0.08528784648187633,
+      "grad_norm": 1.0314300060272217,
+      "kl": 0.00019499659538269043,
       "learning_rate": 2.5e-06,
+      "loss": 0.0241,
+      "reward": 0.6032366305589676,
+      "reward_std": 0.3533420516178012,
+      "rewards/accuracy_reward": 0.6032366305589676,
+      "rewards/format_reward": 0.0,
       "step": 5
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 614.3067253112793,
       "epoch": 0.17057569296375266,
+      "grad_norm": 0.17284299433231354,
+      "kl": 0.005330562591552734,
       "learning_rate": 2.956412726139078e-06,
+      "loss": 0.069,
+      "reward": 0.6810268200933933,
+      "reward_std": 0.3049736712127924,
+      "rewards/accuracy_reward": 0.6810268200933933,
+      "rewards/format_reward": 0.0,
       "step": 10
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 606.5038230895996,
       "epoch": 0.255863539445629,
+      "grad_norm": 0.15556961297988892,
+      "kl": 0.05679264068603516,
       "learning_rate": 2.7836719084521715e-06,
+      "loss": 0.0754,
+      "reward": 0.7587053939700127,
+      "reward_std": 0.22350936699658633,
+      "rewards/accuracy_reward": 0.7587053939700127,
+      "rewards/format_reward": 0.0,
       "step": 15
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 584.5225677490234,
       "epoch": 0.3411513859275053,
+      "grad_norm": 0.2594759166240692,
+      "kl": 0.005410385131835937,
       "learning_rate": 2.4946839873611927e-06,
+      "loss": 0.0497,
+      "reward": 0.7783482521772385,
+      "reward_std": 0.19184589060023427,
+      "rewards/accuracy_reward": 0.7783482521772385,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 595.5861892700195,
       "epoch": 0.42643923240938164,
+      "grad_norm": 0.1489226222038269,
+      "kl": 0.007462882995605468,
       "learning_rate": 2.1156192081791355e-06,
+      "loss": 0.0395,
+      "reward": 0.7607143223285675,
+      "reward_std": 0.18709109332412482,
+      "rewards/accuracy_reward": 0.7607143223285675,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 602.0279273986816,
       "epoch": 0.511727078891258,
+      "grad_norm": 0.17840267717838287,
+      "kl": 0.008930206298828125,
       "learning_rate": 1.6808050203829845e-06,
+      "loss": 0.0342,
+      "reward": 0.7479911029338837,
+      "reward_std": 0.1881474507972598,
+      "rewards/accuracy_reward": 0.7479911029338837,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 595.2819473266602,
       "epoch": 0.5970149253731343,
+      "grad_norm": 0.19424788653850555,
+      "kl": 0.007519149780273437,
       "learning_rate": 1.2296174432791415e-06,
+      "loss": 0.0401,
+      "reward": 0.7430803917348385,
+      "reward_std": 0.19397471882402897,
+      "rewards/accuracy_reward": 0.7430803917348385,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 580.3154273986817,
       "epoch": 0.6823027718550106,
+      "grad_norm": 0.1329621970653534,
+      "kl": 0.009706497192382812,
       "learning_rate": 8.029152419343472e-07,
+      "loss": 0.0334,
+      "reward": 0.7716518208384514,
+      "reward_std": 0.18079692414030432,
+      "rewards/accuracy_reward": 0.7716518208384514,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 599.7227966308594,
       "epoch": 0.767590618336887,
+      "grad_norm": 0.16628068685531616,
+      "kl": 0.005841827392578125,
       "learning_rate": 4.3933982822017883e-07,
+      "loss": 0.0443,
+      "reward": 0.7444196790456772,
+      "reward_std": 0.209815969876945,
+      "rewards/accuracy_reward": 0.7444196790456772,
+      "rewards/format_reward": 0.0,
       "step": 45
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 600.9355201721191,
       "epoch": 0.8528784648187633,
+      "grad_norm": 0.13309380412101746,
+      "kl": 0.006610107421875,
       "learning_rate": 1.718159615201853e-07,
+      "loss": 0.0371,
+      "reward": 0.7435268238186836,
+      "reward_std": 0.1858388701453805,
+      "rewards/accuracy_reward": 0.7435268238186836,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 593.021898651123,
       "epoch": 0.9381663113006397,
+      "grad_norm": 0.74787837266922,
+      "kl": 0.007943344116210938,
       "learning_rate": 2.4570139579284723e-08,
+      "loss": 0.0361,
+      "reward": 0.7767857477068901,
+      "reward_std": 0.19855766519904136,
+      "rewards/accuracy_reward": 0.7767857477068901,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 587.1831906636556,
       "epoch": 0.9893390191897654,
+      "kl": 0.006526947021484375,
+      "reward": 0.7529762213428816,
+      "reward_std": 0.1964037980263432,
+      "rewards/accuracy_reward": 0.7529762213428816,
       "rewards/format_reward": 0.0,
       "step": 58,
       "total_flos": 0.0,
+      "train_loss": 0.04403019331170824,
+      "train_runtime": 12949.6635,
+      "train_samples_per_second": 0.579,
       "train_steps_per_second": 0.004
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f3f39420d245a590d0c8b6f2cf6719714e3ffd9bc8e87f97fa901117125e1a3
-size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1aec54fa7ce2ffb19eeee2f51172031d4e6e3c7ee69c82e7fef40dbe3218e62
+size 7992