Model save

Browse files

Files changed (5) hide show

README.md +68 -0
all_results.json +9 -0
generation_config.json +7 -0
train_results.json +9 -0
trainer_state.json +1470 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: AmberYifan/Gemma-7b-sft-ultrachat-safeRLHF
+library_name: transformers
+model_name: Gemma-7B-sft-SPIN-Gemma-2-27B
+tags:
+- generated_from_trainer
+- trl
+- dpo
+licence: license
+---
+# Model Card for Gemma-7B-sft-SPIN-Gemma-2-27B
+This model is a fine-tuned version of [AmberYifan/Gemma-7b-sft-ultrachat-safeRLHF](https://huggingface.co/AmberYifan/Gemma-7b-sft-ultrachat-safeRLHF).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="AmberYifan/Gemma-7B-sft-SPIN-Gemma-2-27B", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yifanwang/huggingface/runs/nw10j6ek)
+This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
+### Framework versions
+- TRL: 0.12.2
+- Transformers: 4.46.3
+- Pytorch: 2.5.1+cu118
+- Datasets: 3.2.0
+- Tokenizers: 0.20.3
+## Citations
+Cite DPO as:
+```bibtex
+@inproceedings{rafailov2023direct,
+    title        = {{Direct Preference Optimization: Your Language Model is Secretly a Reward Model}},
+    author       = {Rafael Rafailov and Archit Sharma and Eric Mitchell and Christopher D. Manning and Stefano Ermon and Chelsea Finn},
+    year         = 2023,
+    booktitle    = {Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023},
+    url          = {http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html},
+    editor       = {Alice Oh and Tristan Naumann and Amir Globerson and Kate Saenko and Moritz Hardt and Sergey Levine},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 0.0,
+    "train_loss": 0.01912205423750899,
+    "train_runtime": 5888.0267,
+    "train_samples": 9738,
+    "train_samples_per_second": 4.962,
+    "train_steps_per_second": 0.155
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.46.3"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 0.0,
+    "train_loss": 0.01912205423750899,
+    "train_runtime": 5888.0267,
+    "train_samples": 9738,
+    "train_samples_per_second": 4.962,
+    "train_steps_per_second": 0.155
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1470 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 915,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.003278688524590164,
+      "grad_norm": 10543.108257874916,
+      "learning_rate": 5.4347826086956515e-09,
+      "logits/chosen": 282.0,
+      "logits/rejected": 284.0,
+      "logps/chosen": -1952.0,
+      "logps/rejected": -964.0,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03278688524590164,
+      "grad_norm": 48.52823272691234,
+      "learning_rate": 5.434782608695652e-08,
+      "logits/chosen": 282.0,
+      "logits/rejected": 282.0,
+      "logps/chosen": -1936.0,
+      "logps/rejected": -848.0,
+      "loss": 0.4436,
+      "rewards/accuracies": 0.7083333134651184,
+      "rewards/chosen": 2.59375,
+      "rewards/margins": 2.609375,
+      "rewards/rejected": -0.0189208984375,
+      "step": 10
+    },
+    {
+      "epoch": 0.06557377049180328,
+      "grad_norm": 1.5136033459571743,
+      "learning_rate": 1.0869565217391303e-07,
+      "logits/chosen": 280.0,
+      "logits/rejected": 284.0,
+      "logps/chosen": -1664.0,
+      "logps/rejected": -864.0,
+      "loss": 0.0109,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 20.625,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -2.609375,
+      "step": 20
+    },
+    {
+      "epoch": 0.09836065573770492,
+      "grad_norm": 1.9782498738976658e-08,
+      "learning_rate": 1.6304347826086955e-07,
+      "logits/chosen": 280.0,
+      "logits/rejected": 284.0,
+      "logps/chosen": -1632.0,
+      "logps/rejected": -904.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 32.25,
+      "rewards/margins": 41.75,
+      "rewards/rejected": -9.625,
+      "step": 30
+    },
+    {
+      "epoch": 0.13114754098360656,
+      "grad_norm": 7.493302773398588e-07,
+      "learning_rate": 2.1739130434782607e-07,
+      "logits/chosen": 280.0,
+      "logits/rejected": 284.0,
+      "logps/chosen": -1608.0,
+      "logps/rejected": -916.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 32.75,
+      "rewards/margins": 42.5,
+      "rewards/rejected": -9.8125,
+      "step": 40
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 1.9667203606358286e-10,
+      "learning_rate": 2.717391304347826e-07,
+      "logits/chosen": 280.0,
+      "logits/rejected": 284.0,
+      "logps/chosen": -1520.0,
+      "logps/rejected": -936.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 38.75,
+      "rewards/margins": 46.0,
+      "rewards/rejected": -7.03125,
+      "step": 50
+    },
+    {
+      "epoch": 0.19672131147540983,
+      "grad_norm": 8.663460943816037e-08,
+      "learning_rate": 3.260869565217391e-07,
+      "logits/chosen": 278.0,
+      "logits/rejected": 284.0,
+      "logps/chosen": -1496.0,
+      "logps/rejected": -952.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 42.25,
+      "rewards/margins": 49.0,
+      "rewards/rejected": -6.78125,
+      "step": 60
+    },
+    {
+      "epoch": 0.22950819672131148,
+      "grad_norm": 3.066495756284579e-08,
+      "learning_rate": 3.8043478260869567e-07,
+      "logits/chosen": 278.0,
+      "logits/rejected": 282.0,
+      "logps/chosen": -1536.0,
+      "logps/rejected": -944.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 42.25,
+      "rewards/margins": 48.5,
+      "rewards/rejected": -6.15625,
+      "step": 70
+    },
+    {
+      "epoch": 0.26229508196721313,
+      "grad_norm": 1.3674207420741061e-17,
+      "learning_rate": 4.3478260869565214e-07,
+      "logits/chosen": 280.0,
+      "logits/rejected": 282.0,
+      "logps/chosen": -1496.0,
+      "logps/rejected": -916.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 43.75,
+      "rewards/margins": 50.0,
+      "rewards/rejected": -6.1875,
+      "step": 80
+    },
+    {
+      "epoch": 0.29508196721311475,
+      "grad_norm": 8.528851384509269e-13,
+      "learning_rate": 4.891304347826087e-07,
+      "logits/chosen": 276.0,
+      "logits/rejected": 280.0,
+      "logps/chosen": -1368.0,
+      "logps/rejected": -996.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 54.0,
+      "rewards/margins": 66.0,
+      "rewards/rejected": -12.375,
+      "step": 90
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 9.833050258000768e-05,
+      "learning_rate": 4.951397326852977e-07,
+      "logits/chosen": 276.0,
+      "logits/rejected": 280.0,
+      "logps/chosen": -1408.0,
+      "logps/rejected": -1032.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 53.75,
+      "rewards/margins": 72.5,
+      "rewards/rejected": -19.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.36065573770491804,
+      "grad_norm": 4.9217425828484946e-23,
+      "learning_rate": 4.890643985419197e-07,
+      "logits/chosen": 276.0,
+      "logits/rejected": 280.0,
+      "logps/chosen": -1392.0,
+      "logps/rejected": -1048.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 57.0,
+      "rewards/margins": 76.5,
+      "rewards/rejected": -19.5,
+      "step": 110
+    },
+    {
+      "epoch": 0.39344262295081966,
+      "grad_norm": 7.141873453235903e-06,
+      "learning_rate": 4.829890643985419e-07,
+      "logits/chosen": 276.0,
+      "logits/rejected": 280.0,
+      "logps/chosen": -1384.0,
+      "logps/rejected": -1080.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 54.5,
+      "rewards/margins": 74.0,
+      "rewards/rejected": -19.75,
+      "step": 120
+    },
+    {
+      "epoch": 0.4262295081967213,
+      "grad_norm": 7.410101495132297e-07,
+      "learning_rate": 4.76913730255164e-07,
+      "logits/chosen": 276.0,
+      "logits/rejected": 280.0,
+      "logps/chosen": -1376.0,
+      "logps/rejected": -1032.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 51.75,
+      "rewards/margins": 70.0,
+      "rewards/rejected": -18.25,
+      "step": 130
+    },
+    {
+      "epoch": 0.45901639344262296,
+      "grad_norm": 4.664607381443095e-12,
+      "learning_rate": 4.708383961117861e-07,
+      "logits/chosen": 276.0,
+      "logits/rejected": 280.0,
+      "logps/chosen": -1400.0,
+      "logps/rejected": -984.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 51.75,
+      "rewards/margins": 69.5,
+      "rewards/rejected": -17.75,
+      "step": 140
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 2.0698177758581545e-22,
+      "learning_rate": 4.6476306196840824e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 270.0,
+      "logps/chosen": -1504.0,
+      "logps/rejected": -1208.0,
+      "loss": 1.2454,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 36.25,
+      "rewards/margins": 74.0,
+      "rewards/rejected": -37.75,
+      "step": 150
+    },
+    {
+      "epoch": 0.5245901639344263,
+      "grad_norm": 4.481058424086009e-28,
+      "learning_rate": 4.5868772782503037e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 272.0,
+      "logps/chosen": -932.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.025,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 99.5,
+      "rewards/margins": 134.0,
+      "rewards/rejected": -34.5,
+      "step": 160
+    },
+    {
+      "epoch": 0.5573770491803278,
+      "grad_norm": 0.0,
+      "learning_rate": 4.526123936816525e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 152.0,
+      "rewards/rejected": -34.75,
+      "step": 170
+    },
+    {
+      "epoch": 0.5901639344262295,
+      "grad_norm": 5.226244661399497e-23,
+      "learning_rate": 4.4653705953827456e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -840.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 111.0,
+      "rewards/margins": 144.0,
+      "rewards/rejected": -33.5,
+      "step": 180
+    },
+    {
+      "epoch": 0.6229508196721312,
+      "grad_norm": 9.553928668616104e-20,
+      "learning_rate": 4.404617253948967e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -748.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.0,
+      "rewards/margins": 154.0,
+      "rewards/rejected": -34.5,
+      "step": 190
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 1.391779989858363e-23,
+      "learning_rate": 4.343863912515188e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -788.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.75,
+      "step": 200
+    },
+    {
+      "epoch": 0.6885245901639344,
+      "grad_norm": 4.811827892704277e-33,
+      "learning_rate": 4.2831105710814093e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1128.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.0,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -32.25,
+      "step": 210
+    },
+    {
+      "epoch": 0.7213114754098361,
+      "grad_norm": 0.0,
+      "learning_rate": 4.2223572296476306e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1240.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.5,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -35.25,
+      "step": 220
+    },
+    {
+      "epoch": 0.7540983606557377,
+      "grad_norm": 8.756860154632516e-12,
+      "learning_rate": 4.161603888213852e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -836.0,
+      "logps/rejected": -1120.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.5,
+      "rewards/margins": 145.0,
+      "rewards/rejected": -31.625,
+      "step": 230
+    },
+    {
+      "epoch": 0.7868852459016393,
+      "grad_norm": 0.0,
+      "learning_rate": 4.1008505467800725e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -716.0,
+      "logps/rejected": -1152.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 0.0,
+      "learning_rate": 4.040097205346294e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -800.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.0,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -35.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.8524590163934426,
+      "grad_norm": 0.0,
+      "learning_rate": 3.979343863912515e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -816.0,
+      "logps/rejected": -1232.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.0,
+      "rewards/margins": 151.0,
+      "rewards/rejected": -35.25,
+      "step": 260
+    },
+    {
+      "epoch": 0.8852459016393442,
+      "grad_norm": 0.0,
+      "learning_rate": 3.918590522478736e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -796.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.5,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.5,
+      "step": 270
+    },
+    {
+      "epoch": 0.9180327868852459,
+      "grad_norm": 3.9274501749288956e-23,
+      "learning_rate": 3.8578371810449575e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -760.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.5,
+      "rewards/margins": 154.0,
+      "rewards/rejected": -34.5,
+      "step": 280
+    },
+    {
+      "epoch": 0.9508196721311475,
+      "grad_norm": 0.0,
+      "learning_rate": 3.797083839611178e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -816.0,
+      "logps/rejected": -1144.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.5,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.25,
+      "step": 290
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 0.0,
+      "learning_rate": 3.7363304981773994e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -728.0,
+      "logps/rejected": -1152.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 147.0,
+      "rewards/rejected": -31.875,
+      "step": 300
+    },
+    {
+      "epoch": 1.0,
+      "eval_logits/chosen": 268.0,
+      "eval_logits/rejected": 274.0,
+      "eval_logps/chosen": -796.0,
+      "eval_logps/rejected": -1216.0,
+      "eval_loss": 1.1090268243682533e-12,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": 116.0,
+      "eval_rewards/margins": 151.0,
+      "eval_rewards/rejected": -34.5,
+      "eval_runtime": 14.8906,
+      "eval_samples_per_second": 13.163,
+      "eval_steps_per_second": 0.47,
+      "step": 305
+    },
+    {
+      "epoch": 1.0163934426229508,
+      "grad_norm": 3.0008536671768426e-17,
+      "learning_rate": 3.6755771567436206e-07,
+      "logits/chosen": 266.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -844.0,
+      "logps/rejected": -1128.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.5,
+      "rewards/margins": 147.0,
+      "rewards/rejected": -32.25,
+      "step": 310
+    },
+    {
+      "epoch": 1.0491803278688525,
+      "grad_norm": 0.0,
+      "learning_rate": 3.614823815309842e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -33.5,
+      "step": 320
+    },
+    {
+      "epoch": 1.0819672131147542,
+      "grad_norm": 0.0,
+      "learning_rate": 3.554070473876063e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -764.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.0,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -32.75,
+      "step": 330
+    },
+    {
+      "epoch": 1.1147540983606556,
+      "grad_norm": 1.3930987676623722e-19,
+      "learning_rate": 3.4933171324422844e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -764.0,
+      "logps/rejected": -1208.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 151.0,
+      "rewards/rejected": -34.0,
+      "step": 340
+    },
+    {
+      "epoch": 1.1475409836065573,
+      "grad_norm": 5.844581511349351e-24,
+      "learning_rate": 3.4325637910085056e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -816.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 147.0,
+      "rewards/rejected": -33.5,
+      "step": 350
+    },
+    {
+      "epoch": 1.180327868852459,
+      "grad_norm": 5.549165277529503e-24,
+      "learning_rate": 3.3718104495747263e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -788.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.0,
+      "rewards/margins": 153.0,
+      "rewards/rejected": -34.0,
+      "step": 360
+    },
+    {
+      "epoch": 1.2131147540983607,
+      "grad_norm": 7.224338199612739e-16,
+      "learning_rate": 3.3110571081409475e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -736.0,
+      "logps/rejected": -1208.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 120.5,
+      "rewards/margins": 155.0,
+      "rewards/rejected": -34.75,
+      "step": 370
+    },
+    {
+      "epoch": 1.2459016393442623,
+      "grad_norm": 1.9288471696008623e-12,
+      "learning_rate": 3.250303766707169e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -832.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -34.5,
+      "step": 380
+    },
+    {
+      "epoch": 1.278688524590164,
+      "grad_norm": 0.0,
+      "learning_rate": 3.18955042527339e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.5,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -33.0,
+      "step": 390
+    },
+    {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 1.0819086323778434e-07,
+      "learning_rate": 3.128797083839611e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1264.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 152.0,
+      "rewards/rejected": -36.25,
+      "step": 400
+    },
+    {
+      "epoch": 1.3442622950819672,
+      "grad_norm": 4.8084777044279205e-31,
+      "learning_rate": 3.068043742405832e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.5,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -34.0,
+      "step": 410
+    },
+    {
+      "epoch": 1.3770491803278688,
+      "grad_norm": 0.0,
+      "learning_rate": 3.007290400972053e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -33.5,
+      "step": 420
+    },
+    {
+      "epoch": 1.4098360655737705,
+      "grad_norm": 4.4175751432740536e-23,
+      "learning_rate": 2.9465370595382744e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -812.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.5,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -33.0,
+      "step": 430
+    },
+    {
+      "epoch": 1.4426229508196722,
+      "grad_norm": 3.8053853058464484e-31,
+      "learning_rate": 2.8857837181044957e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.25,
+      "step": 440
+    },
+    {
+      "epoch": 1.4754098360655736,
+      "grad_norm": 1.1545889189512834e-19,
+      "learning_rate": 2.825030376670717e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -820.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 110.0,
+      "rewards/margins": 145.0,
+      "rewards/rejected": -34.75,
+      "step": 450
+    },
+    {
+      "epoch": 1.5081967213114753,
+      "grad_norm": 0.0,
+      "learning_rate": 2.7642770352369376e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -760.0,
+      "logps/rejected": -1256.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -35.25,
+      "step": 460
+    },
+    {
+      "epoch": 1.540983606557377,
+      "grad_norm": 0.0,
+      "learning_rate": 2.7035236938031594e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -784.0,
+      "logps/rejected": -1232.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -34.25,
+      "step": 470
+    },
+    {
+      "epoch": 1.5737704918032787,
+      "grad_norm": 6.7015924525888416e-15,
+      "learning_rate": 2.64277035236938e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -792.0,
+      "logps/rejected": -1208.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.5,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -34.25,
+      "step": 480
+    },
+    {
+      "epoch": 1.6065573770491803,
+      "grad_norm": 5.552294785864983e-26,
+      "learning_rate": 2.5820170109356013e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 111.5,
+      "rewards/margins": 143.0,
+      "rewards/rejected": -32.0,
+      "step": 490
+    },
+    {
+      "epoch": 1.639344262295082,
+      "grad_norm": 8.187853570656944e-18,
+      "learning_rate": 2.5212636695018226e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -764.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -33.75,
+      "step": 500
+    },
+    {
+      "epoch": 1.6721311475409837,
+      "grad_norm": 4.880791682068538e-19,
+      "learning_rate": 2.460510328068044e-07,
+      "logits/chosen": 266.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -844.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.0,
+      "rewards/margins": 147.0,
+      "rewards/rejected": -34.0,
+      "step": 510
+    },
+    {
+      "epoch": 1.7049180327868854,
+      "grad_norm": 6.683322821707711e-30,
+      "learning_rate": 2.399756986634265e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -752.0,
+      "logps/rejected": -1192.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.5,
+      "step": 520
+    },
+    {
+      "epoch": 1.737704918032787,
+      "grad_norm": 0.0,
+      "learning_rate": 2.339003645200486e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1192.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.75,
+      "step": 530
+    },
+    {
+      "epoch": 1.7704918032786885,
+      "grad_norm": 0.0,
+      "learning_rate": 2.278250303766707e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -772.0,
+      "logps/rejected": -1256.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.0,
+      "rewards/margins": 154.0,
+      "rewards/rejected": -35.0,
+      "step": 540
+    },
+    {
+      "epoch": 1.8032786885245902,
+      "grad_norm": 0.0,
+      "learning_rate": 2.2174969623329282e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -796.0,
+      "logps/rejected": -1120.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 113.0,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.75,
+      "step": 550
+    },
+    {
+      "epoch": 1.8360655737704918,
+      "grad_norm": 1.0493330128853702e-10,
+      "learning_rate": 2.1567436208991492e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -800.0,
+      "logps/rejected": -1088.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.5,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -31.125,
+      "step": 560
+    },
+    {
+      "epoch": 1.8688524590163933,
+      "grad_norm": 3.1670703625855646e-28,
+      "learning_rate": 2.0959902794653705e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -756.0,
+      "logps/rejected": -1232.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 120.0,
+      "rewards/margins": 155.0,
+      "rewards/rejected": -35.5,
+      "step": 570
+    },
+    {
+      "epoch": 1.901639344262295,
+      "grad_norm": 5.444226724970353e-34,
+      "learning_rate": 2.0352369380315917e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -764.0,
+      "logps/rejected": -1216.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 118.0,
+      "rewards/margins": 152.0,
+      "rewards/rejected": -34.0,
+      "step": 580
+    },
+    {
+      "epoch": 1.9344262295081966,
+      "grad_norm": 0.0,
+      "learning_rate": 1.9744835965978127e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1208.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -34.5,
+      "step": 590
+    },
+    {
+      "epoch": 1.9672131147540983,
+      "grad_norm": 0.0,
+      "learning_rate": 1.913730255164034e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -732.0,
+      "logps/rejected": -1200.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 151.0,
+      "rewards/rejected": -33.75,
+      "step": 600
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.0,
+      "learning_rate": 1.8529769137302551e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -788.0,
+      "logps/rejected": -1192.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 111.0,
+      "rewards/margins": 144.0,
+      "rewards/rejected": -33.0,
+      "step": 610
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": 268.0,
+      "eval_logits/rejected": 274.0,
+      "eval_logps/chosen": -796.0,
+      "eval_logps/rejected": -1216.0,
+      "eval_loss": 1.4199253751956409e-12,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": 116.5,
+      "eval_rewards/margins": 151.0,
+      "eval_rewards/rejected": -34.5,
+      "eval_runtime": 14.9156,
+      "eval_samples_per_second": 13.141,
+      "eval_steps_per_second": 0.469,
+      "step": 610
+    },
+    {
+      "epoch": 2.0327868852459017,
+      "grad_norm": 1.3613376787035118e-19,
+      "learning_rate": 1.792223572296476e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -740.0,
+      "logps/rejected": -1216.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 120.5,
+      "rewards/margins": 155.0,
+      "rewards/rejected": -34.25,
+      "step": 620
+    },
+    {
+      "epoch": 2.0655737704918034,
+      "grad_norm": 0.0,
+      "learning_rate": 1.7314702308626974e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -748.0,
+      "logps/rejected": -1144.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -32.5,
+      "step": 630
+    },
+    {
+      "epoch": 2.098360655737705,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6707168894289186e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -816.0,
+      "logps/rejected": -1152.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 112.0,
+      "rewards/margins": 145.0,
+      "rewards/rejected": -32.75,
+      "step": 640
+    },
+    {
+      "epoch": 2.1311475409836067,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6099635479951396e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -792.0,
+      "logps/rejected": -1208.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -34.5,
+      "step": 650
+    },
+    {
+      "epoch": 2.1639344262295084,
+      "grad_norm": 6.520051993303297e-20,
+      "learning_rate": 1.5492102065613608e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -744.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 111.5,
+      "rewards/margins": 145.0,
+      "rewards/rejected": -33.0,
+      "step": 660
+    },
+    {
+      "epoch": 2.19672131147541,
+      "grad_norm": 0.0,
+      "learning_rate": 1.488456865127582e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1248.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -35.0,
+      "step": 670
+    },
+    {
+      "epoch": 2.2295081967213113,
+      "grad_norm": 8.585906103936093e-32,
+      "learning_rate": 1.427703523693803e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1144.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.0,
+      "rewards/margins": 152.0,
+      "rewards/rejected": -33.25,
+      "step": 680
+    },
+    {
+      "epoch": 2.262295081967213,
+      "grad_norm": 1.1432686013314791e-21,
+      "learning_rate": 1.3669501822600243e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -796.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 111.0,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -34.75,
+      "step": 690
+    },
+    {
+      "epoch": 2.2950819672131146,
+      "grad_norm": 3.757902374283223e-21,
+      "learning_rate": 1.3061968408262452e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.5,
+      "step": 700
+    },
+    {
+      "epoch": 2.3278688524590163,
+      "grad_norm": 0.0,
+      "learning_rate": 1.2454434993924665e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -788.0,
+      "logps/rejected": -1216.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -35.0,
+      "step": 710
+    },
+    {
+      "epoch": 2.360655737704918,
+      "grad_norm": 5.760183258482964e-35,
+      "learning_rate": 1.1846901579586877e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -812.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.5,
+      "step": 720
+    },
+    {
+      "epoch": 2.3934426229508197,
+      "grad_norm": 3.825327885849806e-35,
+      "learning_rate": 1.1239368165249088e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -752.0,
+      "logps/rejected": -1208.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -34.5,
+      "step": 730
+    },
+    {
+      "epoch": 2.4262295081967213,
+      "grad_norm": 9.742010576487992e-17,
+      "learning_rate": 1.0631834750911299e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -720.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -34.5,
+      "step": 740
+    },
+    {
+      "epoch": 2.459016393442623,
+      "grad_norm": 1.3910608136580302e-30,
+      "learning_rate": 1.0024301336573512e-07,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -792.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.5,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -33.5,
+      "step": 750
+    },
+    {
+      "epoch": 2.4918032786885247,
+      "grad_norm": 5.4809388850402516e-21,
+      "learning_rate": 9.416767922235723e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -736.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.5,
+      "rewards/margins": 152.0,
+      "rewards/rejected": -32.75,
+      "step": 760
+    },
+    {
+      "epoch": 2.5245901639344264,
+      "grad_norm": 5.540153547398696e-15,
+      "learning_rate": 8.809234507897934e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -784.0,
+      "logps/rejected": -1144.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.5,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.25,
+      "step": 770
+    },
+    {
+      "epoch": 2.557377049180328,
+      "grad_norm": 0.0,
+      "learning_rate": 8.201701093560146e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.0,
+      "step": 780
+    },
+    {
+      "epoch": 2.5901639344262293,
+      "grad_norm": 0.0,
+      "learning_rate": 7.594167679222357e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -768.0,
+      "logps/rejected": -1216.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.5,
+      "rewards/margins": 151.0,
+      "rewards/rejected": -34.25,
+      "step": 790
+    },
+    {
+      "epoch": 2.6229508196721314,
+      "grad_norm": 3.694790735744769e-15,
+      "learning_rate": 6.986634264884568e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -796.0,
+      "logps/rejected": -1152.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 147.0,
+      "rewards/rejected": -33.0,
+      "step": 800
+    },
+    {
+      "epoch": 2.6557377049180326,
+      "grad_norm": 8.419354262347816e-13,
+      "learning_rate": 6.37910085054678e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 272.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.5,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.0,
+      "step": 810
+    },
+    {
+      "epoch": 2.6885245901639343,
+      "grad_norm": 3.7751524716356925e-16,
+      "learning_rate": 5.771567436208991e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -760.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 115.0,
+      "rewards/margins": 148.0,
+      "rewards/rejected": -33.0,
+      "step": 820
+    },
+    {
+      "epoch": 2.721311475409836,
+      "grad_norm": 1.2321456713468952e-20,
+      "learning_rate": 5.164034021871203e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -820.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 112.5,
+      "rewards/margins": 146.0,
+      "rewards/rejected": -32.75,
+      "step": 830
+    },
+    {
+      "epoch": 2.7540983606557377,
+      "grad_norm": 2.831509858410855e-15,
+      "learning_rate": 4.5565006075334144e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -744.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 116.5,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -32.75,
+      "step": 840
+    },
+    {
+      "epoch": 2.7868852459016393,
+      "grad_norm": 7.649524846493369e-22,
+      "learning_rate": 3.9489671931956255e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1192.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 110.0,
+      "rewards/margins": 144.0,
+      "rewards/rejected": -34.25,
+      "step": 850
+    },
+    {
+      "epoch": 2.819672131147541,
+      "grad_norm": 0.0,
+      "learning_rate": 3.341433778857837e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -784.0,
+      "logps/rejected": -1192.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.5,
+      "rewards/margins": 151.0,
+      "rewards/rejected": -33.75,
+      "step": 860
+    },
+    {
+      "epoch": 2.8524590163934427,
+      "grad_norm": 0.0,
+      "learning_rate": 2.7339003645200486e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -772.0,
+      "logps/rejected": -1192.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.0,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -33.5,
+      "step": 870
+    },
+    {
+      "epoch": 2.8852459016393444,
+      "grad_norm": 0.0,
+      "learning_rate": 2.12636695018226e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -772.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 117.5,
+      "rewards/margins": 150.0,
+      "rewards/rejected": -32.75,
+      "step": 880
+    },
+    {
+      "epoch": 2.918032786885246,
+      "grad_norm": 2.740412262307959e-33,
+      "learning_rate": 1.5188335358444714e-08,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -752.0,
+      "logps/rejected": -1232.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 121.5,
+      "rewards/margins": 156.0,
+      "rewards/rejected": -34.75,
+      "step": 890
+    },
+    {
+      "epoch": 2.9508196721311473,
+      "grad_norm": 4.338902475611692e-21,
+      "learning_rate": 9.113001215066828e-09,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -768.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 119.5,
+      "rewards/margins": 153.0,
+      "rewards/rejected": -33.5,
+      "step": 900
+    },
+    {
+      "epoch": 2.9836065573770494,
+      "grad_norm": 7.056451354101546e-30,
+      "learning_rate": 3.0376670716889426e-09,
+      "logits/chosen": 268.0,
+      "logits/rejected": 274.0,
+      "logps/chosen": -780.0,
+      "logps/rejected": -1240.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 114.0,
+      "rewards/margins": 149.0,
+      "rewards/rejected": -35.5,
+      "step": 910
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": 268.0,
+      "eval_logits/rejected": 274.0,
+      "eval_logps/chosen": -796.0,
+      "eval_logps/rejected": -1216.0,
+      "eval_loss": 1.614817112492728e-12,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": 116.5,
+      "eval_rewards/margins": 151.0,
+      "eval_rewards/rejected": -34.75,
+      "eval_runtime": 17.8148,
+      "eval_samples_per_second": 11.002,
+      "eval_steps_per_second": 0.393,
+      "step": 915
+    },
+    {
+      "epoch": 3.0,
+      "step": 915,
+      "total_flos": 0.0,
+      "train_loss": 0.01912205423750899,
+      "train_runtime": 5888.0267,
+      "train_samples_per_second": 4.962,
+      "train_steps_per_second": 0.155
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 915,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}