silviasapora
/

gemma-7b-simpo-basic-5e-5-v4

+---
+base_model: google/gemma-7b
+library_name: transformers
+model_name: gemma-7b-simpo-basic-5e-5-v4
+tags:
+- generated_from_trainer
+- trl
+- orpo
+licence: license
+---
+# Model Card for gemma-7b-simpo-basic-5e-5-v4
+This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="silviasapora/gemma-7b-simpo-basic-5e-5-v4", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/silvias/huggingface/runs/zkrd5fnp)
+This model was trained with ORPO, a method introduced in [ORPO: Monolithic Preference Optimization without Reference Model](https://huggingface.co/papers/2403.07691).
+### Framework versions
+- TRL: 0.13.0
+- Transformers: 4.48.1
+- Pytorch: 2.5.1
+- Datasets: 3.2.0
+- Tokenizers: 0.21.0
+## Citations
+Cite ORPO as:
+```bibtex
+@article{hong2024orpo,
+    title        = {{ORPO: Monolithic Preference Optimization without Reference Model}},
+    author       = {Jiwoo Hong and Noah Lee and James Thorne},
+    year         = 2024,
+    eprint       = {arXiv:2403.07691}
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.9765925925925925,
+    "total_flos": 0.0,
+    "train_loss": 38.28643096439422,
+    "train_runtime": 9296.3619,
+    "train_samples": 6750,
+    "train_samples_per_second": 2.178,
+    "train_steps_per_second": 0.034
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.9765925925925925,
+    "total_flos": 0.0,
+    "train_loss": 38.28643096439422,
+    "train_runtime": 9296.3619,
+    "train_samples": 6750,
+    "train_samples_per_second": 2.178,
+    "train_steps_per_second": 0.034
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1050 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9765925925925925,
+  "eval_steps": 500,
+  "global_step": 315,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.047407407407407405,
+      "grad_norm": 616.296142578125,
+      "learning_rate": 7.8125e-06,
+      "log_odds_chosen": -1.0011694431304932,
+      "log_odds_ratio": -10.174823760986328,
+      "logps/chosen": -21.74160385131836,
+      "logps/rejected": -20.740602493286133,
+      "loss": 325.5407,
+      "nll_loss": 9.713836669921875,
+      "rewards/accuracies": 0.4781250059604645,
+      "rewards/chosen": -21.74160385131836,
+      "rewards/margins": -1.0010027885437012,
+      "rewards/rejected": -20.740602493286133,
+      "step": 5
+    },
+    {
+      "epoch": 0.09481481481481481,
+      "grad_norm": 1159.8155517578125,
+      "learning_rate": 1.5625e-05,
+      "log_odds_chosen": -2.6088204383850098,
+      "log_odds_ratio": -9.970861434936523,
+      "logps/chosen": -21.963115692138672,
+      "logps/rejected": -19.354297637939453,
+      "loss": 319.0449,
+      "nll_loss": 9.407869338989258,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -21.963115692138672,
+      "rewards/margins": -2.6088180541992188,
+      "rewards/rejected": -19.354297637939453,
+      "step": 10
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 2860.146240234375,
+      "learning_rate": 2.34375e-05,
+      "log_odds_chosen": 0.5996896624565125,
+      "log_odds_ratio": -9.088822364807129,
+      "logps/chosen": -39.47287368774414,
+      "logps/rejected": -40.07282638549805,
+      "loss": 290.8345,
+      "nll_loss": 21.445528030395508,
+      "rewards/accuracies": 0.5218750238418579,
+      "rewards/chosen": -39.47287368774414,
+      "rewards/margins": 0.5999561548233032,
+      "rewards/rejected": -40.07282638549805,
+      "step": 15
+    },
+    {
+      "epoch": 0.18962962962962962,
+      "grad_norm": 7156.2275390625,
+      "learning_rate": 3.125e-05,
+      "log_odds_chosen": 3.607576370239258,
+      "log_odds_ratio": -5.140229225158691,
+      "logps/chosen": -105.3345947265625,
+      "logps/rejected": -108.9421615600586,
+      "loss": 164.4873,
+      "nll_loss": 73.30210876464844,
+      "rewards/accuracies": 0.6656249761581421,
+      "rewards/chosen": -105.3345947265625,
+      "rewards/margins": 3.607576370239258,
+      "rewards/rejected": -108.9421615600586,
+      "step": 20
+    },
+    {
+      "epoch": 0.23703703703703705,
+      "grad_norm": 2067.25927734375,
+      "learning_rate": 3.90625e-05,
+      "log_odds_chosen": 3.95326566696167,
+      "log_odds_ratio": -2.9588239192962646,
+      "logps/chosen": -186.4034423828125,
+      "logps/rejected": -190.35671997070312,
+      "loss": 94.6824,
+      "nll_loss": 151.7024688720703,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -186.4034423828125,
+      "rewards/margins": 3.95326566696167,
+      "rewards/rejected": -190.35671997070312,
+      "step": 25
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 3878.92724609375,
+      "learning_rate": 4.6875e-05,
+      "log_odds_chosen": 1.2030792236328125,
+      "log_odds_ratio": -1.431229591369629,
+      "logps/chosen": -186.4683837890625,
+      "logps/rejected": -187.6714630126953,
+      "loss": 45.7994,
+      "nll_loss": 158.09597778320312,
+      "rewards/accuracies": 0.628125011920929,
+      "rewards/chosen": -186.4683837890625,
+      "rewards/margins": 1.2030792236328125,
+      "rewards/rejected": -187.6714630126953,
+      "step": 30
+    },
+    {
+      "epoch": 0.33185185185185184,
+      "grad_norm": 1238.4620361328125,
+      "learning_rate": 4.998613757348784e-05,
+      "log_odds_chosen": 1.815678358078003,
+      "log_odds_ratio": -2.412240505218506,
+      "logps/chosen": -143.62953186035156,
+      "logps/rejected": -145.4451904296875,
+      "loss": 77.1917,
+      "nll_loss": 110.61494445800781,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -143.62953186035156,
+      "rewards/margins": 1.815678358078003,
+      "rewards/rejected": -145.4451904296875,
+      "step": 35
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "grad_norm": 4717.11474609375,
+      "learning_rate": 4.990147841143462e-05,
+      "log_odds_chosen": 1.1096925735473633,
+      "log_odds_ratio": -1.2363064289093018,
+      "logps/chosen": -129.36184692382812,
+      "logps/rejected": -130.47154235839844,
+      "loss": 39.5618,
+      "nll_loss": 100.73094940185547,
+      "rewards/accuracies": 0.6156250238418579,
+      "rewards/chosen": -129.36184692382812,
+      "rewards/margins": 1.1096925735473633,
+      "rewards/rejected": -130.47154235839844,
+      "step": 40
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 4185.7666015625,
+      "learning_rate": 4.97401218720448e-05,
+      "log_odds_chosen": 2.159066915512085,
+      "log_odds_ratio": -1.3062574863433838,
+      "logps/chosen": -150.41696166992188,
+      "logps/rejected": -152.57603454589844,
+      "loss": 41.8002,
+      "nll_loss": 120.55268859863281,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -150.41696166992188,
+      "rewards/margins": 2.159066915512085,
+      "rewards/rejected": -152.57603454589844,
+      "step": 45
+    },
+    {
+      "epoch": 0.4740740740740741,
+      "grad_norm": 3920.476318359375,
+      "learning_rate": 4.9502564938797946e-05,
+      "log_odds_chosen": 0.8013877868652344,
+      "log_odds_ratio": -1.4890391826629639,
+      "logps/chosen": -151.86148071289062,
+      "logps/rejected": -152.66287231445312,
+      "loss": 47.6492,
+      "nll_loss": 136.52732849121094,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -151.86148071289062,
+      "rewards/margins": 0.8013877868652344,
+      "rewards/rejected": -152.66287231445312,
+      "step": 50
+    },
+    {
+      "epoch": 0.5214814814814814,
+      "grad_norm": 346.2166442871094,
+      "learning_rate": 4.918953929490768e-05,
+      "log_odds_chosen": 0.22884111106395721,
+      "log_odds_ratio": -1.2772390842437744,
+      "logps/chosen": -142.4754180908203,
+      "logps/rejected": -142.70425415039062,
+      "loss": 40.8717,
+      "nll_loss": 129.07229614257812,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -142.4754180908203,
+      "rewards/margins": 0.22884111106395721,
+      "rewards/rejected": -142.70425415039062,
+      "step": 55
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 168.2239990234375,
+      "learning_rate": 4.88020090697132e-05,
+      "log_odds_chosen": 0.3460945785045624,
+      "log_odds_ratio": -1.070421576499939,
+      "logps/chosen": -115.83624267578125,
+      "logps/rejected": -116.18232727050781,
+      "loss": 34.2535,
+      "nll_loss": 104.88349914550781,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -115.83624267578125,
+      "rewards/margins": 0.3460945785045624,
+      "rewards/rejected": -116.18232727050781,
+      "step": 60
+    },
+    {
+      "epoch": 0.6162962962962963,
+      "grad_norm": 612.6487426757812,
+      "learning_rate": 4.834116786912897e-05,
+      "log_odds_chosen": 0.39803346991539,
+      "log_odds_ratio": -1.389655590057373,
+      "logps/chosen": -152.57472229003906,
+      "logps/rejected": -152.97276306152344,
+      "loss": 44.469,
+      "nll_loss": 142.9998016357422,
+      "rewards/accuracies": 0.590624988079071,
+      "rewards/chosen": -152.57472229003906,
+      "rewards/margins": 0.39803346991539,
+      "rewards/rejected": -152.97276306152344,
+      "step": 65
+    },
+    {
+      "epoch": 0.6637037037037037,
+      "grad_norm": 277.798583984375,
+      "learning_rate": 4.7808435099299045e-05,
+      "log_odds_chosen": 0.5616430044174194,
+      "log_odds_ratio": -0.66581791639328,
+      "logps/chosen": -134.55548095703125,
+      "logps/rejected": -135.1171417236328,
+      "loss": 21.3062,
+      "nll_loss": 128.04086303710938,
+      "rewards/accuracies": 0.659375011920929,
+      "rewards/chosen": -134.55548095703125,
+      "rewards/margins": 0.5616430044174194,
+      "rewards/rejected": -135.1171417236328,
+      "step": 70
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 325.87396240234375,
+      "learning_rate": 4.720545159477922e-05,
+      "log_odds_chosen": 0.8940374255180359,
+      "log_odds_ratio": -0.6344600915908813,
+      "logps/chosen": -130.94586181640625,
+      "logps/rejected": -131.8398895263672,
+      "loss": 20.3027,
+      "nll_loss": 125.71907806396484,
+      "rewards/accuracies": 0.6468750238418579,
+      "rewards/chosen": -130.94586181640625,
+      "rewards/margins": 0.8940374255180359,
+      "rewards/rejected": -131.8398895263672,
+      "step": 75
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "grad_norm": 137.472900390625,
+      "learning_rate": 4.653407456471222e-05,
+      "log_odds_chosen": 0.40505266189575195,
+      "log_odds_ratio": -0.6848157644271851,
+      "logps/chosen": -125.63932037353516,
+      "logps/rejected": -126.04437255859375,
+      "loss": 21.9141,
+      "nll_loss": 121.97508239746094,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -125.63932037353516,
+      "rewards/margins": 0.40505266189575195,
+      "rewards/rejected": -126.04437255859375,
+      "step": 80
+    },
+    {
+      "epoch": 0.8059259259259259,
+      "grad_norm": 603.01025390625,
+      "learning_rate": 4.579637187256222e-05,
+      "log_odds_chosen": 0.24384291470050812,
+      "log_odds_ratio": -0.7465418577194214,
+      "logps/chosen": -122.43513488769531,
+      "logps/rejected": -122.6789779663086,
+      "loss": 23.8893,
+      "nll_loss": 119.52433776855469,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -122.43513488769531,
+      "rewards/margins": 0.24384291470050812,
+      "rewards/rejected": -122.6789779663086,
+      "step": 85
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 98.68675231933594,
+      "learning_rate": 4.499461566702685e-05,
+      "log_odds_chosen": 0.4335232675075531,
+      "log_odds_ratio": -0.6551752686500549,
+      "logps/chosen": -113.51853942871094,
+      "logps/rejected": -113.9520492553711,
+      "loss": 20.9656,
+      "nll_loss": 110.78584289550781,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -113.51853942871094,
+      "rewards/margins": 0.4335232675075531,
+      "rewards/rejected": -113.9520492553711,
+      "step": 90
+    },
+    {
+      "epoch": 0.9007407407407407,
+      "grad_norm": 486.6390380859375,
+      "learning_rate": 4.413127538374411e-05,
+      "log_odds_chosen": 0.5088523030281067,
+      "log_odds_ratio": -0.64421546459198,
+      "logps/chosen": -113.52534484863281,
+      "logps/rejected": -114.0342025756836,
+      "loss": 20.6149,
+      "nll_loss": 111.275634765625,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -113.52534484863281,
+      "rewards/margins": 0.5088523030281067,
+      "rewards/rejected": -114.0342025756836,
+      "step": 95
+    },
+    {
+      "epoch": 0.9481481481481482,
+      "grad_norm": 259.378173828125,
+      "learning_rate": 4.320901013934887e-05,
+      "log_odds_chosen": 0.5669993162155151,
+      "log_odds_ratio": -0.8858685493469238,
+      "logps/chosen": -106.97605895996094,
+      "logps/rejected": -107.5430679321289,
+      "loss": 28.3478,
+      "nll_loss": 104.57115173339844,
+      "rewards/accuracies": 0.621874988079071,
+      "rewards/chosen": -106.97605895996094,
+      "rewards/margins": 0.5669993162155151,
+      "rewards/rejected": -107.5430679321289,
+      "step": 100
+    },
+    {
+      "epoch": 0.9955555555555555,
+      "grad_norm": 564.1270141601562,
+      "learning_rate": 4.223066054130568e-05,
+      "log_odds_chosen": 0.6227962374687195,
+      "log_odds_ratio": -0.9325195550918579,
+      "logps/chosen": -92.55345916748047,
+      "logps/rejected": -93.17625427246094,
+      "loss": 29.8406,
+      "nll_loss": 89.38184356689453,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -92.55345916748047,
+      "rewards/margins": 0.6227962374687195,
+      "rewards/rejected": -93.17625427246094,
+      "step": 105
+    },
+    {
+      "epoch": 1.037925925925926,
+      "grad_norm": 287.26513671875,
+      "learning_rate": 4.1199239938743797e-05,
+      "log_odds_chosen": 0.5149707794189453,
+      "log_odds_ratio": -0.6010006070137024,
+      "logps/chosen": -74.13626861572266,
+      "logps/rejected": -74.6512451171875,
+      "loss": 17.1886,
+      "nll_loss": 71.68141174316406,
+      "rewards/accuracies": 0.7027971744537354,
+      "rewards/chosen": -74.13626861572266,
+      "rewards/margins": 0.5149707794189453,
+      "rewards/rejected": -74.6512451171875,
+      "step": 110
+    },
+    {
+      "epoch": 1.0853333333333333,
+      "grad_norm": 430.4316711425781,
+      "learning_rate": 4.0117925141242174e-05,
+      "log_odds_chosen": 0.6114441156387329,
+      "log_odds_ratio": -0.6317542195320129,
+      "logps/chosen": -70.51701354980469,
+      "logps/rejected": -71.12846374511719,
+      "loss": 20.2161,
+      "nll_loss": 68.18811798095703,
+      "rewards/accuracies": 0.653124988079071,
+      "rewards/chosen": -70.51701354980469,
+      "rewards/margins": 0.6114441156387329,
+      "rewards/rejected": -71.12846374511719,
+      "step": 115
+    },
+    {
+      "epoch": 1.1327407407407408,
+      "grad_norm": 225.65744018554688,
+      "learning_rate": 3.899004663415084e-05,
+      "log_odds_chosen": 0.8829742670059204,
+      "log_odds_ratio": -0.7018040418624878,
+      "logps/chosen": -72.43450927734375,
+      "logps/rejected": -73.3174819946289,
+      "loss": 22.4577,
+      "nll_loss": 70.06659698486328,
+      "rewards/accuracies": 0.6343749761581421,
+      "rewards/chosen": -72.43450927734375,
+      "rewards/margins": 0.8829742670059204,
+      "rewards/rejected": -73.3174819946289,
+      "step": 120
+    },
+    {
+      "epoch": 1.1801481481481482,
+      "grad_norm": 605.541748046875,
+      "learning_rate": 3.781907832058587e-05,
+      "log_odds_chosen": 0.7452532052993774,
+      "log_odds_ratio": -0.6702367663383484,
+      "logps/chosen": -74.36035919189453,
+      "logps/rejected": -75.1056137084961,
+      "loss": 21.4476,
+      "nll_loss": 71.98149108886719,
+      "rewards/accuracies": 0.6656249761581421,
+      "rewards/chosen": -74.36035919189453,
+      "rewards/margins": 0.7452532052993774,
+      "rewards/rejected": -75.1056137084961,
+      "step": 125
+    },
+    {
+      "epoch": 1.2275555555555555,
+      "grad_norm": 292.6062927246094,
+      "learning_rate": 3.660862682169282e-05,
+      "log_odds_chosen": 0.5303805470466614,
+      "log_odds_ratio": -0.6513002514839172,
+      "logps/chosen": -67.90737915039062,
+      "logps/rejected": -68.43775939941406,
+      "loss": 20.8416,
+      "nll_loss": 66.057861328125,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -67.90737915039062,
+      "rewards/margins": 0.5303805470466614,
+      "rewards/rejected": -68.43775939941406,
+      "step": 130
+    },
+    {
+      "epoch": 1.274962962962963,
+      "grad_norm": 118.44042205810547,
+      "learning_rate": 3.5362420368134356e-05,
+      "log_odds_chosen": 0.702187716960907,
+      "log_odds_ratio": -0.6650616526603699,
+      "logps/chosen": -78.17137145996094,
+      "logps/rejected": -78.8735580444336,
+      "loss": 21.282,
+      "nll_loss": 76.62179565429688,
+      "rewards/accuracies": 0.7281249761581421,
+      "rewards/chosen": -78.17137145996094,
+      "rewards/margins": 0.702187716960907,
+      "rewards/rejected": -78.8735580444336,
+      "step": 135
+    },
+    {
+      "epoch": 1.3223703703703704,
+      "grad_norm": 196.71144104003906,
+      "learning_rate": 3.408429731701635e-05,
+      "log_odds_chosen": 0.7111908793449402,
+      "log_odds_ratio": -0.662623405456543,
+      "logps/chosen": -64.79576873779297,
+      "logps/rejected": -65.5069580078125,
+      "loss": 21.2039,
+      "nll_loss": 63.509056091308594,
+      "rewards/accuracies": 0.659375011920929,
+      "rewards/chosen": -64.79576873779297,
+      "rewards/margins": 0.7111908793449402,
+      "rewards/rejected": -65.5069580078125,
+      "step": 140
+    },
+    {
+      "epoch": 1.3697777777777778,
+      "grad_norm": 76.86389923095703,
+      "learning_rate": 3.2778194329621104e-05,
+      "log_odds_chosen": 1.3437374830245972,
+      "log_odds_ratio": -0.5445761680603027,
+      "logps/chosen": -76.33842468261719,
+      "logps/rejected": -77.68216705322266,
+      "loss": 17.4264,
+      "nll_loss": 74.82538604736328,
+      "rewards/accuracies": 0.715624988079071,
+      "rewards/chosen": -76.33842468261719,
+      "rewards/margins": 1.3437374830245972,
+      "rewards/rejected": -77.68216705322266,
+      "step": 145
+    },
+    {
+      "epoch": 1.417185185185185,
+      "grad_norm": 379.3780212402344,
+      "learning_rate": 3.144813424636031e-05,
+      "log_odds_chosen": 0.8894694447517395,
+      "log_odds_ratio": -0.60655677318573,
+      "logps/chosen": -73.5786361694336,
+      "logps/rejected": -74.46809387207031,
+      "loss": 19.4098,
+      "nll_loss": 71.83946228027344,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -73.5786361694336,
+      "rewards/margins": 0.8894694447517395,
+      "rewards/rejected": -74.46809387207031,
+      "step": 150
+    },
+    {
+      "epoch": 1.4645925925925927,
+      "grad_norm": 194.71551513671875,
+      "learning_rate": 3.0098213696293542e-05,
+      "log_odds_chosen": 0.7581270933151245,
+      "log_odds_ratio": -0.6102460622787476,
+      "logps/chosen": -78.3839111328125,
+      "logps/rejected": -79.14203643798828,
+      "loss": 19.5279,
+      "nll_loss": 76.60259246826172,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -78.3839111328125,
+      "rewards/margins": 0.7581270933151245,
+      "rewards/rejected": -79.14203643798828,
+      "step": 155
+    },
+    {
+      "epoch": 1.512,
+      "grad_norm": 181.2035369873047,
+      "learning_rate": 2.8732590479375165e-05,
+      "log_odds_chosen": 0.659544825553894,
+      "log_odds_ratio": -0.5649217367172241,
+      "logps/chosen": -81.12464904785156,
+      "logps/rejected": -81.7842025756836,
+      "loss": 18.0775,
+      "nll_loss": 79.08438873291016,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -81.12464904785156,
+      "rewards/margins": 0.659544825553894,
+      "rewards/rejected": -81.7842025756836,
+      "step": 160
+    },
+    {
+      "epoch": 1.5594074074074074,
+      "grad_norm": 220.28268432617188,
+      "learning_rate": 2.7355470760292956e-05,
+      "log_odds_chosen": 0.9221769571304321,
+      "log_odds_ratio": -0.5502141118049622,
+      "logps/chosen": -79.66305541992188,
+      "logps/rejected": -80.58523559570312,
+      "loss": 17.6069,
+      "nll_loss": 77.8115463256836,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -79.66305541992188,
+      "rewards/margins": 0.9221769571304321,
+      "rewards/rejected": -80.58523559570312,
+      "step": 165
+    },
+    {
+      "epoch": 1.6068148148148147,
+      "grad_norm": 65.46253967285156,
+      "learning_rate": 2.597109611334169e-05,
+      "log_odds_chosen": 1.040714979171753,
+      "log_odds_ratio": -0.5623927116394043,
+      "logps/chosen": -79.55305480957031,
+      "logps/rejected": -80.5937728881836,
+      "loss": 17.9966,
+      "nll_loss": 77.59423065185547,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -79.55305480957031,
+      "rewards/margins": 1.040714979171753,
+      "rewards/rejected": -80.5937728881836,
+      "step": 170
+    },
+    {
+      "epoch": 1.6542222222222223,
+      "grad_norm": 224.69976806640625,
+      "learning_rate": 2.458373045823404e-05,
+      "log_odds_chosen": 0.8248542547225952,
+      "log_odds_ratio": -0.5441884994506836,
+      "logps/chosen": -75.96087646484375,
+      "logps/rejected": -76.78572845458984,
+      "loss": 17.414,
+      "nll_loss": 73.72982025146484,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -75.96087646484375,
+      "rewards/margins": 0.8248542547225952,
+      "rewards/rejected": -76.78572845458984,
+      "step": 175
+    },
+    {
+      "epoch": 1.7016296296296296,
+      "grad_norm": 123.06717681884766,
+      "learning_rate": 2.3197646927086697e-05,
+      "log_odds_chosen": 0.8531917333602905,
+      "log_odds_ratio": -0.502475380897522,
+      "logps/chosen": -77.56637573242188,
+      "logps/rejected": -78.41956329345703,
+      "loss": 16.0792,
+      "nll_loss": 75.34583282470703,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -77.56637573242188,
+      "rewards/margins": 0.8531917333602905,
+      "rewards/rejected": -78.41956329345703,
+      "step": 180
+    },
+    {
+      "epoch": 1.749037037037037,
+      "grad_norm": 90.936767578125,
+      "learning_rate": 2.1817114703032176e-05,
+      "log_odds_chosen": 0.8035793304443359,
+      "log_odds_ratio": -0.5467336773872375,
+      "logps/chosen": -74.6766357421875,
+      "logps/rejected": -75.48020935058594,
+      "loss": 17.4955,
+      "nll_loss": 72.79801940917969,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -74.6766357421875,
+      "rewards/margins": 0.8035793304443359,
+      "rewards/rejected": -75.48020935058594,
+      "step": 185
+    },
+    {
+      "epoch": 1.7964444444444445,
+      "grad_norm": 161.3369140625,
+      "learning_rate": 2.0446385870993467e-05,
+      "log_odds_chosen": 1.057072401046753,
+      "log_odds_ratio": -0.4894322454929352,
+      "logps/chosen": -69.64981079101562,
+      "logps/rejected": -70.70687103271484,
+      "loss": 15.6618,
+      "nll_loss": 67.64393615722656,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -69.64981079101562,
+      "rewards/margins": 1.057072401046753,
+      "rewards/rejected": -70.70687103271484,
+      "step": 190
+    },
+    {
+      "epoch": 1.8438518518518519,
+      "grad_norm": 349.56439208984375,
+      "learning_rate": 1.9089682321121834e-05,
+      "log_odds_chosen": 1.5846078395843506,
+      "log_odds_ratio": -0.5456617474555969,
+      "logps/chosen": -80.89094543457031,
+      "logps/rejected": -82.4755630493164,
+      "loss": 17.4612,
+      "nll_loss": 77.97457885742188,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -80.89094543457031,
+      "rewards/margins": 1.5846078395843506,
+      "rewards/rejected": -82.4755630493164,
+      "step": 195
+    },
+    {
+      "epoch": 1.8912592592592592,
+      "grad_norm": 73.02623748779297,
+      "learning_rate": 1.775118274523545e-05,
+      "log_odds_chosen": 1.1135013103485107,
+      "log_odds_ratio": -0.532755970954895,
+      "logps/chosen": -84.60154724121094,
+      "logps/rejected": -85.71505737304688,
+      "loss": 17.0482,
+      "nll_loss": 81.52278900146484,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -84.60154724121094,
+      "rewards/margins": 1.1135013103485107,
+      "rewards/rejected": -85.71505737304688,
+      "step": 200
+    },
+    {
+      "epoch": 1.9386666666666668,
+      "grad_norm": 68.42233276367188,
+      "learning_rate": 1.643500976631037e-05,
+      "log_odds_chosen": 0.717894971370697,
+      "log_odds_ratio": -0.5447430610656738,
+      "logps/chosen": -80.26295471191406,
+      "logps/rejected": -80.9808578491211,
+      "loss": 17.4318,
+      "nll_loss": 77.52245330810547,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -80.26295471191406,
+      "rewards/margins": 0.717894971370697,
+      "rewards/rejected": -80.9808578491211,
+      "step": 205
+    },
+    {
+      "epoch": 1.986074074074074,
+      "grad_norm": 114.36587524414062,
+      "learning_rate": 1.514521724066537e-05,
+      "log_odds_chosen": 0.6508203744888306,
+      "log_odds_ratio": -0.6152015328407288,
+      "logps/chosen": -80.61943817138672,
+      "logps/rejected": -81.27025604248047,
+      "loss": 19.6865,
+      "nll_loss": 77.93927001953125,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -80.61943817138672,
+      "rewards/margins": 0.6508203744888306,
+      "rewards/rejected": -81.27025604248047,
+      "step": 210
+    },
+    {
+      "epoch": 2.0284444444444443,
+      "grad_norm": 152.35540771484375,
+      "learning_rate": 1.3885777771950348e-05,
+      "log_odds_chosen": 1.0508326292037964,
+      "log_odds_ratio": -0.5209993720054626,
+      "logps/chosen": -80.12591552734375,
+      "logps/rejected": -81.1767578125,
+      "loss": 14.9006,
+      "nll_loss": 77.8501968383789,
+      "rewards/accuracies": 0.751748263835907,
+      "rewards/chosen": -80.12591552734375,
+      "rewards/margins": 1.0508326292037964,
+      "rewards/rejected": -81.1767578125,
+      "step": 215
+    },
+    {
+      "epoch": 2.075851851851852,
+      "grad_norm": 67.25732421875,
+      "learning_rate": 1.2660570475395683e-05,
+      "log_odds_chosen": 1.0816318988800049,
+      "log_odds_ratio": -0.4839634299278259,
+      "logps/chosen": -74.36226654052734,
+      "logps/rejected": -75.44390106201172,
+      "loss": 15.4868,
+      "nll_loss": 72.31621551513672,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -74.36226654052734,
+      "rewards/margins": 1.0816318988800049,
+      "rewards/rejected": -75.44390106201172,
+      "step": 220
+    },
+    {
+      "epoch": 2.1232592592592594,
+      "grad_norm": 121.6506118774414,
+      "learning_rate": 1.1473369030008974e-05,
+      "log_odds_chosen": 1.3746577501296997,
+      "log_odds_ratio": -0.41175857186317444,
+      "logps/chosen": -75.92201232910156,
+      "logps/rejected": -77.29666137695312,
+      "loss": 13.1763,
+      "nll_loss": 73.99418640136719,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -75.92201232910156,
+      "rewards/margins": 1.3746577501296997,
+      "rewards/rejected": -77.29666137695312,
+      "step": 225
+    },
+    {
+      "epoch": 2.1706666666666665,
+      "grad_norm": 91.61468505859375,
+      "learning_rate": 1.0327830055518842e-05,
+      "log_odds_chosen": 1.8022880554199219,
+      "log_odds_ratio": -0.4180576205253601,
+      "logps/chosen": -76.81086730957031,
+      "logps/rejected": -78.61314392089844,
+      "loss": 13.3778,
+      "nll_loss": 74.9874038696289,
+      "rewards/accuracies": 0.809374988079071,
+      "rewards/chosen": -76.81086730957031,
+      "rewards/margins": 1.8022880554199219,
+      "rewards/rejected": -78.61314392089844,
+      "step": 230
+    },
+    {
+      "epoch": 2.218074074074074,
+      "grad_norm": 185.319580078125,
+      "learning_rate": 9.227481849865235e-06,
+      "log_odds_chosen": 1.7025684118270874,
+      "log_odds_ratio": -0.43913546204566956,
+      "logps/chosen": -78.4276351928711,
+      "logps/rejected": -80.13020324707031,
+      "loss": 14.0523,
+      "nll_loss": 76.0723648071289,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -78.4276351928711,
+      "rewards/margins": 1.7025684118270874,
+      "rewards/rejected": -80.13020324707031,
+      "step": 235
+    },
+    {
+      "epoch": 2.2654814814814817,
+      "grad_norm": 235.93431091308594,
+      "learning_rate": 8.175713521924978e-06,
+      "log_odds_chosen": 1.7359157800674438,
+      "log_odds_ratio": -0.3843821883201599,
+      "logps/chosen": -74.28846740722656,
+      "logps/rejected": -76.02437591552734,
+      "loss": 12.3002,
+      "nll_loss": 72.41877746582031,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -74.28846740722656,
+      "rewards/margins": 1.7359157800674438,
+      "rewards/rejected": -76.02437591552734,
+      "step": 240
+    },
+    {
+      "epoch": 2.3128888888888888,
+      "grad_norm": 96.19325256347656,
+      "learning_rate": 7.1757645529443665e-06,
+      "log_odds_chosen": 1.8641507625579834,
+      "log_odds_ratio": -0.39463645219802856,
+      "logps/chosen": -72.28008270263672,
+      "logps/rejected": -74.14424133300781,
+      "loss": 12.6284,
+      "nll_loss": 70.3760986328125,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -72.28008270263672,
+      "rewards/margins": 1.8641507625579834,
+      "rewards/rejected": -74.14424133300781,
+      "step": 245
+    },
+    {
+      "epoch": 2.3602962962962963,
+      "grad_norm": 111.45867919921875,
+      "learning_rate": 6.230714818829733e-06,
+      "log_odds_chosen": 1.782758116722107,
+      "log_odds_ratio": -0.3957170844078064,
+      "logps/chosen": -71.14763641357422,
+      "logps/rejected": -72.93038177490234,
+      "loss": 12.6629,
+      "nll_loss": 69.536376953125,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -71.14763641357422,
+      "rewards/margins": 1.782758116722107,
+      "rewards/rejected": -72.93038177490234,
+      "step": 250
+    },
+    {
+      "epoch": 2.407703703703704,
+      "grad_norm": 96.2086181640625,
+      "learning_rate": 5.343475104027743e-06,
+      "log_odds_chosen": 1.9097713232040405,
+      "log_odds_ratio": -0.3789903521537781,
+      "logps/chosen": -72.61198425292969,
+      "logps/rejected": -74.5217514038086,
+      "loss": 12.1277,
+      "nll_loss": 70.6400146484375,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -72.61198425292969,
+      "rewards/margins": 1.9097713232040405,
+      "rewards/rejected": -74.5217514038086,
+      "step": 255
+    },
+    {
+      "epoch": 2.455111111111111,
+      "grad_norm": 107.21746063232422,
+      "learning_rate": 4.516778136213037e-06,
+      "log_odds_chosen": 2.123696804046631,
+      "log_odds_ratio": -0.33625128865242004,
+      "logps/chosen": -75.09449768066406,
+      "logps/rejected": -77.21818542480469,
+      "loss": 10.76,
+      "nll_loss": 72.9236068725586,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -75.09449768066406,
+      "rewards/margins": 2.123696804046631,
+      "rewards/rejected": -77.21818542480469,
+      "step": 260
+    },
+    {
+      "epoch": 2.5025185185185186,
+      "grad_norm": 140.90371704101562,
+      "learning_rate": 3.7531701693965554e-06,
+      "log_odds_chosen": 2.315692663192749,
+      "log_odds_ratio": -0.3569856882095337,
+      "logps/chosen": -75.63587951660156,
+      "logps/rejected": -77.95157623291016,
+      "loss": 11.4235,
+      "nll_loss": 73.40586853027344,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -75.63587951660156,
+      "rewards/margins": 2.315692663192749,
+      "rewards/rejected": -77.95157623291016,
+      "step": 265
+    },
+    {
+      "epoch": 2.549925925925926,
+      "grad_norm": 116.43041229248047,
+      "learning_rate": 3.055003141378948e-06,
+      "log_odds_chosen": 2.3956801891326904,
+      "log_odds_ratio": -0.3444186747074127,
+      "logps/chosen": -76.45235443115234,
+      "logps/rejected": -78.84803771972656,
+      "loss": 11.0214,
+      "nll_loss": 74.2215576171875,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -76.45235443115234,
+      "rewards/margins": 2.3956801891326904,
+      "rewards/rejected": -78.84803771972656,
+      "step": 270
+    },
+    {
+      "epoch": 2.5973333333333333,
+      "grad_norm": 111.95805358886719,
+      "learning_rate": 2.424427429704365e-06,
+      "log_odds_chosen": 2.0682857036590576,
+      "log_odds_ratio": -0.40607601404190063,
+      "logps/chosen": -76.42601776123047,
+      "logps/rejected": -78.49430847167969,
+      "loss": 12.9944,
+      "nll_loss": 74.2015380859375,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -76.42601776123047,
+      "rewards/margins": 2.0682857036590576,
+      "rewards/rejected": -78.49430847167969,
+      "step": 275
+    },
+    {
+      "epoch": 2.644740740740741,
+      "grad_norm": 117.52398681640625,
+      "learning_rate": 1.8633852284264508e-06,
+      "log_odds_chosen": 2.284158229827881,
+      "log_odds_ratio": -0.3496808409690857,
+      "logps/chosen": -76.18301391601562,
+      "logps/rejected": -78.4671630859375,
+      "loss": 11.1898,
+      "nll_loss": 74.24303436279297,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -76.18301391601562,
+      "rewards/margins": 2.284158229827881,
+      "rewards/rejected": -78.4671630859375,
+      "step": 280
+    },
+    {
+      "epoch": 2.6921481481481484,
+      "grad_norm": 145.8434600830078,
+      "learning_rate": 1.3736045660864034e-06,
+      "log_odds_chosen": 2.0426528453826904,
+      "log_odds_ratio": -0.4473814070224762,
+      "logps/chosen": -76.21638488769531,
+      "logps/rejected": -78.259033203125,
+      "loss": 14.3162,
+      "nll_loss": 73.87956237792969,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -76.21638488769531,
+      "rewards/margins": 2.0426528453826904,
+      "rewards/rejected": -78.259033203125,
+      "step": 285
+    },
+    {
+      "epoch": 2.7395555555555555,
+      "grad_norm": 262.74298095703125,
+      "learning_rate": 9.565939833279192e-07,
+      "log_odds_chosen": 2.02114200592041,
+      "log_odds_ratio": -0.38766786456108093,
+      "logps/chosen": -76.1156997680664,
+      "logps/rejected": -78.13684844970703,
+      "loss": 12.4054,
+      "nll_loss": 74.00138854980469,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -76.1156997680664,
+      "rewards/margins": 2.02114200592041,
+      "rewards/rejected": -78.13684844970703,
+      "step": 290
+    },
+    {
+      "epoch": 2.786962962962963,
+      "grad_norm": 126.94654083251953,
+      "learning_rate": 6.136378865420872e-07,
+      "log_odds_chosen": 1.9735645055770874,
+      "log_odds_ratio": -0.37328869104385376,
+      "logps/chosen": -75.25834655761719,
+      "logps/rejected": -77.23191833496094,
+      "loss": 11.9452,
+      "nll_loss": 73.13874053955078,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -75.25834655761719,
+      "rewards/margins": 1.9735645055770874,
+      "rewards/rejected": -77.23191833496094,
+      "step": 295
+    },
+    {
+      "epoch": 2.83437037037037,
+      "grad_norm": 99.43417358398438,
+      "learning_rate": 3.45792591853214e-07,
+      "log_odds_chosen": 2.100620746612549,
+      "log_odds_ratio": -0.403224378824234,
+      "logps/chosen": -75.48963165283203,
+      "logps/rejected": -77.59024810791016,
+      "loss": 12.9032,
+      "nll_loss": 73.26192474365234,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -75.48963165283203,
+      "rewards/margins": 2.100620746612549,
+      "rewards/rejected": -77.59024810791016,
+      "step": 300
+    },
+    {
+      "epoch": 2.8817777777777778,
+      "grad_norm": 115.87845611572266,
+      "learning_rate": 1.538830716302092e-07,
+      "log_odds_chosen": 2.1068568229675293,
+      "log_odds_ratio": -0.3900986313819885,
+      "logps/chosen": -75.33139038085938,
+      "logps/rejected": -77.43824005126953,
+      "loss": 12.4832,
+      "nll_loss": 73.32325744628906,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -75.33139038085938,
+      "rewards/margins": 2.1068568229675293,
+      "rewards/rejected": -77.43824005126953,
+      "step": 305
+    },
+    {
+      "epoch": 2.9291851851851853,
+      "grad_norm": 101.96614074707031,
+      "learning_rate": 3.8500413544415025e-08,
+      "log_odds_chosen": 1.9942286014556885,
+      "log_odds_ratio": -0.3553644120693207,
+      "logps/chosen": -74.625244140625,
+      "logps/rejected": -76.6194839477539,
+      "loss": 11.3717,
+      "nll_loss": 72.78034210205078,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -74.625244140625,
+      "rewards/margins": 1.9942286014556885,
+      "rewards/rejected": -76.6194839477539,
+      "step": 310
+    },
+    {
+      "epoch": 2.9765925925925925,
+      "grad_norm": 176.18894958496094,
+      "learning_rate": 0.0,
+      "log_odds_chosen": 2.045795202255249,
+      "log_odds_ratio": -0.3809313178062439,
+      "logps/chosen": -75.89002990722656,
+      "logps/rejected": -77.93583679199219,
+      "loss": 12.1898,
+      "nll_loss": 73.94648742675781,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -75.89002990722656,
+      "rewards/margins": 2.045795202255249,
+      "rewards/rejected": -77.93583679199219,
+      "step": 315
+    },
+    {
+      "epoch": 2.9765925925925925,
+      "step": 315,
+      "total_flos": 0.0,
+      "train_loss": 38.28643096439422,
+      "train_runtime": 9296.3619,
+      "train_samples_per_second": 2.178,
+      "train_steps_per_second": 0.034
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 315,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}