Model save

Browse files

Files changed (10) hide show

README.md +83 -0
adapter_config.json +31 -0
adapter_model.safetensors +3 -0
all_results.json +8 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +43 -0
train_results.json +8 -0
trainer_state.json +1614 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,83 @@

+---
+base_model: mistralai/Mistral-7B-v0.1
+library_name: peft
+license: apache-2.0
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: zephyr-7b-dpo-lora
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-lora
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4932
+- Rewards/chosen: -1.7916
+- Rewards/rejected: -2.7322
+- Rewards/accuracies: 0.7262
+- Rewards/margins: 0.9407
+- Logps/rejected: -535.5854
+- Logps/chosen: -446.6503
+- Logits/rejected: 0.9353
+- Logits/chosen: 0.5257
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6087        | 0.1   | 100  | 0.6158          | -0.3136        | -0.5466          | 0.6726             | 0.2330          | -317.0252      | -298.8513    | -2.0360         | -2.1198       |
+| 0.5463        | 0.21  | 200  | 0.5504          | -1.1262        | -1.6978          | 0.6925             | 0.5716          | -432.1413      | -380.1157    | -0.0431         | -0.2986       |
+| 0.4949        | 0.31  | 300  | 0.5161          | -1.6535        | -2.4330          | 0.7183             | 0.7794          | -505.6621      | -432.8479    | 0.4034          | 0.1418        |
+| 0.5239        | 0.42  | 400  | 0.5101          | -1.3693        | -2.0810          | 0.7302             | 0.7116          | -470.4624      | -404.4282    | 0.8585          | 0.5591        |
+| 0.5272        | 0.52  | 500  | 0.5003          | -2.0358        | -2.9629          | 0.7381             | 0.9271          | -558.6534      | -471.0703    | 1.0404          | 0.7150        |
+| 0.4886        | 0.63  | 600  | 0.4982          | -1.7739        | -2.6428          | 0.7262             | 0.8689          | -526.6414      | -444.8822    | 0.3752          | 0.0594        |
+| 0.516         | 0.73  | 700  | 0.4933          | -2.0243        | -2.9388          | 0.7302             | 0.9144          | -556.2413      | -469.9273    | 0.8898          | 0.5312        |
+| 0.495         | 0.84  | 800  | 0.4949          | -1.7382        | -2.6840          | 0.7262             | 0.9458          | -530.7620      | -441.3121    | 0.8308          | 0.4157        |
+| 0.4866        | 0.94  | 900  | 0.4932          | -1.7916        | -2.7322          | 0.7262             | 0.9407          | -535.5854      | -446.6503    | 0.9353          | 0.5257        |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.38.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "o_proj",
+    "gate_proj",
+    "up_proj",
+    "v_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a30a7a4badef97c6dfcd8926c13ead9c59cb66a2a3eeb2b655d70e26c1cef415
+size 335605144

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.5264237219126436,
+    "train_runtime": 29801.8239,
+    "train_samples": 61135,
+    "train_samples_per_second": 2.051,
+    "train_steps_per_second": 0.032
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.5264237219126436,
+    "train_runtime": 29801.8239,
+    "train_samples": 61135,
+    "train_samples_per_second": 2.051,
+    "train_steps_per_second": 0.032
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1614 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9997382884061764,
+  "eval_steps": 100,
+  "global_step": 955,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 1.6872971730727813,
+      "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -2.4102981090545654,
+      "logits/rejected": -2.4143850803375244,
+      "logps/chosen": -352.07745361328125,
+      "logps/rejected": -290.7293395996094,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.7117396873541209,
+      "learning_rate": 5.208333333333334e-07,
+      "logits/chosen": -2.2590177059173584,
+      "logits/rejected": -2.1774637699127197,
+      "logps/chosen": -236.37635803222656,
+      "logps/rejected": -228.0323944091797,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.3819444477558136,
+      "rewards/chosen": -0.0001151897813542746,
+      "rewards/margins": -0.0005040301475673914,
+      "rewards/rejected": 0.00038884030072949827,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.5684536992232367,
+      "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -2.3643908500671387,
+      "logits/rejected": -2.298231840133667,
+      "logps/chosen": -282.7557067871094,
+      "logps/rejected": -264.20379638671875,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.0016558446222916245,
+      "rewards/margins": 0.000754863431211561,
+      "rewards/rejected": 0.0009009811910800636,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 1.6320638446100388,
+      "learning_rate": 1.5625e-06,
+      "logits/chosen": -2.2148165702819824,
+      "logits/rejected": -2.1439080238342285,
+      "logps/chosen": -254.8279266357422,
+      "logps/rejected": -239.754150390625,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.00770978769287467,
+      "rewards/margins": 0.005677036941051483,
+      "rewards/rejected": 0.002032750751823187,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.5505793749959536,
+      "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -2.4151053428649902,
+      "logits/rejected": -2.267972946166992,
+      "logps/chosen": -289.40142822265625,
+      "logps/rejected": -265.69000244140625,
+      "loss": 0.6867,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.019891003146767616,
+      "rewards/margins": 0.008773349225521088,
+      "rewards/rejected": 0.011117652989923954,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.6726051946382139,
+      "learning_rate": 2.604166666666667e-06,
+      "logits/chosen": -2.336714029312134,
+      "logits/rejected": -2.256179094314575,
+      "logps/chosen": -245.6073455810547,
+      "logps/rejected": -228.17562866210938,
+      "loss": 0.6793,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.037440598011016846,
+      "rewards/margins": 0.02772732451558113,
+      "rewards/rejected": 0.009713277220726013,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.7944993610396887,
+      "learning_rate": 3.125e-06,
+      "logits/chosen": -2.289384365081787,
+      "logits/rejected": -2.2603793144226074,
+      "logps/chosen": -252.38510131835938,
+      "logps/rejected": -252.2633819580078,
+      "loss": 0.6717,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.04392694681882858,
+      "rewards/margins": 0.0502941831946373,
+      "rewards/rejected": -0.006367234978824854,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 2.0272577815121133,
+      "learning_rate": 3.6458333333333333e-06,
+      "logits/chosen": -2.276283025741577,
+      "logits/rejected": -2.1802830696105957,
+      "logps/chosen": -252.1732635498047,
+      "logps/rejected": -269.9049987792969,
+      "loss": 0.6579,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.014363644644618034,
+      "rewards/margins": 0.0627121776342392,
+      "rewards/rejected": -0.07707582414150238,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 5.394650048474675,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.100991725921631,
+      "logits/rejected": -1.9991142749786377,
+      "logps/chosen": -265.56060791015625,
+      "logps/rejected": -263.40496826171875,
+      "loss": 0.6436,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.027108073234558105,
+      "rewards/margins": 0.1258033663034439,
+      "rewards/rejected": -0.15291143953800201,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 2.829581544220464,
+      "learning_rate": 4.6875000000000004e-06,
+      "logits/chosen": -2.1768875122070312,
+      "logits/rejected": -2.1092872619628906,
+      "logps/chosen": -284.537841796875,
+      "logps/rejected": -302.475830078125,
+      "loss": 0.629,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.2255394160747528,
+      "rewards/margins": 0.15923205018043518,
+      "rewards/rejected": -0.384771466255188,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 5.983992522046318,
+      "learning_rate": 4.9997324926814375e-06,
+      "logits/chosen": -2.1670639514923096,
+      "logits/rejected": -2.1124117374420166,
+      "logps/chosen": -293.4961242675781,
+      "logps/rejected": -312.59320068359375,
+      "loss": 0.6087,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.15919722616672516,
+      "rewards/margins": 0.22884318232536316,
+      "rewards/rejected": -0.3880404233932495,
+      "step": 100
+    },
+    {
+      "epoch": 0.1,
+      "eval_logits/chosen": -2.1197569370269775,
+      "eval_logits/rejected": -2.036003828048706,
+      "eval_logps/chosen": -298.85125732421875,
+      "eval_logps/rejected": -317.0252380371094,
+      "eval_loss": 0.6158178448677063,
+      "eval_rewards/accuracies": 0.6726190447807312,
+      "eval_rewards/chosen": -0.313564270734787,
+      "eval_rewards/margins": 0.23304378986358643,
+      "eval_rewards/rejected": -0.546608030796051,
+      "eval_runtime": 364.711,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 0.173,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 4.31001099339475,
+      "learning_rate": 4.996723692767927e-06,
+      "logits/chosen": -2.2227556705474854,
+      "logits/rejected": -2.1177265644073486,
+      "logps/chosen": -341.78594970703125,
+      "logps/rejected": -359.0604553222656,
+      "loss": 0.6048,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.474813312292099,
+      "rewards/margins": 0.33163630962371826,
+      "rewards/rejected": -0.8064495921134949,
+      "step": 110
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 5.841735492614658,
+      "learning_rate": 4.9903757462135984e-06,
+      "logits/chosen": -2.2709505558013916,
+      "logits/rejected": -2.1858668327331543,
+      "logps/chosen": -327.3430480957031,
+      "logps/rejected": -359.780029296875,
+      "loss": 0.5976,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.7242799401283264,
+      "rewards/margins": 0.3823621869087219,
+      "rewards/rejected": -1.1066421270370483,
+      "step": 120
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 4.058093924122145,
+      "learning_rate": 4.980697142834315e-06,
+      "logits/chosen": -1.9997293949127197,
+      "logits/rejected": -1.8148103952407837,
+      "logps/chosen": -391.48834228515625,
+      "logps/rejected": -384.39288330078125,
+      "loss": 0.5576,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.850256621837616,
+      "rewards/margins": 0.467766135931015,
+      "rewards/rejected": -1.3180228471755981,
+      "step": 130
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 4.759314589639897,
+      "learning_rate": 4.967700826904229e-06,
+      "logits/chosen": -1.3535711765289307,
+      "logits/rejected": -1.2067102193832397,
+      "logps/chosen": -352.2384948730469,
+      "logps/rejected": -376.5408020019531,
+      "loss": 0.5621,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.9079573750495911,
+      "rewards/margins": 0.47648367285728455,
+      "rewards/rejected": -1.3844410181045532,
+      "step": 140
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 6.966946629400433,
+      "learning_rate": 4.951404179843963e-06,
+      "logits/chosen": -1.4944788217544556,
+      "logits/rejected": -1.175698161125183,
+      "logps/chosen": -385.9867858886719,
+      "logps/rejected": -395.92889404296875,
+      "loss": 0.5526,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.8049098253250122,
+      "rewards/margins": 0.6389679908752441,
+      "rewards/rejected": -1.443877935409546,
+      "step": 150
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 6.933994816745419,
+      "learning_rate": 4.931828996974498e-06,
+      "logits/chosen": -1.2824828624725342,
+      "logits/rejected": -1.0046826601028442,
+      "logps/chosen": -356.4523010253906,
+      "logps/rejected": -377.0785217285156,
+      "loss": 0.577,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.0120383501052856,
+      "rewards/margins": 0.5240768790245056,
+      "rewards/rejected": -1.5361151695251465,
+      "step": 160
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 4.768436190577922,
+      "learning_rate": 4.909001458367867e-06,
+      "logits/chosen": -0.5933430790901184,
+      "logits/rejected": -0.33633238077163696,
+      "logps/chosen": -465.66510009765625,
+      "logps/rejected": -474.8177185058594,
+      "loss": 0.5755,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.7751672267913818,
+      "rewards/margins": 0.543445885181427,
+      "rewards/rejected": -2.318613052368164,
+      "step": 170
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 4.556050170367665,
+      "learning_rate": 4.882952093833628e-06,
+      "logits/chosen": -0.9897077679634094,
+      "logits/rejected": -0.833814263343811,
+      "logps/chosen": -451.8089294433594,
+      "logps/rejected": -465.73565673828125,
+      "loss": 0.5727,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.6387646198272705,
+      "rewards/margins": 0.44902724027633667,
+      "rewards/rejected": -2.087791919708252,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 4.891304529530987,
+      "learning_rate": 4.853715742087947e-06,
+      "logits/chosen": -0.743046760559082,
+      "logits/rejected": -0.4523673951625824,
+      "logps/chosen": -378.919189453125,
+      "logps/rejected": -391.9801025390625,
+      "loss": 0.5486,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.2883106470108032,
+      "rewards/margins": 0.43378907442092896,
+      "rewards/rejected": -1.7220996618270874,
+      "step": 190
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 5.38693225816445,
+      "learning_rate": 4.821331504159906e-06,
+      "logits/chosen": -0.3933953046798706,
+      "logits/rejected": -0.05709639936685562,
+      "logps/chosen": -357.71466064453125,
+      "logps/rejected": -383.194580078125,
+      "loss": 0.5463,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.0744948387145996,
+      "rewards/margins": 0.5533859729766846,
+      "rewards/rejected": -1.6278808116912842,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "eval_logits/chosen": -0.2985667288303375,
+      "eval_logits/rejected": -0.04311899468302727,
+      "eval_logps/chosen": -380.1156921386719,
+      "eval_logps/rejected": -432.1412658691406,
+      "eval_loss": 0.550410807132721,
+      "eval_rewards/accuracies": 0.692460298538208,
+      "eval_rewards/chosen": -1.1262083053588867,
+      "eval_rewards/margins": 0.5715598464012146,
+      "eval_rewards/rejected": -1.697768211364746,
+      "eval_runtime": 363.8367,
+      "eval_samples_per_second": 5.497,
+      "eval_steps_per_second": 0.173,
+      "step": 200
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 5.527241951911523,
+      "learning_rate": 4.7858426910973435e-06,
+      "logits/chosen": -0.14632602035999298,
+      "logits/rejected": 0.03931695967912674,
+      "logps/chosen": -388.56036376953125,
+      "logps/rejected": -445.367919921875,
+      "loss": 0.5336,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.1834015846252441,
+      "rewards/margins": 0.731239914894104,
+      "rewards/rejected": -1.9146416187286377,
+      "step": 210
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 6.273093626258007,
+      "learning_rate": 4.747296766042161e-06,
+      "logits/chosen": 0.4761236310005188,
+      "logits/rejected": 0.6708475351333618,
+      "logps/chosen": -378.1613464355469,
+      "logps/rejected": -428.78643798828125,
+      "loss": 0.5169,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.4337002038955688,
+      "rewards/margins": 0.7104736566543579,
+      "rewards/rejected": -2.1441738605499268,
+      "step": 220
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 4.666490596901144,
+      "learning_rate": 4.705745280752586e-06,
+      "logits/chosen": -0.45128726959228516,
+      "logits/rejected": 0.05878635495901108,
+      "logps/chosen": -386.0497131347656,
+      "logps/rejected": -419.9007873535156,
+      "loss": 0.5351,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.0124726295471191,
+      "rewards/margins": 0.6896177530288696,
+      "rewards/rejected": -1.7020905017852783,
+      "step": 230
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 6.120721061963155,
+      "learning_rate": 4.661243806657256e-06,
+      "logits/chosen": -0.053895045071840286,
+      "logits/rejected": 0.2541065514087677,
+      "logps/chosen": -380.99114990234375,
+      "logps/rejected": -433.10809326171875,
+      "loss": 0.5416,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.1518728733062744,
+      "rewards/margins": 0.6217032074928284,
+      "rewards/rejected": -1.7735761404037476,
+      "step": 240
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 5.583267704971781,
+      "learning_rate": 4.613851860533367e-06,
+      "logits/chosen": 0.5581181049346924,
+      "logits/rejected": 0.7085031867027283,
+      "logps/chosen": -440.7920837402344,
+      "logps/rejected": -470.03778076171875,
+      "loss": 0.5495,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.6821489334106445,
+      "rewards/margins": 0.609348475933075,
+      "rewards/rejected": -2.291497230529785,
+      "step": 250
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 5.673344697563603,
+      "learning_rate": 4.563632824908252e-06,
+      "logits/chosen": 0.7213119864463806,
+      "logits/rejected": 0.8342201113700867,
+      "logps/chosen": -413.45794677734375,
+      "logps/rejected": -476.8807067871094,
+      "loss": 0.5347,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.6307703256607056,
+      "rewards/margins": 0.5706671476364136,
+      "rewards/rejected": -2.201437473297119,
+      "step": 260
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 7.321550555658446,
+      "learning_rate": 4.510653863290871e-06,
+      "logits/chosen": 0.22780194878578186,
+      "logits/rejected": 0.8186622858047485,
+      "logps/chosen": -407.9789123535156,
+      "logps/rejected": -441.42291259765625,
+      "loss": 0.5285,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.2799824476242065,
+      "rewards/margins": 0.812950611114502,
+      "rewards/rejected": -2.092933177947998,
+      "step": 270
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 6.59015517751076,
+      "learning_rate": 4.454985830346574e-06,
+      "logits/chosen": 0.8685849905014038,
+      "logits/rejected": 1.2805653810501099,
+      "logps/chosen": -383.39483642578125,
+      "logps/rejected": -461.10528564453125,
+      "loss": 0.4941,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.3261792659759521,
+      "rewards/margins": 0.7511085271835327,
+      "rewards/rejected": -2.0772879123687744,
+      "step": 280
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 5.290937758978531,
+      "learning_rate": 4.396703177135262e-06,
+      "logits/chosen": 0.7316430807113647,
+      "logits/rejected": 1.184604525566101,
+      "logps/chosen": -394.62908935546875,
+      "logps/rejected": -475.59637451171875,
+      "loss": 0.5394,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.2810670137405396,
+      "rewards/margins": 0.8331844210624695,
+      "rewards/rejected": -2.1142513751983643,
+      "step": 290
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 6.38047854311955,
+      "learning_rate": 4.335883851539693e-06,
+      "logits/chosen": -0.5117667317390442,
+      "logits/rejected": -0.2342231273651123,
+      "logps/chosen": -363.1314697265625,
+      "logps/rejected": -406.3230285644531,
+      "loss": 0.4949,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.074188232421875,
+      "rewards/margins": 0.7227994799613953,
+      "rewards/rejected": -1.796987771987915,
+      "step": 300
+    },
+    {
+      "epoch": 0.31,
+      "eval_logits/chosen": 0.14181683957576752,
+      "eval_logits/rejected": 0.4033640921115875,
+      "eval_logps/chosen": -432.8479309082031,
+      "eval_logps/rejected": -505.6621398925781,
+      "eval_loss": 0.5161137580871582,
+      "eval_rewards/accuracies": 0.7182539701461792,
+      "eval_rewards/chosen": -1.6535308361053467,
+      "eval_rewards/margins": 0.7794461250305176,
+      "eval_rewards/rejected": -2.4329771995544434,
+      "eval_runtime": 363.6104,
+      "eval_samples_per_second": 5.5,
+      "eval_steps_per_second": 0.173,
+      "step": 300
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 6.269453976354009,
+      "learning_rate": 4.2726091940171055e-06,
+      "logits/chosen": 0.015387272462248802,
+      "logits/rejected": 0.4361787736415863,
+      "logps/chosen": -471.3013610839844,
+      "logps/rejected": -514.4930419921875,
+      "loss": 0.5181,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.809822678565979,
+      "rewards/margins": 0.7652148604393005,
+      "rewards/rejected": -2.5750374794006348,
+      "step": 310
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 7.128031303328463,
+      "learning_rate": 4.206963828813555e-06,
+      "logits/chosen": -0.014968380331993103,
+      "logits/rejected": 0.18288832902908325,
+      "logps/chosen": -377.1259765625,
+      "logps/rejected": -439.23504638671875,
+      "loss": 0.5033,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.4144322872161865,
+      "rewards/margins": 0.7219018936157227,
+      "rewards/rejected": -2.136334180831909,
+      "step": 320
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 6.507915372367444,
+      "learning_rate": 4.139035550786495e-06,
+      "logits/chosen": 0.25516384840011597,
+      "logits/rejected": 0.32111260294914246,
+      "logps/chosen": -384.0611877441406,
+      "logps/rejected": -484.21826171875,
+      "loss": 0.5141,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.6149778366088867,
+      "rewards/margins": 0.7714108824729919,
+      "rewards/rejected": -2.3863887786865234,
+      "step": 330
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 7.117891747882256,
+      "learning_rate": 4.068915207986931e-06,
+      "logits/chosen": 0.793425977230072,
+      "logits/rejected": 1.1012945175170898,
+      "logps/chosen": -490.26702880859375,
+      "logps/rejected": -559.7706298828125,
+      "loss": 0.5288,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.188723564147949,
+      "rewards/margins": 0.789432168006897,
+      "rewards/rejected": -2.9781556129455566,
+      "step": 340
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 6.767573615618988,
+      "learning_rate": 3.996696580158211e-06,
+      "logits/chosen": 0.038734257221221924,
+      "logits/rejected": 0.3444157540798187,
+      "logps/chosen": -393.08392333984375,
+      "logps/rejected": -440.9234924316406,
+      "loss": 0.543,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.2908889055252075,
+      "rewards/margins": 0.7114801406860352,
+      "rewards/rejected": -2.0023691654205322,
+      "step": 350
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 5.745989852370514,
+      "learning_rate": 3.922476253313921e-06,
+      "logits/chosen": -0.3795308768749237,
+      "logits/rejected": -0.08608667552471161,
+      "logps/chosen": -352.70037841796875,
+      "logps/rejected": -411.849609375,
+      "loss": 0.5253,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.2477184534072876,
+      "rewards/margins": 0.7360815405845642,
+      "rewards/rejected": -1.983799695968628,
+      "step": 360
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 7.421866262330383,
+      "learning_rate": 3.846353490562664e-06,
+      "logits/chosen": 0.32861948013305664,
+      "logits/rejected": 0.747407078742981,
+      "logps/chosen": -419.4422912597656,
+      "logps/rejected": -482.92218017578125,
+      "loss": 0.5213,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.5996549129486084,
+      "rewards/margins": 0.861799418926239,
+      "rewards/rejected": -2.4614546298980713,
+      "step": 370
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.881319616744216,
+      "learning_rate": 3.768430099352445e-06,
+      "logits/chosen": 0.7479051351547241,
+      "logits/rejected": 0.9084765315055847,
+      "logps/chosen": -419.5804138183594,
+      "logps/rejected": -462.1929626464844,
+      "loss": 0.5316,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.8022568225860596,
+      "rewards/margins": 0.5997826457023621,
+      "rewards/rejected": -2.4020392894744873,
+      "step": 380
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 6.8157951015425144,
+      "learning_rate": 3.6888102953122307e-06,
+      "logits/chosen": 0.3040899932384491,
+      "logits/rejected": 0.7399716973304749,
+      "logps/chosen": -431.64471435546875,
+      "logps/rejected": -468.09228515625,
+      "loss": 0.5349,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.6253465414047241,
+      "rewards/margins": 0.7721388339996338,
+      "rewards/rejected": -2.3974852561950684,
+      "step": 390
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 7.719819400236357,
+      "learning_rate": 3.607600562872785e-06,
+      "logits/chosen": 0.025150710716843605,
+      "logits/rejected": 0.44670620560646057,
+      "logps/chosen": -389.49591064453125,
+      "logps/rejected": -436.03485107421875,
+      "loss": 0.5239,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.289335012435913,
+      "rewards/margins": 0.5783864259719849,
+      "rewards/rejected": -1.8677213191986084,
+      "step": 400
+    },
+    {
+      "epoch": 0.42,
+      "eval_logits/chosen": 0.5590775609016418,
+      "eval_logits/rejected": 0.8585302233695984,
+      "eval_logps/chosen": -404.4281921386719,
+      "eval_logps/rejected": -470.4624328613281,
+      "eval_loss": 0.5100502371788025,
+      "eval_rewards/accuracies": 0.7301587462425232,
+      "eval_rewards/chosen": -1.3693335056304932,
+      "eval_rewards/margins": 0.7116466164588928,
+      "eval_rewards/rejected": -2.080980062484741,
+      "eval_runtime": 363.5138,
+      "eval_samples_per_second": 5.502,
+      "eval_steps_per_second": 0.173,
+      "step": 400
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 7.970937869843318,
+      "learning_rate": 3.5249095128531863e-06,
+      "logits/chosen": 0.4714787006378174,
+      "logits/rejected": 0.9316293597221375,
+      "logps/chosen": -396.480224609375,
+      "logps/rejected": -434.74969482421875,
+      "loss": 0.5072,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.2913535833358765,
+      "rewards/margins": 0.7052849531173706,
+      "rewards/rejected": -1.996638536453247,
+      "step": 410
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 6.303939907368478,
+      "learning_rate": 3.4408477372034743e-06,
+      "logits/chosen": 0.2637383043766022,
+      "logits/rejected": 0.8194657564163208,
+      "logps/chosen": -425.71044921875,
+      "logps/rejected": -472.1114807128906,
+      "loss": 0.506,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.4857378005981445,
+      "rewards/margins": 0.8204676508903503,
+      "rewards/rejected": -2.3062055110931396,
+      "step": 420
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 4.180610112833693,
+      "learning_rate": 3.355527661097728e-06,
+      "logits/chosen": 0.5680927634239197,
+      "logits/rejected": 1.104353904724121,
+      "logps/chosen": -410.1541442871094,
+      "logps/rejected": -459.4964904785156,
+      "loss": 0.509,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.484910249710083,
+      "rewards/margins": 0.6827523112297058,
+      "rewards/rejected": -2.1676626205444336,
+      "step": 430
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 8.034683384238669,
+      "learning_rate": 3.269063392575352e-06,
+      "logits/chosen": 0.9522289037704468,
+      "logits/rejected": 1.3713102340698242,
+      "logps/chosen": -410.77386474609375,
+      "logps/rejected": -469.934814453125,
+      "loss": 0.4919,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.4788429737091064,
+      "rewards/margins": 0.84101402759552,
+      "rewards/rejected": -2.319856882095337,
+      "step": 440
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 7.933204029001868,
+      "learning_rate": 3.181570569931697e-06,
+      "logits/chosen": 1.7222553491592407,
+      "logits/rejected": 2.531193256378174,
+      "logps/chosen": -468.93035888671875,
+      "logps/rejected": -518.9406127929688,
+      "loss": 0.5071,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.97989022731781,
+      "rewards/margins": 0.8815497159957886,
+      "rewards/rejected": -2.8614401817321777,
+      "step": 450
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 6.136879125450544,
+      "learning_rate": 3.09316620706208e-06,
+      "logits/chosen": 1.2675981521606445,
+      "logits/rejected": 1.6471933126449585,
+      "logps/chosen": -471.82501220703125,
+      "logps/rejected": -539.4986572265625,
+      "loss": 0.4972,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.9156773090362549,
+      "rewards/margins": 0.8640796542167664,
+      "rewards/rejected": -2.779757022857666,
+      "step": 460
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 6.202648384751733,
+      "learning_rate": 3.0039685369660785e-06,
+      "logits/chosen": 0.8523815274238586,
+      "logits/rejected": 1.4816639423370361,
+      "logps/chosen": -424.09759521484375,
+      "logps/rejected": -498.6441955566406,
+      "loss": 0.4932,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.6259464025497437,
+      "rewards/margins": 0.9263278245925903,
+      "rewards/rejected": -2.552274227142334,
+      "step": 470
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 5.934005833493391,
+      "learning_rate": 2.91409685362137e-06,
+      "logits/chosen": 0.7408124208450317,
+      "logits/rejected": 1.0110493898391724,
+      "logps/chosen": -438.82781982421875,
+      "logps/rejected": -494.5777282714844,
+      "loss": 0.5068,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.702741265296936,
+      "rewards/margins": 0.7638914585113525,
+      "rewards/rejected": -2.466632843017578,
+      "step": 480
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 6.134335934888188,
+      "learning_rate": 2.8236713524386085e-06,
+      "logits/chosen": 0.4550415873527527,
+      "logits/rejected": 0.7779414057731628,
+      "logps/chosen": -434.3086853027344,
+      "logps/rejected": -516.2806396484375,
+      "loss": 0.5089,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.7570041418075562,
+      "rewards/margins": 0.8707243204116821,
+      "rewards/rejected": -2.6277284622192383,
+      "step": 490
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 7.785644515938578,
+      "learning_rate": 2.7328129695107205e-06,
+      "logits/chosen": 0.7499665021896362,
+      "logits/rejected": 1.3003952503204346,
+      "logps/chosen": -424.2498474121094,
+      "logps/rejected": -495.997802734375,
+      "loss": 0.5272,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.920672059059143,
+      "rewards/margins": 0.8888359069824219,
+      "rewards/rejected": -2.8095080852508545,
+      "step": 500
+    },
+    {
+      "epoch": 0.52,
+      "eval_logits/chosen": 0.7149888277053833,
+      "eval_logits/rejected": 1.0403735637664795,
+      "eval_logps/chosen": -471.0703430175781,
+      "eval_logps/rejected": -558.6534423828125,
+      "eval_loss": 0.5003111362457275,
+      "eval_rewards/accuracies": 0.738095223903656,
+      "eval_rewards/chosen": -2.035755157470703,
+      "eval_rewards/margins": 0.9271355867385864,
+      "eval_rewards/rejected": -2.962890863418579,
+      "eval_runtime": 363.4067,
+      "eval_samples_per_second": 5.503,
+      "eval_steps_per_second": 0.173,
+      "step": 500
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 6.508475133675616,
+      "learning_rate": 2.641643219871597e-06,
+      "logits/chosen": 0.5101484060287476,
+      "logits/rejected": 0.9493732452392578,
+      "logps/chosen": -467.1604919433594,
+      "logps/rejected": -551.2037353515625,
+      "loss": 0.4865,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.970902442932129,
+      "rewards/margins": 0.9815346002578735,
+      "rewards/rejected": -2.952437162399292,
+      "step": 510
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 5.49058038197313,
+      "learning_rate": 2.5502840349805074e-06,
+      "logits/chosen": 0.1692526787519455,
+      "logits/rejected": 0.5913276076316833,
+      "logps/chosen": -398.19561767578125,
+      "logps/rejected": -454.1546936035156,
+      "loss": 0.5012,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.5394331216812134,
+      "rewards/margins": 0.9616721868515015,
+      "rewards/rejected": -2.501105546951294,
+      "step": 520
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 6.551673605459196,
+      "learning_rate": 2.4588575996495797e-06,
+      "logits/chosen": -0.2059365212917328,
+      "logits/rejected": 0.3154928684234619,
+      "logps/chosen": -433.8434143066406,
+      "logps/rejected": -497.22705078125,
+      "loss": 0.4805,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.5971723794937134,
+      "rewards/margins": 1.0449589490890503,
+      "rewards/rejected": -2.6421313285827637,
+      "step": 530
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 7.008080314698571,
+      "learning_rate": 2.367486188632446e-06,
+      "logits/chosen": 0.24021968245506287,
+      "logits/rejected": 0.4527043402194977,
+      "logps/chosen": -493.78436279296875,
+      "logps/rejected": -600.9166259765625,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.1465725898742676,
+      "rewards/margins": 1.0573832988739014,
+      "rewards/rejected": -3.203955888748169,
+      "step": 540
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 7.130638434676378,
+      "learning_rate": 2.276292003092593e-06,
+      "logits/chosen": 0.10954128205776215,
+      "logits/rejected": 0.5284096002578735,
+      "logps/chosen": -523.6838989257812,
+      "logps/rejected": -586.87451171875,
+      "loss": 0.4699,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.2369279861450195,
+      "rewards/margins": 0.9251989126205444,
+      "rewards/rejected": -3.1621270179748535,
+      "step": 550
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 6.527520826256094,
+      "learning_rate": 2.1853970071701415e-06,
+      "logits/chosen": 0.1212792843580246,
+      "logits/rejected": 0.621984601020813,
+      "logps/chosen": -492.78326416015625,
+      "logps/rejected": -556.6223754882812,
+      "loss": 0.4888,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.9754877090454102,
+      "rewards/margins": 0.8828755617141724,
+      "rewards/rejected": -2.858363389968872,
+      "step": 560
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 7.521550053676498,
+      "learning_rate": 2.0949227648656194e-06,
+      "logits/chosen": 0.6495383977890015,
+      "logits/rejected": 0.7199844121932983,
+      "logps/chosen": -420.24951171875,
+      "logps/rejected": -494.35516357421875,
+      "loss": 0.5204,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.9334577322006226,
+      "rewards/margins": 0.878303050994873,
+      "rewards/rejected": -2.8117611408233643,
+      "step": 570
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 5.995967781657259,
+      "learning_rate": 2.00499027745888e-06,
+      "logits/chosen": -0.02193205989897251,
+      "logits/rejected": 0.2604701519012451,
+      "logps/chosen": -426.2652893066406,
+      "logps/rejected": -514.4281005859375,
+      "loss": 0.4959,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.6685237884521484,
+      "rewards/margins": 0.8125013113021851,
+      "rewards/rejected": -2.481024980545044,
+      "step": 580
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 7.427361767129983,
+      "learning_rate": 1.915719821680624e-06,
+      "logits/chosen": -0.14169612526893616,
+      "logits/rejected": 0.3787733018398285,
+      "logps/chosen": -397.3866882324219,
+      "logps/rejected": -437.279541015625,
+      "loss": 0.5169,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.5220028162002563,
+      "rewards/margins": 0.7406032085418701,
+      "rewards/rejected": -2.262606143951416,
+      "step": 590
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 6.908180760937083,
+      "learning_rate": 1.8272307888529276e-06,
+      "logits/chosen": 0.0949440747499466,
+      "logits/rejected": 0.2515867352485657,
+      "logps/chosen": -374.9373474121094,
+      "logps/rejected": -469.41143798828125,
+      "loss": 0.4886,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.6092283725738525,
+      "rewards/margins": 0.7828912138938904,
+      "rewards/rejected": -2.3921194076538086,
+      "step": 600
+    },
+    {
+      "epoch": 0.63,
+      "eval_logits/chosen": 0.05941150337457657,
+      "eval_logits/rejected": 0.37521931529045105,
+      "eval_logps/chosen": -444.8821716308594,
+      "eval_logps/rejected": -526.641357421875,
+      "eval_loss": 0.49817371368408203,
+      "eval_rewards/accuracies": 0.726190447807312,
+      "eval_rewards/chosen": -1.7738730907440186,
+      "eval_rewards/margins": 0.8688962459564209,
+      "eval_rewards/rejected": -2.6427693367004395,
+      "eval_runtime": 363.5537,
+      "eval_samples_per_second": 5.501,
+      "eval_steps_per_second": 0.173,
+      "step": 600
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 7.791648443136137,
+      "learning_rate": 1.739641525213929e-06,
+      "logits/chosen": 0.37017613649368286,
+      "logits/rejected": 0.7658742666244507,
+      "logps/chosen": -431.961181640625,
+      "logps/rejected": -511.739501953125,
+      "loss": 0.4684,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.889151930809021,
+      "rewards/margins": 0.9400160908699036,
+      "rewards/rejected": -2.8291683197021484,
+      "step": 610
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 6.033378581233917,
+      "learning_rate": 1.6530691736402317e-06,
+      "logits/chosen": 0.5889648795127869,
+      "logits/rejected": 0.6707448959350586,
+      "logps/chosen": -445.545654296875,
+      "logps/rejected": -556.2078857421875,
+      "loss": 0.4698,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.1388087272644043,
+      "rewards/margins": 0.829494297504425,
+      "rewards/rejected": -2.9683032035827637,
+      "step": 620
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 8.258841660679291,
+      "learning_rate": 1.5676295169786864e-06,
+      "logits/chosen": 0.6791388392448425,
+      "logits/rejected": 1.2308781147003174,
+      "logps/chosen": -498.2019958496094,
+      "logps/rejected": -589.25927734375,
+      "loss": 0.4736,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.2767367362976074,
+      "rewards/margins": 1.188873291015625,
+      "rewards/rejected": -3.4656097888946533,
+      "step": 630
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 7.552790690651825,
+      "learning_rate": 1.4834368231970922e-06,
+      "logits/chosen": 0.6634274125099182,
+      "logits/rejected": 0.95360267162323,
+      "logps/chosen": -443.93304443359375,
+      "logps/rejected": -516.3823852539062,
+      "loss": 0.495,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.053490161895752,
+      "rewards/margins": 0.9448803663253784,
+      "rewards/rejected": -2.99837064743042,
+      "step": 640
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 6.240039976432098,
+      "learning_rate": 1.4006036925609245e-06,
+      "logits/chosen": 0.2837061583995819,
+      "logits/rejected": 0.6308731436729431,
+      "logps/chosen": -462.76824951171875,
+      "logps/rejected": -545.1807250976562,
+      "loss": 0.4953,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.862541913986206,
+      "rewards/margins": 0.9856799840927124,
+      "rewards/rejected": -2.848222017288208,
+      "step": 650
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 6.068196245695217,
+      "learning_rate": 1.3192409070404582e-06,
+      "logits/chosen": -0.018947910517454147,
+      "logits/rejected": 0.6848478317260742,
+      "logps/chosen": -459.00946044921875,
+      "logps/rejected": -509.8402404785156,
+      "loss": 0.4779,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.6749271154403687,
+      "rewards/margins": 0.9239859580993652,
+      "rewards/rejected": -2.5989129543304443,
+      "step": 660
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 7.317258150817362,
+      "learning_rate": 1.2394572821496953e-06,
+      "logits/chosen": 0.4193340837955475,
+      "logits/rejected": 0.5491575598716736,
+      "logps/chosen": -433.359375,
+      "logps/rejected": -529.31201171875,
+      "loss": 0.5121,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.034470796585083,
+      "rewards/margins": 0.8596637845039368,
+      "rewards/rejected": -2.894134521484375,
+      "step": 670
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 6.984303996772759,
+      "learning_rate": 1.1613595214152713e-06,
+      "logits/chosen": 0.375018447637558,
+      "logits/rejected": 1.3137071132659912,
+      "logps/chosen": -503.49188232421875,
+      "logps/rejected": -537.77392578125,
+      "loss": 0.4789,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.075040817260742,
+      "rewards/margins": 0.832379162311554,
+      "rewards/rejected": -2.9074199199676514,
+      "step": 680
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 6.449594635756279,
+      "learning_rate": 1.0850520736699362e-06,
+      "logits/chosen": 0.4090999662876129,
+      "logits/rejected": 0.8342447280883789,
+      "logps/chosen": -482.46832275390625,
+      "logps/rejected": -552.4658203125,
+      "loss": 0.5044,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.9981062412261963,
+      "rewards/margins": 0.9065272212028503,
+      "rewards/rejected": -2.9046332836151123,
+      "step": 690
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 7.762156396899746,
+      "learning_rate": 1.0106369933615043e-06,
+      "logits/chosen": 0.44636210799217224,
+      "logits/rejected": 0.6373854875564575,
+      "logps/chosen": -459.1854553222656,
+      "logps/rejected": -532.9047241210938,
+      "loss": 0.516,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.135340452194214,
+      "rewards/margins": 0.8491575121879578,
+      "rewards/rejected": -2.9844982624053955,
+      "step": 700
+    },
+    {
+      "epoch": 0.73,
+      "eval_logits/chosen": 0.531207799911499,
+      "eval_logits/rejected": 0.8897786736488342,
+      "eval_logps/chosen": -469.92730712890625,
+      "eval_logps/rejected": -556.2413330078125,
+      "eval_loss": 0.49328893423080444,
+      "eval_rewards/accuracies": 0.7301587462425232,
+      "eval_rewards/chosen": -2.024324893951416,
+      "eval_rewards/margins": 0.9144444465637207,
+      "eval_rewards/rejected": -2.938769578933716,
+      "eval_runtime": 363.5561,
+      "eval_samples_per_second": 5.501,
+      "eval_steps_per_second": 0.173,
+      "step": 700
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 6.854213571436283,
+      "learning_rate": 9.382138040640714e-07,
+      "logits/chosen": 0.5431604981422424,
+      "logits/rejected": 1.0465270280838013,
+      "logps/chosen": -448.469970703125,
+      "logps/rejected": -540.0692749023438,
+      "loss": 0.4754,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.114922285079956,
+      "rewards/margins": 0.9879555702209473,
+      "rewards/rejected": -3.1028780937194824,
+      "step": 710
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 5.476671160655268,
+      "learning_rate": 8.678793653740633e-07,
+      "logits/chosen": 0.13008640706539154,
+      "logits/rejected": 0.6161590814590454,
+      "logps/chosen": -476.4979553222656,
+      "logps/rejected": -574.2578125,
+      "loss": 0.4781,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.904258131980896,
+      "rewards/margins": 1.040144681930542,
+      "rewards/rejected": -2.9444031715393066,
+      "step": 720
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 10.553613660329997,
+      "learning_rate": 7.997277433690984e-07,
+      "logits/chosen": 0.33887559175491333,
+      "logits/rejected": 0.7562397718429565,
+      "logps/chosen": -460.935302734375,
+      "logps/rejected": -538.0240478515625,
+      "loss": 0.4952,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.8783504962921143,
+      "rewards/margins": 0.9283574819564819,
+      "rewards/rejected": -2.8067078590393066,
+      "step": 730
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 6.627806159178358,
+      "learning_rate": 7.338500848029603e-07,
+      "logits/chosen": 0.0666571706533432,
+      "logits/rejected": 0.5915927290916443,
+      "logps/chosen": -481.9137268066406,
+      "logps/rejected": -545.0120849609375,
+      "loss": 0.4847,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.9084794521331787,
+      "rewards/margins": 0.9120246767997742,
+      "rewards/rejected": -2.8205044269561768,
+      "step": 740
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 5.781902544465049,
+      "learning_rate": 6.70334495204884e-07,
+      "logits/chosen": 0.2374829351902008,
+      "logits/rejected": 0.428078830242157,
+      "logps/chosen": -427.08099365234375,
+      "logps/rejected": -511.5672302246094,
+      "loss": 0.4783,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.7517359256744385,
+      "rewards/margins": 0.9133321642875671,
+      "rewards/rejected": -2.6650681495666504,
+      "step": 750
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 8.985975146227219,
+      "learning_rate": 6.092659210462232e-07,
+      "logits/chosen": -0.05799068883061409,
+      "logits/rejected": 0.24734115600585938,
+      "logps/chosen": -439.37841796875,
+      "logps/rejected": -537.7448120117188,
+      "loss": 0.5005,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.7082140445709229,
+      "rewards/margins": 0.9354721903800964,
+      "rewards/rejected": -2.643686294555664,
+      "step": 760
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 8.444556330335592,
+      "learning_rate": 5.507260361320738e-07,
+      "logits/chosen": -0.10365080833435059,
+      "logits/rejected": 0.6751923561096191,
+      "logps/chosen": -425.59130859375,
+      "logps/rejected": -492.73583984375,
+      "loss": 0.4983,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.6130247116088867,
+      "rewards/margins": 1.0618236064910889,
+      "rewards/rejected": -2.6748480796813965,
+      "step": 770
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 6.994205801584757,
+      "learning_rate": 4.947931323697983e-07,
+      "logits/chosen": -0.10879464447498322,
+      "logits/rejected": 0.6311591863632202,
+      "logps/chosen": -402.650634765625,
+      "logps/rejected": -480.27978515625,
+      "loss": 0.4858,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.6773712635040283,
+      "rewards/margins": 0.953662097454071,
+      "rewards/rejected": -2.631033420562744,
+      "step": 780
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 7.034724618907778,
+      "learning_rate": 4.4154201506053985e-07,
+      "logits/chosen": -0.059246379882097244,
+      "logits/rejected": 0.9515973925590515,
+      "logps/chosen": -418.908935546875,
+      "logps/rejected": -463.66497802734375,
+      "loss": 0.4823,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.5309089422225952,
+      "rewards/margins": 1.080568552017212,
+      "rewards/rejected": -2.6114776134490967,
+      "step": 790
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 11.254330628062345,
+      "learning_rate": 3.910439028537638e-07,
+      "logits/chosen": 0.3055418133735657,
+      "logits/rejected": 0.5041495561599731,
+      "logps/chosen": -393.4361267089844,
+      "logps/rejected": -491.19537353515625,
+      "loss": 0.495,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.6317393779754639,
+      "rewards/margins": 0.9304509162902832,
+      "rewards/rejected": -2.562190532684326,
+      "step": 800
+    },
+    {
+      "epoch": 0.84,
+      "eval_logits/chosen": 0.4157378673553467,
+      "eval_logits/rejected": 0.8307757377624512,
+      "eval_logps/chosen": -441.31207275390625,
+      "eval_logps/rejected": -530.7620239257812,
+      "eval_loss": 0.49489909410476685,
+      "eval_rewards/accuracies": 0.726190447807312,
+      "eval_rewards/chosen": -1.7381722927093506,
+      "eval_rewards/margins": 0.9458035230636597,
+      "eval_rewards/rejected": -2.6839756965637207,
+      "eval_runtime": 363.554,
+      "eval_samples_per_second": 5.501,
+      "eval_steps_per_second": 0.173,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 10.131129540510356,
+      "learning_rate": 3.4336633249862084e-07,
+      "logits/chosen": 0.2840031385421753,
+      "logits/rejected": 0.8334852457046509,
+      "logps/chosen": -408.244384765625,
+      "logps/rejected": -496.79852294921875,
+      "loss": 0.5046,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.7685251235961914,
+      "rewards/margins": 0.8878759145736694,
+      "rewards/rejected": -2.6564011573791504,
+      "step": 810
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 6.762519528965419,
+      "learning_rate": 2.98573068519539e-07,
+      "logits/chosen": 0.10075119882822037,
+      "logits/rejected": 0.3803648352622986,
+      "logps/chosen": -466.81689453125,
+      "logps/rejected": -508.10394287109375,
+      "loss": 0.5171,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.9121501445770264,
+      "rewards/margins": 0.6225390434265137,
+      "rewards/rejected": -2.534689426422119,
+      "step": 820
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 5.70932547678816,
+      "learning_rate": 2.5672401793681854e-07,
+      "logits/chosen": 0.38261884450912476,
+      "logits/rejected": 0.6645594835281372,
+      "logps/chosen": -452.214111328125,
+      "logps/rejected": -503.60479736328125,
+      "loss": 0.4928,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.784679651260376,
+      "rewards/margins": 0.795635461807251,
+      "rewards/rejected": -2.580315113067627,
+      "step": 830
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 6.787751487161624,
+      "learning_rate": 2.178751501463036e-07,
+      "logits/chosen": 0.19089770317077637,
+      "logits/rejected": 0.6150975227355957,
+      "logps/chosen": -435.7149963378906,
+      "logps/rejected": -512.2667236328125,
+      "loss": 0.5099,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.6579662561416626,
+      "rewards/margins": 0.820970892906189,
+      "rewards/rejected": -2.4789371490478516,
+      "step": 840
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 7.2710507714696275,
+      "learning_rate": 1.820784220652766e-07,
+      "logits/chosen": 0.3307928442955017,
+      "logits/rejected": 0.8749529719352722,
+      "logps/chosen": -447.7725524902344,
+      "logps/rejected": -521.2926025390625,
+      "loss": 0.4866,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.6773738861083984,
+      "rewards/margins": 1.1296848058700562,
+      "rewards/rejected": -2.807058811187744,
+      "step": 850
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7.229633532426356,
+      "learning_rate": 1.4938170864468636e-07,
+      "logits/chosen": 0.37119001150131226,
+      "logits/rejected": 0.9635122418403625,
+      "logps/chosen": -403.9157409667969,
+      "logps/rejected": -498.6942443847656,
+      "loss": 0.4717,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.6513326168060303,
+      "rewards/margins": 1.0772497653961182,
+      "rewards/rejected": -2.7285823822021484,
+      "step": 860
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 8.52193537691758,
+      "learning_rate": 1.1982873884064466e-07,
+      "logits/chosen": 0.4872625768184662,
+      "logits/rejected": 0.821652889251709,
+      "logps/chosen": -409.1003723144531,
+      "logps/rejected": -532.8604736328125,
+      "loss": 0.5032,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.784326195716858,
+      "rewards/margins": 1.051481008529663,
+      "rewards/rejected": -2.8358073234558105,
+      "step": 870
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 6.240495703154818,
+      "learning_rate": 9.345903713082305e-08,
+      "logits/chosen": 0.43627986311912537,
+      "logits/rejected": 0.9064377546310425,
+      "logps/chosen": -447.2481994628906,
+      "logps/rejected": -526.6138916015625,
+      "loss": 0.4741,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.7614307403564453,
+      "rewards/margins": 1.0818777084350586,
+      "rewards/rejected": -2.843308210372925,
+      "step": 880
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 7.1651137983571624,
+      "learning_rate": 7.030787065396866e-08,
+      "logits/chosen": 0.2825869917869568,
+      "logits/rejected": 0.7335230112075806,
+      "logps/chosen": -467.37469482421875,
+      "logps/rejected": -523.0452880859375,
+      "loss": 0.4941,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.9135255813598633,
+      "rewards/margins": 0.7427676320075989,
+      "rewards/rejected": -2.6562931537628174,
+      "step": 890
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 7.718450007612897,
+      "learning_rate": 5.0406202043228604e-08,
+      "logits/chosen": 0.40967661142349243,
+      "logits/rejected": 0.6366448998451233,
+      "logps/chosen": -437.923095703125,
+      "logps/rejected": -538.6532592773438,
+      "loss": 0.4866,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.7436615228652954,
+      "rewards/margins": 0.9877888560295105,
+      "rewards/rejected": -2.731450319290161,
+      "step": 900
+    },
+    {
+      "epoch": 0.94,
+      "eval_logits/chosen": 0.5257142782211304,
+      "eval_logits/rejected": 0.935259997844696,
+      "eval_logps/chosen": -446.6502990722656,
+      "eval_logps/rejected": -535.5853881835938,
+      "eval_loss": 0.49319854378700256,
+      "eval_rewards/accuracies": 0.726190447807312,
+      "eval_rewards/chosen": -1.79155433177948,
+      "eval_rewards/margins": 0.9406552314758301,
+      "eval_rewards/rejected": -2.7322094440460205,
+      "eval_runtime": 363.747,
+      "eval_samples_per_second": 5.498,
+      "eval_steps_per_second": 0.173,
+      "step": 900
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 7.916275121810713,
+      "learning_rate": 3.378064801637687e-08,
+      "logits/chosen": 0.09373348951339722,
+      "logits/rejected": 0.7054184675216675,
+      "logps/chosen": -458.953369140625,
+      "logps/rejected": -513.7935791015625,
+      "loss": 0.5184,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.85234797000885,
+      "rewards/margins": 0.8529074788093567,
+      "rewards/rejected": -2.7052555084228516,
+      "step": 910
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 6.7231952954282646,
+      "learning_rate": 2.0453443778310766e-08,
+      "logits/chosen": 0.3935597240924835,
+      "logits/rejected": 0.7541261315345764,
+      "logps/chosen": -428.7496643066406,
+      "logps/rejected": -517.533935546875,
+      "loss": 0.4802,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.6958158016204834,
+      "rewards/margins": 1.0528090000152588,
+      "rewards/rejected": -2.748624801635742,
+      "step": 920
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 6.355797363488898,
+      "learning_rate": 1.0442413283435759e-08,
+      "logits/chosen": 0.23696298897266388,
+      "logits/rejected": 0.9657135009765625,
+      "logps/chosen": -446.9468688964844,
+      "logps/rejected": -511.3190002441406,
+      "loss": 0.4773,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.799220323562622,
+      "rewards/margins": 0.9288120269775391,
+      "rewards/rejected": -2.7280325889587402,
+      "step": 930
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 8.823642044844457,
+      "learning_rate": 3.760945397705828e-09,
+      "logits/chosen": 0.3560529053211212,
+      "logits/rejected": 0.6830099821090698,
+      "logps/chosen": -457.27587890625,
+      "logps/rejected": -526.8748168945312,
+      "loss": 0.513,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.8548386096954346,
+      "rewards/margins": 0.7306956052780151,
+      "rewards/rejected": -2.585533857345581,
+      "step": 940
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 7.015844125023096,
+      "learning_rate": 4.1797599220405605e-10,
+      "logits/chosen": 0.21756580471992493,
+      "logits/rejected": 0.7274689078330994,
+      "logps/chosen": -462.048583984375,
+      "logps/rejected": -528.304443359375,
+      "loss": 0.4919,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.763311743736267,
+      "rewards/margins": 0.9584550857543945,
+      "rewards/rejected": -2.721766948699951,
+      "step": 950
+    },
+    {
+      "epoch": 1.0,
+      "step": 955,
+      "total_flos": 0.0,
+      "train_loss": 0.5264237219126436,
+      "train_runtime": 29801.8239,
+      "train_samples_per_second": 2.051,
+      "train_steps_per_second": 0.032
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 955,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100000,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fe19b748ca3fddccc7ee76272be28fd47fa1e74bf00b4cac21fa1ecd0626e9d
+size 6200