End of training

Browse files

Files changed (11) hide show

README.md +41 -41
adapter_config.json +3 -3
adapter_model.safetensors +2 -2
all_results.json +10 -10
config.json +0 -15
eval_results.json +5 -5
special_tokens_map.json +19 -15
tokenizer.json +6 -6
tokenizer_config.json +14 -11
train_results.json +6 -6
trainer_state.json +250 -250

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2003
 ## Model description
@@ -55,46 +55,46 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 0.9474        | 0.1479 | 25   | 0.6950          |
-| 0.6403        | 0.2959 | 50   | 0.6291          |
-| 0.6184        | 0.4438 | 75   | 0.6191          |
-| 0.6041        | 0.5917 | 100  | 0.6083          |
-| 0.6023        | 0.7396 | 125  | 0.6047          |
-| 0.6086        | 0.8876 | 150  | 0.6014          |
-| 0.5545        | 1.0355 | 175  | 0.6375          |
-| 0.4278        | 1.1834 | 200  | 0.6235          |
-| 0.4297        | 1.3314 | 225  | 0.6276          |
-| 0.4172        | 1.4793 | 250  | 0.6314          |
-| 0.4273        | 1.6272 | 275  | 0.6375          |
-| 0.4264        | 1.7751 | 300  | 0.6345          |
-| 0.428         | 1.9231 | 325  | 0.6296          |
-| 0.3524        | 2.0710 | 350  | 0.7067          |
-| 0.2697        | 2.2189 | 375  | 0.7314          |
-| 0.2645        | 2.3669 | 400  | 0.7255          |
-| 0.2778        | 2.5148 | 425  | 0.7221          |
-| 0.2687        | 2.6627 | 450  | 0.7373          |
-| 0.2748        | 2.8107 | 475  | 0.7250          |
-| 0.2737        | 2.9586 | 500  | 0.7214          |
-| 0.1848        | 3.1065 | 525  | 0.8414          |
-| 0.1535        | 3.2544 | 550  | 0.8438          |
-| 0.1565        | 3.4024 | 575  | 0.8479          |
-| 0.1583        | 3.5503 | 600  | 0.8719          |
-| 0.1537        | 3.6982 | 625  | 0.8497          |
-| 0.1611        | 3.8462 | 650  | 0.8587          |
-| 0.16          | 3.9941 | 675  | 0.8714          |
-| 0.0913        | 4.1420 | 700  | 1.0194          |
-| 0.0841        | 4.2899 | 725  | 1.0429          |
-| 0.0836        | 4.4379 | 750  | 1.0544          |
-| 0.0842        | 4.5858 | 775  | 1.0432          |
-| 0.081         | 4.7337 | 800  | 1.0386          |
-| 0.0848        | 4.8817 | 825  | 1.0705          |
-| 0.0776        | 5.0296 | 850  | 1.0773          |
-| 0.0485        | 5.1775 | 875  | 1.1910          |
-| 0.0481        | 5.3254 | 900  | 1.1800          |
-| 0.0481        | 5.4734 | 925  | 1.1915          |
-| 0.0467        | 5.6213 | 950  | 1.1996          |
-| 0.0468        | 5.7692 | 975  | 1.1961          |
-| 0.0449        | 5.9172 | 1000 | 1.2003          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1832
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 0.9391        | 0.1479 | 25   | 0.6653          |
+| 0.6138        | 0.2959 | 50   | 0.6126          |
+| 0.6039        | 0.4438 | 75   | 0.6061          |
+| 0.5927        | 0.5917 | 100  | 0.5998          |
+| 0.5973        | 0.7396 | 125  | 0.5946          |
+| 0.602         | 0.8876 | 150  | 0.5943          |
+| 0.547         | 1.0355 | 175  | 0.6319          |
+| 0.4239        | 1.1834 | 200  | 0.6169          |
+| 0.4301        | 1.3314 | 225  | 0.6158          |
+| 0.4176        | 1.4793 | 250  | 0.6193          |
+| 0.4295        | 1.6272 | 275  | 0.6242          |
+| 0.4252        | 1.7751 | 300  | 0.6265          |
+| 0.4252        | 1.9231 | 325  | 0.6264          |
+| 0.3591        | 2.0710 | 350  | 0.6893          |
+| 0.2758        | 2.2189 | 375  | 0.7153          |
+| 0.2702        | 2.3669 | 400  | 0.7170          |
+| 0.2797        | 2.5148 | 425  | 0.7173          |
+| 0.2727        | 2.6627 | 450  | 0.7144          |
+| 0.2817        | 2.8107 | 475  | 0.7169          |
+| 0.2798        | 2.9586 | 500  | 0.7016          |
+| 0.1922        | 3.1065 | 525  | 0.8090          |
+| 0.16          | 3.2544 | 550  | 0.8373          |
+| 0.1623        | 3.4024 | 575  | 0.8372          |
+| 0.1632        | 3.5503 | 600  | 0.8402          |
+| 0.1618        | 3.6982 | 625  | 0.8558          |
+| 0.1732        | 3.8462 | 650  | 0.8581          |
+| 0.1687        | 3.9941 | 675  | 0.8611          |
+| 0.0961        | 4.1420 | 700  | 0.9902          |
+| 0.0879        | 4.2899 | 725  | 1.0102          |
+| 0.0899        | 4.4379 | 750  | 1.0345          |
+| 0.0899        | 4.5858 | 775  | 1.0256          |
+| 0.0882        | 4.7337 | 800  | 1.0273          |
+| 0.0893        | 4.8817 | 825  | 1.0559          |
+| 0.0824        | 5.0296 | 850  | 1.0753          |
+| 0.052         | 5.1775 | 875  | 1.1582          |
+| 0.052         | 5.3254 | 900  | 1.1643          |
+| 0.0526        | 5.4734 | 925  | 1.1923          |
+| 0.0497        | 5.6213 | 950  | 1.1759          |
+| 0.0496        | 5.7692 | 975  | 1.1812          |
+| 0.0477        | 5.9172 | 1000 | 1.1832          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -20,11 +20,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "k_proj",
-    "gate_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35f0093b376116b7612ec6995570455d70c9eca1a2b9373d52d74bc000d2d7e6
-size 708913608

 version https://git-lfs.github.com/spec/v1
+oid sha256:68fa615f2e2431c2a4128c632f3e5b71376ad7a9a3fbb213177c8693f0e6db6d
+size 616639296

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 5.923076923076923,
-    "eval_loss": 1.2003010511398315,
-    "eval_runtime": 30.7157,
     "eval_samples": 169,
-    "eval_samples_per_second": 2.898,
-    "eval_steps_per_second": 0.391,
-    "total_flos": 1.7606154086724403e+17,
-    "train_loss": 4.533969319902815e-05,
-    "train_runtime": 4.6313,
     "train_samples": 1346,
-    "train_samples_per_second": 863.692,
-    "train_steps_per_second": 215.923
 }

 {
+    "epoch": 5.9171597633136095,
+    "eval_loss": 1.1831614971160889,
+    "eval_runtime": 5.5457,
     "eval_samples": 169,
+    "eval_samples_per_second": 16.049,
+    "eval_steps_per_second": 2.164,
+    "total_flos": 1.75885655212032e+17,
+    "train_loss": 0.2793775268793106,
+    "train_runtime": 1218.5958,
     "train_samples": 1346,
+    "train_samples_per_second": 3.282,
+    "train_steps_per_second": 0.821
 }

config.json CHANGED Viewed

@@ -16,21 +16,6 @@
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "pad_token_id": 32001,
-  "quantization_config": {
-    "_load_in_4bit": true,
-    "_load_in_8bit": false,
-    "bnb_4bit_compute_dtype": "bfloat16",
-    "bnb_4bit_quant_storage": "uint8",
-    "bnb_4bit_quant_type": "nf4",
-    "bnb_4bit_use_double_quant": false,
-    "llm_int8_enable_fp32_cpu_offload": false,
-    "llm_int8_has_fp16_weight": false,
-    "llm_int8_skip_modules": null,
-    "llm_int8_threshold": 6.0,
-    "load_in_4bit": true,
-    "load_in_8bit": false,
-    "quant_method": "bitsandbytes"
-  },
   "rms_norm_eps": 1e-05,
   "rope_theta": 1000000.0,
   "sliding_window": null,

   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "pad_token_id": 32001,
   "rms_norm_eps": 1e-05,
   "rope_theta": 1000000.0,
   "sliding_window": null,

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.923076923076923,
-    "eval_loss": 1.2003010511398315,
-    "eval_runtime": 30.7157,
     "eval_samples": 169,
-    "eval_samples_per_second": 2.898,
-    "eval_steps_per_second": 0.391
 }

 {
+    "epoch": 5.9171597633136095,
+    "eval_loss": 1.1831614971160889,
+    "eval_runtime": 5.5457,
     "eval_samples": 169,
+    "eval_samples_per_second": 16.049,
+    "eval_steps_per_second": 2.164
 }

special_tokens_map.json CHANGED Viewed

@@ -1,19 +1,23 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "</s>",
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

 {
+  "additional_special_tokens": [
+    {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": "<|im_start|>",
+  "eos_token": "<|im_end|>",
+  "pad_token": "<|im_end|>",
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -32,21 +32,21 @@
     },
     {
       "id": 32000,
-      "content": "<new_token1>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
-      "special": false
     },
     {
       "id": 32001,
-      "content": "<new_token2>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
-      "special": false
     }
   ],
   "normalizer": {

     },
     {
       "id": 32000,
+      "content": "<|im_start|>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 32001,
+      "content": "<|im_end|>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -27,30 +27,33 @@
       "special": true
     },
     "32000": {
-      "content": "<new_token1>",
       "lstrip": false,
-      "normalized": true,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "32001": {
-      "content": "<new_token2>",
       "lstrip": false,
-      "normalized": true,
       "rstrip": false,
       "single_word": false,
-      "special": false
     }
   },
-  "additional_special_tokens": [],
-  "bos_token": "<s>",
-  "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "</s>",
   "legacy": true,
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "</s>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",

       "special": true
     },
     "32000": {
+      "content": "<|im_start|>",
       "lstrip": false,
+      "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "32001": {
+      "content": "<|im_end|>",
       "lstrip": false,
+      "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     }
   },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<|im_start|>",
+  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
   "legacy": true,
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|im_end|>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 5.923076923076923,
-    "total_flos": 1.7606154086724403e+17,
-    "train_loss": 4.533969319902815e-05,
-    "train_runtime": 4.6313,
     "train_samples": 1346,
-    "train_samples_per_second": 863.692,
-    "train_steps_per_second": 215.923
 }

 {
+    "epoch": 5.9171597633136095,
+    "total_flos": 1.75885655212032e+17,
+    "train_loss": 0.2793775268793106,
+    "train_runtime": 1218.5958,
     "train_samples": 1346,
+    "train_samples_per_second": 3.282,
+    "train_steps_per_second": 0.821
 }

trainer_state.json CHANGED Viewed

@@ -1,621 +1,621 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.923076923076923,
   "eval_steps": 25,
-  "global_step": 1001,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14792899408284024,
-      "grad_norm": 0.7053780555725098,
       "learning_rate": 0.0001951951951951952,
-      "loss": 0.9474,
       "step": 25
     },
     {
       "epoch": 0.14792899408284024,
-      "eval_loss": 0.6950487494468689,
-      "eval_runtime": 31.2023,
-      "eval_samples_per_second": 2.852,
-      "eval_steps_per_second": 0.385,
       "step": 25
     },
     {
       "epoch": 0.2958579881656805,
-      "grad_norm": 0.6385655403137207,
       "learning_rate": 0.0001901901901901902,
-      "loss": 0.6403,
       "step": 50
     },
     {
       "epoch": 0.2958579881656805,
-      "eval_loss": 0.6290514469146729,
-      "eval_runtime": 31.6217,
-      "eval_samples_per_second": 2.815,
-      "eval_steps_per_second": 0.379,
       "step": 50
     },
     {
       "epoch": 0.4437869822485207,
-      "grad_norm": 0.7015706896781921,
       "learning_rate": 0.0001851851851851852,
-      "loss": 0.6184,
       "step": 75
     },
     {
       "epoch": 0.4437869822485207,
-      "eval_loss": 0.6191244125366211,
-      "eval_runtime": 31.7723,
-      "eval_samples_per_second": 2.801,
-      "eval_steps_per_second": 0.378,
       "step": 75
     },
     {
       "epoch": 0.591715976331361,
-      "grad_norm": 0.6220183372497559,
       "learning_rate": 0.00018018018018018018,
-      "loss": 0.6041,
       "step": 100
     },
     {
       "epoch": 0.591715976331361,
-      "eval_loss": 0.608259379863739,
-      "eval_runtime": 31.7817,
-      "eval_samples_per_second": 2.8,
-      "eval_steps_per_second": 0.378,
       "step": 100
     },
     {
       "epoch": 0.7396449704142012,
-      "grad_norm": 0.6809254884719849,
       "learning_rate": 0.0001751751751751752,
-      "loss": 0.6023,
       "step": 125
     },
     {
       "epoch": 0.7396449704142012,
-      "eval_loss": 0.604732871055603,
-      "eval_runtime": 31.6489,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 125
     },
     {
       "epoch": 0.8875739644970414,
-      "grad_norm": 0.6159196496009827,
       "learning_rate": 0.0001701701701701702,
-      "loss": 0.6086,
       "step": 150
     },
     {
       "epoch": 0.8875739644970414,
-      "eval_loss": 0.6013623476028442,
-      "eval_runtime": 31.6492,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 150
     },
     {
       "epoch": 1.0355029585798816,
-      "grad_norm": 0.5559250116348267,
       "learning_rate": 0.00016516516516516518,
-      "loss": 0.5545,
       "step": 175
     },
     {
       "epoch": 1.0355029585798816,
-      "eval_loss": 0.6374889612197876,
-      "eval_runtime": 31.6397,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 175
     },
     {
       "epoch": 1.183431952662722,
-      "grad_norm": 0.5993044972419739,
       "learning_rate": 0.00016016016016016018,
-      "loss": 0.4278,
       "step": 200
     },
     {
       "epoch": 1.183431952662722,
-      "eval_loss": 0.6234655380249023,
-      "eval_runtime": 31.6312,
-      "eval_samples_per_second": 2.814,
-      "eval_steps_per_second": 0.379,
       "step": 200
     },
     {
       "epoch": 1.331360946745562,
-      "grad_norm": 0.689406156539917,
       "learning_rate": 0.00015515515515515516,
-      "loss": 0.4297,
       "step": 225
     },
     {
       "epoch": 1.331360946745562,
-      "eval_loss": 0.6275980472564697,
-      "eval_runtime": 31.6369,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 225
     },
     {
       "epoch": 1.4792899408284024,
-      "grad_norm": 0.7030369639396667,
       "learning_rate": 0.00015015015015015014,
-      "loss": 0.4172,
       "step": 250
     },
     {
       "epoch": 1.4792899408284024,
-      "eval_loss": 0.6314178705215454,
-      "eval_runtime": 31.6517,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 250
     },
     {
       "epoch": 1.6272189349112427,
-      "grad_norm": 0.7457050085067749,
       "learning_rate": 0.00014514514514514515,
-      "loss": 0.4273,
       "step": 275
     },
     {
       "epoch": 1.6272189349112427,
-      "eval_loss": 0.6374988555908203,
-      "eval_runtime": 31.6395,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 275
     },
     {
       "epoch": 1.7751479289940828,
-      "grad_norm": 0.6606324315071106,
       "learning_rate": 0.00014014014014014013,
-      "loss": 0.4264,
       "step": 300
     },
     {
       "epoch": 1.7751479289940828,
-      "eval_loss": 0.6344882845878601,
-      "eval_runtime": 31.6619,
-      "eval_samples_per_second": 2.811,
-      "eval_steps_per_second": 0.379,
       "step": 300
     },
     {
       "epoch": 1.9230769230769231,
-      "grad_norm": 0.675614058971405,
       "learning_rate": 0.00013513513513513514,
-      "loss": 0.428,
       "step": 325
     },
     {
       "epoch": 1.9230769230769231,
-      "eval_loss": 0.6296113133430481,
-      "eval_runtime": 31.6627,
-      "eval_samples_per_second": 2.811,
-      "eval_steps_per_second": 0.379,
       "step": 325
     },
     {
       "epoch": 2.0710059171597632,
-      "grad_norm": 0.7311059832572937,
       "learning_rate": 0.00013013013013013014,
-      "loss": 0.3524,
       "step": 350
     },
     {
       "epoch": 2.0710059171597632,
-      "eval_loss": 0.7067192792892456,
-      "eval_runtime": 31.651,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 350
     },
     {
       "epoch": 2.2189349112426036,
-      "grad_norm": 0.7563914060592651,
       "learning_rate": 0.00012512512512512512,
-      "loss": 0.2697,
       "step": 375
     },
     {
       "epoch": 2.2189349112426036,
-      "eval_loss": 0.7313967943191528,
-      "eval_runtime": 31.645,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 375
     },
     {
       "epoch": 2.366863905325444,
-      "grad_norm": 0.6278096437454224,
       "learning_rate": 0.00012012012012012013,
-      "loss": 0.2645,
       "step": 400
     },
     {
       "epoch": 2.366863905325444,
-      "eval_loss": 0.725497841835022,
-      "eval_runtime": 31.6442,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 400
     },
     {
       "epoch": 2.5147928994082838,
-      "grad_norm": 0.782738447189331,
       "learning_rate": 0.00011511511511511512,
-      "loss": 0.2778,
       "step": 425
     },
     {
       "epoch": 2.5147928994082838,
-      "eval_loss": 0.7220944166183472,
-      "eval_runtime": 31.6506,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 425
     },
     {
       "epoch": 2.662721893491124,
-      "grad_norm": 0.7897526025772095,
       "learning_rate": 0.00011011011011011012,
-      "loss": 0.2687,
       "step": 450
     },
     {
       "epoch": 2.662721893491124,
-      "eval_loss": 0.7373032569885254,
-      "eval_runtime": 31.668,
-      "eval_samples_per_second": 2.81,
-      "eval_steps_per_second": 0.379,
       "step": 450
     },
     {
       "epoch": 2.8106508875739644,
-      "grad_norm": 0.8417075276374817,
       "learning_rate": 0.00010510510510510511,
-      "loss": 0.2748,
       "step": 475
     },
     {
       "epoch": 2.8106508875739644,
-      "eval_loss": 0.7250338196754456,
-      "eval_runtime": 31.7591,
-      "eval_samples_per_second": 2.802,
-      "eval_steps_per_second": 0.378,
       "step": 475
     },
     {
       "epoch": 2.9585798816568047,
-      "grad_norm": 0.672287106513977,
       "learning_rate": 0.00010010010010010012,
-      "loss": 0.2737,
       "step": 500
     },
     {
       "epoch": 2.9585798816568047,
-      "eval_loss": 0.7213594913482666,
-      "eval_runtime": 31.6416,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 500
     },
     {
       "epoch": 3.106508875739645,
-      "grad_norm": 0.658898115158081,
       "learning_rate": 9.50950950950951e-05,
-      "loss": 0.1848,
       "step": 525
     },
     {
       "epoch": 3.106508875739645,
-      "eval_loss": 0.8414345979690552,
-      "eval_runtime": 31.6513,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 525
     },
     {
       "epoch": 3.2544378698224854,
-      "grad_norm": 0.6711578369140625,
       "learning_rate": 9.009009009009009e-05,
-      "loss": 0.1535,
       "step": 550
     },
     {
       "epoch": 3.2544378698224854,
-      "eval_loss": 0.8437659740447998,
-      "eval_runtime": 31.6588,
-      "eval_samples_per_second": 2.811,
-      "eval_steps_per_second": 0.379,
       "step": 550
     },
     {
       "epoch": 3.4023668639053253,
-      "grad_norm": 0.6709449887275696,
       "learning_rate": 8.50850850850851e-05,
-      "loss": 0.1565,
       "step": 575
     },
     {
       "epoch": 3.4023668639053253,
-      "eval_loss": 0.847898006439209,
-      "eval_runtime": 31.6337,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 575
     },
     {
       "epoch": 3.5502958579881656,
-      "grad_norm": 0.7851375937461853,
       "learning_rate": 8.008008008008009e-05,
-      "loss": 0.1583,
       "step": 600
     },
     {
       "epoch": 3.5502958579881656,
-      "eval_loss": 0.8719269633293152,
-      "eval_runtime": 31.6367,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 600
     },
     {
       "epoch": 3.698224852071006,
-      "grad_norm": 0.7410476207733154,
       "learning_rate": 7.507507507507507e-05,
-      "loss": 0.1537,
       "step": 625
     },
     {
       "epoch": 3.698224852071006,
-      "eval_loss": 0.8496631383895874,
-      "eval_runtime": 31.6614,
-      "eval_samples_per_second": 2.811,
-      "eval_steps_per_second": 0.379,
       "step": 625
     },
     {
       "epoch": 3.8461538461538463,
-      "grad_norm": 0.7157964110374451,
       "learning_rate": 7.007007007007007e-05,
-      "loss": 0.1611,
       "step": 650
     },
     {
       "epoch": 3.8461538461538463,
-      "eval_loss": 0.8586809039115906,
-      "eval_runtime": 31.6397,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 650
     },
     {
       "epoch": 3.994082840236686,
-      "grad_norm": 0.7757616639137268,
       "learning_rate": 6.506506506506507e-05,
-      "loss": 0.16,
       "step": 675
     },
     {
       "epoch": 3.994082840236686,
-      "eval_loss": 0.8713619112968445,
-      "eval_runtime": 31.6525,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 675
     },
     {
       "epoch": 4.1420118343195265,
-      "grad_norm": 0.5490134358406067,
       "learning_rate": 6.0060060060060066e-05,
-      "loss": 0.0913,
       "step": 700
     },
     {
       "epoch": 4.1420118343195265,
-      "eval_loss": 1.0193753242492676,
-      "eval_runtime": 31.652,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 700
     },
     {
       "epoch": 4.289940828402367,
-      "grad_norm": 0.667753279209137,
       "learning_rate": 5.505505505505506e-05,
-      "loss": 0.0841,
       "step": 725
     },
     {
       "epoch": 4.289940828402367,
-      "eval_loss": 1.0428720712661743,
-      "eval_runtime": 31.6444,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 725
     },
     {
       "epoch": 4.437869822485207,
-      "grad_norm": 0.5531997084617615,
       "learning_rate": 5.005005005005006e-05,
-      "loss": 0.0836,
       "step": 750
     },
     {
       "epoch": 4.437869822485207,
-      "eval_loss": 1.0543982982635498,
-      "eval_runtime": 31.6468,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 750
     },
     {
       "epoch": 4.585798816568047,
-      "grad_norm": 0.6152017712593079,
       "learning_rate": 4.5045045045045046e-05,
-      "loss": 0.0842,
       "step": 775
     },
     {
       "epoch": 4.585798816568047,
-      "eval_loss": 1.0431654453277588,
-      "eval_runtime": 31.6364,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 775
     },
     {
       "epoch": 4.733727810650888,
-      "grad_norm": 0.5139034986495972,
       "learning_rate": 4.0040040040040046e-05,
-      "loss": 0.081,
       "step": 800
     },
     {
       "epoch": 4.733727810650888,
-      "eval_loss": 1.0386168956756592,
-      "eval_runtime": 31.7013,
-      "eval_samples_per_second": 2.807,
-      "eval_steps_per_second": 0.379,
       "step": 800
     },
     {
       "epoch": 4.881656804733728,
-      "grad_norm": 0.7744113206863403,
       "learning_rate": 3.503503503503503e-05,
-      "loss": 0.0848,
       "step": 825
     },
     {
       "epoch": 4.881656804733728,
-      "eval_loss": 1.0704792737960815,
-      "eval_runtime": 31.6705,
-      "eval_samples_per_second": 2.81,
-      "eval_steps_per_second": 0.379,
       "step": 825
     },
     {
       "epoch": 5.029585798816568,
-      "grad_norm": 0.4454633593559265,
       "learning_rate": 3.0030030030030033e-05,
-      "loss": 0.0776,
       "step": 850
     },
     {
       "epoch": 5.029585798816568,
-      "eval_loss": 1.0772627592086792,
-      "eval_runtime": 31.7163,
-      "eval_samples_per_second": 2.806,
-      "eval_steps_per_second": 0.378,
       "step": 850
     },
     {
       "epoch": 5.177514792899408,
-      "grad_norm": 0.45951634645462036,
       "learning_rate": 2.502502502502503e-05,
-      "loss": 0.0485,
       "step": 875
     },
     {
       "epoch": 5.177514792899408,
-      "eval_loss": 1.190962553024292,
-      "eval_runtime": 31.6581,
-      "eval_samples_per_second": 2.811,
-      "eval_steps_per_second": 0.379,
       "step": 875
     },
     {
       "epoch": 5.325443786982248,
-      "grad_norm": 0.49803122878074646,
       "learning_rate": 2.0020020020020023e-05,
-      "loss": 0.0481,
       "step": 900
     },
     {
       "epoch": 5.325443786982248,
-      "eval_loss": 1.1799925565719604,
-      "eval_runtime": 31.6457,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 900
     },
     {
       "epoch": 5.4733727810650885,
-      "grad_norm": 0.48808640241622925,
       "learning_rate": 1.5015015015015016e-05,
-      "loss": 0.0481,
       "step": 925
     },
     {
       "epoch": 5.4733727810650885,
-      "eval_loss": 1.1915431022644043,
-      "eval_runtime": 31.641,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 925
     },
     {
       "epoch": 5.621301775147929,
-      "grad_norm": 0.4711610972881317,
       "learning_rate": 1.0010010010010011e-05,
-      "loss": 0.0467,
       "step": 950
     },
     {
       "epoch": 5.621301775147929,
-      "eval_loss": 1.1996334791183472,
-      "eval_runtime": 31.634,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.379,
       "step": 950
     },
     {
       "epoch": 5.769230769230769,
-      "grad_norm": 0.4745465815067291,
       "learning_rate": 5.005005005005006e-06,
-      "loss": 0.0468,
       "step": 975
     },
     {
       "epoch": 5.769230769230769,
-      "eval_loss": 1.1960943937301636,
-      "eval_runtime": 31.6459,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 975
     },
     {
       "epoch": 5.9171597633136095,
-      "grad_norm": 0.44335442781448364,
       "learning_rate": 0.0,
-      "loss": 0.0449,
       "step": 1000
     },
     {
       "epoch": 5.9171597633136095,
-      "eval_loss": 1.2003010511398315,
-      "eval_runtime": 31.6446,
-      "eval_samples_per_second": 2.812,
-      "eval_steps_per_second": 0.379,
       "step": 1000
     },
     {
-      "epoch": 5.923076923076923,
-      "step": 1001,
-      "total_flos": 1.7606154086724403e+17,
-      "train_loss": 4.533969319902815e-05,
-      "train_runtime": 4.6313,
-      "train_samples_per_second": 863.692,
-      "train_steps_per_second": 215.923
     }
   ],
   "logging_steps": 25,
@@ -623,7 +623,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
   "save_steps": 25,
-  "total_flos": 1.7606154086724403e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.9171597633136095,
   "eval_steps": 25,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14792899408284024,
+      "grad_norm": 0.98828125,
       "learning_rate": 0.0001951951951951952,
+      "loss": 0.9391,
       "step": 25
     },
     {
       "epoch": 0.14792899408284024,
+      "eval_loss": 0.6652668118476868,
+      "eval_runtime": 5.3863,
+      "eval_samples_per_second": 16.523,
+      "eval_steps_per_second": 2.228,
       "step": 25
     },
     {
       "epoch": 0.2958579881656805,
+      "grad_norm": 0.654296875,
       "learning_rate": 0.0001901901901901902,
+      "loss": 0.6138,
       "step": 50
     },
     {
       "epoch": 0.2958579881656805,
+      "eval_loss": 0.6126009225845337,
+      "eval_runtime": 5.4512,
+      "eval_samples_per_second": 16.327,
+      "eval_steps_per_second": 2.201,
       "step": 50
     },
     {
       "epoch": 0.4437869822485207,
+      "grad_norm": 0.7314453125,
       "learning_rate": 0.0001851851851851852,
+      "loss": 0.6039,
       "step": 75
     },
     {
       "epoch": 0.4437869822485207,
+      "eval_loss": 0.6061152219772339,
+      "eval_runtime": 5.4459,
+      "eval_samples_per_second": 16.343,
+      "eval_steps_per_second": 2.203,
       "step": 75
     },
     {
       "epoch": 0.591715976331361,
+      "grad_norm": 0.65869140625,
       "learning_rate": 0.00018018018018018018,
+      "loss": 0.5927,
       "step": 100
     },
     {
       "epoch": 0.591715976331361,
+      "eval_loss": 0.5998491644859314,
+      "eval_runtime": 5.4564,
+      "eval_samples_per_second": 16.311,
+      "eval_steps_per_second": 2.199,
       "step": 100
     },
     {
       "epoch": 0.7396449704142012,
+      "grad_norm": 0.67333984375,
       "learning_rate": 0.0001751751751751752,
+      "loss": 0.5973,
       "step": 125
     },
     {
       "epoch": 0.7396449704142012,
+      "eval_loss": 0.594585120677948,
+      "eval_runtime": 5.4901,
+      "eval_samples_per_second": 16.211,
+      "eval_steps_per_second": 2.186,
       "step": 125
     },
     {
       "epoch": 0.8875739644970414,
+      "grad_norm": 0.65380859375,
       "learning_rate": 0.0001701701701701702,
+      "loss": 0.602,
       "step": 150
     },
     {
       "epoch": 0.8875739644970414,
+      "eval_loss": 0.5942851305007935,
+      "eval_runtime": 5.4552,
+      "eval_samples_per_second": 16.315,
+      "eval_steps_per_second": 2.2,
       "step": 150
     },
     {
       "epoch": 1.0355029585798816,
+      "grad_norm": 0.58544921875,
       "learning_rate": 0.00016516516516516518,
+      "loss": 0.547,
       "step": 175
     },
     {
       "epoch": 1.0355029585798816,
+      "eval_loss": 0.6319454312324524,
+      "eval_runtime": 5.4449,
+      "eval_samples_per_second": 16.345,
+      "eval_steps_per_second": 2.204,
       "step": 175
     },
     {
       "epoch": 1.183431952662722,
+      "grad_norm": 0.62158203125,
       "learning_rate": 0.00016016016016016018,
+      "loss": 0.4239,
       "step": 200
     },
     {
       "epoch": 1.183431952662722,
+      "eval_loss": 0.6168724894523621,
+      "eval_runtime": 5.4499,
+      "eval_samples_per_second": 16.331,
+      "eval_steps_per_second": 2.202,
       "step": 200
     },
     {
       "epoch": 1.331360946745562,
+      "grad_norm": 0.71240234375,
       "learning_rate": 0.00015515515515515516,
+      "loss": 0.4301,
       "step": 225
     },
     {
       "epoch": 1.331360946745562,
+      "eval_loss": 0.615761935710907,
+      "eval_runtime": 5.4932,
+      "eval_samples_per_second": 16.202,
+      "eval_steps_per_second": 2.185,
       "step": 225
     },
     {
       "epoch": 1.4792899408284024,
+      "grad_norm": 0.6865234375,
       "learning_rate": 0.00015015015015015014,
+      "loss": 0.4176,
       "step": 250
     },
     {
       "epoch": 1.4792899408284024,
+      "eval_loss": 0.6192708611488342,
+      "eval_runtime": 5.4548,
+      "eval_samples_per_second": 16.316,
+      "eval_steps_per_second": 2.2,
       "step": 250
     },
     {
       "epoch": 1.6272189349112427,
+      "grad_norm": 0.8076171875,
       "learning_rate": 0.00014514514514514515,
+      "loss": 0.4295,
       "step": 275
     },
     {
       "epoch": 1.6272189349112427,
+      "eval_loss": 0.6242427229881287,
+      "eval_runtime": 5.4583,
+      "eval_samples_per_second": 16.305,
+      "eval_steps_per_second": 2.198,
       "step": 275
     },
     {
       "epoch": 1.7751479289940828,
+      "grad_norm": 0.66796875,
       "learning_rate": 0.00014014014014014013,
+      "loss": 0.4252,
       "step": 300
     },
     {
       "epoch": 1.7751479289940828,
+      "eval_loss": 0.6264795660972595,
+      "eval_runtime": 5.4513,
+      "eval_samples_per_second": 16.326,
+      "eval_steps_per_second": 2.201,
       "step": 300
     },
     {
       "epoch": 1.9230769230769231,
+      "grad_norm": 0.720703125,
       "learning_rate": 0.00013513513513513514,
+      "loss": 0.4252,
       "step": 325
     },
     {
       "epoch": 1.9230769230769231,
+      "eval_loss": 0.6264156103134155,
+      "eval_runtime": 5.4759,
+      "eval_samples_per_second": 16.253,
+      "eval_steps_per_second": 2.191,
       "step": 325
     },
     {
       "epoch": 2.0710059171597632,
+      "grad_norm": 0.76611328125,
       "learning_rate": 0.00013013013013013014,
+      "loss": 0.3591,
       "step": 350
     },
     {
       "epoch": 2.0710059171597632,
+      "eval_loss": 0.6893021464347839,
+      "eval_runtime": 5.4744,
+      "eval_samples_per_second": 16.258,
+      "eval_steps_per_second": 2.192,
       "step": 350
     },
     {
       "epoch": 2.2189349112426036,
+      "grad_norm": 0.74169921875,
       "learning_rate": 0.00012512512512512512,
+      "loss": 0.2758,
       "step": 375
     },
     {
       "epoch": 2.2189349112426036,
+      "eval_loss": 0.7153319716453552,
+      "eval_runtime": 5.504,
+      "eval_samples_per_second": 16.17,
+      "eval_steps_per_second": 2.18,
       "step": 375
     },
     {
       "epoch": 2.366863905325444,
+      "grad_norm": 0.69384765625,
       "learning_rate": 0.00012012012012012013,
+      "loss": 0.2702,
       "step": 400
     },
     {
       "epoch": 2.366863905325444,
+      "eval_loss": 0.7170297503471375,
+      "eval_runtime": 5.4565,
+      "eval_samples_per_second": 16.311,
+      "eval_steps_per_second": 2.199,
       "step": 400
     },
     {
       "epoch": 2.5147928994082838,
+      "grad_norm": 0.806640625,
       "learning_rate": 0.00011511511511511512,
+      "loss": 0.2797,
       "step": 425
     },
     {
       "epoch": 2.5147928994082838,
+      "eval_loss": 0.7173412442207336,
+      "eval_runtime": 5.4741,
+      "eval_samples_per_second": 16.258,
+      "eval_steps_per_second": 2.192,
       "step": 425
     },
     {
       "epoch": 2.662721893491124,
+      "grad_norm": 0.77099609375,
       "learning_rate": 0.00011011011011011012,
+      "loss": 0.2727,
       "step": 450
     },
     {
       "epoch": 2.662721893491124,
+      "eval_loss": 0.7144489288330078,
+      "eval_runtime": 5.5009,
+      "eval_samples_per_second": 16.179,
+      "eval_steps_per_second": 2.181,
       "step": 450
     },
     {
       "epoch": 2.8106508875739644,
+      "grad_norm": 42.5625,
       "learning_rate": 0.00010510510510510511,
+      "loss": 0.2817,
       "step": 475
     },
     {
       "epoch": 2.8106508875739644,
+      "eval_loss": 0.7168906331062317,
+      "eval_runtime": 5.4533,
+      "eval_samples_per_second": 16.32,
+      "eval_steps_per_second": 2.201,
       "step": 475
     },
     {
       "epoch": 2.9585798816568047,
+      "grad_norm": 0.724609375,
       "learning_rate": 0.00010010010010010012,
+      "loss": 0.2798,
       "step": 500
     },
     {
       "epoch": 2.9585798816568047,
+      "eval_loss": 0.7015586495399475,
+      "eval_runtime": 5.467,
+      "eval_samples_per_second": 16.28,
+      "eval_steps_per_second": 2.195,
       "step": 500
     },
     {
       "epoch": 3.106508875739645,
+      "grad_norm": 0.6162109375,
       "learning_rate": 9.50950950950951e-05,
+      "loss": 0.1922,
       "step": 525
     },
     {
       "epoch": 3.106508875739645,
+      "eval_loss": 0.8090196847915649,
+      "eval_runtime": 5.458,
+      "eval_samples_per_second": 16.306,
+      "eval_steps_per_second": 2.199,
       "step": 525
     },
     {
       "epoch": 3.2544378698224854,
+      "grad_norm": 0.80517578125,
       "learning_rate": 9.009009009009009e-05,
+      "loss": 0.16,
       "step": 550
     },
     {
       "epoch": 3.2544378698224854,
+      "eval_loss": 0.8372513651847839,
+      "eval_runtime": 5.4975,
+      "eval_samples_per_second": 16.189,
+      "eval_steps_per_second": 2.183,
       "step": 550
     },
     {
       "epoch": 3.4023668639053253,
+      "grad_norm": 0.71728515625,
       "learning_rate": 8.50850850850851e-05,
+      "loss": 0.1623,
       "step": 575
     },
     {
       "epoch": 3.4023668639053253,
+      "eval_loss": 0.8371546864509583,
+      "eval_runtime": 5.4897,
+      "eval_samples_per_second": 16.212,
+      "eval_steps_per_second": 2.186,
       "step": 575
     },
     {
       "epoch": 3.5502958579881656,
+      "grad_norm": 0.775390625,
       "learning_rate": 8.008008008008009e-05,
+      "loss": 0.1632,
       "step": 600
     },
     {
       "epoch": 3.5502958579881656,
+      "eval_loss": 0.8401942849159241,
+      "eval_runtime": 5.4525,
+      "eval_samples_per_second": 16.323,
+      "eval_steps_per_second": 2.201,
       "step": 600
     },
     {
       "epoch": 3.698224852071006,
+      "grad_norm": 0.96337890625,
       "learning_rate": 7.507507507507507e-05,
+      "loss": 0.1618,
       "step": 625
     },
     {
       "epoch": 3.698224852071006,
+      "eval_loss": 0.8558365106582642,
+      "eval_runtime": 5.4558,
+      "eval_samples_per_second": 16.313,
+      "eval_steps_per_second": 2.199,
       "step": 625
     },
     {
       "epoch": 3.8461538461538463,
+      "grad_norm": 0.80322265625,
       "learning_rate": 7.007007007007007e-05,
+      "loss": 0.1732,
       "step": 650
     },
     {
       "epoch": 3.8461538461538463,
+      "eval_loss": 0.8581485748291016,
+      "eval_runtime": 5.4935,
+      "eval_samples_per_second": 16.201,
+      "eval_steps_per_second": 2.184,
       "step": 650
     },
     {
       "epoch": 3.994082840236686,
+      "grad_norm": 0.85498046875,
       "learning_rate": 6.506506506506507e-05,
+      "loss": 0.1687,
       "step": 675
     },
     {
       "epoch": 3.994082840236686,
+      "eval_loss": 0.8611082434654236,
+      "eval_runtime": 5.4485,
+      "eval_samples_per_second": 16.335,
+      "eval_steps_per_second": 2.202,
       "step": 675
     },
     {
       "epoch": 4.1420118343195265,
+      "grad_norm": 0.5654296875,
       "learning_rate": 6.0060060060060066e-05,
+      "loss": 0.0961,
       "step": 700
     },
     {
       "epoch": 4.1420118343195265,
+      "eval_loss": 0.9902079105377197,
+      "eval_runtime": 5.519,
+      "eval_samples_per_second": 16.126,
+      "eval_steps_per_second": 2.174,
       "step": 700
     },
     {
       "epoch": 4.289940828402367,
+      "grad_norm": 0.560546875,
       "learning_rate": 5.505505505505506e-05,
+      "loss": 0.0879,
       "step": 725
     },
     {
       "epoch": 4.289940828402367,
+      "eval_loss": 1.0101935863494873,
+      "eval_runtime": 5.4771,
+      "eval_samples_per_second": 16.25,
+      "eval_steps_per_second": 2.191,
       "step": 725
     },
     {
       "epoch": 4.437869822485207,
+      "grad_norm": 0.76611328125,
       "learning_rate": 5.005005005005006e-05,
+      "loss": 0.0899,
       "step": 750
     },
     {
       "epoch": 4.437869822485207,
+      "eval_loss": 1.0344929695129395,
+      "eval_runtime": 5.4997,
+      "eval_samples_per_second": 16.183,
+      "eval_steps_per_second": 2.182,
       "step": 750
     },
     {
       "epoch": 4.585798816568047,
+      "grad_norm": 0.595703125,
       "learning_rate": 4.5045045045045046e-05,
+      "loss": 0.0899,
       "step": 775
     },
     {
       "epoch": 4.585798816568047,
+      "eval_loss": 1.0255744457244873,
+      "eval_runtime": 5.4646,
+      "eval_samples_per_second": 16.287,
+      "eval_steps_per_second": 2.196,
       "step": 775
     },
     {
       "epoch": 4.733727810650888,
+      "grad_norm": 0.5869140625,
       "learning_rate": 4.0040040040040046e-05,
+      "loss": 0.0882,
       "step": 800
     },
     {
       "epoch": 4.733727810650888,
+      "eval_loss": 1.0273164510726929,
+      "eval_runtime": 5.4989,
+      "eval_samples_per_second": 16.185,
+      "eval_steps_per_second": 2.182,
       "step": 800
     },
     {
       "epoch": 4.881656804733728,
+      "grad_norm": 0.720703125,
       "learning_rate": 3.503503503503503e-05,
+      "loss": 0.0893,
       "step": 825
     },
     {
       "epoch": 4.881656804733728,
+      "eval_loss": 1.0559364557266235,
+      "eval_runtime": 5.4574,
+      "eval_samples_per_second": 16.308,
+      "eval_steps_per_second": 2.199,
       "step": 825
     },
     {
       "epoch": 5.029585798816568,
+      "grad_norm": 0.4755859375,
       "learning_rate": 3.0030030030030033e-05,
+      "loss": 0.0824,
       "step": 850
     },
     {
       "epoch": 5.029585798816568,
+      "eval_loss": 1.0753172636032104,
+      "eval_runtime": 5.5098,
+      "eval_samples_per_second": 16.153,
+      "eval_steps_per_second": 2.178,
       "step": 850
     },
     {
       "epoch": 5.177514792899408,
+      "grad_norm": 0.50439453125,
       "learning_rate": 2.502502502502503e-05,
+      "loss": 0.052,
       "step": 875
     },
     {
       "epoch": 5.177514792899408,
+      "eval_loss": 1.158236026763916,
+      "eval_runtime": 5.4641,
+      "eval_samples_per_second": 16.288,
+      "eval_steps_per_second": 2.196,
       "step": 875
     },
     {
       "epoch": 5.325443786982248,
+      "grad_norm": 0.468994140625,
       "learning_rate": 2.0020020020020023e-05,
+      "loss": 0.052,
       "step": 900
     },
     {
       "epoch": 5.325443786982248,
+      "eval_loss": 1.164330005645752,
+      "eval_runtime": 5.4588,
+      "eval_samples_per_second": 16.304,
+      "eval_steps_per_second": 2.198,
       "step": 900
     },
     {
       "epoch": 5.4733727810650885,
+      "grad_norm": 0.5849609375,
       "learning_rate": 1.5015015015015016e-05,
+      "loss": 0.0526,
       "step": 925
     },
     {
       "epoch": 5.4733727810650885,
+      "eval_loss": 1.1923322677612305,
+      "eval_runtime": 5.5009,
+      "eval_samples_per_second": 16.179,
+      "eval_steps_per_second": 2.181,
       "step": 925
     },
     {
       "epoch": 5.621301775147929,
+      "grad_norm": 0.52783203125,
       "learning_rate": 1.0010010010010011e-05,
+      "loss": 0.0497,
       "step": 950
     },
     {
       "epoch": 5.621301775147929,
+      "eval_loss": 1.175872802734375,
+      "eval_runtime": 5.4976,
+      "eval_samples_per_second": 16.189,
+      "eval_steps_per_second": 2.183,
       "step": 950
     },
     {
       "epoch": 5.769230769230769,
+      "grad_norm": 0.461669921875,
       "learning_rate": 5.005005005005006e-06,
+      "loss": 0.0496,
       "step": 975
     },
     {
       "epoch": 5.769230769230769,
+      "eval_loss": 1.1811896562576294,
+      "eval_runtime": 5.4611,
+      "eval_samples_per_second": 16.297,
+      "eval_steps_per_second": 2.197,
       "step": 975
     },
     {
       "epoch": 5.9171597633136095,
+      "grad_norm": 0.487548828125,
       "learning_rate": 0.0,
+      "loss": 0.0477,
       "step": 1000
     },
     {
       "epoch": 5.9171597633136095,
+      "eval_loss": 1.1831614971160889,
+      "eval_runtime": 5.452,
+      "eval_samples_per_second": 16.324,
+      "eval_steps_per_second": 2.201,
       "step": 1000
     },
     {
+      "epoch": 5.9171597633136095,
+      "step": 1000,
+      "total_flos": 1.75885655212032e+17,
+      "train_loss": 0.2793775268793106,
+      "train_runtime": 1218.5958,
+      "train_samples_per_second": 3.282,
+      "train_steps_per_second": 0.821
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
   "save_steps": 25,
+  "total_flos": 1.75885655212032e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null