End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +10 -10
eval_results.json +6 -6
train_results.json +4 -4
trainer_state.json +260 -260

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_doc_qa_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_doc_qa_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.6298
 - Accuracy: 0.5108

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_doc_qa_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5108253968253968
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_doc_qa_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.6298
 - Accuracy: 0.5108

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 19.99770484278173,
-    "eval_accuracy": 0.5088571428571429,
-    "eval_loss": 3.6292061805725098,
-    "eval_runtime": 5.7944,
     "eval_samples": 500,
-    "eval_samples_per_second": 86.29,
-    "eval_steps_per_second": 10.873,
-    "perplexity": 37.68289132989432,
     "total_flos": 1.5027132150442885e+18,
-    "train_loss": 0.24546462313859588,
-    "train_runtime": 24136.6058,
     "train_samples": 34854,
-    "train_samples_per_second": 28.881,
-    "train_steps_per_second": 0.902
 }

 {
     "epoch": 19.99770484278173,
+    "eval_accuracy": 0.5108253968253968,
+    "eval_loss": 3.6298398971557617,
+    "eval_runtime": 6.2865,
     "eval_samples": 500,
+    "eval_samples_per_second": 79.535,
+    "eval_steps_per_second": 10.021,
+    "perplexity": 37.70677917129613,
     "total_flos": 1.5027132150442885e+18,
+    "train_loss": 0.2454464098857673,
+    "train_runtime": 25406.3112,
     "train_samples": 34854,
+    "train_samples_per_second": 27.437,
+    "train_steps_per_second": 0.857
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 19.99770484278173,
-    "eval_accuracy": 0.5088571428571429,
-    "eval_loss": 3.6292061805725098,
-    "eval_runtime": 5.7944,
     "eval_samples": 500,
-    "eval_samples_per_second": 86.29,
-    "eval_steps_per_second": 10.873,
-    "perplexity": 37.68289132989432
 }

 {
     "epoch": 19.99770484278173,
+    "eval_accuracy": 0.5108253968253968,
+    "eval_loss": 3.6298398971557617,
+    "eval_runtime": 6.2865,
     "eval_samples": 500,
+    "eval_samples_per_second": 79.535,
+    "eval_steps_per_second": 10.021,
+    "perplexity": 37.70677917129613
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 19.99770484278173,
     "total_flos": 1.5027132150442885e+18,
-    "train_loss": 0.24546462313859588,
-    "train_runtime": 24136.6058,
     "train_samples": 34854,
-    "train_samples_per_second": 28.881,
-    "train_steps_per_second": 0.902
 }

 {
     "epoch": 19.99770484278173,
     "total_flos": 1.5027132150442885e+18,
+    "train_loss": 0.2454464098857673,
+    "train_runtime": 25406.3112,
     "train_samples": 34854,
+    "train_samples_per_second": 27.437,
+    "train_steps_per_second": 0.857
 }

trainer_state.json CHANGED Viewed

@@ -863,858 +863,858 @@
     },
     {
       "epoch": 10.100986917603857,
-      "grad_norm": 1.4361774921417236,
       "learning_rate": 0.0001,
       "loss": 0.6334,
       "step": 11000
     },
     {
       "epoch": 10.192793206334635,
-      "grad_norm": 1.2038971185684204,
       "learning_rate": 0.0001,
-      "loss": 0.6482,
       "step": 11100
     },
     {
       "epoch": 10.284599495065413,
-      "grad_norm": 1.1092814207077026,
       "learning_rate": 0.0001,
       "loss": 0.6724,
       "step": 11200
     },
     {
       "epoch": 10.37640578379619,
-      "grad_norm": 1.1717180013656616,
       "learning_rate": 0.0001,
       "loss": 0.6647,
       "step": 11300
     },
     {
       "epoch": 10.468212072526969,
-      "grad_norm": 1.4970725774765015,
       "learning_rate": 0.0001,
       "loss": 0.6738,
       "step": 11400
     },
     {
       "epoch": 10.560018361257747,
-      "grad_norm": 1.2861392498016357,
       "learning_rate": 0.0001,
-      "loss": 0.677,
       "step": 11500
     },
     {
       "epoch": 10.651824649988525,
-      "grad_norm": 1.4063390493392944,
       "learning_rate": 0.0001,
-      "loss": 0.6828,
       "step": 11600
     },
     {
       "epoch": 10.743630938719303,
-      "grad_norm": 1.2314549684524536,
       "learning_rate": 0.0001,
-      "loss": 0.6785,
       "step": 11700
     },
     {
       "epoch": 10.83543722745008,
-      "grad_norm": 1.128456473350525,
       "learning_rate": 0.0001,
-      "loss": 0.7077,
       "step": 11800
     },
     {
       "epoch": 10.927243516180859,
-      "grad_norm": 1.0211490392684937,
       "learning_rate": 0.0001,
       "loss": 0.6899,
       "step": 11900
     },
     {
       "epoch": 10.999770484278173,
-      "eval_accuracy": 0.5075238095238095,
-      "eval_loss": 3.3183186054229736,
-      "eval_runtime": 5.3999,
-      "eval_samples_per_second": 92.595,
-      "eval_steps_per_second": 11.667,
       "step": 11979
     },
     {
       "epoch": 11.019049804911637,
-      "grad_norm": 1.0713156461715698,
       "learning_rate": 0.0001,
-      "loss": 0.6723,
       "step": 12000
     },
     {
       "epoch": 11.110856093642415,
-      "grad_norm": 1.1805211305618286,
       "learning_rate": 0.0001,
-      "loss": 0.5788,
       "step": 12100
     },
     {
       "epoch": 11.202662382373193,
-      "grad_norm": 1.2431073188781738,
       "learning_rate": 0.0001,
-      "loss": 0.5996,
       "step": 12200
     },
     {
       "epoch": 11.29446867110397,
-      "grad_norm": 1.3710986375808716,
       "learning_rate": 0.0001,
-      "loss": 0.5991,
       "step": 12300
     },
     {
       "epoch": 11.386274959834749,
-      "grad_norm": 1.3145737648010254,
       "learning_rate": 0.0001,
-      "loss": 0.6217,
       "step": 12400
     },
     {
       "epoch": 11.478081248565527,
-      "grad_norm": 1.4527884721755981,
       "learning_rate": 0.0001,
-      "loss": 0.6101,
       "step": 12500
     },
     {
       "epoch": 11.569887537296305,
-      "grad_norm": 1.8169633150100708,
       "learning_rate": 0.0001,
-      "loss": 0.6158,
       "step": 12600
     },
     {
       "epoch": 11.661693826027083,
-      "grad_norm": 1.3203802108764648,
       "learning_rate": 0.0001,
-      "loss": 0.6283,
       "step": 12700
     },
     {
       "epoch": 11.75350011475786,
-      "grad_norm": 1.4981048107147217,
       "learning_rate": 0.0001,
-      "loss": 0.6286,
       "step": 12800
     },
     {
       "epoch": 11.845306403488639,
-      "grad_norm": 1.4082999229431152,
       "learning_rate": 0.0001,
-      "loss": 0.6398,
       "step": 12900
     },
     {
       "epoch": 11.937112692219417,
-      "grad_norm": 1.158374309539795,
       "learning_rate": 0.0001,
-      "loss": 0.6435,
       "step": 13000
     },
     {
       "epoch": 11.999540968556346,
-      "eval_accuracy": 0.5103174603174603,
-      "eval_loss": 3.3756327629089355,
-      "eval_runtime": 5.7365,
-      "eval_samples_per_second": 87.161,
-      "eval_steps_per_second": 10.982,
       "step": 13068
     },
     {
       "epoch": 12.028918980950195,
-      "grad_norm": 1.4804699420928955,
       "learning_rate": 0.0001,
-      "loss": 0.6188,
       "step": 13100
     },
     {
       "epoch": 12.120725269680973,
-      "grad_norm": 1.203269362449646,
       "learning_rate": 0.0001,
-      "loss": 0.5278,
       "step": 13200
     },
     {
       "epoch": 12.21253155841175,
-      "grad_norm": 1.3879435062408447,
       "learning_rate": 0.0001,
-      "loss": 0.5469,
       "step": 13300
     },
     {
       "epoch": 12.304337847142529,
-      "grad_norm": 1.1464476585388184,
       "learning_rate": 0.0001,
-      "loss": 0.5551,
       "step": 13400
     },
     {
       "epoch": 12.396144135873307,
-      "grad_norm": 1.2823903560638428,
       "learning_rate": 0.0001,
       "loss": 0.5665,
       "step": 13500
     },
     {
       "epoch": 12.487950424604085,
-      "grad_norm": 1.3198871612548828,
       "learning_rate": 0.0001,
-      "loss": 0.5655,
       "step": 13600
     },
     {
       "epoch": 12.579756713334863,
-      "grad_norm": 1.573085904121399,
       "learning_rate": 0.0001,
-      "loss": 0.5756,
       "step": 13700
     },
     {
       "epoch": 12.671563002065641,
-      "grad_norm": 1.3534272909164429,
       "learning_rate": 0.0001,
-      "loss": 0.5762,
       "step": 13800
     },
     {
       "epoch": 12.763369290796419,
-      "grad_norm": 1.3139435052871704,
       "learning_rate": 0.0001,
-      "loss": 0.5905,
       "step": 13900
     },
     {
       "epoch": 12.855175579527197,
-      "grad_norm": 1.867145299911499,
       "learning_rate": 0.0001,
-      "loss": 0.5823,
       "step": 14000
     },
     {
       "epoch": 12.946981868257975,
-      "grad_norm": 1.517114281654358,
       "learning_rate": 0.0001,
-      "loss": 0.6043,
       "step": 14100
     },
     {
       "epoch": 12.999311452834519,
-      "eval_accuracy": 0.5099047619047619,
-      "eval_loss": 3.3886983394622803,
-      "eval_runtime": 6.1125,
-      "eval_samples_per_second": 81.799,
-      "eval_steps_per_second": 10.307,
       "step": 14157
     },
     {
       "epoch": 13.038788156988753,
-      "grad_norm": 1.178884506225586,
       "learning_rate": 0.0001,
-      "loss": 0.5569,
       "step": 14200
     },
     {
       "epoch": 13.130594445719531,
-      "grad_norm": 1.2415622472763062,
       "learning_rate": 0.0001,
       "loss": 0.4959,
       "step": 14300
     },
     {
       "epoch": 13.22240073445031,
-      "grad_norm": 1.6084754467010498,
       "learning_rate": 0.0001,
       "loss": 0.5088,
       "step": 14400
     },
     {
       "epoch": 13.314207023181089,
-      "grad_norm": 1.3151100873947144,
       "learning_rate": 0.0001,
-      "loss": 0.5134,
       "step": 14500
     },
     {
       "epoch": 13.406013311911867,
-      "grad_norm": 1.323893427848816,
       "learning_rate": 0.0001,
-      "loss": 0.5156,
       "step": 14600
     },
     {
       "epoch": 13.497819600642645,
-      "grad_norm": 1.1941570043563843,
       "learning_rate": 0.0001,
-      "loss": 0.5291,
       "step": 14700
     },
     {
       "epoch": 13.589625889373423,
-      "grad_norm": 1.3182090520858765,
       "learning_rate": 0.0001,
-      "loss": 0.5307,
       "step": 14800
     },
     {
       "epoch": 13.6814321781042,
-      "grad_norm": 1.2716799974441528,
       "learning_rate": 0.0001,
-      "loss": 0.5365,
       "step": 14900
     },
     {
       "epoch": 13.773238466834979,
-      "grad_norm": 1.4822237491607666,
       "learning_rate": 0.0001,
-      "loss": 0.5402,
       "step": 15000
     },
     {
       "epoch": 13.865044755565757,
-      "grad_norm": 1.7227895259857178,
       "learning_rate": 0.0001,
-      "loss": 0.536,
       "step": 15100
     },
     {
       "epoch": 13.956851044296535,
-      "grad_norm": 2.5236029624938965,
       "learning_rate": 0.0001,
-      "loss": 0.5504,
       "step": 15200
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.5090793650793651,
-      "eval_loss": 3.4403011798858643,
-      "eval_runtime": 5.8756,
-      "eval_samples_per_second": 85.098,
-      "eval_steps_per_second": 10.722,
       "step": 15247
     },
     {
       "epoch": 14.048657333027313,
-      "grad_norm": 2.555696725845337,
       "learning_rate": 0.0001,
-      "loss": 0.5034,
       "step": 15300
     },
     {
       "epoch": 14.14046362175809,
-      "grad_norm": 1.1738946437835693,
       "learning_rate": 0.0001,
       "loss": 0.4616,
       "step": 15400
     },
     {
       "epoch": 14.232269910488869,
-      "grad_norm": 1.3358529806137085,
       "learning_rate": 0.0001,
-      "loss": 0.4724,
       "step": 15500
     },
     {
       "epoch": 14.324076199219647,
-      "grad_norm": 1.310691237449646,
       "learning_rate": 0.0001,
-      "loss": 0.4738,
       "step": 15600
     },
     {
       "epoch": 14.415882487950425,
-      "grad_norm": 1.6306800842285156,
       "learning_rate": 0.0001,
       "loss": 0.4854,
       "step": 15700
     },
     {
       "epoch": 14.507688776681203,
-      "grad_norm": 1.1620906591415405,
       "learning_rate": 0.0001,
-      "loss": 0.4915,
       "step": 15800
     },
     {
       "epoch": 14.59949506541198,
-      "grad_norm": 1.4679458141326904,
       "learning_rate": 0.0001,
-      "loss": 0.4908,
       "step": 15900
     },
     {
       "epoch": 14.691301354142759,
-      "grad_norm": 1.4514496326446533,
       "learning_rate": 0.0001,
-      "loss": 0.4924,
       "step": 16000
     },
     {
       "epoch": 14.783107642873537,
-      "grad_norm": 1.4150872230529785,
       "learning_rate": 0.0001,
-      "loss": 0.5083,
       "step": 16100
     },
     {
       "epoch": 14.874913931604315,
-      "grad_norm": 1.4393386840820312,
       "learning_rate": 0.0001,
-      "loss": 0.5076,
       "step": 16200
     },
     {
       "epoch": 14.966720220335093,
-      "grad_norm": 1.4583277702331543,
       "learning_rate": 0.0001,
-      "loss": 0.5091,
       "step": 16300
     },
     {
       "epoch": 14.999770484278173,
-      "eval_accuracy": 0.5091111111111111,
-      "eval_loss": 3.473123550415039,
-      "eval_runtime": 5.6077,
-      "eval_samples_per_second": 89.163,
-      "eval_steps_per_second": 11.235,
       "step": 16336
     },
     {
       "epoch": 15.05852650906587,
-      "grad_norm": 1.6890257596969604,
       "learning_rate": 0.0001,
-      "loss": 0.4488,
       "step": 16400
     },
     {
       "epoch": 15.150332797796649,
-      "grad_norm": 1.2938202619552612,
       "learning_rate": 0.0001,
-      "loss": 0.4334,
       "step": 16500
     },
     {
       "epoch": 15.242139086527427,
-      "grad_norm": 1.405485987663269,
       "learning_rate": 0.0001,
-      "loss": 0.4258,
       "step": 16600
     },
     {
       "epoch": 15.333945375258205,
-      "grad_norm": 1.4180231094360352,
       "learning_rate": 0.0001,
-      "loss": 0.4419,
       "step": 16700
     },
     {
       "epoch": 15.425751663988983,
-      "grad_norm": 1.2333263158798218,
       "learning_rate": 0.0001,
-      "loss": 0.4518,
       "step": 16800
     },
     {
       "epoch": 15.517557952719761,
-      "grad_norm": 1.5479395389556885,
       "learning_rate": 0.0001,
-      "loss": 0.4591,
       "step": 16900
     },
     {
       "epoch": 15.609364241450539,
-      "grad_norm": 1.4094911813735962,
       "learning_rate": 0.0001,
-      "loss": 0.4608,
       "step": 17000
     },
     {
       "epoch": 15.701170530181317,
-      "grad_norm": 1.4307762384414673,
       "learning_rate": 0.0001,
-      "loss": 0.4679,
       "step": 17100
     },
     {
       "epoch": 15.792976818912095,
-      "grad_norm": 1.5752439498901367,
       "learning_rate": 0.0001,
-      "loss": 0.4781,
       "step": 17200
     },
     {
       "epoch": 15.884783107642873,
-      "grad_norm": 1.438144564628601,
       "learning_rate": 0.0001,
-      "loss": 0.4766,
       "step": 17300
     },
     {
       "epoch": 15.976589396373651,
-      "grad_norm": 1.3546433448791504,
       "learning_rate": 0.0001,
-      "loss": 0.4794,
       "step": 17400
     },
     {
       "epoch": 15.999540968556346,
-      "eval_accuracy": 0.5089206349206349,
-      "eval_loss": 3.517951250076294,
-      "eval_runtime": 6.4046,
-      "eval_samples_per_second": 78.069,
-      "eval_steps_per_second": 9.837,
       "step": 17425
     },
     {
       "epoch": 16.06839568510443,
-      "grad_norm": 1.139876127243042,
       "learning_rate": 0.0001,
-      "loss": 0.4243,
       "step": 17500
     },
     {
       "epoch": 16.160201973835207,
-      "grad_norm": 1.5056086778640747,
       "learning_rate": 0.0001,
-      "loss": 0.4015,
       "step": 17600
     },
     {
       "epoch": 16.252008262565987,
-      "grad_norm": 1.6973472833633423,
       "learning_rate": 0.0001,
-      "loss": 0.4123,
       "step": 17700
     },
     {
       "epoch": 16.343814551296763,
-      "grad_norm": 1.3595877885818481,
       "learning_rate": 0.0001,
-      "loss": 0.4129,
       "step": 17800
     },
     {
       "epoch": 16.435620840027543,
-      "grad_norm": 1.4490883350372314,
       "learning_rate": 0.0001,
-      "loss": 0.4197,
       "step": 17900
     },
     {
       "epoch": 16.52742712875832,
-      "grad_norm": 1.9509937763214111,
       "learning_rate": 0.0001,
-      "loss": 0.4274,
       "step": 18000
     },
     {
       "epoch": 16.6192334174891,
-      "grad_norm": 1.2110815048217773,
       "learning_rate": 0.0001,
-      "loss": 0.4351,
       "step": 18100
     },
     {
       "epoch": 16.711039706219875,
-      "grad_norm": 1.4993358850479126,
       "learning_rate": 0.0001,
-      "loss": 0.4369,
       "step": 18200
     },
     {
       "epoch": 16.802845994950655,
-      "grad_norm": 1.802101492881775,
       "learning_rate": 0.0001,
-      "loss": 0.4432,
       "step": 18300
     },
     {
       "epoch": 16.89465228368143,
-      "grad_norm": 1.3281980752944946,
       "learning_rate": 0.0001,
-      "loss": 0.4466,
       "step": 18400
     },
     {
       "epoch": 16.98645857241221,
-      "grad_norm": 1.52168869972229,
       "learning_rate": 0.0001,
-      "loss": 0.4553,
       "step": 18500
     },
     {
       "epoch": 16.99931145283452,
-      "eval_accuracy": 0.5087619047619047,
-      "eval_loss": 3.555225133895874,
-      "eval_runtime": 6.0339,
-      "eval_samples_per_second": 82.865,
-      "eval_steps_per_second": 10.441,
       "step": 18514
     },
     {
       "epoch": 17.078264861142987,
-      "grad_norm": 1.1832448244094849,
       "learning_rate": 0.0001,
-      "loss": 0.3783,
       "step": 18600
     },
     {
       "epoch": 17.170071149873767,
-      "grad_norm": 1.4022966623306274,
       "learning_rate": 0.0001,
-      "loss": 0.3821,
       "step": 18700
     },
     {
       "epoch": 17.261877438604543,
-      "grad_norm": 1.237662672996521,
       "learning_rate": 0.0001,
-      "loss": 0.3843,
       "step": 18800
     },
     {
       "epoch": 17.353683727335323,
-      "grad_norm": 1.3307769298553467,
       "learning_rate": 0.0001,
-      "loss": 0.3988,
       "step": 18900
     },
     {
       "epoch": 17.4454900160661,
-      "grad_norm": 1.3363937139511108,
       "learning_rate": 0.0001,
-      "loss": 0.4045,
       "step": 19000
     },
     {
       "epoch": 17.53729630479688,
-      "grad_norm": 1.421823501586914,
       "learning_rate": 0.0001,
-      "loss": 0.4061,
       "step": 19100
     },
     {
       "epoch": 17.629102593527655,
-      "grad_norm": 1.4331218004226685,
       "learning_rate": 0.0001,
-      "loss": 0.4049,
       "step": 19200
     },
     {
       "epoch": 17.720908882258435,
-      "grad_norm": 1.7339308261871338,
       "learning_rate": 0.0001,
-      "loss": 0.4198,
       "step": 19300
     },
     {
       "epoch": 17.81271517098921,
-      "grad_norm": 1.3503917455673218,
       "learning_rate": 0.0001,
-      "loss": 0.4187,
       "step": 19400
     },
     {
       "epoch": 17.90452145971999,
-      "grad_norm": 1.6054885387420654,
       "learning_rate": 0.0001,
-      "loss": 0.4176,
       "step": 19500
     },
     {
       "epoch": 17.996327748450767,
-      "grad_norm": 1.571459412574768,
       "learning_rate": 0.0001,
-      "loss": 0.4275,
       "step": 19600
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.5086349206349207,
-      "eval_loss": 3.6265830993652344,
-      "eval_runtime": 5.5465,
-      "eval_samples_per_second": 90.148,
-      "eval_steps_per_second": 11.359,
       "step": 19604
     },
     {
       "epoch": 18.088134037181547,
-      "grad_norm": 1.34700345993042,
       "learning_rate": 0.0001,
-      "loss": 0.3492,
       "step": 19700
     },
     {
       "epoch": 18.179940325912327,
-      "grad_norm": 1.2837024927139282,
       "learning_rate": 0.0001,
-      "loss": 0.3601,
       "step": 19800
     },
     {
       "epoch": 18.271746614643103,
-      "grad_norm": 1.8572251796722412,
       "learning_rate": 0.0001,
-      "loss": 0.3727,
       "step": 19900
     },
     {
       "epoch": 18.363552903373883,
-      "grad_norm": 1.632940411567688,
       "learning_rate": 0.0001,
-      "loss": 0.3704,
       "step": 20000
     },
     {
       "epoch": 18.45535919210466,
-      "grad_norm": 1.6444798707962036,
       "learning_rate": 0.0001,
-      "loss": 0.3777,
       "step": 20100
     },
     {
       "epoch": 18.54716548083544,
-      "grad_norm": 1.6007230281829834,
       "learning_rate": 0.0001,
-      "loss": 0.3798,
       "step": 20200
     },
     {
       "epoch": 18.638971769566215,
-      "grad_norm": 1.6421847343444824,
       "learning_rate": 0.0001,
-      "loss": 0.387,
       "step": 20300
     },
     {
       "epoch": 18.730778058296995,
-      "grad_norm": 1.7184878587722778,
       "learning_rate": 0.0001,
-      "loss": 0.3923,
       "step": 20400
     },
     {
       "epoch": 18.82258434702777,
-      "grad_norm": 1.5293742418289185,
       "learning_rate": 0.0001,
-      "loss": 0.3974,
       "step": 20500
     },
     {
       "epoch": 18.91439063575855,
-      "grad_norm": 1.554432988166809,
       "learning_rate": 0.0001,
-      "loss": 0.4086,
       "step": 20600
     },
     {
       "epoch": 18.999770484278173,
-      "eval_accuracy": 0.5072698412698413,
-      "eval_loss": 3.62077260017395,
-      "eval_runtime": 5.3313,
-      "eval_samples_per_second": 93.785,
-      "eval_steps_per_second": 11.817,
       "step": 20693
     },
     {
       "epoch": 19.006196924489327,
-      "grad_norm": 1.1894158124923706,
       "learning_rate": 0.0001,
-      "loss": 0.3996,
       "step": 20700
     },
     {
       "epoch": 19.098003213220107,
-      "grad_norm": 1.4055882692337036,
       "learning_rate": 0.0001,
-      "loss": 0.3328,
       "step": 20800
     },
     {
       "epoch": 19.189809501950883,
-      "grad_norm": 1.1423193216323853,
       "learning_rate": 0.0001,
-      "loss": 0.3398,
       "step": 20900
     },
     {
       "epoch": 19.281615790681663,
-      "grad_norm": 1.5121031999588013,
       "learning_rate": 0.0001,
-      "loss": 0.3494,
       "step": 21000
     },
     {
       "epoch": 19.37342207941244,
-      "grad_norm": 1.3979634046554565,
       "learning_rate": 0.0001,
-      "loss": 0.3577,
       "step": 21100
     },
     {
       "epoch": 19.46522836814322,
-      "grad_norm": 1.574471354484558,
       "learning_rate": 0.0001,
-      "loss": 0.3626,
       "step": 21200
     },
     {
       "epoch": 19.557034656873995,
-      "grad_norm": 1.3021608591079712,
       "learning_rate": 0.0001,
-      "loss": 0.3629,
       "step": 21300
     },
     {
       "epoch": 19.648840945604775,
-      "grad_norm": 1.6208659410476685,
       "learning_rate": 0.0001,
-      "loss": 0.3667,
       "step": 21400
     },
     {
       "epoch": 19.74064723433555,
-      "grad_norm": 1.689060091972351,
       "learning_rate": 0.0001,
-      "loss": 0.3773,
       "step": 21500
     },
     {
       "epoch": 19.83245352306633,
-      "grad_norm": 1.8210320472717285,
       "learning_rate": 0.0001,
-      "loss": 0.3891,
       "step": 21600
     },
     {
       "epoch": 19.924259811797107,
-      "grad_norm": 1.6032166481018066,
       "learning_rate": 0.0001,
-      "loss": 0.3824,
       "step": 21700
     },
     {
       "epoch": 19.99770484278173,
-      "eval_accuracy": 0.5088571428571429,
-      "eval_loss": 3.6292061805725098,
-      "eval_runtime": 5.3221,
-      "eval_samples_per_second": 93.949,
-      "eval_steps_per_second": 11.838,
       "step": 21780
     },
     {
       "epoch": 19.99770484278173,
       "step": 21780,
       "total_flos": 1.5027132150442885e+18,
-      "train_loss": 0.24546462313859588,
-      "train_runtime": 24136.6058,
-      "train_samples_per_second": 28.881,
-      "train_steps_per_second": 0.902
     }
   ],
   "logging_steps": 100,

     },
     {
       "epoch": 10.100986917603857,
+      "grad_norm": 1.4835282564163208,
       "learning_rate": 0.0001,
       "loss": 0.6334,
       "step": 11000
     },
     {
       "epoch": 10.192793206334635,
+      "grad_norm": 1.2020999193191528,
       "learning_rate": 0.0001,
+      "loss": 0.6483,
       "step": 11100
     },
     {
       "epoch": 10.284599495065413,
+      "grad_norm": 1.110913872718811,
       "learning_rate": 0.0001,
       "loss": 0.6724,
       "step": 11200
     },
     {
       "epoch": 10.37640578379619,
+      "grad_norm": 1.1754395961761475,
       "learning_rate": 0.0001,
       "loss": 0.6647,
       "step": 11300
     },
     {
       "epoch": 10.468212072526969,
+      "grad_norm": 1.4345954656600952,
       "learning_rate": 0.0001,
       "loss": 0.6738,
       "step": 11400
     },
     {
       "epoch": 10.560018361257747,
+      "grad_norm": 1.3362641334533691,
       "learning_rate": 0.0001,
+      "loss": 0.6769,
       "step": 11500
     },
     {
       "epoch": 10.651824649988525,
+      "grad_norm": 1.369678258895874,
       "learning_rate": 0.0001,
+      "loss": 0.6831,
       "step": 11600
     },
     {
       "epoch": 10.743630938719303,
+      "grad_norm": 1.195913553237915,
       "learning_rate": 0.0001,
+      "loss": 0.6787,
       "step": 11700
     },
     {
       "epoch": 10.83543722745008,
+      "grad_norm": 1.1389861106872559,
       "learning_rate": 0.0001,
+      "loss": 0.7081,
       "step": 11800
     },
     {
       "epoch": 10.927243516180859,
+      "grad_norm": 1.0441659688949585,
       "learning_rate": 0.0001,
       "loss": 0.6899,
       "step": 11900
     },
     {
       "epoch": 10.999770484278173,
+      "eval_accuracy": 0.5072063492063492,
+      "eval_loss": 3.3147079944610596,
+      "eval_runtime": 5.952,
+      "eval_samples_per_second": 84.006,
+      "eval_steps_per_second": 10.585,
       "step": 11979
     },
     {
       "epoch": 11.019049804911637,
+      "grad_norm": 1.0717581510543823,
       "learning_rate": 0.0001,
+      "loss": 0.6725,
       "step": 12000
     },
     {
       "epoch": 11.110856093642415,
+      "grad_norm": 1.109116554260254,
       "learning_rate": 0.0001,
+      "loss": 0.5792,
       "step": 12100
     },
     {
       "epoch": 11.202662382373193,
+      "grad_norm": 1.1636066436767578,
       "learning_rate": 0.0001,
+      "loss": 0.6003,
       "step": 12200
     },
     {
       "epoch": 11.29446867110397,
+      "grad_norm": 1.293394923210144,
       "learning_rate": 0.0001,
+      "loss": 0.5985,
       "step": 12300
     },
     {
       "epoch": 11.386274959834749,
+      "grad_norm": 1.3064810037612915,
       "learning_rate": 0.0001,
+      "loss": 0.6213,
       "step": 12400
     },
     {
       "epoch": 11.478081248565527,
+      "grad_norm": 1.4149938821792603,
       "learning_rate": 0.0001,
+      "loss": 0.6099,
       "step": 12500
     },
     {
       "epoch": 11.569887537296305,
+      "grad_norm": 1.7333831787109375,
       "learning_rate": 0.0001,
+      "loss": 0.6153,
       "step": 12600
     },
     {
       "epoch": 11.661693826027083,
+      "grad_norm": 1.2699064016342163,
       "learning_rate": 0.0001,
+      "loss": 0.6276,
       "step": 12700
     },
     {
       "epoch": 11.75350011475786,
+      "grad_norm": 1.5278961658477783,
       "learning_rate": 0.0001,
+      "loss": 0.6276,
       "step": 12800
     },
     {
       "epoch": 11.845306403488639,
+      "grad_norm": 1.4876160621643066,
       "learning_rate": 0.0001,
+      "loss": 0.6402,
       "step": 12900
     },
     {
       "epoch": 11.937112692219417,
+      "grad_norm": 1.173690676689148,
       "learning_rate": 0.0001,
+      "loss": 0.6427,
       "step": 13000
     },
     {
       "epoch": 11.999540968556346,
+      "eval_accuracy": 0.5101269841269841,
+      "eval_loss": 3.4025278091430664,
+      "eval_runtime": 6.1807,
+      "eval_samples_per_second": 80.897,
+      "eval_steps_per_second": 10.193,
       "step": 13068
     },
     {
       "epoch": 12.028918980950195,
+      "grad_norm": 1.4262442588806152,
       "learning_rate": 0.0001,
+      "loss": 0.6183,
       "step": 13100
     },
     {
       "epoch": 12.120725269680973,
+      "grad_norm": 1.3088960647583008,
       "learning_rate": 0.0001,
+      "loss": 0.5263,
       "step": 13200
     },
     {
       "epoch": 12.21253155841175,
+      "grad_norm": 1.416728138923645,
       "learning_rate": 0.0001,
+      "loss": 0.5468,
       "step": 13300
     },
     {
       "epoch": 12.304337847142529,
+      "grad_norm": 1.216723918914795,
       "learning_rate": 0.0001,
+      "loss": 0.5546,
       "step": 13400
     },
     {
       "epoch": 12.396144135873307,
+      "grad_norm": 1.2964662313461304,
       "learning_rate": 0.0001,
       "loss": 0.5665,
       "step": 13500
     },
     {
       "epoch": 12.487950424604085,
+      "grad_norm": 1.2485017776489258,
       "learning_rate": 0.0001,
+      "loss": 0.5656,
       "step": 13600
     },
     {
       "epoch": 12.579756713334863,
+      "grad_norm": 1.4807502031326294,
       "learning_rate": 0.0001,
+      "loss": 0.5751,
       "step": 13700
     },
     {
       "epoch": 12.671563002065641,
+      "grad_norm": 1.2348891496658325,
       "learning_rate": 0.0001,
+      "loss": 0.5744,
       "step": 13800
     },
     {
       "epoch": 12.763369290796419,
+      "grad_norm": 1.3481100797653198,
       "learning_rate": 0.0001,
+      "loss": 0.5904,
       "step": 13900
     },
     {
       "epoch": 12.855175579527197,
+      "grad_norm": 1.5321805477142334,
       "learning_rate": 0.0001,
+      "loss": 0.5818,
       "step": 14000
     },
     {
       "epoch": 12.946981868257975,
+      "grad_norm": 1.6983797550201416,
       "learning_rate": 0.0001,
+      "loss": 0.604,
       "step": 14100
     },
     {
       "epoch": 12.999311452834519,
+      "eval_accuracy": 0.5102857142857142,
+      "eval_loss": 3.390490770339966,
+      "eval_runtime": 6.2076,
+      "eval_samples_per_second": 80.546,
+      "eval_steps_per_second": 10.149,
       "step": 14157
     },
     {
       "epoch": 13.038788156988753,
+      "grad_norm": 1.336112141609192,
       "learning_rate": 0.0001,
+      "loss": 0.556,
       "step": 14200
     },
     {
       "epoch": 13.130594445719531,
+      "grad_norm": 1.420715570449829,
       "learning_rate": 0.0001,
       "loss": 0.4959,
       "step": 14300
     },
     {
       "epoch": 13.22240073445031,
+      "grad_norm": 1.3724342584609985,
       "learning_rate": 0.0001,
       "loss": 0.5088,
       "step": 14400
     },
     {
       "epoch": 13.314207023181089,
+      "grad_norm": 1.2071592807769775,
       "learning_rate": 0.0001,
+      "loss": 0.5128,
       "step": 14500
     },
     {
       "epoch": 13.406013311911867,
+      "grad_norm": 1.604084849357605,
       "learning_rate": 0.0001,
+      "loss": 0.5153,
       "step": 14600
     },
     {
       "epoch": 13.497819600642645,
+      "grad_norm": 1.2753998041152954,
       "learning_rate": 0.0001,
+      "loss": 0.5299,
       "step": 14700
     },
     {
       "epoch": 13.589625889373423,
+      "grad_norm": 1.4272007942199707,
       "learning_rate": 0.0001,
+      "loss": 0.5322,
       "step": 14800
     },
     {
       "epoch": 13.6814321781042,
+      "grad_norm": 1.4577889442443848,
       "learning_rate": 0.0001,
+      "loss": 0.5368,
       "step": 14900
     },
     {
       "epoch": 13.773238466834979,
+      "grad_norm": 2.467128038406372,
       "learning_rate": 0.0001,
+      "loss": 0.5413,
       "step": 15000
     },
     {
       "epoch": 13.865044755565757,
+      "grad_norm": 1.6474366188049316,
       "learning_rate": 0.0001,
+      "loss": 0.5347,
       "step": 15100
     },
     {
       "epoch": 13.956851044296535,
+      "grad_norm": 1.3380658626556396,
       "learning_rate": 0.0001,
+      "loss": 0.5507,
       "step": 15200
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.5087936507936508,
+      "eval_loss": 3.47397780418396,
+      "eval_runtime": 5.9214,
+      "eval_samples_per_second": 84.439,
+      "eval_steps_per_second": 10.639,
       "step": 15247
     },
     {
       "epoch": 14.048657333027313,
+      "grad_norm": 1.5243284702301025,
       "learning_rate": 0.0001,
+      "loss": 0.5031,
       "step": 15300
     },
     {
       "epoch": 14.14046362175809,
+      "grad_norm": 1.3172513246536255,
       "learning_rate": 0.0001,
       "loss": 0.4616,
       "step": 15400
     },
     {
       "epoch": 14.232269910488869,
+      "grad_norm": 1.3125884532928467,
       "learning_rate": 0.0001,
+      "loss": 0.4734,
       "step": 15500
     },
     {
       "epoch": 14.324076199219647,
+      "grad_norm": 1.212815284729004,
       "learning_rate": 0.0001,
+      "loss": 0.4732,
       "step": 15600
     },
     {
       "epoch": 14.415882487950425,
+      "grad_norm": 1.2093795537948608,
       "learning_rate": 0.0001,
       "loss": 0.4854,
       "step": 15700
     },
     {
       "epoch": 14.507688776681203,
+      "grad_norm": 1.4243745803833008,
       "learning_rate": 0.0001,
+      "loss": 0.4928,
       "step": 15800
     },
     {
       "epoch": 14.59949506541198,
+      "grad_norm": 1.4822219610214233,
       "learning_rate": 0.0001,
+      "loss": 0.4881,
       "step": 15900
     },
     {
       "epoch": 14.691301354142759,
+      "grad_norm": 1.7908687591552734,
       "learning_rate": 0.0001,
+      "loss": 0.4939,
       "step": 16000
     },
     {
       "epoch": 14.783107642873537,
+      "grad_norm": 1.3300451040267944,
       "learning_rate": 0.0001,
+      "loss": 0.5078,
       "step": 16100
     },
     {
       "epoch": 14.874913931604315,
+      "grad_norm": 1.8892784118652344,
       "learning_rate": 0.0001,
+      "loss": 0.5084,
       "step": 16200
     },
     {
       "epoch": 14.966720220335093,
+      "grad_norm": 1.3664839267730713,
       "learning_rate": 0.0001,
+      "loss": 0.5099,
       "step": 16300
     },
     {
       "epoch": 14.999770484278173,
+      "eval_accuracy": 0.5085079365079365,
+      "eval_loss": 3.477241277694702,
+      "eval_runtime": 5.8872,
+      "eval_samples_per_second": 84.93,
+      "eval_steps_per_second": 10.701,
       "step": 16336
     },
     {
       "epoch": 15.05852650906587,
+      "grad_norm": 1.5635462999343872,
       "learning_rate": 0.0001,
+      "loss": 0.4503,
       "step": 16400
     },
     {
       "epoch": 15.150332797796649,
+      "grad_norm": 1.3071101903915405,
       "learning_rate": 0.0001,
+      "loss": 0.432,
       "step": 16500
     },
     {
       "epoch": 15.242139086527427,
+      "grad_norm": 1.3490887880325317,
       "learning_rate": 0.0001,
+      "loss": 0.4278,
       "step": 16600
     },
     {
       "epoch": 15.333945375258205,
+      "grad_norm": 1.2852087020874023,
       "learning_rate": 0.0001,
+      "loss": 0.4425,
       "step": 16700
     },
     {
       "epoch": 15.425751663988983,
+      "grad_norm": 1.3694721460342407,
       "learning_rate": 0.0001,
+      "loss": 0.4509,
       "step": 16800
     },
     {
       "epoch": 15.517557952719761,
+      "grad_norm": 1.6945849657058716,
       "learning_rate": 0.0001,
+      "loss": 0.459,
       "step": 16900
     },
     {
       "epoch": 15.609364241450539,
+      "grad_norm": 1.1728637218475342,
       "learning_rate": 0.0001,
+      "loss": 0.4627,
       "step": 17000
     },
     {
       "epoch": 15.701170530181317,
+      "grad_norm": 1.4016026258468628,
       "learning_rate": 0.0001,
+      "loss": 0.469,
       "step": 17100
     },
     {
       "epoch": 15.792976818912095,
+      "grad_norm": 1.5266894102096558,
       "learning_rate": 0.0001,
+      "loss": 0.4761,
       "step": 17200
     },
     {
       "epoch": 15.884783107642873,
+      "grad_norm": 1.6413285732269287,
       "learning_rate": 0.0001,
+      "loss": 0.4772,
       "step": 17300
     },
     {
       "epoch": 15.976589396373651,
+      "grad_norm": 1.3661378622055054,
       "learning_rate": 0.0001,
+      "loss": 0.478,
       "step": 17400
     },
     {
       "epoch": 15.999540968556346,
+      "eval_accuracy": 0.5088253968253968,
+      "eval_loss": 3.5259175300598145,
+      "eval_runtime": 6.3422,
+      "eval_samples_per_second": 78.837,
+      "eval_steps_per_second": 9.933,
       "step": 17425
     },
     {
       "epoch": 16.06839568510443,
+      "grad_norm": 1.3857972621917725,
       "learning_rate": 0.0001,
+      "loss": 0.4229,
       "step": 17500
     },
     {
       "epoch": 16.160201973835207,
+      "grad_norm": 1.477820634841919,
       "learning_rate": 0.0001,
+      "loss": 0.4018,
       "step": 17600
     },
     {
       "epoch": 16.252008262565987,
+      "grad_norm": 1.4332579374313354,
       "learning_rate": 0.0001,
+      "loss": 0.4122,
       "step": 17700
     },
     {
       "epoch": 16.343814551296763,
+      "grad_norm": 1.5828882455825806,
       "learning_rate": 0.0001,
+      "loss": 0.4154,
       "step": 17800
     },
     {
       "epoch": 16.435620840027543,
+      "grad_norm": 1.2645188570022583,
       "learning_rate": 0.0001,
+      "loss": 0.4198,
       "step": 17900
     },
     {
       "epoch": 16.52742712875832,
+      "grad_norm": 1.6579480171203613,
       "learning_rate": 0.0001,
+      "loss": 0.4271,
       "step": 18000
     },
     {
       "epoch": 16.6192334174891,
+      "grad_norm": 1.538338541984558,
       "learning_rate": 0.0001,
+      "loss": 0.4348,
       "step": 18100
     },
     {
       "epoch": 16.711039706219875,
+      "grad_norm": 1.3948062658309937,
       "learning_rate": 0.0001,
+      "loss": 0.4365,
       "step": 18200
     },
     {
       "epoch": 16.802845994950655,
+      "grad_norm": 1.422324776649475,
       "learning_rate": 0.0001,
+      "loss": 0.442,
       "step": 18300
     },
     {
       "epoch": 16.89465228368143,
+      "grad_norm": 1.2586045265197754,
       "learning_rate": 0.0001,
+      "loss": 0.4483,
       "step": 18400
     },
     {
       "epoch": 16.98645857241221,
+      "grad_norm": 1.5145964622497559,
       "learning_rate": 0.0001,
+      "loss": 0.4545,
       "step": 18500
     },
     {
       "epoch": 16.99931145283452,
+      "eval_accuracy": 0.5093650793650794,
+      "eval_loss": 3.5390663146972656,
+      "eval_runtime": 5.9935,
+      "eval_samples_per_second": 83.424,
+      "eval_steps_per_second": 10.511,
       "step": 18514
     },
     {
       "epoch": 17.078264861142987,
+      "grad_norm": 1.3872510194778442,
       "learning_rate": 0.0001,
+      "loss": 0.3784,
       "step": 18600
     },
     {
       "epoch": 17.170071149873767,
+      "grad_norm": 1.2367671728134155,
       "learning_rate": 0.0001,
+      "loss": 0.3818,
       "step": 18700
     },
     {
       "epoch": 17.261877438604543,
+      "grad_norm": 1.5146794319152832,
       "learning_rate": 0.0001,
+      "loss": 0.3842,
       "step": 18800
     },
     {
       "epoch": 17.353683727335323,
+      "grad_norm": 1.4367637634277344,
       "learning_rate": 0.0001,
+      "loss": 0.3983,
       "step": 18900
     },
     {
       "epoch": 17.4454900160661,
+      "grad_norm": 1.3474266529083252,
       "learning_rate": 0.0001,
+      "loss": 0.4028,
       "step": 19000
     },
     {
       "epoch": 17.53729630479688,
+      "grad_norm": 1.5168508291244507,
       "learning_rate": 0.0001,
+      "loss": 0.4064,
       "step": 19100
     },
     {
       "epoch": 17.629102593527655,
+      "grad_norm": 1.4708962440490723,
       "learning_rate": 0.0001,
+      "loss": 0.4062,
       "step": 19200
     },
     {
       "epoch": 17.720908882258435,
+      "grad_norm": 1.3981653451919556,
       "learning_rate": 0.0001,
+      "loss": 0.4194,
       "step": 19300
     },
     {
       "epoch": 17.81271517098921,
+      "grad_norm": 1.739737868309021,
       "learning_rate": 0.0001,
+      "loss": 0.4167,
       "step": 19400
     },
     {
       "epoch": 17.90452145971999,
+      "grad_norm": 1.5967693328857422,
       "learning_rate": 0.0001,
+      "loss": 0.4187,
       "step": 19500
     },
     {
       "epoch": 17.996327748450767,
+      "grad_norm": 1.5139836072921753,
       "learning_rate": 0.0001,
+      "loss": 0.427,
       "step": 19600
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.5095238095238095,
+      "eval_loss": 3.588681697845459,
+      "eval_runtime": 6.3123,
+      "eval_samples_per_second": 79.211,
+      "eval_steps_per_second": 9.981,
       "step": 19604
     },
     {
       "epoch": 18.088134037181547,
+      "grad_norm": 1.3782016038894653,
       "learning_rate": 0.0001,
+      "loss": 0.3505,
       "step": 19700
     },
     {
       "epoch": 18.179940325912327,
+      "grad_norm": 1.6956948041915894,
       "learning_rate": 0.0001,
+      "loss": 0.3589,
       "step": 19800
     },
     {
       "epoch": 18.271746614643103,
+      "grad_norm": 1.4169180393218994,
       "learning_rate": 0.0001,
+      "loss": 0.3726,
       "step": 19900
     },
     {
       "epoch": 18.363552903373883,
+      "grad_norm": 1.4360090494155884,
       "learning_rate": 0.0001,
+      "loss": 0.3706,
       "step": 20000
     },
     {
       "epoch": 18.45535919210466,
+      "grad_norm": 1.3922706842422485,
       "learning_rate": 0.0001,
+      "loss": 0.3766,
       "step": 20100
     },
     {
       "epoch": 18.54716548083544,
+      "grad_norm": 1.5002549886703491,
       "learning_rate": 0.0001,
+      "loss": 0.3794,
       "step": 20200
     },
     {
       "epoch": 18.638971769566215,
+      "grad_norm": 1.7266395092010498,
       "learning_rate": 0.0001,
+      "loss": 0.3888,
       "step": 20300
     },
     {
       "epoch": 18.730778058296995,
+      "grad_norm": 1.5613874197006226,
       "learning_rate": 0.0001,
+      "loss": 0.3937,
       "step": 20400
     },
     {
       "epoch": 18.82258434702777,
+      "grad_norm": 1.5989686250686646,
       "learning_rate": 0.0001,
+      "loss": 0.3967,
       "step": 20500
     },
     {
       "epoch": 18.91439063575855,
+      "grad_norm": 2.0064892768859863,
       "learning_rate": 0.0001,
+      "loss": 0.4083,
       "step": 20600
     },
     {
       "epoch": 18.999770484278173,
+      "eval_accuracy": 0.5096507936507937,
+      "eval_loss": 3.5945370197296143,
+      "eval_runtime": 6.3499,
+      "eval_samples_per_second": 78.742,
+      "eval_steps_per_second": 9.921,
       "step": 20693
     },
     {
       "epoch": 19.006196924489327,
+      "grad_norm": 1.1501438617706299,
       "learning_rate": 0.0001,
+      "loss": 0.3995,
       "step": 20700
     },
     {
       "epoch": 19.098003213220107,
+      "grad_norm": 1.6791703701019287,
       "learning_rate": 0.0001,
+      "loss": 0.3333,
       "step": 20800
     },
     {
       "epoch": 19.189809501950883,
+      "grad_norm": 1.3187992572784424,
       "learning_rate": 0.0001,
+      "loss": 0.3401,
       "step": 20900
     },
     {
       "epoch": 19.281615790681663,
+      "grad_norm": 1.3106017112731934,
       "learning_rate": 0.0001,
+      "loss": 0.3503,
       "step": 21000
     },
     {
       "epoch": 19.37342207941244,
+      "grad_norm": 1.3490264415740967,
       "learning_rate": 0.0001,
+      "loss": 0.3588,
       "step": 21100
     },
     {
       "epoch": 19.46522836814322,
+      "grad_norm": 1.3568042516708374,
       "learning_rate": 0.0001,
+      "loss": 0.363,
       "step": 21200
     },
     {
       "epoch": 19.557034656873995,
+      "grad_norm": 1.2495017051696777,
       "learning_rate": 0.0001,
+      "loss": 0.3604,
       "step": 21300
     },
     {
       "epoch": 19.648840945604775,
+      "grad_norm": 1.6772491931915283,
       "learning_rate": 0.0001,
+      "loss": 0.367,
       "step": 21400
     },
     {
       "epoch": 19.74064723433555,
+      "grad_norm": 1.5906344652175903,
       "learning_rate": 0.0001,
+      "loss": 0.3777,
       "step": 21500
     },
     {
       "epoch": 19.83245352306633,
+      "grad_norm": 1.5872870683670044,
       "learning_rate": 0.0001,
+      "loss": 0.3892,
       "step": 21600
     },
     {
       "epoch": 19.924259811797107,
+      "grad_norm": 1.5069637298583984,
       "learning_rate": 0.0001,
+      "loss": 0.3818,
       "step": 21700
     },
     {
       "epoch": 19.99770484278173,
+      "eval_accuracy": 0.5108253968253968,
+      "eval_loss": 3.6298398971557617,
+      "eval_runtime": 5.9317,
+      "eval_samples_per_second": 84.293,
+      "eval_steps_per_second": 10.621,
       "step": 21780
     },
     {
       "epoch": 19.99770484278173,
       "step": 21780,
       "total_flos": 1.5027132150442885e+18,
+      "train_loss": 0.2454464098857673,
+      "train_runtime": 25406.3112,
+      "train_samples_per_second": 27.437,
+      "train_steps_per_second": 0.857
     }
   ],
   "logging_steps": 100,