mlfoundations-dev
/

llama3-1_8b_4o_annotated_aime

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: llama3-1_8b_4o_annotated_aime
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # llama3-1_8b_4o_annotated_aime
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on an unknown dataset.
 ## Model description

 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: llama3-1_8b_4o_annotated_aime
 # llama3-1_8b_4o_annotated_aime
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on the mlfoundations-dev/4o_annotated_aime dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "total_flos": 25167957131264.0,
-    "train_loss": 0.4632317288606255,
-    "train_runtime": 439.9384,
-    "train_samples_per_second": 23.206,
-    "train_steps_per_second": 0.245
 }

 {
+    "epoch": 2.9626168224299065,
+    "total_flos": 18524510396416.0,
+    "train_loss": 0.47221575805119104,
+    "train_runtime": 641.5687,
+    "train_samples_per_second": 15.913,
+    "train_steps_per_second": 0.164
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "total_flos": 25167957131264.0,
-    "train_loss": 0.4632317288606255,
-    "train_runtime": 439.9384,
-    "train_samples_per_second": 23.206,
-    "train_steps_per_second": 0.245
 }

 {
+    "epoch": 2.9626168224299065,
+    "total_flos": 18524510396416.0,
+    "train_loss": 0.47221575805119104,
+    "train_runtime": 641.5687,
+    "train_samples_per_second": 15.913,
+    "train_steps_per_second": 0.164
 }

trainer_state.json CHANGED Viewed

@@ -1,781 +1,760 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 108,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.027777777777777776,
-      "grad_norm": 5.499531247448967,
       "learning_rate": 9.090909090909091e-07,
-      "loss": 0.6855,
       "step": 1
     },
     {
-      "epoch": 0.05555555555555555,
-      "grad_norm": 5.557838812807806,
       "learning_rate": 1.8181818181818183e-06,
-      "loss": 0.6554,
       "step": 2
     },
     {
-      "epoch": 0.08333333333333333,
-      "grad_norm": 5.5626937869370305,
       "learning_rate": 2.7272727272727272e-06,
-      "loss": 0.631,
       "step": 3
     },
     {
-      "epoch": 0.1111111111111111,
-      "grad_norm": 5.202877857676261,
       "learning_rate": 3.6363636363636366e-06,
-      "loss": 0.6684,
       "step": 4
     },
     {
-      "epoch": 0.1388888888888889,
-      "grad_norm": 3.392348666163089,
       "learning_rate": 4.5454545454545455e-06,
-      "loss": 0.551,
       "step": 5
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 2.213517617001493,
       "learning_rate": 5.4545454545454545e-06,
-      "loss": 0.5989,
       "step": 6
     },
     {
-      "epoch": 0.19444444444444445,
-      "grad_norm": 2.001366109944542,
       "learning_rate": 6.363636363636364e-06,
-      "loss": 0.5333,
       "step": 7
     },
     {
-      "epoch": 0.2222222222222222,
-      "grad_norm": 1.9419958988527681,
       "learning_rate": 7.272727272727273e-06,
       "loss": 0.5054,
       "step": 8
     },
     {
-      "epoch": 0.25,
-      "grad_norm": 1.5833591254215535,
       "learning_rate": 8.181818181818183e-06,
-      "loss": 0.5322,
       "step": 9
     },
     {
-      "epoch": 0.2777777777777778,
-      "grad_norm": 1.436746398759113,
       "learning_rate": 9.090909090909091e-06,
       "loss": 0.5433,
       "step": 10
     },
     {
-      "epoch": 0.3055555555555556,
-      "grad_norm": 1.7345453054514894,
       "learning_rate": 1e-05,
-      "loss": 0.5709,
       "step": 11
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 1.597109242203359,
-      "learning_rate": 9.997377845227577e-06,
-      "loss": 0.4906,
       "step": 12
     },
     {
-      "epoch": 0.3611111111111111,
-      "grad_norm": 1.2794918602228373,
-      "learning_rate": 9.98951413118856e-06,
-      "loss": 0.6254,
       "step": 13
     },
     {
-      "epoch": 0.3888888888888889,
-      "grad_norm": 1.2457098159062354,
-      "learning_rate": 9.97641710583307e-06,
-      "loss": 0.5566,
       "step": 14
     },
     {
-      "epoch": 0.4166666666666667,
-      "grad_norm": 1.0051622325160827,
-      "learning_rate": 9.958100506132127e-06,
-      "loss": 0.5086,
       "step": 15
     },
     {
-      "epoch": 0.4444444444444444,
-      "grad_norm": 1.0232838508074662,
-      "learning_rate": 9.934583543669454e-06,
-      "loss": 0.5798,
       "step": 16
     },
     {
-      "epoch": 0.4722222222222222,
-      "grad_norm": 1.0687266662109796,
-      "learning_rate": 9.905890884491196e-06,
-      "loss": 0.547,
       "step": 17
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.8078554986405523,
-      "learning_rate": 9.872052623234632e-06,
-      "loss": 0.4698,
       "step": 18
     },
     {
-      "epoch": 0.5277777777777778,
-      "grad_norm": 0.9700266562907995,
-      "learning_rate": 9.833104251563058e-06,
-      "loss": 0.6414,
       "step": 19
     },
     {
-      "epoch": 0.5555555555555556,
-      "grad_norm": 0.7994292138406759,
-      "learning_rate": 9.789086620939936e-06,
-      "loss": 0.4365,
       "step": 20
     },
     {
-      "epoch": 0.5833333333333334,
-      "grad_norm": 0.8745740021635219,
-      "learning_rate": 9.740045899781353e-06,
-      "loss": 0.4913,
       "step": 21
     },
     {
-      "epoch": 0.6111111111111112,
-      "grad_norm": 0.8854836350036159,
-      "learning_rate": 9.68603352503172e-06,
-      "loss": 0.5518,
       "step": 22
     },
     {
-      "epoch": 0.6388888888888888,
-      "grad_norm": 0.847456579465944,
-      "learning_rate": 9.627106148213521e-06,
-      "loss": 0.5354,
       "step": 23
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.821018000951143,
-      "learning_rate": 9.563325576007702e-06,
-      "loss": 0.5213,
       "step": 24
     },
     {
-      "epoch": 0.6944444444444444,
-      "grad_norm": 0.9295894881714469,
-      "learning_rate": 9.494758705426978e-06,
-      "loss": 0.598,
       "step": 25
     },
     {
-      "epoch": 0.7222222222222222,
-      "grad_norm": 0.7448130004829931,
-      "learning_rate": 9.421477453650118e-06,
-      "loss": 0.4658,
       "step": 26
     },
     {
-      "epoch": 0.75,
-      "grad_norm": 0.9080917046249632,
-      "learning_rate": 9.343558682590757e-06,
-      "loss": 0.6228,
       "step": 27
     },
     {
-      "epoch": 0.7777777777777778,
-      "grad_norm": 0.8163873567576216,
-      "learning_rate": 9.261084118279846e-06,
-      "loss": 0.5333,
       "step": 28
     },
     {
-      "epoch": 0.8055555555555556,
-      "grad_norm": 0.7764439372547906,
-      "learning_rate": 9.174140265146356e-06,
-      "loss": 0.4741,
       "step": 29
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 1.1961962564927606,
-      "learning_rate": 9.082818315286054e-06,
-      "loss": 0.5714,
       "step": 30
     },
     {
-      "epoch": 0.8611111111111112,
-      "grad_norm": 0.7267955393856498,
-      "learning_rate": 8.987214052813605e-06,
-      "loss": 0.5379,
       "step": 31
     },
     {
-      "epoch": 0.8888888888888888,
-      "grad_norm": 0.769564835206009,
-      "learning_rate": 8.887427753398249e-06,
-      "loss": 0.5221,
       "step": 32
     },
     {
-      "epoch": 0.9166666666666666,
-      "grad_norm": 0.7557825851349546,
-      "learning_rate": 8.783564079088478e-06,
-      "loss": 0.5237,
       "step": 33
     },
     {
-      "epoch": 0.9444444444444444,
-      "grad_norm": 0.8013832351115299,
-      "learning_rate": 8.675731968536004e-06,
-      "loss": 0.5525,
       "step": 34
     },
     {
-      "epoch": 0.9722222222222222,
-      "grad_norm": 0.6888521920999732,
-      "learning_rate": 8.564044522734147e-06,
-      "loss": 0.4881,
       "step": 35
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.6587728956884636,
-      "learning_rate": 8.448618886390523e-06,
-      "loss": 0.4985,
       "step": 36
     },
     {
-      "epoch": 1.0277777777777777,
-      "grad_norm": 0.795241641899969,
-      "learning_rate": 8.329576125058406e-06,
-      "loss": 0.4365,
       "step": 37
     },
     {
-      "epoch": 1.0555555555555556,
-      "grad_norm": 2.210851457630018,
-      "learning_rate": 8.207041098155701e-06,
-      "loss": 0.5556,
       "step": 38
     },
     {
-      "epoch": 1.0833333333333333,
-      "grad_norm": 0.7613786102792487,
-      "learning_rate": 8.081142328004638e-06,
-      "loss": 0.4846,
       "step": 39
     },
     {
-      "epoch": 1.1111111111111112,
-      "grad_norm": 0.723429529329392,
-      "learning_rate": 7.952011865029614e-06,
-      "loss": 0.4603,
       "step": 40
     },
     {
-      "epoch": 1.1388888888888888,
-      "grad_norm": 0.7836107269741927,
-      "learning_rate": 7.819785149254534e-06,
-      "loss": 0.4483,
       "step": 41
     },
     {
-      "epoch": 1.1666666666666667,
-      "grad_norm": 0.8412482780955819,
-      "learning_rate": 7.68460086824492e-06,
-      "loss": 0.5091,
       "step": 42
     },
     {
-      "epoch": 1.1944444444444444,
-      "grad_norm": 0.7560956617656049,
-      "learning_rate": 7.546600811643816e-06,
-      "loss": 0.4768,
       "step": 43
     },
     {
-      "epoch": 1.2222222222222223,
-      "grad_norm": 0.7532433430539396,
-      "learning_rate": 7.405929722454026e-06,
-      "loss": 0.4879,
       "step": 44
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 0.7250342590564604,
-      "learning_rate": 7.262735145222696e-06,
-      "loss": 0.4424,
       "step": 45
     },
     {
-      "epoch": 1.2777777777777777,
-      "grad_norm": 0.7424652764504065,
-      "learning_rate": 7.117167271287453e-06,
-      "loss": 0.4268,
       "step": 46
     },
     {
-      "epoch": 1.3055555555555556,
-      "grad_norm": 0.5613548384089758,
-      "learning_rate": 6.969378781246436e-06,
-      "loss": 0.3586,
       "step": 47
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.7217076640093948,
-      "learning_rate": 6.819524684817439e-06,
-      "loss": 0.4861,
       "step": 48
     },
     {
-      "epoch": 1.3611111111111112,
-      "grad_norm": 0.6561868334638776,
-      "learning_rate": 6.667762158254104e-06,
-      "loss": 0.4543,
       "step": 49
     },
     {
-      "epoch": 1.3888888888888888,
-      "grad_norm": 0.7110755871975613,
-      "learning_rate": 6.514250379489754e-06,
-      "loss": 0.4277,
       "step": 50
     },
     {
-      "epoch": 1.4166666666666667,
-      "grad_norm": 0.7340306300343789,
-      "learning_rate": 6.3591503611817155e-06,
-      "loss": 0.4245,
       "step": 51
     },
     {
-      "epoch": 1.4444444444444444,
-      "grad_norm": 0.7373696398545522,
-      "learning_rate": 6.202624781831269e-06,
-      "loss": 0.4865,
       "step": 52
     },
     {
-      "epoch": 1.4722222222222223,
-      "grad_norm": 0.7694890579716093,
-      "learning_rate": 6.044837815156377e-06,
-      "loss": 0.467,
       "step": 53
     },
     {
-      "epoch": 1.5,
-      "grad_norm": 0.7185745702090169,
-      "learning_rate": 5.885954957896115e-06,
-      "loss": 0.4313,
       "step": 54
     },
     {
-      "epoch": 1.5277777777777777,
-      "grad_norm": 0.6305358582918202,
-      "learning_rate": 5.726142856227453e-06,
-      "loss": 0.4161,
       "step": 55
     },
     {
-      "epoch": 1.5555555555555556,
-      "grad_norm": 0.7209314959601887,
-      "learning_rate": 5.5655691309764225e-06,
-      "loss": 0.4562,
       "step": 56
     },
     {
-      "epoch": 1.5833333333333335,
-      "grad_norm": 0.64260058204023,
-      "learning_rate": 5.404402201807022e-06,
-      "loss": 0.4636,
       "step": 57
     },
     {
-      "epoch": 1.6111111111111112,
-      "grad_norm": 0.612522134619282,
-      "learning_rate": 5.242811110572243e-06,
-      "loss": 0.3946,
       "step": 58
     },
     {
-      "epoch": 1.6388888888888888,
-      "grad_norm": 0.640209879297769,
-      "learning_rate": 5.080965344012509e-06,
-      "loss": 0.4234,
       "step": 59
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.684267323330591,
-      "learning_rate": 4.919034655987493e-06,
-      "loss": 0.4956,
       "step": 60
     },
     {
-      "epoch": 1.6944444444444444,
-      "grad_norm": 0.6560173146533167,
-      "learning_rate": 4.757188889427761e-06,
-      "loss": 0.4513,
       "step": 61
     },
     {
-      "epoch": 1.7222222222222223,
-      "grad_norm": 0.6024082771930704,
-      "learning_rate": 4.59559779819298e-06,
-      "loss": 0.3554,
       "step": 62
     },
     {
-      "epoch": 1.75,
-      "grad_norm": 0.5988731751099766,
-      "learning_rate": 4.434430869023579e-06,
-      "loss": 0.423,
       "step": 63
     },
     {
-      "epoch": 1.7777777777777777,
-      "grad_norm": 0.7714096061714903,
-      "learning_rate": 4.27385714377255e-06,
-      "loss": 0.3804,
       "step": 64
     },
     {
-      "epoch": 1.8055555555555556,
-      "grad_norm": 0.6870558807208743,
-      "learning_rate": 4.1140450421038865e-06,
-      "loss": 0.46,
       "step": 65
     },
     {
-      "epoch": 1.8333333333333335,
-      "grad_norm": 0.6342926359159472,
-      "learning_rate": 3.955162184843625e-06,
-      "loss": 0.5136,
       "step": 66
     },
     {
-      "epoch": 1.8611111111111112,
-      "grad_norm": 0.6155115323488202,
-      "learning_rate": 3.7973752181687336e-06,
-      "loss": 0.4108,
       "step": 67
     },
     {
-      "epoch": 1.8888888888888888,
-      "grad_norm": 0.7006350597692972,
-      "learning_rate": 3.6408496388182857e-06,
-      "loss": 0.5141,
       "step": 68
     },
     {
-      "epoch": 1.9166666666666665,
-      "grad_norm": 0.6853399554911791,
-      "learning_rate": 3.4857496205102475e-06,
-      "loss": 0.4591,
       "step": 69
     },
     {
-      "epoch": 1.9444444444444444,
-      "grad_norm": 0.6807578527187025,
-      "learning_rate": 3.3322378417458985e-06,
-      "loss": 0.4447,
       "step": 70
     },
     {
-      "epoch": 1.9722222222222223,
-      "grad_norm": 0.6002571912158542,
-      "learning_rate": 3.180475315182563e-06,
-      "loss": 0.3775,
       "step": 71
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.6176679391981694,
-      "learning_rate": 3.0306212187535653e-06,
-      "loss": 0.362,
       "step": 72
     },
     {
-      "epoch": 2.0277777777777777,
-      "grad_norm": 0.6348434037827244,
-      "learning_rate": 2.882832728712551e-06,
-      "loss": 0.4395,
       "step": 73
     },
     {
-      "epoch": 2.0555555555555554,
-      "grad_norm": 0.6194546514321693,
-      "learning_rate": 2.7372648547773063e-06,
-      "loss": 0.385,
       "step": 74
     },
     {
-      "epoch": 2.0833333333333335,
-      "grad_norm": 0.5947575965373516,
-      "learning_rate": 2.594070277545975e-06,
-      "loss": 0.3634,
       "step": 75
     },
     {
-      "epoch": 2.111111111111111,
-      "grad_norm": 0.6412237789531587,
-      "learning_rate": 2.4533991883561868e-06,
-      "loss": 0.3352,
       "step": 76
     },
     {
-      "epoch": 2.138888888888889,
-      "grad_norm": 0.5993096167073967,
-      "learning_rate": 2.315399131755081e-06,
-      "loss": 0.3654,
       "step": 77
     },
     {
-      "epoch": 2.1666666666666665,
-      "grad_norm": 0.5863285405996705,
-      "learning_rate": 2.1802148507454675e-06,
-      "loss": 0.3648,
       "step": 78
     },
     {
-      "epoch": 2.1944444444444446,
-      "grad_norm": 0.6176169061591418,
-      "learning_rate": 2.0479881349703885e-06,
-      "loss": 0.3567,
       "step": 79
     },
     {
-      "epoch": 2.2222222222222223,
-      "grad_norm": 2.036643091775969,
-      "learning_rate": 1.9188576719953635e-06,
-      "loss": 0.5043,
       "step": 80
     },
     {
-      "epoch": 2.25,
-      "grad_norm": 0.5707024837734276,
-      "learning_rate": 1.7929589018443016e-06,
-      "loss": 0.3835,
       "step": 81
     },
     {
-      "epoch": 2.2777777777777777,
-      "grad_norm": 0.6703596535434576,
-      "learning_rate": 1.6704238749415958e-06,
-      "loss": 0.4195,
       "step": 82
     },
     {
-      "epoch": 2.3055555555555554,
-      "grad_norm": 0.6161351940524724,
-      "learning_rate": 1.5513811136094786e-06,
-      "loss": 0.3808,
       "step": 83
     },
     {
-      "epoch": 2.3333333333333335,
-      "grad_norm": 0.567006481121317,
-      "learning_rate": 1.4359554772658551e-06,
-      "loss": 0.3484,
       "step": 84
     },
     {
-      "epoch": 2.361111111111111,
-      "grad_norm": 0.5645679908744803,
-      "learning_rate": 1.3242680314639995e-06,
-      "loss": 0.3442,
       "step": 85
     },
     {
-      "epoch": 2.388888888888889,
-      "grad_norm": 0.6134174690452912,
-      "learning_rate": 1.2164359209115235e-06,
-      "loss": 0.3701,
       "step": 86
     },
     {
-      "epoch": 2.4166666666666665,
-      "grad_norm": 0.6351405467839962,
-      "learning_rate": 1.1125722466017547e-06,
-      "loss": 0.4531,
       "step": 87
     },
     {
-      "epoch": 2.4444444444444446,
-      "grad_norm": 0.6153449983061651,
-      "learning_rate": 1.012785947186397e-06,
-      "loss": 0.3512,
       "step": 88
     },
     {
-      "epoch": 2.4722222222222223,
-      "grad_norm": 0.5815107547799697,
-      "learning_rate": 9.171816847139447e-07,
-      "loss": 0.3224,
       "step": 89
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 0.5972403522847891,
-      "learning_rate": 8.258597348536452e-07,
-      "loss": 0.3708,
       "step": 90
     },
     {
-      "epoch": 2.5277777777777777,
-      "grad_norm": 0.6224293908552574,
-      "learning_rate": 7.389158817201541e-07,
-      "loss": 0.4313,
       "step": 91
     },
     {
-      "epoch": 2.5555555555555554,
-      "grad_norm": 0.6024938044516791,
-      "learning_rate": 6.564413174092443e-07,
-      "loss": 0.3964,
       "step": 92
     },
     {
-      "epoch": 2.5833333333333335,
-      "grad_norm": 0.6108443482475023,
-      "learning_rate": 5.785225463498828e-07,
-      "loss": 0.3827,
       "step": 93
     },
     {
-      "epoch": 2.611111111111111,
-      "grad_norm": 0.6722881160180866,
-      "learning_rate": 5.05241294573024e-07,
-      "loss": 0.4383,
       "step": 94
     },
     {
-      "epoch": 2.638888888888889,
-      "grad_norm": 0.6149268282937064,
-      "learning_rate": 4.3667442399229985e-07,
-      "loss": 0.4371,
       "step": 95
     },
     {
-      "epoch": 2.6666666666666665,
-      "grad_norm": 0.6113966401547459,
-      "learning_rate": 3.728938517864794e-07,
-      "loss": 0.3829,
       "step": 96
     },
     {
-      "epoch": 2.6944444444444446,
-      "grad_norm": 0.6671411413349442,
-      "learning_rate": 3.1396647496828245e-07,
-      "loss": 0.3965,
       "step": 97
     },
     {
-      "epoch": 2.7222222222222223,
-      "grad_norm": 0.547101720665063,
-      "learning_rate": 2.599541002186479e-07,
-      "loss": 0.3122,
       "step": 98
     },
     {
-      "epoch": 2.75,
-      "grad_norm": 0.6044035422441768,
-      "learning_rate": 2.109133790600648e-07,
-      "loss": 0.4733,
       "step": 99
     },
     {
-      "epoch": 2.7777777777777777,
-      "grad_norm": 0.6069536296371835,
-      "learning_rate": 1.6689574843694433e-07,
-      "loss": 0.4024,
       "step": 100
     },
     {
-      "epoch": 2.8055555555555554,
-      "grad_norm": 0.5982249811836392,
-      "learning_rate": 1.2794737676536993e-07,
-      "loss": 0.4336,
       "step": 101
     },
     {
-      "epoch": 2.8333333333333335,
-      "grad_norm": 0.6884925904147986,
-      "learning_rate": 9.410911550880474e-08,
-      "loss": 0.3595,
       "step": 102
     },
     {
-      "epoch": 2.861111111111111,
-      "grad_norm": 0.7589234561889401,
-      "learning_rate": 6.54164563305465e-08,
-      "loss": 0.4163,
       "step": 103
     },
     {
-      "epoch": 2.888888888888889,
-      "grad_norm": 0.6469041727623386,
-      "learning_rate": 4.189949386787462e-08,
-      "loss": 0.4264,
       "step": 104
     },
     {
-      "epoch": 2.9166666666666665,
-      "grad_norm": 0.6755069676275332,
-      "learning_rate": 2.358289416693027e-08,
-      "loss": 0.4073,
-      "step": 105
-    },
-    {
-      "epoch": 2.9444444444444446,
-      "grad_norm": 0.6272555116057572,
-      "learning_rate": 1.0485868811441757e-08,
-      "loss": 0.4084,
-      "step": 106
-    },
-    {
-      "epoch": 2.9722222222222223,
-      "grad_norm": 0.6263081374423879,
-      "learning_rate": 2.6221547724253337e-09,
-      "loss": 0.3967,
-      "step": 107
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 0.5852999921009103,
       "learning_rate": 0.0,
-      "loss": 0.3847,
-      "step": 108
     },
     {
-      "epoch": 3.0,
-      "step": 108,
-      "total_flos": 25167957131264.0,
-      "train_loss": 0.4632317288606255,
-      "train_runtime": 439.9384,
-      "train_samples_per_second": 23.206,
-      "train_steps_per_second": 0.245
     }
   ],
   "logging_steps": 1,
-  "max_steps": 108,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -791,8 +770,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 25167957131264.0,
-  "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9626168224299065,
   "eval_steps": 500,
+  "global_step": 105,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.028037383177570093,
+      "grad_norm": 5.46907120535221,
       "learning_rate": 9.090909090909091e-07,
+      "loss": 0.6948,
       "step": 1
     },
     {
+      "epoch": 0.056074766355140186,
+      "grad_norm": 5.695701169228273,
       "learning_rate": 1.8181818181818183e-06,
+      "loss": 0.659,
       "step": 2
     },
     {
+      "epoch": 0.08411214953271028,
+      "grad_norm": 5.869868275090631,
       "learning_rate": 2.7272727272727272e-06,
+      "loss": 0.6481,
       "step": 3
     },
     {
+      "epoch": 0.11214953271028037,
+      "grad_norm": 5.197705973950515,
       "learning_rate": 3.6363636363636366e-06,
+      "loss": 0.6641,
       "step": 4
     },
     {
+      "epoch": 0.14018691588785046,
+      "grad_norm": 3.3963665075709906,
       "learning_rate": 4.5454545454545455e-06,
+      "loss": 0.5579,
       "step": 5
     },
     {
+      "epoch": 0.16822429906542055,
+      "grad_norm": 2.20924738877731,
       "learning_rate": 5.4545454545454545e-06,
+      "loss": 0.6036,
       "step": 6
     },
     {
+      "epoch": 0.19626168224299065,
+      "grad_norm": 1.984739518286341,
       "learning_rate": 6.363636363636364e-06,
+      "loss": 0.5288,
       "step": 7
     },
     {
+      "epoch": 0.22429906542056074,
+      "grad_norm": 1.9291295994072917,
       "learning_rate": 7.272727272727273e-06,
       "loss": 0.5054,
       "step": 8
     },
     {
+      "epoch": 0.2523364485981308,
+      "grad_norm": 1.6389948204701459,
       "learning_rate": 8.181818181818183e-06,
+      "loss": 0.5339,
       "step": 9
     },
     {
+      "epoch": 0.2803738317757009,
+      "grad_norm": 1.4300152832592459,
       "learning_rate": 9.090909090909091e-06,
       "loss": 0.5433,
       "step": 10
     },
     {
+      "epoch": 0.308411214953271,
+      "grad_norm": 1.711886946596263,
       "learning_rate": 1e-05,
+      "loss": 0.5537,
       "step": 11
     },
     {
+      "epoch": 0.3364485981308411,
+      "grad_norm": 1.5442931844274987,
+      "learning_rate": 9.997207818651273e-06,
+      "loss": 0.498,
       "step": 12
     },
     {
+      "epoch": 0.3644859813084112,
+      "grad_norm": 1.3068883684134325,
+      "learning_rate": 9.988834393115768e-06,
+      "loss": 0.6412,
       "step": 13
     },
     {
+      "epoch": 0.3925233644859813,
+      "grad_norm": 1.2741183296138552,
+      "learning_rate": 9.97488907544252e-06,
+      "loss": 0.5796,
       "step": 14
     },
     {
+      "epoch": 0.4205607476635514,
+      "grad_norm": 1.0164680008182152,
+      "learning_rate": 9.955387440773902e-06,
+      "loss": 0.5019,
       "step": 15
     },
     {
+      "epoch": 0.4485981308411215,
+      "grad_norm": 1.036540358883728,
+      "learning_rate": 9.930351269950144e-06,
+      "loss": 0.5982,
       "step": 16
     },
     {
+      "epoch": 0.4766355140186916,
+      "grad_norm": 1.0480857466954097,
+      "learning_rate": 9.899808525182935e-06,
+      "loss": 0.5377,
       "step": 17
     },
     {
+      "epoch": 0.5046728971962616,
+      "grad_norm": 0.8148023572178399,
+      "learning_rate": 9.863793318825186e-06,
+      "loss": 0.4776,
       "step": 18
     },
     {
+      "epoch": 0.5327102803738317,
+      "grad_norm": 1.0017091343990974,
+      "learning_rate": 9.822345875271884e-06,
+      "loss": 0.648,
       "step": 19
     },
     {
+      "epoch": 0.5607476635514018,
+      "grad_norm": 0.7723478036715665,
+      "learning_rate": 9.775512486034564e-06,
+      "loss": 0.4544,
       "step": 20
     },
     {
+      "epoch": 0.5887850467289719,
+      "grad_norm": 0.8710833273679682,
+      "learning_rate": 9.723345458039595e-06,
+      "loss": 0.4936,
       "step": 21
     },
     {
+      "epoch": 0.616822429906542,
+      "grad_norm": 0.9055028217774582,
+      "learning_rate": 9.665903055208013e-06,
+      "loss": 0.5819,
       "step": 22
     },
     {
+      "epoch": 0.6448598130841121,
+      "grad_norm": 0.8103202901623571,
+      "learning_rate": 9.603249433382145e-06,
+      "loss": 0.5506,
       "step": 23
     },
     {
+      "epoch": 0.6728971962616822,
+      "grad_norm": 0.7712121760995281,
+      "learning_rate": 9.535454568671705e-06,
+      "loss": 0.4932,
       "step": 24
     },
     {
+      "epoch": 0.7009345794392523,
+      "grad_norm": 0.9091205022340342,
+      "learning_rate": 9.462594179299408e-06,
+      "loss": 0.5776,
       "step": 25
     },
     {
+      "epoch": 0.7289719626168224,
+      "grad_norm": 0.7512412627292558,
+      "learning_rate": 9.384749641033358e-06,
+      "loss": 0.4665,
       "step": 26
     },
     {
+      "epoch": 0.7570093457943925,
+      "grad_norm": 0.9759396921985853,
+      "learning_rate": 9.302007896300697e-06,
+      "loss": 0.6547,
       "step": 27
     },
     {
+      "epoch": 0.7850467289719626,
+      "grad_norm": 0.8218161831230707,
+      "learning_rate": 9.214461357083986e-06,
+      "loss": 0.5403,
       "step": 28
     },
     {
+      "epoch": 0.8130841121495327,
+      "grad_norm": 0.7802775736672756,
+      "learning_rate": 9.122207801708802e-06,
+      "loss": 0.4792,
       "step": 29
     },
     {
+      "epoch": 0.8411214953271028,
+      "grad_norm": 1.2211854499314727,
+      "learning_rate": 9.025350265637816e-06,
+      "loss": 0.5767,
       "step": 30
     },
     {
+      "epoch": 0.8691588785046729,
+      "grad_norm": 0.7291315847510311,
+      "learning_rate": 8.923996926393306e-06,
+      "loss": 0.5339,
       "step": 31
     },
     {
+      "epoch": 0.897196261682243,
+      "grad_norm": 0.7685026874314949,
+      "learning_rate": 8.818260982736662e-06,
+      "loss": 0.5102,
       "step": 32
     },
     {
+      "epoch": 0.9252336448598131,
+      "grad_norm": 0.7819112577141099,
+      "learning_rate": 8.708260528239788e-06,
+      "loss": 0.5196,
       "step": 33
     },
     {
+      "epoch": 0.9532710280373832,
+      "grad_norm": 0.805804762659976,
+      "learning_rate": 8.594118419389648e-06,
+      "loss": 0.5486,
       "step": 34
     },
     {
+      "epoch": 0.9813084112149533,
+      "grad_norm": 0.6960763295513189,
+      "learning_rate": 8.475962138373212e-06,
+      "loss": 0.4885,
       "step": 35
     },
     {
+      "epoch": 1.0186915887850467,
+      "grad_norm": 1.261779486223386,
+      "learning_rate": 8.353923650696119e-06,
+      "loss": 0.7283,
       "step": 36
     },
     {
+      "epoch": 1.0467289719626167,
+      "grad_norm": 2.1904861480940703,
+      "learning_rate": 8.228139257794012e-06,
+      "loss": 0.5858,
       "step": 37
     },
     {
+      "epoch": 1.074766355140187,
+      "grad_norm": 0.836565359732725,
+      "learning_rate": 8.098749444801226e-06,
+      "loss": 0.4984,
       "step": 38
     },
     {
+      "epoch": 1.102803738317757,
+      "grad_norm": 0.7156392071456283,
+      "learning_rate": 7.965898723646777e-06,
+      "loss": 0.4133,
       "step": 39
     },
     {
+      "epoch": 1.1308411214953271,
+      "grad_norm": 0.7811150734148334,
+      "learning_rate": 7.829735471652978e-06,
+      "loss": 0.4737,
       "step": 40
     },
     {
+      "epoch": 1.158878504672897,
+      "grad_norm": 0.8005430413673945,
+      "learning_rate": 7.690411765816864e-06,
+      "loss": 0.461,
       "step": 41
     },
     {
+      "epoch": 1.1869158878504673,
+      "grad_norm": 0.734823009686673,
+      "learning_rate": 7.548083212959588e-06,
+      "loss": 0.4878,
       "step": 42
     },
     {
+      "epoch": 1.2149532710280373,
+      "grad_norm": 0.9106888643783978,
+      "learning_rate": 7.402908775933419e-06,
+      "loss": 0.5398,
       "step": 43
     },
     {
+      "epoch": 1.2429906542056075,
+      "grad_norm": 0.6471585113802202,
+      "learning_rate": 7.25505059608051e-06,
+      "loss": 0.4282,
       "step": 44
     },
     {
+      "epoch": 1.2710280373831775,
+      "grad_norm": 0.7710047485521259,
+      "learning_rate": 7.104673812141676e-06,
+      "loss": 0.4352,
       "step": 45
     },
     {
+      "epoch": 1.2990654205607477,
+      "grad_norm": 0.6543038711142444,
+      "learning_rate": 6.9519463758174745e-06,
+      "loss": 0.3746,
       "step": 46
     },
     {
+      "epoch": 1.3271028037383177,
+      "grad_norm": 0.6480235385313834,
+      "learning_rate": 6.797038864187564e-06,
+      "loss": 0.4648,
       "step": 47
     },
     {
+      "epoch": 1.355140186915888,
+      "grad_norm": 0.663332249258245,
+      "learning_rate": 6.640124289197845e-06,
+      "loss": 0.412,
       "step": 48
     },
     {
+      "epoch": 1.3831775700934579,
+      "grad_norm": 0.735147105832247,
+      "learning_rate": 6.481377904428171e-06,
+      "loss": 0.4639,
       "step": 49
     },
     {
+      "epoch": 1.411214953271028,
+      "grad_norm": 0.7169861474373482,
+      "learning_rate": 6.3209770093564315e-06,
+      "loss": 0.4511,
       "step": 50
     },
     {
+      "epoch": 1.439252336448598,
+      "grad_norm": 0.7241007166406079,
+      "learning_rate": 6.1591007513376425e-06,
+      "loss": 0.4204,
       "step": 51
     },
     {
+      "epoch": 1.4672897196261683,
+      "grad_norm": 0.7785664265979848,
+      "learning_rate": 5.995929925519181e-06,
+      "loss": 0.4717,
       "step": 52
     },
     {
+      "epoch": 1.4953271028037383,
+      "grad_norm": 0.643031905575638,
+      "learning_rate": 5.831646772915651e-06,
+      "loss": 0.451,
       "step": 53
     },
     {
+      "epoch": 1.5233644859813085,
+      "grad_norm": 0.6622611979477618,
+      "learning_rate": 5.666434776868895e-06,
+      "loss": 0.4598,
       "step": 54
     },
     {
+      "epoch": 1.5514018691588785,
+      "grad_norm": 0.6681223638603929,
+      "learning_rate": 5.500478458120493e-06,
+      "loss": 0.4471,
       "step": 55
     },
     {
+      "epoch": 1.5794392523364484,
+      "grad_norm": 0.6742446596507364,
+      "learning_rate": 5.3339631687256085e-06,
+      "loss": 0.4323,
       "step": 56
     },
     {
+      "epoch": 1.6074766355140186,
+      "grad_norm": 0.6011350150512597,
+      "learning_rate": 5.1670748850383734e-06,
+      "loss": 0.421,
       "step": 57
     },
     {
+      "epoch": 1.6355140186915889,
+      "grad_norm": 0.6177912691346672,
+      "learning_rate": 5e-06,
+      "loss": 0.3956,
       "step": 58
     },
     {
+      "epoch": 1.6635514018691588,
+      "grad_norm": 0.6868626354051661,
+      "learning_rate": 4.832925114961629e-06,
+      "loss": 0.4661,
       "step": 59
     },
     {
+      "epoch": 1.6915887850467288,
+      "grad_norm": 0.6421560332745099,
+      "learning_rate": 4.666036831274392e-06,
+      "loss": 0.4704,
       "step": 60
     },
     {
+      "epoch": 1.719626168224299,
+      "grad_norm": 0.7187797397726619,
+      "learning_rate": 4.499521541879508e-06,
+      "loss": 0.465,
       "step": 61
     },
     {
+      "epoch": 1.7476635514018692,
+      "grad_norm": 0.5867907128348048,
+      "learning_rate": 4.333565223131107e-06,
+      "loss": 0.3283,
       "step": 62
     },
     {
+      "epoch": 1.7757009345794392,
+      "grad_norm": 0.662616949214837,
+      "learning_rate": 4.1683532270843505e-06,
+      "loss": 0.4216,
       "step": 63
     },
     {
+      "epoch": 1.8037383177570092,
+      "grad_norm": 0.6719507669829111,
+      "learning_rate": 4.004070074480821e-06,
+      "loss": 0.4443,
       "step": 64
     },
     {
+      "epoch": 1.8317757009345794,
+      "grad_norm": 0.6464555389487582,
+      "learning_rate": 3.840899248662358e-06,
+      "loss": 0.4901,
       "step": 65
     },
     {
+      "epoch": 1.8598130841121496,
+      "grad_norm": 0.642004590459993,
+      "learning_rate": 3.6790229906435706e-06,
+      "loss": 0.4687,
       "step": 66
     },
     {
+      "epoch": 1.8878504672897196,
+      "grad_norm": 0.6811855386223414,
+      "learning_rate": 3.518622095571831e-06,
+      "loss": 0.5103,
       "step": 67
     },
     {
+      "epoch": 1.9158878504672896,
+      "grad_norm": 0.6780639408715025,
+      "learning_rate": 3.3598757108021546e-06,
+      "loss": 0.4563,
       "step": 68
     },
     {
+      "epoch": 1.9439252336448598,
+      "grad_norm": 0.6096518872897251,
+      "learning_rate": 3.202961135812437e-06,
+      "loss": 0.4273,
       "step": 69
     },
     {
+      "epoch": 1.97196261682243,
+      "grad_norm": 0.6148567020386766,
+      "learning_rate": 3.0480536241825263e-06,
+      "loss": 0.3991,
       "step": 70
     },
     {
+      "epoch": 2.0093457943925235,
+      "grad_norm": 1.1093908775727706,
+      "learning_rate": 2.8953261878583263e-06,
+      "loss": 0.6552,
       "step": 71
     },
     {
+      "epoch": 2.0373831775700935,
+      "grad_norm": 0.5907034426928125,
+      "learning_rate": 2.74494940391949e-06,
+      "loss": 0.4244,
       "step": 72
     },
     {
+      "epoch": 2.0654205607476634,
+      "grad_norm": 0.6237639437264948,
+      "learning_rate": 2.5970912240665815e-06,
+      "loss": 0.3433,
       "step": 73
     },
     {
+      "epoch": 2.0934579439252334,
+      "grad_norm": 0.6456026273029044,
+      "learning_rate": 2.4519167870404126e-06,
+      "loss": 0.3633,
       "step": 74
     },
     {
+      "epoch": 2.121495327102804,
+      "grad_norm": 0.6114145984670124,
+      "learning_rate": 2.309588234183137e-06,
+      "loss": 0.3607,
       "step": 75
     },
     {
+      "epoch": 2.149532710280374,
+      "grad_norm": 0.5622408748138118,
+      "learning_rate": 2.1702645283470238e-06,
+      "loss": 0.3255,
       "step": 76
     },
     {
+      "epoch": 2.177570093457944,
+      "grad_norm": 0.6289348884143411,
+      "learning_rate": 2.0341012763532243e-06,
+      "loss": 0.3917,
       "step": 77
     },
     {
+      "epoch": 2.205607476635514,
+      "grad_norm": 2.11632857452312,
+      "learning_rate": 1.9012505551987764e-06,
+      "loss": 0.5284,
       "step": 78
     },
     {
+      "epoch": 2.2336448598130842,
+      "grad_norm": 0.6011421789250062,
+      "learning_rate": 1.771860742205988e-06,
+      "loss": 0.3717,
       "step": 79
     },
     {
+      "epoch": 2.2616822429906542,
+      "grad_norm": 0.605196953414431,
+      "learning_rate": 1.646076349303884e-06,
+      "loss": 0.3896,
       "step": 80
     },
     {
+      "epoch": 2.289719626168224,
+      "grad_norm": 0.6538497800730606,
+      "learning_rate": 1.5240378616267887e-06,
+      "loss": 0.3952,
       "step": 81
     },
     {
+      "epoch": 2.317757009345794,
+      "grad_norm": 0.6004986923958435,
+      "learning_rate": 1.4058815806103542e-06,
+      "loss": 0.4167,
       "step": 82
     },
     {
+      "epoch": 2.3457943925233646,
+      "grad_norm": 0.5871010729484297,
+      "learning_rate": 1.2917394717602123e-06,
+      "loss": 0.3395,
       "step": 83
     },
     {
+      "epoch": 2.3738317757009346,
+      "grad_norm": 0.6272792477288378,
+      "learning_rate": 1.1817390172633402e-06,
+      "loss": 0.3955,
       "step": 84
     },
     {
+      "epoch": 2.4018691588785046,
+      "grad_norm": 0.602988779712659,
+      "learning_rate": 1.0760030736066952e-06,
+      "loss": 0.3712,
       "step": 85
     },
     {
+      "epoch": 2.4299065420560746,
+      "grad_norm": 0.6514347127868433,
+      "learning_rate": 9.746497343621857e-07,
+      "loss": 0.439,
       "step": 86
     },
     {
+      "epoch": 2.457943925233645,
+      "grad_norm": 0.6171164966676075,
+      "learning_rate": 8.777921982911996e-07,
+      "loss": 0.3293,
       "step": 87
     },
     {
+      "epoch": 2.485981308411215,
+      "grad_norm": 0.5985061076335229,
+      "learning_rate": 7.85538642916015e-07,
+      "loss": 0.3554,
       "step": 88
     },
     {
+      "epoch": 2.514018691588785,
+      "grad_norm": 0.6023670543052161,
+      "learning_rate": 6.979921036993042e-07,
+      "loss": 0.3759,
       "step": 89
     },
     {
+      "epoch": 2.542056074766355,
+      "grad_norm": 0.6350504526148657,
+      "learning_rate": 6.152503589666426e-07,
+      "loss": 0.4048,
       "step": 90
     },
     {
+      "epoch": 2.5700934579439254,
+      "grad_norm": 0.6232837840764863,
+      "learning_rate": 5.374058207005945e-07,
+      "loss": 0.4454,
       "step": 91
     },
     {
+      "epoch": 2.5981308411214954,
+      "grad_norm": 0.6261955186268706,
+      "learning_rate": 4.6454543132829653e-07,
+      "loss": 0.3954,
       "step": 92
     },
     {
+      "epoch": 2.6261682242990654,
+      "grad_norm": 0.6079216763424581,
+      "learning_rate": 3.9675056661785563e-07,
+      "loss": 0.4013,
       "step": 93
     },
     {
+      "epoch": 2.6542056074766354,
+      "grad_norm": 0.6437379172509019,
+      "learning_rate": 3.340969447919873e-07,
+      "loss": 0.4624,
       "step": 94
     },
     {
+      "epoch": 2.6822429906542054,
+      "grad_norm": 0.6182485342353894,
+      "learning_rate": 2.7665454196040665e-07,
+      "loss": 0.3614,
       "step": 95
     },
     {
+      "epoch": 2.710280373831776,
+      "grad_norm": 0.6138213235934379,
+      "learning_rate": 2.2448751396543788e-07,
+      "loss": 0.3844,
       "step": 96
     },
     {
+      "epoch": 2.7383177570093458,
+      "grad_norm": 0.5790126523883554,
+      "learning_rate": 1.776541247281177e-07,
+      "loss": 0.3865,
       "step": 97
     },
     {
+      "epoch": 2.7663551401869158,
+      "grad_norm": 0.602742444058507,
+      "learning_rate": 1.3620668117481471e-07,
+      "loss": 0.4459,
       "step": 98
     },
     {
+      "epoch": 2.794392523364486,
+      "grad_norm": 0.6125089915071265,
+      "learning_rate": 1.0019147481706626e-07,
+      "loss": 0.4199,
       "step": 99
     },
     {
+      "epoch": 2.822429906542056,
+      "grad_norm": 0.6081244590976984,
+      "learning_rate": 6.964873004985717e-08,
+      "loss": 0.4009,
       "step": 100
     },
     {
+      "epoch": 2.850467289719626,
+      "grad_norm": 0.7145788800241012,
+      "learning_rate": 4.461255922609986e-08,
+      "loss": 0.3987,
       "step": 101
     },
     {
+      "epoch": 2.878504672897196,
+      "grad_norm": 0.6581593717216647,
+      "learning_rate": 2.511092455747932e-08,
+      "loss": 0.3866,
       "step": 102
     },
     {
+      "epoch": 2.906542056074766,
+      "grad_norm": 0.6290938268876005,
+      "learning_rate": 1.1165606884234182e-08,
+      "loss": 0.4225,
       "step": 103
     },
     {
+      "epoch": 2.9345794392523366,
+      "grad_norm": 0.6534972156634564,
+      "learning_rate": 2.792181348726941e-09,
+      "loss": 0.4279,
       "step": 104
     },
     {
+      "epoch": 2.9626168224299065,
+      "grad_norm": 0.58156649259114,
       "learning_rate": 0.0,
+      "loss": 0.3581,
+      "step": 105
     },
     {
+      "epoch": 2.9626168224299065,
+      "step": 105,
+      "total_flos": 18524510396416.0,
+      "train_loss": 0.47221575805119104,
+      "train_runtime": 641.5687,
+      "train_samples_per_second": 15.913,
+      "train_steps_per_second": 0.164
     }
   ],
   "logging_steps": 1,
+  "max_steps": 105,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 18524510396416.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

training_loss.png CHANGED Viewed