Training in progress, step 700, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step700/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step700/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step700/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +727 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cb3b644050ed772b7473bed1a7223464b5adddad4a96b1e2f174c7375d90aca
 size 13648688

 version https://git-lfs.github.com/spec/v1
+oid sha256:15078b350dceb966b20c8709542ebf0e64b3e9a4c0e2319cdaec4f9c5530bac6
 size 13648688

last-checkpoint/global_step700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d753f240c6d44b4bbe0556059d07f11e525bb5e9db9c3f9f93ad5e62c7229d8b
+size 20450800

last-checkpoint/global_step700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14db1f831000826974ad5f792ab00cc773e4701c955f34d50943cc8bf79f0528
+size 20450800

last-checkpoint/global_step700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79468a097847f015aa4935f8c165d90349322e51d0721720db234d01ed6b2d13
+size 20450800

last-checkpoint/global_step700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36d4083d52ad8ada7eb47d0557d374a79a41dacbad7e5613ad40f9ee07870048
+size 20450800

last-checkpoint/global_step700/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9000f9e4de8903bf33637a3164d7047c80d16b19389259040cc5dc4f48da333d
+size 152238

last-checkpoint/global_step700/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eda5edf08baa6742371faab8836bbaaaefb59c558bf7648e07471d1f9cb94572
+size 152238

last-checkpoint/global_step700/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:066effbb5600bcd5a6257c2386143b9784c2e3055c47b8e8155cda1fef9ad1b2
+size 152238

last-checkpoint/global_step700/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:510c92c97451d4269f524888663e8c58c9f65608affe7d5aefed5707dfabece1
+size 152238

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step600~~


1	+ global_step700

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b891feb40e4494a2f4339c4a6c2396fe8789003482bccb878b16a84fd49972d2
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:08ee93655f035f40cef98d94e21df0215201bfd9c2fd009c63503f74d4bd0676
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58b2bf57c8acfc6560630987a9b234d67d256e62c79fb6301ceb72e476851c06
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f9350b4bfefd5190b618e0103ff8128fab616f2df08e300e5789f194a7e25b8
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:714ec8d81c6c369124166420e509178826aa2a10b37b4d55bda2151ad2f6106f
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd0a399dabcc87f1904a1f24d9d7781d4c2d3c109c95dd2958fca743902bd75c
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:073d7e3faa703403bd3d6a14715495db3bc0ef77ab8523513ff8bd83de272df4
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e90189ce66cbbdd26dcd499b49b05660c650805c2cfc5e25340f61c20bbb952
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a56472912fbe406df77e6f0ecfb06e43ede87be214ec32eebe03c6969c7328f2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed875039ee3baaee6a245c8988a3754c26fb7f9e800cc58167646a8642969266
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7377805102981863,
   "eval_steps": 40,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4399,6 +4399,730 @@
       "eval_samples_per_second": 2.127,
       "eval_steps_per_second": 0.17,
       "step": 600
     }
   ],
   "logging_steps": 1,
@@ -4418,7 +5142,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 588849383505920.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8607439286812173,
   "eval_steps": 40,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.127,
       "eval_steps_per_second": 0.17,
       "step": 600
+    },
+    {
+      "epoch": 0.7390101444820166,
+      "grad_norm": 0.2943806410067254,
+      "learning_rate": 3.8712690512345555e-06,
+      "loss": 0.1728,
+      "step": 601
+    },
+    {
+      "epoch": 0.7402397786658469,
+      "grad_norm": 0.42925890423626006,
+      "learning_rate": 3.837366411839114e-06,
+      "loss": 0.1948,
+      "step": 602
+    },
+    {
+      "epoch": 0.7414694128496773,
+      "grad_norm": 0.3527421902997394,
+      "learning_rate": 3.8035775956118416e-06,
+      "loss": 0.1413,
+      "step": 603
+    },
+    {
+      "epoch": 0.7426990470335075,
+      "grad_norm": 0.4175876107718813,
+      "learning_rate": 3.7699032266284863e-06,
+      "loss": 0.2727,
+      "step": 604
+    },
+    {
+      "epoch": 0.7439286812173378,
+      "grad_norm": 0.4187920324268778,
+      "learning_rate": 3.736343926850954e-06,
+      "loss": 0.1588,
+      "step": 605
+    },
+    {
+      "epoch": 0.7451583154011682,
+      "grad_norm": 0.3852760473136735,
+      "learning_rate": 3.702900316115836e-06,
+      "loss": 0.174,
+      "step": 606
+    },
+    {
+      "epoch": 0.7463879495849984,
+      "grad_norm": 0.42823407651531814,
+      "learning_rate": 3.6695730121229734e-06,
+      "loss": 0.1938,
+      "step": 607
+    },
+    {
+      "epoch": 0.7476175837688288,
+      "grad_norm": 0.3509868875989032,
+      "learning_rate": 3.6363626304240185e-06,
+      "loss": 0.1475,
+      "step": 608
+    },
+    {
+      "epoch": 0.7488472179526591,
+      "grad_norm": 0.2971798682387744,
+      "learning_rate": 3.6032697844110896e-06,
+      "loss": 0.1767,
+      "step": 609
+    },
+    {
+      "epoch": 0.7500768521364894,
+      "grad_norm": 0.6072125452251376,
+      "learning_rate": 3.5702950853054284e-06,
+      "loss": 0.1699,
+      "step": 610
+    },
+    {
+      "epoch": 0.7513064863203197,
+      "grad_norm": 0.42164026185503256,
+      "learning_rate": 3.5374391421461273e-06,
+      "loss": 0.1412,
+      "step": 611
+    },
+    {
+      "epoch": 0.75253612050415,
+      "grad_norm": 0.3486983507433236,
+      "learning_rate": 3.5047025617788578e-06,
+      "loss": 0.1936,
+      "step": 612
+    },
+    {
+      "epoch": 0.7537657546879803,
+      "grad_norm": 0.4729724505869417,
+      "learning_rate": 3.4720859488446744e-06,
+      "loss": 0.2232,
+      "step": 613
+    },
+    {
+      "epoch": 0.7549953888718106,
+      "grad_norm": 0.4712358882570717,
+      "learning_rate": 3.4395899057688575e-06,
+      "loss": 0.1957,
+      "step": 614
+    },
+    {
+      "epoch": 0.756225023055641,
+      "grad_norm": 0.30705322198688406,
+      "learning_rate": 3.407215032749763e-06,
+      "loss": 0.1771,
+      "step": 615
+    },
+    {
+      "epoch": 0.7574546572394713,
+      "grad_norm": 0.4492814208789423,
+      "learning_rate": 3.374961927747751e-06,
+      "loss": 0.2017,
+      "step": 616
+    },
+    {
+      "epoch": 0.7586842914233015,
+      "grad_norm": 0.4380941744123555,
+      "learning_rate": 3.342831186474149e-06,
+      "loss": 0.2032,
+      "step": 617
+    },
+    {
+      "epoch": 0.7599139256071319,
+      "grad_norm": 0.3711476811320281,
+      "learning_rate": 3.31082340238023e-06,
+      "loss": 0.139,
+      "step": 618
+    },
+    {
+      "epoch": 0.7611435597909622,
+      "grad_norm": 0.4366197359235773,
+      "learning_rate": 3.27893916664626e-06,
+      "loss": 0.1726,
+      "step": 619
+    },
+    {
+      "epoch": 0.7623731939747925,
+      "grad_norm": 0.3831073094979708,
+      "learning_rate": 3.2471790681705928e-06,
+      "loss": 0.1734,
+      "step": 620
+    },
+    {
+      "epoch": 0.7636028281586228,
+      "grad_norm": 0.3832625976759797,
+      "learning_rate": 3.215543693558769e-06,
+      "loss": 0.1326,
+      "step": 621
+    },
+    {
+      "epoch": 0.7648324623424532,
+      "grad_norm": 0.4637885564290134,
+      "learning_rate": 3.1840336271126935e-06,
+      "loss": 0.213,
+      "step": 622
+    },
+    {
+      "epoch": 0.7660620965262834,
+      "grad_norm": 0.5509391377682509,
+      "learning_rate": 3.152649450819852e-06,
+      "loss": 0.202,
+      "step": 623
+    },
+    {
+      "epoch": 0.7672917307101137,
+      "grad_norm": 0.4604352454314464,
+      "learning_rate": 3.1213917443425456e-06,
+      "loss": 0.2395,
+      "step": 624
+    },
+    {
+      "epoch": 0.7685213648939441,
+      "grad_norm": 0.5005650818328251,
+      "learning_rate": 3.0902610850071922e-06,
+      "loss": 0.1712,
+      "step": 625
+    },
+    {
+      "epoch": 0.7697509990777743,
+      "grad_norm": 0.3297795229391836,
+      "learning_rate": 3.0592580477936606e-06,
+      "loss": 0.1249,
+      "step": 626
+    },
+    {
+      "epoch": 0.7709806332616047,
+      "grad_norm": 0.37133417357695125,
+      "learning_rate": 3.0283832053246644e-06,
+      "loss": 0.1496,
+      "step": 627
+    },
+    {
+      "epoch": 0.772210267445435,
+      "grad_norm": 1.0851806228661502,
+      "learning_rate": 2.99763712785516e-06,
+      "loss": 0.1834,
+      "step": 628
+    },
+    {
+      "epoch": 0.7734399016292653,
+      "grad_norm": 0.5871194480383413,
+      "learning_rate": 2.967020383261834e-06,
+      "loss": 0.2054,
+      "step": 629
+    },
+    {
+      "epoch": 0.7746695358130956,
+      "grad_norm": 0.5149728889777226,
+      "learning_rate": 2.9365335370326143e-06,
+      "loss": 0.1972,
+      "step": 630
+    },
+    {
+      "epoch": 0.7758991699969259,
+      "grad_norm": 0.37527398302282,
+      "learning_rate": 2.9061771522562143e-06,
+      "loss": 0.1492,
+      "step": 631
+    },
+    {
+      "epoch": 0.7771288041807562,
+      "grad_norm": 0.4284583342223879,
+      "learning_rate": 2.875951789611734e-06,
+      "loss": 0.1937,
+      "step": 632
+    },
+    {
+      "epoch": 0.7783584383645865,
+      "grad_norm": 0.4328792148070332,
+      "learning_rate": 2.8458580073583262e-06,
+      "loss": 0.1905,
+      "step": 633
+    },
+    {
+      "epoch": 0.7795880725484169,
+      "grad_norm": 0.4067822771383594,
+      "learning_rate": 2.8158963613248437e-06,
+      "loss": 0.2048,
+      "step": 634
+    },
+    {
+      "epoch": 0.7808177067322472,
+      "grad_norm": 0.5475925840409395,
+      "learning_rate": 2.7860674048996174e-06,
+      "loss": 0.2014,
+      "step": 635
+    },
+    {
+      "epoch": 0.7820473409160774,
+      "grad_norm": 0.3714863801891058,
+      "learning_rate": 2.756371689020214e-06,
+      "loss": 0.1597,
+      "step": 636
+    },
+    {
+      "epoch": 0.7832769750999078,
+      "grad_norm": 0.45403846500036404,
+      "learning_rate": 2.7268097621632473e-06,
+      "loss": 0.1588,
+      "step": 637
+    },
+    {
+      "epoch": 0.784506609283738,
+      "grad_norm": 0.2750476426300895,
+      "learning_rate": 2.697382170334275e-06,
+      "loss": 0.1456,
+      "step": 638
+    },
+    {
+      "epoch": 0.7857362434675684,
+      "grad_norm": 0.4122155448314921,
+      "learning_rate": 2.6680894570577042e-06,
+      "loss": 0.165,
+      "step": 639
+    },
+    {
+      "epoch": 0.7869658776513987,
+      "grad_norm": 0.44104871745668295,
+      "learning_rate": 2.638932163366742e-06,
+      "loss": 0.1883,
+      "step": 640
+    },
+    {
+      "epoch": 0.7869658776513987,
+      "eval_accuracy": 0.8021390374331551,
+      "eval_f1": 0.5066666666666667,
+      "eval_loss": 0.42875000834465027,
+      "eval_precision": 0.76,
+      "eval_recall": 0.38,
+      "eval_runtime": 22.3064,
+      "eval_samples_per_second": 2.242,
+      "eval_steps_per_second": 0.179,
+      "step": 640
+    },
+    {
+      "epoch": 0.7881955118352291,
+      "grad_norm": 0.38537966631812437,
+      "learning_rate": 2.6099108277934105e-06,
+      "loss": 0.1942,
+      "step": 641
+    },
+    {
+      "epoch": 0.7894251460190593,
+      "grad_norm": 0.47302017581744826,
+      "learning_rate": 2.581025986358602e-06,
+      "loss": 0.2733,
+      "step": 642
+    },
+    {
+      "epoch": 0.7906547802028896,
+      "grad_norm": 0.4006638675446945,
+      "learning_rate": 2.5522781725621814e-06,
+      "loss": 0.1905,
+      "step": 643
+    },
+    {
+      "epoch": 0.79188441438672,
+      "grad_norm": 0.4264868084266065,
+      "learning_rate": 2.523667917373125e-06,
+      "loss": 0.2047,
+      "step": 644
+    },
+    {
+      "epoch": 0.7931140485705502,
+      "grad_norm": 0.3954441386492838,
+      "learning_rate": 2.4951957492197097e-06,
+      "loss": 0.1377,
+      "step": 645
+    },
+    {
+      "epoch": 0.7943436827543806,
+      "grad_norm": 0.39481889488214283,
+      "learning_rate": 2.4668621939797745e-06,
+      "loss": 0.1402,
+      "step": 646
+    },
+    {
+      "epoch": 0.7955733169382109,
+      "grad_norm": 0.5271696297567287,
+      "learning_rate": 2.438667774970981e-06,
+      "loss": 0.2091,
+      "step": 647
+    },
+    {
+      "epoch": 0.7968029511220412,
+      "grad_norm": 0.40581144727582685,
+      "learning_rate": 2.4106130129411608e-06,
+      "loss": 0.1898,
+      "step": 648
+    },
+    {
+      "epoch": 0.7980325853058715,
+      "grad_norm": 0.4102532645005857,
+      "learning_rate": 2.3826984260587084e-06,
+      "loss": 0.2066,
+      "step": 649
+    },
+    {
+      "epoch": 0.7992622194897018,
+      "grad_norm": 0.388703790445828,
+      "learning_rate": 2.354924529902978e-06,
+      "loss": 0.1987,
+      "step": 650
+    },
+    {
+      "epoch": 0.8004918536735321,
+      "grad_norm": 0.4906618445456134,
+      "learning_rate": 2.327291837454799e-06,
+      "loss": 0.1837,
+      "step": 651
+    },
+    {
+      "epoch": 0.8017214878573624,
+      "grad_norm": 0.37536494595757913,
+      "learning_rate": 2.2998008590869838e-06,
+      "loss": 0.1657,
+      "step": 652
+    },
+    {
+      "epoch": 0.8029511220411928,
+      "grad_norm": 0.3812431916923574,
+      "learning_rate": 2.2724521025548828e-06,
+      "loss": 0.1008,
+      "step": 653
+    },
+    {
+      "epoch": 0.804180756225023,
+      "grad_norm": 0.3734890292027527,
+      "learning_rate": 2.245246072987045e-06,
+      "loss": 0.1343,
+      "step": 654
+    },
+    {
+      "epoch": 0.8054103904088533,
+      "grad_norm": 0.4423063838480555,
+      "learning_rate": 2.2181832728758635e-06,
+      "loss": 0.2222,
+      "step": 655
+    },
+    {
+      "epoch": 0.8066400245926837,
+      "grad_norm": 0.3896545849527162,
+      "learning_rate": 2.191264202068286e-06,
+      "loss": 0.1766,
+      "step": 656
+    },
+    {
+      "epoch": 0.807869658776514,
+      "grad_norm": 0.6024032080378133,
+      "learning_rate": 2.1644893577566118e-06,
+      "loss": 0.231,
+      "step": 657
+    },
+    {
+      "epoch": 0.8090992929603443,
+      "grad_norm": 0.43861748495389236,
+      "learning_rate": 2.137859234469286e-06,
+      "loss": 0.2467,
+      "step": 658
+    },
+    {
+      "epoch": 0.8103289271441746,
+      "grad_norm": 0.37033226791746354,
+      "learning_rate": 2.1113743240617668e-06,
+      "loss": 0.1337,
+      "step": 659
+    },
+    {
+      "epoch": 0.811558561328005,
+      "grad_norm": 0.6398820179734428,
+      "learning_rate": 2.08503511570746e-06,
+      "loss": 0.1954,
+      "step": 660
+    },
+    {
+      "epoch": 0.8127881955118352,
+      "grad_norm": 0.4504933775118792,
+      "learning_rate": 2.058842095888658e-06,
+      "loss": 0.18,
+      "step": 661
+    },
+    {
+      "epoch": 0.8140178296956655,
+      "grad_norm": 0.361212739042047,
+      "learning_rate": 2.0327957483875693e-06,
+      "loss": 0.1489,
+      "step": 662
+    },
+    {
+      "epoch": 0.8152474638794959,
+      "grad_norm": 0.307913369177724,
+      "learning_rate": 2.006896554277388e-06,
+      "loss": 0.1572,
+      "step": 663
+    },
+    {
+      "epoch": 0.8164770980633261,
+      "grad_norm": 0.25426740831645195,
+      "learning_rate": 1.981144991913392e-06,
+      "loss": 0.12,
+      "step": 664
+    },
+    {
+      "epoch": 0.8177067322471565,
+      "grad_norm": 0.3663288109181175,
+      "learning_rate": 1.9555415369241228e-06,
+      "loss": 0.1571,
+      "step": 665
+    },
+    {
+      "epoch": 0.8189363664309868,
+      "grad_norm": 0.41662449029107057,
+      "learning_rate": 1.930086662202589e-06,
+      "loss": 0.1873,
+      "step": 666
+    },
+    {
+      "epoch": 0.820166000614817,
+      "grad_norm": 0.40845173743188795,
+      "learning_rate": 1.9047808378975485e-06,
+      "loss": 0.1534,
+      "step": 667
+    },
+    {
+      "epoch": 0.8213956347986474,
+      "grad_norm": 0.6212434671550456,
+      "learning_rate": 1.8796245314048046e-06,
+      "loss": 0.2374,
+      "step": 668
+    },
+    {
+      "epoch": 0.8226252689824777,
+      "grad_norm": 0.3337054400199707,
+      "learning_rate": 1.8546182073585828e-06,
+      "loss": 0.184,
+      "step": 669
+    },
+    {
+      "epoch": 0.823854903166308,
+      "grad_norm": 0.37408116822647747,
+      "learning_rate": 1.829762327622958e-06,
+      "loss": 0.1627,
+      "step": 670
+    },
+    {
+      "epoch": 0.8250845373501383,
+      "grad_norm": 0.41291954814345744,
+      "learning_rate": 1.805057351283307e-06,
+      "loss": 0.1426,
+      "step": 671
+    },
+    {
+      "epoch": 0.8263141715339687,
+      "grad_norm": 0.6232928915412197,
+      "learning_rate": 1.7805037346378384e-06,
+      "loss": 0.1939,
+      "step": 672
+    },
+    {
+      "epoch": 0.827543805717799,
+      "grad_norm": 0.43962963164293384,
+      "learning_rate": 1.756101931189169e-06,
+      "loss": 0.2049,
+      "step": 673
+    },
+    {
+      "epoch": 0.8287734399016292,
+      "grad_norm": 0.3747672424266052,
+      "learning_rate": 1.7318523916359376e-06,
+      "loss": 0.1644,
+      "step": 674
+    },
+    {
+      "epoch": 0.8300030740854596,
+      "grad_norm": 0.4713865050667868,
+      "learning_rate": 1.7077555638644838e-06,
+      "loss": 0.2924,
+      "step": 675
+    },
+    {
+      "epoch": 0.8312327082692899,
+      "grad_norm": 0.5391745289921438,
+      "learning_rate": 1.6838118929405856e-06,
+      "loss": 0.1767,
+      "step": 676
+    },
+    {
+      "epoch": 0.8324623424531202,
+      "grad_norm": 0.35807178811591905,
+      "learning_rate": 1.660021821101222e-06,
+      "loss": 0.1718,
+      "step": 677
+    },
+    {
+      "epoch": 0.8336919766369505,
+      "grad_norm": 0.5700152695384362,
+      "learning_rate": 1.6363857877464161e-06,
+      "loss": 0.1505,
+      "step": 678
+    },
+    {
+      "epoch": 0.8349216108207809,
+      "grad_norm": 0.521349273286693,
+      "learning_rate": 1.6129042294311227e-06,
+      "loss": 0.1893,
+      "step": 679
+    },
+    {
+      "epoch": 0.8361512450046111,
+      "grad_norm": 0.4881174981503527,
+      "learning_rate": 1.5895775798571523e-06,
+      "loss": 0.2403,
+      "step": 680
+    },
+    {
+      "epoch": 0.8361512450046111,
+      "eval_accuracy": 0.8021390374331551,
+      "eval_f1": 0.5066666666666667,
+      "eval_loss": 0.42875000834465027,
+      "eval_precision": 0.76,
+      "eval_recall": 0.38,
+      "eval_runtime": 23.134,
+      "eval_samples_per_second": 2.161,
+      "eval_steps_per_second": 0.173,
+      "step": 680
+    },
+    {
+      "epoch": 0.8373808791884414,
+      "grad_norm": 0.43157618057929154,
+      "learning_rate": 1.5664062698651706e-06,
+      "loss": 0.1824,
+      "step": 681
+    },
+    {
+      "epoch": 0.8386105133722718,
+      "grad_norm": 0.5760272230077988,
+      "learning_rate": 1.5433907274267357e-06,
+      "loss": 0.2397,
+      "step": 682
+    },
+    {
+      "epoch": 0.839840147556102,
+      "grad_norm": 0.5350905991023048,
+      "learning_rate": 1.5205313776364028e-06,
+      "loss": 0.1892,
+      "step": 683
+    },
+    {
+      "epoch": 0.8410697817399324,
+      "grad_norm": 0.61137934990804,
+      "learning_rate": 1.4978286427038602e-06,
+      "loss": 0.2348,
+      "step": 684
+    },
+    {
+      "epoch": 0.8422994159237627,
+      "grad_norm": 0.4331644305139785,
+      "learning_rate": 1.4752829419461357e-06,
+      "loss": 0.1937,
+      "step": 685
+    },
+    {
+      "epoch": 0.8435290501075929,
+      "grad_norm": 0.3640781076289279,
+      "learning_rate": 1.4528946917798603e-06,
+      "loss": 0.1962,
+      "step": 686
+    },
+    {
+      "epoch": 0.8447586842914233,
+      "grad_norm": 0.4244637100420945,
+      "learning_rate": 1.4306643057135638e-06,
+      "loss": 0.193,
+      "step": 687
+    },
+    {
+      "epoch": 0.8459883184752536,
+      "grad_norm": 0.27253213925489794,
+      "learning_rate": 1.4085921943400416e-06,
+      "loss": 0.1582,
+      "step": 688
+    },
+    {
+      "epoch": 0.847217952659084,
+      "grad_norm": 0.7026492760941759,
+      "learning_rate": 1.3866787653287804e-06,
+      "loss": 0.2727,
+      "step": 689
+    },
+    {
+      "epoch": 0.8484475868429142,
+      "grad_norm": 0.3357057600160637,
+      "learning_rate": 1.3649244234184157e-06,
+      "loss": 0.1395,
+      "step": 690
+    },
+    {
+      "epoch": 0.8496772210267446,
+      "grad_norm": 0.38849185683759185,
+      "learning_rate": 1.3433295704092586e-06,
+      "loss": 0.1367,
+      "step": 691
+    },
+    {
+      "epoch": 0.8509068552105749,
+      "grad_norm": 0.5532934868131949,
+      "learning_rate": 1.3218946051558867e-06,
+      "loss": 0.2007,
+      "step": 692
+    },
+    {
+      "epoch": 0.8521364893944051,
+      "grad_norm": 0.4093414023233572,
+      "learning_rate": 1.3006199235597628e-06,
+      "loss": 0.199,
+      "step": 693
+    },
+    {
+      "epoch": 0.8533661235782355,
+      "grad_norm": 0.5800657790788337,
+      "learning_rate": 1.279505918561923e-06,
+      "loss": 0.1786,
+      "step": 694
+    },
+    {
+      "epoch": 0.8545957577620658,
+      "grad_norm": 0.5604353644860381,
+      "learning_rate": 1.2585529801357377e-06,
+      "loss": 0.2597,
+      "step": 695
+    },
+    {
+      "epoch": 0.8558253919458961,
+      "grad_norm": 0.4944214492031985,
+      "learning_rate": 1.2377614952796825e-06,
+      "loss": 0.1578,
+      "step": 696
+    },
+    {
+      "epoch": 0.8570550261297264,
+      "grad_norm": 0.3580298395044867,
+      "learning_rate": 1.217131848010209e-06,
+      "loss": 0.145,
+      "step": 697
+    },
+    {
+      "epoch": 0.8582846603135568,
+      "grad_norm": 0.49696207588289626,
+      "learning_rate": 1.196664419354644e-06,
+      "loss": 0.1847,
+      "step": 698
+    },
+    {
+      "epoch": 0.859514294497387,
+      "grad_norm": 0.5676831498828142,
+      "learning_rate": 1.176359587344158e-06,
+      "loss": 0.2467,
+      "step": 699
+    },
+    {
+      "epoch": 0.8607439286812173,
+      "grad_norm": 0.4791316046608471,
+      "learning_rate": 1.1562177270067766e-06,
+      "loss": 0.2128,
+      "step": 700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 687762207244288.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null