Training in progress, step 400, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step400/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step400/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step400/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +739 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3089ee5752591a99a34512cd610e5fd1c9cbde6f2e5e96052322709db58f3c20
 size 13648688

 version https://git-lfs.github.com/spec/v1
+oid sha256:58970c7b1499a51e52f13d34fc84f1be155b729c5dc01535b4fd3b471893cc7c
 size 13648688

last-checkpoint/global_step400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b15663e9002bfadcd2118544805c26092cb6ec0f666d9bc6587d6401abd21bd5
+size 20450800

last-checkpoint/global_step400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef866156013d48c080d2301148283ca8543927968bc28db94f0b4473bdc8acc6
+size 20450800

last-checkpoint/global_step400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad9b9bb4dfcce0be4cee272860f5b8be7d9a8be61239e5282130fe726f4adae2
+size 20450800

last-checkpoint/global_step400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5910c9d8c18991184c3eebf90eac60e2ca4a073d9aefb2105dd96e9b2836ac1
+size 20450800

last-checkpoint/global_step400/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5625e40f0bab8897b6c022d047ec4e1b309f6c5683c29a5d18f3f6b49d2fc2f
+size 152238

last-checkpoint/global_step400/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1e31e7163b707480ad478f8e6c8378875c9442dd275ed39a38db3f4141626ed
+size 152238

last-checkpoint/global_step400/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e01df639f8ed07332533c55b3ba24300b71cc1b94368675bb8537e39c0bcbf7
+size 152238

last-checkpoint/global_step400/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3c88b6a29d249139ed50a0ee329aa72d539d54ce570568131b5fd790a11a890
+size 152238

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step300~~


1	+ global_step400

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:680c0f067459bb4efdac849ce093e2226bf3c2332330a52eb68acec721890eea
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:abaf0e70a6661521eb40188cdadbb09fcda9f6e1ac539eef99db2b1bc5a7ba52
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8261bb0773aaaaaf837917ac2d74751a1b07817c980444e7109f977082d4d80
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:376c466d70aa79c6b0bb9fc6cc87d2e449a16493d5d1155107e37872dcdc22dc
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ba4d6439beb986cf1f95fd682e03fa5844ac212a382301bdd1a868bcc67c311
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:865c5a6a69a0b6acfd26560edcb10f0694871429483ae64bee81aba12e73a0b0
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c17d861750a27e832ec9cf9a840f42cdc22319da36842441a78feca72092cef2
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8848755180edfd38eee9486edbe1a58572435a9c200f8a462726bb43540dcbf5
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c0f31e0dd8f0cd1067395334590c80ca29a3a9a42118ffbf479961406c7bb0b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b217a5016949cb5cd10bb5c4b090e10b845f27963a84cf5bdc1f1d94facb5b3c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3688902551490931,
   "eval_steps": 40,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2203,6 +2203,742 @@
       "learning_rate": 1.5922960037532057e-05,
       "loss": 0.281,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2222,7 +2958,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 295277918322688.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.49185367353212417,
   "eval_steps": 40,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.5922960037532057e-05,
       "loss": 0.281,
       "step": 300
+    },
+    {
+      "epoch": 0.37011988933292345,
+      "grad_norm": 0.36134533123850165,
+      "learning_rate": 1.588827828521133e-05,
+      "loss": 0.1997,
+      "step": 301
+    },
+    {
+      "epoch": 0.37134952351675377,
+      "grad_norm": 0.40175135868371165,
+      "learning_rate": 1.585348777703486e-05,
+      "loss": 0.2047,
+      "step": 302
+    },
+    {
+      "epoch": 0.3725791577005841,
+      "grad_norm": 0.3610033083703328,
+      "learning_rate": 1.581858915557953e-05,
+      "loss": 0.2037,
+      "step": 303
+    },
+    {
+      "epoch": 0.3738087918844144,
+      "grad_norm": 0.42325801209258107,
+      "learning_rate": 1.5783583065419054e-05,
+      "loss": 0.1871,
+      "step": 304
+    },
+    {
+      "epoch": 0.3750384260682447,
+      "grad_norm": 0.28821395654955023,
+      "learning_rate": 1.5748470153112093e-05,
+      "loss": 0.1934,
+      "step": 305
+    },
+    {
+      "epoch": 0.376268060252075,
+      "grad_norm": 0.4052634070520442,
+      "learning_rate": 1.57132510671903e-05,
+      "loss": 0.2351,
+      "step": 306
+    },
+    {
+      "epoch": 0.3774976944359053,
+      "grad_norm": 0.48496008691724585,
+      "learning_rate": 1.5677926458146327e-05,
+      "loss": 0.2527,
+      "step": 307
+    },
+    {
+      "epoch": 0.3787273286197356,
+      "grad_norm": 0.4026838585087856,
+      "learning_rate": 1.5642496978421842e-05,
+      "loss": 0.2554,
+      "step": 308
+    },
+    {
+      "epoch": 0.37995696280356595,
+      "grad_norm": 0.34534876497819145,
+      "learning_rate": 1.560696328239547e-05,
+      "loss": 0.1656,
+      "step": 309
+    },
+    {
+      "epoch": 0.38118659698739626,
+      "grad_norm": 0.2751030687579328,
+      "learning_rate": 1.5571326026370676e-05,
+      "loss": 0.162,
+      "step": 310
+    },
+    {
+      "epoch": 0.3824162311712266,
+      "grad_norm": 0.38621022206094485,
+      "learning_rate": 1.5535585868563688e-05,
+      "loss": 0.2212,
+      "step": 311
+    },
+    {
+      "epoch": 0.38364586535505685,
+      "grad_norm": 0.3039979678378701,
+      "learning_rate": 1.5499743469091303e-05,
+      "loss": 0.2413,
+      "step": 312
+    },
+    {
+      "epoch": 0.38487549953888717,
+      "grad_norm": 0.31620852109871317,
+      "learning_rate": 1.5463799489958727e-05,
+      "loss": 0.1701,
+      "step": 313
+    },
+    {
+      "epoch": 0.3861051337227175,
+      "grad_norm": 0.3036007341488487,
+      "learning_rate": 1.542775459504732e-05,
+      "loss": 0.1718,
+      "step": 314
+    },
+    {
+      "epoch": 0.3873347679065478,
+      "grad_norm": 0.4288199829474487,
+      "learning_rate": 1.5391609450102346e-05,
+      "loss": 0.2237,
+      "step": 315
+    },
+    {
+      "epoch": 0.3885644020903781,
+      "grad_norm": 0.3798815943379263,
+      "learning_rate": 1.5355364722720674e-05,
+      "loss": 0.2177,
+      "step": 316
+    },
+    {
+      "epoch": 0.38979403627420844,
+      "grad_norm": 0.30645321053750946,
+      "learning_rate": 1.5319021082338458e-05,
+      "loss": 0.2356,
+      "step": 317
+    },
+    {
+      "epoch": 0.3910236704580387,
+      "grad_norm": 0.3377360946626629,
+      "learning_rate": 1.5282579200218762e-05,
+      "loss": 0.21,
+      "step": 318
+    },
+    {
+      "epoch": 0.392253304641869,
+      "grad_norm": 0.3645715594028636,
+      "learning_rate": 1.5246039749439159e-05,
+      "loss": 0.1733,
+      "step": 319
+    },
+    {
+      "epoch": 0.39348293882569935,
+      "grad_norm": 0.29596291916382467,
+      "learning_rate": 1.5209403404879305e-05,
+      "loss": 0.1505,
+      "step": 320
+    },
+    {
+      "epoch": 0.39348293882569935,
+      "eval_accuracy": 0.8181818181818182,
+      "eval_f1": 0.5853658536585366,
+      "eval_loss": 0.40882813930511475,
+      "eval_precision": 0.75,
+      "eval_recall": 0.48,
+      "eval_runtime": 23.2002,
+      "eval_samples_per_second": 2.155,
+      "eval_steps_per_second": 0.172,
+      "step": 320
+    },
+    {
+      "epoch": 0.39471257300952967,
+      "grad_norm": 0.4078103453153395,
+      "learning_rate": 1.5172670843208477e-05,
+      "loss": 0.2415,
+      "step": 321
+    },
+    {
+      "epoch": 0.39594220719336,
+      "grad_norm": 0.3270612364847978,
+      "learning_rate": 1.5135842742873077e-05,
+      "loss": 0.2059,
+      "step": 322
+    },
+    {
+      "epoch": 0.3971718413771903,
+      "grad_norm": 0.3309279944550533,
+      "learning_rate": 1.5098919784084083e-05,
+      "loss": 0.1569,
+      "step": 323
+    },
+    {
+      "epoch": 0.3984014755610206,
+      "grad_norm": 0.49875353395381333,
+      "learning_rate": 1.5061902648804503e-05,
+      "loss": 0.2477,
+      "step": 324
+    },
+    {
+      "epoch": 0.3996311097448509,
+      "grad_norm": 0.3787412609953064,
+      "learning_rate": 1.502479202073678e-05,
+      "loss": 0.179,
+      "step": 325
+    },
+    {
+      "epoch": 0.4008607439286812,
+      "grad_norm": 0.3919230580283582,
+      "learning_rate": 1.4987588585310154e-05,
+      "loss": 0.2249,
+      "step": 326
+    },
+    {
+      "epoch": 0.4020903781125115,
+      "grad_norm": 0.40414791953417883,
+      "learning_rate": 1.4950293029668004e-05,
+      "loss": 0.1772,
+      "step": 327
+    },
+    {
+      "epoch": 0.40332001229634185,
+      "grad_norm": 0.3778228440356831,
+      "learning_rate": 1.4912906042655164e-05,
+      "loss": 0.208,
+      "step": 328
+    },
+    {
+      "epoch": 0.40454964648017216,
+      "grad_norm": 0.4107607344666035,
+      "learning_rate": 1.4875428314805195e-05,
+      "loss": 0.1716,
+      "step": 329
+    },
+    {
+      "epoch": 0.4057792806640025,
+      "grad_norm": 0.3671542265326293,
+      "learning_rate": 1.483786053832763e-05,
+      "loss": 0.1805,
+      "step": 330
+    },
+    {
+      "epoch": 0.40700891484783275,
+      "grad_norm": 0.404957322338137,
+      "learning_rate": 1.4800203407095194e-05,
+      "loss": 0.1842,
+      "step": 331
+    },
+    {
+      "epoch": 0.40823854903166307,
+      "grad_norm": 0.48189780697782403,
+      "learning_rate": 1.4762457616630972e-05,
+      "loss": 0.2277,
+      "step": 332
+    },
+    {
+      "epoch": 0.4094681832154934,
+      "grad_norm": 0.30773052153479974,
+      "learning_rate": 1.4724623864095595e-05,
+      "loss": 0.1833,
+      "step": 333
+    },
+    {
+      "epoch": 0.4106978173993237,
+      "grad_norm": 0.4223729302065043,
+      "learning_rate": 1.4686702848274328e-05,
+      "loss": 0.2219,
+      "step": 334
+    },
+    {
+      "epoch": 0.411927451583154,
+      "grad_norm": 0.2902399210528883,
+      "learning_rate": 1.4648695269564182e-05,
+      "loss": 0.1785,
+      "step": 335
+    },
+    {
+      "epoch": 0.41315708576698434,
+      "grad_norm": 0.297435572010037,
+      "learning_rate": 1.461060182996098e-05,
+      "loss": 0.2441,
+      "step": 336
+    },
+    {
+      "epoch": 0.4143867199508146,
+      "grad_norm": 0.4498936613858582,
+      "learning_rate": 1.4572423233046386e-05,
+      "loss": 0.1765,
+      "step": 337
+    },
+    {
+      "epoch": 0.4156163541346449,
+      "grad_norm": 0.476353253435308,
+      "learning_rate": 1.4534160183974908e-05,
+      "loss": 0.1711,
+      "step": 338
+    },
+    {
+      "epoch": 0.41684598831847525,
+      "grad_norm": 0.4136384364300188,
+      "learning_rate": 1.4495813389460875e-05,
+      "loss": 0.213,
+      "step": 339
+    },
+    {
+      "epoch": 0.41807562250230557,
+      "grad_norm": 0.457702192015087,
+      "learning_rate": 1.4457383557765385e-05,
+      "loss": 0.2056,
+      "step": 340
+    },
+    {
+      "epoch": 0.4193052566861359,
+      "grad_norm": 0.32316243545279294,
+      "learning_rate": 1.4418871398683227e-05,
+      "loss": 0.2445,
+      "step": 341
+    },
+    {
+      "epoch": 0.4205348908699662,
+      "grad_norm": 0.3952237252439469,
+      "learning_rate": 1.4380277623529766e-05,
+      "loss": 0.1789,
+      "step": 342
+    },
+    {
+      "epoch": 0.42176452505379647,
+      "grad_norm": 0.45979858964325293,
+      "learning_rate": 1.4341602945127806e-05,
+      "loss": 0.225,
+      "step": 343
+    },
+    {
+      "epoch": 0.4229941592376268,
+      "grad_norm": 0.456535265546009,
+      "learning_rate": 1.4302848077794427e-05,
+      "loss": 0.2245,
+      "step": 344
+    },
+    {
+      "epoch": 0.4242237934214571,
+      "grad_norm": 0.3244747375904321,
+      "learning_rate": 1.426401373732779e-05,
+      "loss": 0.1801,
+      "step": 345
+    },
+    {
+      "epoch": 0.4254534276052874,
+      "grad_norm": 0.40300301462416604,
+      "learning_rate": 1.422510064099391e-05,
+      "loss": 0.2212,
+      "step": 346
+    },
+    {
+      "epoch": 0.42668306178911775,
+      "grad_norm": 0.5264557343629197,
+      "learning_rate": 1.4186109507513425e-05,
+      "loss": 0.2202,
+      "step": 347
+    },
+    {
+      "epoch": 0.42791269597294807,
+      "grad_norm": 0.4350217170052354,
+      "learning_rate": 1.4147041057048303e-05,
+      "loss": 0.2061,
+      "step": 348
+    },
+    {
+      "epoch": 0.4291423301567784,
+      "grad_norm": 0.6810095448654682,
+      "learning_rate": 1.4107896011188546e-05,
+      "loss": 0.1782,
+      "step": 349
+    },
+    {
+      "epoch": 0.43037196434060865,
+      "grad_norm": 0.25807154769833757,
+      "learning_rate": 1.4068675092938872e-05,
+      "loss": 0.156,
+      "step": 350
+    },
+    {
+      "epoch": 0.43160159852443897,
+      "grad_norm": 0.29519781987132376,
+      "learning_rate": 1.4029379026705352e-05,
+      "loss": 0.2078,
+      "step": 351
+    },
+    {
+      "epoch": 0.4328312327082693,
+      "grad_norm": 0.4580606963993864,
+      "learning_rate": 1.3990008538282027e-05,
+      "loss": 0.2024,
+      "step": 352
+    },
+    {
+      "epoch": 0.4340608668920996,
+      "grad_norm": 0.4014942247225734,
+      "learning_rate": 1.3950564354837512e-05,
+      "loss": 0.1801,
+      "step": 353
+    },
+    {
+      "epoch": 0.4352905010759299,
+      "grad_norm": 0.40131332657814234,
+      "learning_rate": 1.391104720490156e-05,
+      "loss": 0.214,
+      "step": 354
+    },
+    {
+      "epoch": 0.43652013525976024,
+      "grad_norm": 0.3560030996515948,
+      "learning_rate": 1.387145781835161e-05,
+      "loss": 0.2126,
+      "step": 355
+    },
+    {
+      "epoch": 0.4377497694435905,
+      "grad_norm": 0.3729681090326996,
+      "learning_rate": 1.3831796926399295e-05,
+      "loss": 0.2055,
+      "step": 356
+    },
+    {
+      "epoch": 0.43897940362742083,
+      "grad_norm": 0.4172829333159122,
+      "learning_rate": 1.3792065261576953e-05,
+      "loss": 0.2326,
+      "step": 357
+    },
+    {
+      "epoch": 0.44020903781125115,
+      "grad_norm": 0.30998074509681783,
+      "learning_rate": 1.3752263557724088e-05,
+      "loss": 0.1633,
+      "step": 358
+    },
+    {
+      "epoch": 0.44143867199508147,
+      "grad_norm": 0.345268920537541,
+      "learning_rate": 1.3712392549973814e-05,
+      "loss": 0.1765,
+      "step": 359
+    },
+    {
+      "epoch": 0.4426683061789118,
+      "grad_norm": 0.3508481090946454,
+      "learning_rate": 1.3672452974739278e-05,
+      "loss": 0.1752,
+      "step": 360
+    },
+    {
+      "epoch": 0.4426683061789118,
+      "eval_accuracy": 0.786096256684492,
+      "eval_f1": 0.42857142857142855,
+      "eval_loss": 0.4385937452316284,
+      "eval_precision": 0.75,
+      "eval_recall": 0.3,
+      "eval_runtime": 23.4097,
+      "eval_samples_per_second": 2.136,
+      "eval_steps_per_second": 0.171,
+      "step": 360
+    },
+    {
+      "epoch": 0.4438979403627421,
+      "grad_norm": 0.41404798323100117,
+      "learning_rate": 1.3632445569700078e-05,
+      "loss": 0.1745,
+      "step": 361
+    },
+    {
+      "epoch": 0.44512757454657237,
+      "grad_norm": 0.39572877694784087,
+      "learning_rate": 1.3592371073788595e-05,
+      "loss": 0.216,
+      "step": 362
+    },
+    {
+      "epoch": 0.4463572087304027,
+      "grad_norm": 0.3927819000312662,
+      "learning_rate": 1.355223022717639e-05,
+      "loss": 0.164,
+      "step": 363
+    },
+    {
+      "epoch": 0.447586842914233,
+      "grad_norm": 0.36355749807156507,
+      "learning_rate": 1.3512023771260507e-05,
+      "loss": 0.2439,
+      "step": 364
+    },
+    {
+      "epoch": 0.4488164770980633,
+      "grad_norm": 0.37694180103294717,
+      "learning_rate": 1.347175244864979e-05,
+      "loss": 0.2009,
+      "step": 365
+    },
+    {
+      "epoch": 0.45004611128189365,
+      "grad_norm": 0.3566619922589067,
+      "learning_rate": 1.3431417003151162e-05,
+      "loss": 0.2045,
+      "step": 366
+    },
+    {
+      "epoch": 0.45127574546572397,
+      "grad_norm": 0.36473757399388024,
+      "learning_rate": 1.3391018179755886e-05,
+      "loss": 0.1711,
+      "step": 367
+    },
+    {
+      "epoch": 0.4525053796495543,
+      "grad_norm": 0.3559479590045658,
+      "learning_rate": 1.3350556724625809e-05,
+      "loss": 0.2061,
+      "step": 368
+    },
+    {
+      "epoch": 0.45373501383338455,
+      "grad_norm": 0.34195723156033303,
+      "learning_rate": 1.3310033385079589e-05,
+      "loss": 0.1761,
+      "step": 369
+    },
+    {
+      "epoch": 0.45496464801721487,
+      "grad_norm": 0.5770960005405298,
+      "learning_rate": 1.3269448909578866e-05,
+      "loss": 0.227,
+      "step": 370
+    },
+    {
+      "epoch": 0.4561942822010452,
+      "grad_norm": 0.6125705002122824,
+      "learning_rate": 1.3228804047714462e-05,
+      "loss": 0.2351,
+      "step": 371
+    },
+    {
+      "epoch": 0.4574239163848755,
+      "grad_norm": 0.48363918457013794,
+      "learning_rate": 1.3188099550192537e-05,
+      "loss": 0.1847,
+      "step": 372
+    },
+    {
+      "epoch": 0.4586535505687058,
+      "grad_norm": 0.6610021081352014,
+      "learning_rate": 1.31473361688207e-05,
+      "loss": 0.2129,
+      "step": 373
+    },
+    {
+      "epoch": 0.45988318475253614,
+      "grad_norm": 0.4341786311855446,
+      "learning_rate": 1.3106514656494147e-05,
+      "loss": 0.2426,
+      "step": 374
+    },
+    {
+      "epoch": 0.4611128189363664,
+      "grad_norm": 0.3013643837535933,
+      "learning_rate": 1.3065635767181748e-05,
+      "loss": 0.1596,
+      "step": 375
+    },
+    {
+      "epoch": 0.46234245312019673,
+      "grad_norm": 0.29963722757790967,
+      "learning_rate": 1.302470025591211e-05,
+      "loss": 0.1821,
+      "step": 376
+    },
+    {
+      "epoch": 0.46357208730402705,
+      "grad_norm": 0.5856707955354147,
+      "learning_rate": 1.2983708878759655e-05,
+      "loss": 0.2024,
+      "step": 377
+    },
+    {
+      "epoch": 0.46480172148785737,
+      "grad_norm": 0.37812820220102683,
+      "learning_rate": 1.2942662392830632e-05,
+      "loss": 0.2049,
+      "step": 378
+    },
+    {
+      "epoch": 0.4660313556716877,
+      "grad_norm": 0.41966854124526104,
+      "learning_rate": 1.290156155624914e-05,
+      "loss": 0.227,
+      "step": 379
+    },
+    {
+      "epoch": 0.467260989855518,
+      "grad_norm": 0.39476761658009546,
+      "learning_rate": 1.286040712814314e-05,
+      "loss": 0.1552,
+      "step": 380
+    },
+    {
+      "epoch": 0.46849062403934827,
+      "grad_norm": 0.4381036125394883,
+      "learning_rate": 1.2819199868630419e-05,
+      "loss": 0.1686,
+      "step": 381
+    },
+    {
+      "epoch": 0.4697202582231786,
+      "grad_norm": 0.2834280308233097,
+      "learning_rate": 1.2777940538804545e-05,
+      "loss": 0.1292,
+      "step": 382
+    },
+    {
+      "epoch": 0.4709498924070089,
+      "grad_norm": 0.3708781081449464,
+      "learning_rate": 1.2736629900720832e-05,
+      "loss": 0.1575,
+      "step": 383
+    },
+    {
+      "epoch": 0.4721795265908392,
+      "grad_norm": 0.37089620983594307,
+      "learning_rate": 1.2695268717382242e-05,
+      "loss": 0.1923,
+      "step": 384
+    },
+    {
+      "epoch": 0.47340916077466955,
+      "grad_norm": 0.37850202105410397,
+      "learning_rate": 1.2653857752725305e-05,
+      "loss": 0.1751,
+      "step": 385
+    },
+    {
+      "epoch": 0.47463879495849987,
+      "grad_norm": 0.29465463630363,
+      "learning_rate": 1.2612397771606015e-05,
+      "loss": 0.1792,
+      "step": 386
+    },
+    {
+      "epoch": 0.47586842914233013,
+      "grad_norm": 0.35698339352314057,
+      "learning_rate": 1.2570889539785683e-05,
+      "loss": 0.1325,
+      "step": 387
+    },
+    {
+      "epoch": 0.47709806332616045,
+      "grad_norm": 0.43664575464965527,
+      "learning_rate": 1.2529333823916807e-05,
+      "loss": 0.1764,
+      "step": 388
+    },
+    {
+      "epoch": 0.47832769750999077,
+      "grad_norm": 0.4130236851643136,
+      "learning_rate": 1.2487731391528919e-05,
+      "loss": 0.2261,
+      "step": 389
+    },
+    {
+      "epoch": 0.4795573316938211,
+      "grad_norm": 0.37099838030443905,
+      "learning_rate": 1.2446083011014389e-05,
+      "loss": 0.187,
+      "step": 390
+    },
+    {
+      "epoch": 0.4807869658776514,
+      "grad_norm": 0.241662388149488,
+      "learning_rate": 1.2404389451614253e-05,
+      "loss": 0.1671,
+      "step": 391
+    },
+    {
+      "epoch": 0.4820166000614817,
+      "grad_norm": 0.40938373429888714,
+      "learning_rate": 1.2362651483403985e-05,
+      "loss": 0.1861,
+      "step": 392
+    },
+    {
+      "epoch": 0.48324623424531205,
+      "grad_norm": 0.3623538192567374,
+      "learning_rate": 1.2320869877279297e-05,
+      "loss": 0.1743,
+      "step": 393
+    },
+    {
+      "epoch": 0.4844758684291423,
+      "grad_norm": 0.4437845258381219,
+      "learning_rate": 1.2279045404941883e-05,
+      "loss": 0.2337,
+      "step": 394
+    },
+    {
+      "epoch": 0.48570550261297263,
+      "grad_norm": 0.3749955717955905,
+      "learning_rate": 1.2237178838885168e-05,
+      "loss": 0.2027,
+      "step": 395
+    },
+    {
+      "epoch": 0.48693513679680295,
+      "grad_norm": 0.3505048992054775,
+      "learning_rate": 1.2195270952380052e-05,
+      "loss": 0.1571,
+      "step": 396
+    },
+    {
+      "epoch": 0.48816477098063327,
+      "grad_norm": 0.3713688621968288,
+      "learning_rate": 1.215332251946061e-05,
+      "loss": 0.1915,
+      "step": 397
+    },
+    {
+      "epoch": 0.4893944051644636,
+      "grad_norm": 0.4834162644214324,
+      "learning_rate": 1.2111334314909811e-05,
+      "loss": 0.2389,
+      "step": 398
+    },
+    {
+      "epoch": 0.4906240393482939,
+      "grad_norm": 0.38954625041703195,
+      "learning_rate": 1.2069307114245197e-05,
+      "loss": 0.1682,
+      "step": 399
+    },
+    {
+      "epoch": 0.49185367353212417,
+      "grad_norm": 0.46232563297646273,
+      "learning_rate": 1.2027241693704567e-05,
+      "loss": 0.2382,
+      "step": 400
+    },
+    {
+      "epoch": 0.49185367353212417,
+      "eval_accuracy": 0.8128342245989305,
+      "eval_f1": 0.5454545454545454,
+      "eval_loss": 0.41859376430511475,
+      "eval_precision": 0.7777777777777778,
+      "eval_recall": 0.42,
+      "eval_runtime": 22.7158,
+      "eval_samples_per_second": 2.201,
+      "eval_steps_per_second": 0.176,
+      "step": 400
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 393623730028544.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null