Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d943c6bfd2dc2b761b4d682134e0a0fc60ac1cb4096855e5091cc3393184aa64
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:e10dec0995b4018139261c78cb605e216971a771e66475c5f1914653fb2f4f57
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:376a9db1af520346798c868246148f3564e7f951f971cfad89c922d341bf7f29
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bde6aac845bb5c182bad863715db5dede22d6eb24ed72999510b1888a0a5420
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9178eab5bc585c22cd46ed2fc1e92f4fdda57d7a3fa8d58230990de0c4d1f153
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3988d837c1f874ca300a2c11da38001b137b3c884ca5e57fcf34a2cf824ef294
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:664f4c51ad8b8db2543ac5506c908df582362cb40fdd8ba94c8d4d17fd478154
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3211e23064c226038f91dc981175a1f92dd37c501b0bb7e4bec35acc01edf597
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21d1ac001b88f8a5c52ed311d48d65c35c0b16a38d8e46e3f8f798f890a0ff73
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:930c7f8d60843cbcdbe3e428179d2be4cca5088da91f304d10ae4907f47fe926
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce135a57bb7016f162e8a5a5cf147734c4de738983a8be7d0e78e3767402b122
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab81432ec16b9b8b19a5a66372867d916f5de9ec1795bdfb765e5d7d340fc43b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b143b6fca120ff625503c29f4c425415e9b350b6c85048892c81f6d44c3563a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3ff546ca73e6c043fb8e31fc6c217b47cfd8607e275c50bfe5af6e950eda9de
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cec8c8fdc32c70be31edda43085207cfa5ae9a7dbb023c61d9fae6f55d607e9e
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d50ee0e5fb035d3dbe45a7bf19d6ca079fbb951d97348876885d6301da88bb46
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6151a2afa91abecb8de37b99e4409d6e56f16b75b43592d3da5abbb3ee272563
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ed8b54d01efdc3e72d86ac303a50711daef44ec1675e30f641e3f85c9bc7d52
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d72bd74ab0857553e9460d81b4abc084b39a8189791c68c03d4ede2cfc8a8c60
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e74e1e2786f1133a3295c5afe55775a0a39c9d03bae3a56983064f39379bcb6
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c5f15126da64891eca473dd1e04d5b41141f581a035a13b14aee5904e6e3f7e
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e405ffd74f6b37faa3d65538d7deaff2ad4d20ad6a87284a70f224a5110eab5
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:135e2ac2b5b60d2eeef0012629f402a00ab445fa2c678e7dedd20b300813acb6
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:1951028221e1491837c1c800d2872cc479e1297c5c0b156185679bbffbb91c75
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6f67a0e885145319f81ed1f8c4c49622761e3f92d5ce81c356bbb700855e8e6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:af29ed8d410f75e7520cc10681cc1970ed7a3864889fb1e10dd381ad082e6570
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25773195876288657,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 5.403,
       "eval_steps_per_second": 0.178,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.685140289008435e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3865979381443299,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.403,
       "eval_steps_per_second": 0.178,
       "step": 200
+    },
+    {
+      "epoch": 0.25902061855670105,
+      "grad_norm": 2.103586435317993,
+      "learning_rate": 1.85063499545063e-05,
+      "loss": 0.013,
+      "step": 201
+    },
+    {
+      "epoch": 0.2603092783505155,
+      "grad_norm": 1.8666274547576904,
+      "learning_rate": 1.8482600359817344e-05,
+      "loss": 0.0245,
+      "step": 202
+    },
+    {
+      "epoch": 0.2615979381443299,
+      "grad_norm": 2.8087830543518066,
+      "learning_rate": 1.8458678927933884e-05,
+      "loss": 0.0187,
+      "step": 203
+    },
+    {
+      "epoch": 0.26288659793814434,
+      "grad_norm": 1.8675556182861328,
+      "learning_rate": 1.843458614344691e-05,
+      "loss": 0.0156,
+      "step": 204
+    },
+    {
+      "epoch": 0.26417525773195877,
+      "grad_norm": 0.7611345648765564,
+      "learning_rate": 1.8410322494418606e-05,
+      "loss": 0.0046,
+      "step": 205
+    },
+    {
+      "epoch": 0.2654639175257732,
+      "grad_norm": 1.599369764328003,
+      "learning_rate": 1.8385888472372474e-05,
+      "loss": 0.0328,
+      "step": 206
+    },
+    {
+      "epoch": 0.2667525773195876,
+      "grad_norm": 0.5751793384552002,
+      "learning_rate": 1.8361284572283356e-05,
+      "loss": 0.0049,
+      "step": 207
+    },
+    {
+      "epoch": 0.26804123711340205,
+      "grad_norm": 1.689562439918518,
+      "learning_rate": 1.833651129256742e-05,
+      "loss": 0.0157,
+      "step": 208
+    },
+    {
+      "epoch": 0.2693298969072165,
+      "grad_norm": 0.5357356071472168,
+      "learning_rate": 1.831156913507206e-05,
+      "loss": 0.0047,
+      "step": 209
+    },
+    {
+      "epoch": 0.2706185567010309,
+      "grad_norm": 1.4983047246932983,
+      "learning_rate": 1.828645860506573e-05,
+      "loss": 0.0487,
+      "step": 210
+    },
+    {
+      "epoch": 0.27190721649484534,
+      "grad_norm": 0.2579003870487213,
+      "learning_rate": 1.826118021122771e-05,
+      "loss": 0.0029,
+      "step": 211
+    },
+    {
+      "epoch": 0.27319587628865977,
+      "grad_norm": 2.843892812728882,
+      "learning_rate": 1.8235734465637794e-05,
+      "loss": 0.0181,
+      "step": 212
+    },
+    {
+      "epoch": 0.27448453608247425,
+      "grad_norm": 1.1521669626235962,
+      "learning_rate": 1.821012188376593e-05,
+      "loss": 0.0221,
+      "step": 213
+    },
+    {
+      "epoch": 0.2757731958762887,
+      "grad_norm": 1.4023137092590332,
+      "learning_rate": 1.8184342984461766e-05,
+      "loss": 0.0097,
+      "step": 214
+    },
+    {
+      "epoch": 0.2770618556701031,
+      "grad_norm": 1.1344298124313354,
+      "learning_rate": 1.8158398289944145e-05,
+      "loss": 0.005,
+      "step": 215
+    },
+    {
+      "epoch": 0.27835051546391754,
+      "grad_norm": 1.5524466037750244,
+      "learning_rate": 1.8132288325790518e-05,
+      "loss": 0.0105,
+      "step": 216
+    },
+    {
+      "epoch": 0.27963917525773196,
+      "grad_norm": 0.8397157192230225,
+      "learning_rate": 1.8106013620926312e-05,
+      "loss": 0.0257,
+      "step": 217
+    },
+    {
+      "epoch": 0.2809278350515464,
+      "grad_norm": 2.6008617877960205,
+      "learning_rate": 1.8079574707614202e-05,
+      "loss": 0.013,
+      "step": 218
+    },
+    {
+      "epoch": 0.2822164948453608,
+      "grad_norm": 0.8384814262390137,
+      "learning_rate": 1.8052972121443337e-05,
+      "loss": 0.0076,
+      "step": 219
+    },
+    {
+      "epoch": 0.28350515463917525,
+      "grad_norm": 1.8078651428222656,
+      "learning_rate": 1.802620640131848e-05,
+      "loss": 0.0138,
+      "step": 220
+    },
+    {
+      "epoch": 0.28350515463917525,
+      "eval_accuracy": 0.9930486593843099,
+      "eval_f1": 0.8833333333333333,
+      "eval_loss": 0.02096499688923359,
+      "eval_precision": 0.8412698412698413,
+      "eval_recall": 0.9298245614035088,
+      "eval_runtime": 85.3923,
+      "eval_samples_per_second": 5.328,
+      "eval_steps_per_second": 0.176,
+      "step": 220
+    },
+    {
+      "epoch": 0.2847938144329897,
+      "grad_norm": 2.1315155029296875,
+      "learning_rate": 1.799927808944911e-05,
+      "loss": 0.0182,
+      "step": 221
+    },
+    {
+      "epoch": 0.2860824742268041,
+      "grad_norm": 1.9272891283035278,
+      "learning_rate": 1.797218773133841e-05,
+      "loss": 0.0152,
+      "step": 222
+    },
+    {
+      "epoch": 0.28737113402061853,
+      "grad_norm": 4.905808448791504,
+      "learning_rate": 1.7944935875772244e-05,
+      "loss": 0.0215,
+      "step": 223
+    },
+    {
+      "epoch": 0.28865979381443296,
+      "grad_norm": 4.647861480712891,
+      "learning_rate": 1.7917523074808024e-05,
+      "loss": 0.0258,
+      "step": 224
+    },
+    {
+      "epoch": 0.28994845360824745,
+      "grad_norm": 1.2799395322799683,
+      "learning_rate": 1.7889949883763532e-05,
+      "loss": 0.0232,
+      "step": 225
+    },
+    {
+      "epoch": 0.2912371134020619,
+      "grad_norm": 2.6159801483154297,
+      "learning_rate": 1.786221686120567e-05,
+      "loss": 0.0332,
+      "step": 226
+    },
+    {
+      "epoch": 0.2925257731958763,
+      "grad_norm": 0.3623534142971039,
+      "learning_rate": 1.7834324568939137e-05,
+      "loss": 0.0031,
+      "step": 227
+    },
+    {
+      "epoch": 0.29381443298969073,
+      "grad_norm": 2.5764312744140625,
+      "learning_rate": 1.7806273571995066e-05,
+      "loss": 0.0209,
+      "step": 228
+    },
+    {
+      "epoch": 0.29510309278350516,
+      "grad_norm": 2.027851104736328,
+      "learning_rate": 1.7778064438619562e-05,
+      "loss": 0.0128,
+      "step": 229
+    },
+    {
+      "epoch": 0.2963917525773196,
+      "grad_norm": 0.7468307614326477,
+      "learning_rate": 1.7749697740262197e-05,
+      "loss": 0.0046,
+      "step": 230
+    },
+    {
+      "epoch": 0.297680412371134,
+      "grad_norm": 1.3534049987792969,
+      "learning_rate": 1.772117405156443e-05,
+      "loss": 0.0137,
+      "step": 231
+    },
+    {
+      "epoch": 0.29896907216494845,
+      "grad_norm": 0.830199658870697,
+      "learning_rate": 1.769249395034797e-05,
+      "loss": 0.0044,
+      "step": 232
+    },
+    {
+      "epoch": 0.3002577319587629,
+      "grad_norm": 1.318949580192566,
+      "learning_rate": 1.7663658017603073e-05,
+      "loss": 0.0156,
+      "step": 233
+    },
+    {
+      "epoch": 0.3015463917525773,
+      "grad_norm": 1.9248756170272827,
+      "learning_rate": 1.7634666837476765e-05,
+      "loss": 0.0379,
+      "step": 234
+    },
+    {
+      "epoch": 0.30283505154639173,
+      "grad_norm": 1.7694895267486572,
+      "learning_rate": 1.7605520997261014e-05,
+      "loss": 0.0142,
+      "step": 235
+    },
+    {
+      "epoch": 0.30412371134020616,
+      "grad_norm": 1.5250486135482788,
+      "learning_rate": 1.757622108738083e-05,
+      "loss": 0.0092,
+      "step": 236
+    },
+    {
+      "epoch": 0.30541237113402064,
+      "grad_norm": 1.273772954940796,
+      "learning_rate": 1.754676770138231e-05,
+      "loss": 0.0216,
+      "step": 237
+    },
+    {
+      "epoch": 0.30670103092783507,
+      "grad_norm": 5.388645172119141,
+      "learning_rate": 1.7517161435920606e-05,
+      "loss": 0.0589,
+      "step": 238
+    },
+    {
+      "epoch": 0.3079896907216495,
+      "grad_norm": 2.30202317237854,
+      "learning_rate": 1.7487402890747843e-05,
+      "loss": 0.016,
+      "step": 239
+    },
+    {
+      "epoch": 0.30927835051546393,
+      "grad_norm": 3.9984192848205566,
+      "learning_rate": 1.7457492668700967e-05,
+      "loss": 0.0141,
+      "step": 240
+    },
+    {
+      "epoch": 0.30927835051546393,
+      "eval_accuracy": 0.9955312810327706,
+      "eval_f1": 0.9203539823008849,
+      "eval_loss": 0.01754908636212349,
+      "eval_precision": 0.9285714285714286,
+      "eval_recall": 0.9122807017543859,
+      "eval_runtime": 86.0275,
+      "eval_samples_per_second": 5.289,
+      "eval_steps_per_second": 0.174,
+      "step": 240
+    },
+    {
+      "epoch": 0.31056701030927836,
+      "grad_norm": 1.2816661596298218,
+      "learning_rate": 1.7427431375689544e-05,
+      "loss": 0.0147,
+      "step": 241
+    },
+    {
+      "epoch": 0.3118556701030928,
+      "grad_norm": 1.6840155124664307,
+      "learning_rate": 1.7397219620683465e-05,
+      "loss": 0.0047,
+      "step": 242
+    },
+    {
+      "epoch": 0.3131443298969072,
+      "grad_norm": 1.563914179801941,
+      "learning_rate": 1.7366858015700626e-05,
+      "loss": 0.017,
+      "step": 243
+    },
+    {
+      "epoch": 0.31443298969072164,
+      "grad_norm": 1.6181697845458984,
+      "learning_rate": 1.7336347175794523e-05,
+      "loss": 0.0137,
+      "step": 244
+    },
+    {
+      "epoch": 0.31572164948453607,
+      "grad_norm": 0.8612284064292908,
+      "learning_rate": 1.73056877190418e-05,
+      "loss": 0.0052,
+      "step": 245
+    },
+    {
+      "epoch": 0.3170103092783505,
+      "grad_norm": 1.467340111732483,
+      "learning_rate": 1.7274880266529716e-05,
+      "loss": 0.0085,
+      "step": 246
+    },
+    {
+      "epoch": 0.31829896907216493,
+      "grad_norm": 1.4295095205307007,
+      "learning_rate": 1.7243925442343578e-05,
+      "loss": 0.0333,
+      "step": 247
+    },
+    {
+      "epoch": 0.31958762886597936,
+      "grad_norm": 0.7592663764953613,
+      "learning_rate": 1.721282387355408e-05,
+      "loss": 0.009,
+      "step": 248
+    },
+    {
+      "epoch": 0.32087628865979384,
+      "grad_norm": 1.1355818510055542,
+      "learning_rate": 1.718157619020462e-05,
+      "loss": 0.0067,
+      "step": 249
+    },
+    {
+      "epoch": 0.32216494845360827,
+      "grad_norm": 1.8645901679992676,
+      "learning_rate": 1.715018302529852e-05,
+      "loss": 0.0126,
+      "step": 250
+    },
+    {
+      "epoch": 0.3234536082474227,
+      "grad_norm": 1.5803511142730713,
+      "learning_rate": 1.711864501478622e-05,
+      "loss": 0.0157,
+      "step": 251
+    },
+    {
+      "epoch": 0.3247422680412371,
+      "grad_norm": 2.9905714988708496,
+      "learning_rate": 1.7086962797552376e-05,
+      "loss": 0.0167,
+      "step": 252
+    },
+    {
+      "epoch": 0.32603092783505155,
+      "grad_norm": 0.2156965732574463,
+      "learning_rate": 1.7055137015402935e-05,
+      "loss": 0.0038,
+      "step": 253
+    },
+    {
+      "epoch": 0.327319587628866,
+      "grad_norm": 1.7128149271011353,
+      "learning_rate": 1.7023168313052118e-05,
+      "loss": 0.0221,
+      "step": 254
+    },
+    {
+      "epoch": 0.3286082474226804,
+      "grad_norm": 0.7819356322288513,
+      "learning_rate": 1.6991057338109376e-05,
+      "loss": 0.0043,
+      "step": 255
+    },
+    {
+      "epoch": 0.32989690721649484,
+      "grad_norm": 2.1492764949798584,
+      "learning_rate": 1.6958804741066254e-05,
+      "loss": 0.0289,
+      "step": 256
+    },
+    {
+      "epoch": 0.33118556701030927,
+      "grad_norm": 1.3265386819839478,
+      "learning_rate": 1.6926411175283227e-05,
+      "loss": 0.0091,
+      "step": 257
+    },
+    {
+      "epoch": 0.3324742268041237,
+      "grad_norm": 1.2150596380233765,
+      "learning_rate": 1.689387729697646e-05,
+      "loss": 0.0065,
+      "step": 258
+    },
+    {
+      "epoch": 0.3337628865979381,
+      "grad_norm": 1.4492149353027344,
+      "learning_rate": 1.686120376520451e-05,
+      "loss": 0.009,
+      "step": 259
+    },
+    {
+      "epoch": 0.33505154639175255,
+      "grad_norm": 0.4440682530403137,
+      "learning_rate": 1.6828391241854983e-05,
+      "loss": 0.0037,
+      "step": 260
+    },
+    {
+      "epoch": 0.33505154639175255,
+      "eval_accuracy": 0.9940417080436942,
+      "eval_f1": 0.896551724137931,
+      "eval_loss": 0.01701418310403824,
+      "eval_precision": 0.8813559322033898,
+      "eval_recall": 0.9122807017543859,
+      "eval_runtime": 86.0037,
+      "eval_samples_per_second": 5.29,
+      "eval_steps_per_second": 0.174,
+      "step": 260
+    },
+    {
+      "epoch": 0.33634020618556704,
+      "grad_norm": 0.5090395212173462,
+      "learning_rate": 1.6795440391631122e-05,
+      "loss": 0.0047,
+      "step": 261
+    },
+    {
+      "epoch": 0.33762886597938147,
+      "grad_norm": 2.755124807357788,
+      "learning_rate": 1.6762351882038342e-05,
+      "loss": 0.0169,
+      "step": 262
+    },
+    {
+      "epoch": 0.3389175257731959,
+      "grad_norm": 2.456214189529419,
+      "learning_rate": 1.6729126383370696e-05,
+      "loss": 0.031,
+      "step": 263
+    },
+    {
+      "epoch": 0.3402061855670103,
+      "grad_norm": 0.8938114047050476,
+      "learning_rate": 1.669576456869733e-05,
+      "loss": 0.0051,
+      "step": 264
+    },
+    {
+      "epoch": 0.34149484536082475,
+      "grad_norm": 0.6057696342468262,
+      "learning_rate": 1.666226711384881e-05,
+      "loss": 0.0029,
+      "step": 265
+    },
+    {
+      "epoch": 0.3427835051546392,
+      "grad_norm": 0.5478299856185913,
+      "learning_rate": 1.6628634697403447e-05,
+      "loss": 0.0026,
+      "step": 266
+    },
+    {
+      "epoch": 0.3440721649484536,
+      "grad_norm": 2.5459206104278564,
+      "learning_rate": 1.6594868000673562e-05,
+      "loss": 0.0217,
+      "step": 267
+    },
+    {
+      "epoch": 0.34536082474226804,
+      "grad_norm": 0.39067503809928894,
+      "learning_rate": 1.6560967707691663e-05,
+      "loss": 0.0034,
+      "step": 268
+    },
+    {
+      "epoch": 0.34664948453608246,
+      "grad_norm": 0.7849224209785461,
+      "learning_rate": 1.6526934505196605e-05,
+      "loss": 0.0059,
+      "step": 269
+    },
+    {
+      "epoch": 0.3479381443298969,
+      "grad_norm": 3.5039610862731934,
+      "learning_rate": 1.649276908261967e-05,
+      "loss": 0.0557,
+      "step": 270
+    },
+    {
+      "epoch": 0.3492268041237113,
+      "grad_norm": 1.609676480293274,
+      "learning_rate": 1.64584721320706e-05,
+      "loss": 0.0124,
+      "step": 271
+    },
+    {
+      "epoch": 0.35051546391752575,
+      "grad_norm": 3.219574213027954,
+      "learning_rate": 1.642404434832358e-05,
+      "loss": 0.0438,
+      "step": 272
+    },
+    {
+      "epoch": 0.35180412371134023,
+      "grad_norm": 2.468843936920166,
+      "learning_rate": 1.6389486428803173e-05,
+      "loss": 0.0084,
+      "step": 273
+    },
+    {
+      "epoch": 0.35309278350515466,
+      "grad_norm": 2.0141680240631104,
+      "learning_rate": 1.635479907357016e-05,
+      "loss": 0.0419,
+      "step": 274
+    },
+    {
+      "epoch": 0.3543814432989691,
+      "grad_norm": 1.8954237699508667,
+      "learning_rate": 1.63199829853074e-05,
+      "loss": 0.0293,
+      "step": 275
+    },
+    {
+      "epoch": 0.3556701030927835,
+      "grad_norm": 5.950355529785156,
+      "learning_rate": 1.6285038869305565e-05,
+      "loss": 0.0224,
+      "step": 276
+    },
+    {
+      "epoch": 0.35695876288659795,
+      "grad_norm": 0.3175673186779022,
+      "learning_rate": 1.624996743344887e-05,
+      "loss": 0.002,
+      "step": 277
+    },
+    {
+      "epoch": 0.3582474226804124,
+      "grad_norm": 1.8034769296646118,
+      "learning_rate": 1.621476938820071e-05,
+      "loss": 0.0107,
+      "step": 278
+    },
+    {
+      "epoch": 0.3595360824742268,
+      "grad_norm": 4.965821743011475,
+      "learning_rate": 1.6179445446589308e-05,
+      "loss": 0.019,
+      "step": 279
+    },
+    {
+      "epoch": 0.36082474226804123,
+      "grad_norm": 2.015825033187866,
+      "learning_rate": 1.6143996324193227e-05,
+      "loss": 0.0076,
+      "step": 280
+    },
+    {
+      "epoch": 0.36082474226804123,
+      "eval_accuracy": 0.9955312810327706,
+      "eval_f1": 0.9230769230769231,
+      "eval_loss": 0.018561244010925293,
+      "eval_precision": 0.9,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 85.7232,
+      "eval_samples_per_second": 5.308,
+      "eval_steps_per_second": 0.175,
+      "step": 280
+    },
+    {
+      "epoch": 0.36211340206185566,
+      "grad_norm": 0.7538387179374695,
+      "learning_rate": 1.6108422739126896e-05,
+      "loss": 0.0053,
+      "step": 281
+    },
+    {
+      "epoch": 0.3634020618556701,
+      "grad_norm": 6.5049309730529785,
+      "learning_rate": 1.6072725412026066e-05,
+      "loss": 0.0248,
+      "step": 282
+    },
+    {
+      "epoch": 0.3646907216494845,
+      "grad_norm": 2.8648669719696045,
+      "learning_rate": 1.6036905066033207e-05,
+      "loss": 0.0055,
+      "step": 283
+    },
+    {
+      "epoch": 0.36597938144329895,
+      "grad_norm": 0.21768106520175934,
+      "learning_rate": 1.6000962426782844e-05,
+      "loss": 0.0011,
+      "step": 284
+    },
+    {
+      "epoch": 0.36726804123711343,
+      "grad_norm": 1.1262462139129639,
+      "learning_rate": 1.596489822238689e-05,
+      "loss": 0.0103,
+      "step": 285
+    },
+    {
+      "epoch": 0.36855670103092786,
+      "grad_norm": 0.8232690095901489,
+      "learning_rate": 1.592871318341986e-05,
+      "loss": 0.0036,
+      "step": 286
+    },
+    {
+      "epoch": 0.3698453608247423,
+      "grad_norm": 3.285132646560669,
+      "learning_rate": 1.5892408042904098e-05,
+      "loss": 0.0073,
+      "step": 287
+    },
+    {
+      "epoch": 0.3711340206185567,
+      "grad_norm": 0.6526831388473511,
+      "learning_rate": 1.585598353629492e-05,
+      "loss": 0.0044,
+      "step": 288
+    },
+    {
+      "epoch": 0.37242268041237114,
+      "grad_norm": 0.3050073981285095,
+      "learning_rate": 1.58194404014657e-05,
+      "loss": 0.0016,
+      "step": 289
+    },
+    {
+      "epoch": 0.37371134020618557,
+      "grad_norm": 4.195672988891602,
+      "learning_rate": 1.5782779378692957e-05,
+      "loss": 0.0229,
+      "step": 290
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 2.8954057693481445,
+      "learning_rate": 1.5746001210641316e-05,
+      "loss": 0.0169,
+      "step": 291
+    },
+    {
+      "epoch": 0.37628865979381443,
+      "grad_norm": 0.4121025800704956,
+      "learning_rate": 1.57091066423485e-05,
+      "loss": 0.0027,
+      "step": 292
+    },
+    {
+      "epoch": 0.37757731958762886,
+      "grad_norm": 1.3155614137649536,
+      "learning_rate": 1.5672096421210217e-05,
+      "loss": 0.0139,
+      "step": 293
+    },
+    {
+      "epoch": 0.3788659793814433,
+      "grad_norm": 0.1106419637799263,
+      "learning_rate": 1.5634971296965027e-05,
+      "loss": 0.0008,
+      "step": 294
+    },
+    {
+      "epoch": 0.3801546391752577,
+      "grad_norm": 0.11678878217935562,
+      "learning_rate": 1.5597732021679153e-05,
+      "loss": 0.0008,
+      "step": 295
+    },
+    {
+      "epoch": 0.38144329896907214,
+      "grad_norm": 2.1817727088928223,
+      "learning_rate": 1.5560379349731234e-05,
+      "loss": 0.0171,
+      "step": 296
+    },
+    {
+      "epoch": 0.38273195876288657,
+      "grad_norm": 2.412383556365967,
+      "learning_rate": 1.552291403779707e-05,
+      "loss": 0.0203,
+      "step": 297
+    },
+    {
+      "epoch": 0.38402061855670105,
+      "grad_norm": 2.77812123298645,
+      "learning_rate": 1.5485336844834274e-05,
+      "loss": 0.0134,
+      "step": 298
+    },
+    {
+      "epoch": 0.3853092783505155,
+      "grad_norm": 0.05827389657497406,
+      "learning_rate": 1.544764853206689e-05,
+      "loss": 0.0005,
+      "step": 299
+    },
+    {
+      "epoch": 0.3865979381443299,
+      "grad_norm": 1.8391661643981934,
+      "learning_rate": 1.5409849862969994e-05,
+      "loss": 0.0133,
+      "step": 300
+    },
+    {
+      "epoch": 0.3865979381443299,
+      "eval_accuracy": 0.9975173783515392,
+      "eval_f1": 0.9557522123893806,
+      "eval_loss": 0.015246791765093803,
+      "eval_precision": 0.9642857142857143,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 85.9032,
+      "eval_samples_per_second": 5.297,
+      "eval_steps_per_second": 0.175,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0011678798669414e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null