Training in progress, step 200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8dbe76f35e5656136a51bded0139fef27a2028b00f8f726fd0d386bb3522e13
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:d943c6bfd2dc2b761b4d682134e0a0fc60ac1cb4096855e5091cc3393184aa64
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b66c1ebc853e6845470c2c1d9d04f694dccd7d0e852c4bc0fff9a7f3b72ba092
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:376a9db1af520346798c868246148f3564e7f951f971cfad89c922d341bf7f29
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ac9e1924ab634b10849be3ecb1321e5393dbc84ae65beaffd307850b3ae9f82
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:9178eab5bc585c22cd46ed2fc1e92f4fdda57d7a3fa8d58230990de0c4d1f153
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc2b2b52b7b5b1c43d8786246ce0c4845f1a27260d756e383ebd9ee1be107e16
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:664f4c51ad8b8db2543ac5506c908df582362cb40fdd8ba94c8d4d17fd478154
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89bc93c64b991b306a939f0419250bf9841787d18646263da1e9b2c8779f9699
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:21d1ac001b88f8a5c52ed311d48d65c35c0b16a38d8e46e3f8f798f890a0ff73
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ca40ef1084fb0572972d0d791f24456333f4e2bb411fb46f1d9fd3067b04bb8
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce135a57bb7016f162e8a5a5cf147734c4de738983a8be7d0e78e3767402b122
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eacdb71077b64054c4a56453b8184802582c4895bcb7585409a5be89035fca7
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b143b6fca120ff625503c29f4c425415e9b350b6c85048892c81f6d44c3563a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:293394047fb4a3a8ea9a2c352bdfb1e609e58a84c1d1613313fea1af7bf3513c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cec8c8fdc32c70be31edda43085207cfa5ae9a7dbb023c61d9fae6f55d607e9e
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b9a1f1e453a43f83aa53b56d67647ccab7a6102d29ca677d252db57c6d84112
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:6151a2afa91abecb8de37b99e4409d6e56f16b75b43592d3da5abbb3ee272563
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b096e91cd08927cf4ae4abd0d391ce5ada891c3fc1b2de21881502f3589eb
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:d72bd74ab0857553e9460d81b4abc084b39a8189791c68c03d4ede2cfc8a8c60
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e41f09d05169607eee8dce8b84f8f78818000c06c0c89cf2ba601fd24a650bd
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c5f15126da64891eca473dd1e04d5b41141f581a035a13b14aee5904e6e3f7e
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:418fcb9eed9f4b34f4356e235c9f424e1c20f8f4d59e678e6ebeeb8a33e83523
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:135e2ac2b5b60d2eeef0012629f402a00ab445fa2c678e7dedd20b300813acb6
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afecba1fad91cfcc309b7789abc8c48e2a84100fb8c489eb3925241bd70b9c9d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6f67a0e885145319f81ed1f8c4c49622761e3f92d5ce81c356bbb700855e8e6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12886597938144329,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 5.346,
       "eval_steps_per_second": 0.176,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.347688371467059e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.25773195876288657,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.346,
       "eval_steps_per_second": 0.176,
       "step": 100
+    },
+    {
+      "epoch": 0.13015463917525774,
+      "grad_norm": 2.9534921646118164,
+      "learning_rate": 1.994646636835458e-05,
+      "loss": 0.0741,
+      "step": 101
+    },
+    {
+      "epoch": 0.13144329896907217,
+      "grad_norm": 2.0482945442199707,
+      "learning_rate": 1.9941714697703333e-05,
+      "loss": 0.0596,
+      "step": 102
+    },
+    {
+      "epoch": 0.1327319587628866,
+      "grad_norm": 0.8915924429893494,
+      "learning_rate": 1.9936761631691007e-05,
+      "loss": 0.0271,
+      "step": 103
+    },
+    {
+      "epoch": 0.13402061855670103,
+      "grad_norm": 3.5569581985473633,
+      "learning_rate": 1.993160727065489e-05,
+      "loss": 0.097,
+      "step": 104
+    },
+    {
+      "epoch": 0.13530927835051546,
+      "grad_norm": 1.0290688276290894,
+      "learning_rate": 1.992625171901e-05,
+      "loss": 0.0309,
+      "step": 105
+    },
+    {
+      "epoch": 0.13659793814432988,
+      "grad_norm": 3.104780673980713,
+      "learning_rate": 1.9920695085247012e-05,
+      "loss": 0.0466,
+      "step": 106
+    },
+    {
+      "epoch": 0.13788659793814434,
+      "grad_norm": 1.300478458404541,
+      "learning_rate": 1.991493748193002e-05,
+      "loss": 0.035,
+      "step": 107
+    },
+    {
+      "epoch": 0.13917525773195877,
+      "grad_norm": 1.9571739435195923,
+      "learning_rate": 1.9908979025694312e-05,
+      "loss": 0.0432,
+      "step": 108
+    },
+    {
+      "epoch": 0.1404639175257732,
+      "grad_norm": 0.9955072402954102,
+      "learning_rate": 1.9902819837243954e-05,
+      "loss": 0.0182,
+      "step": 109
+    },
+    {
+      "epoch": 0.14175257731958762,
+      "grad_norm": 1.2352385520935059,
+      "learning_rate": 1.989646004134937e-05,
+      "loss": 0.0338,
+      "step": 110
+    },
+    {
+      "epoch": 0.14304123711340205,
+      "grad_norm": 2.855053663253784,
+      "learning_rate": 1.9889899766844817e-05,
+      "loss": 0.0701,
+      "step": 111
+    },
+    {
+      "epoch": 0.14432989690721648,
+      "grad_norm": 2.372802495956421,
+      "learning_rate": 1.9883139146625763e-05,
+      "loss": 0.0386,
+      "step": 112
+    },
+    {
+      "epoch": 0.14561855670103094,
+      "grad_norm": 1.9221031665802002,
+      "learning_rate": 1.9876178317646203e-05,
+      "loss": 0.0277,
+      "step": 113
+    },
+    {
+      "epoch": 0.14690721649484537,
+      "grad_norm": 0.9431936144828796,
+      "learning_rate": 1.9869017420915888e-05,
+      "loss": 0.0188,
+      "step": 114
+    },
+    {
+      "epoch": 0.1481958762886598,
+      "grad_norm": 1.950210690498352,
+      "learning_rate": 1.9861656601497452e-05,
+      "loss": 0.0302,
+      "step": 115
+    },
+    {
+      "epoch": 0.14948453608247422,
+      "grad_norm": 3.239633560180664,
+      "learning_rate": 1.9854096008503495e-05,
+      "loss": 0.0416,
+      "step": 116
+    },
+    {
+      "epoch": 0.15077319587628865,
+      "grad_norm": 3.1708860397338867,
+      "learning_rate": 1.9846335795093547e-05,
+      "loss": 0.0688,
+      "step": 117
+    },
+    {
+      "epoch": 0.15206185567010308,
+      "grad_norm": 0.6930286288261414,
+      "learning_rate": 1.9838376118470965e-05,
+      "loss": 0.0141,
+      "step": 118
+    },
+    {
+      "epoch": 0.15335051546391754,
+      "grad_norm": 2.929121971130371,
+      "learning_rate": 1.9830217139879768e-05,
+      "loss": 0.034,
+      "step": 119
+    },
+    {
+      "epoch": 0.15463917525773196,
+      "grad_norm": 1.3847970962524414,
+      "learning_rate": 1.9821859024601345e-05,
+      "loss": 0.03,
+      "step": 120
+    },
+    {
+      "epoch": 0.15463917525773196,
+      "eval_accuracy": 0.9821251241310824,
+      "eval_f1": 0.7391304347826086,
+      "eval_loss": 0.04716553911566734,
+      "eval_precision": 0.6296296296296297,
+      "eval_recall": 0.8947368421052632,
+      "eval_runtime": 83.825,
+      "eval_samples_per_second": 5.428,
+      "eval_steps_per_second": 0.179,
+      "step": 120
+    },
+    {
+      "epoch": 0.1559278350515464,
+      "grad_norm": 2.072525978088379,
+      "learning_rate": 1.981330194195112e-05,
+      "loss": 0.016,
+      "step": 121
+    },
+    {
+      "epoch": 0.15721649484536082,
+      "grad_norm": 3.0791800022125244,
+      "learning_rate": 1.9804546065275116e-05,
+      "loss": 0.0618,
+      "step": 122
+    },
+    {
+      "epoch": 0.15850515463917525,
+      "grad_norm": 2.1992335319519043,
+      "learning_rate": 1.9795591571946454e-05,
+      "loss": 0.0276,
+      "step": 123
+    },
+    {
+      "epoch": 0.15979381443298968,
+      "grad_norm": 2.476609706878662,
+      "learning_rate": 1.978643864336176e-05,
+      "loss": 0.0207,
+      "step": 124
+    },
+    {
+      "epoch": 0.16108247422680413,
+      "grad_norm": 2.674210786819458,
+      "learning_rate": 1.9777087464937464e-05,
+      "loss": 0.0378,
+      "step": 125
+    },
+    {
+      "epoch": 0.16237113402061856,
+      "grad_norm": 2.6775150299072266,
+      "learning_rate": 1.9767538226106078e-05,
+      "loss": 0.0312,
+      "step": 126
+    },
+    {
+      "epoch": 0.163659793814433,
+      "grad_norm": 2.105435848236084,
+      "learning_rate": 1.9757791120312344e-05,
+      "loss": 0.0239,
+      "step": 127
+    },
+    {
+      "epoch": 0.16494845360824742,
+      "grad_norm": 1.7885074615478516,
+      "learning_rate": 1.9747846345009306e-05,
+      "loss": 0.0402,
+      "step": 128
+    },
+    {
+      "epoch": 0.16623711340206185,
+      "grad_norm": 4.384532451629639,
+      "learning_rate": 1.9737704101654335e-05,
+      "loss": 0.0674,
+      "step": 129
+    },
+    {
+      "epoch": 0.16752577319587628,
+      "grad_norm": 0.733161211013794,
+      "learning_rate": 1.9727364595705012e-05,
+      "loss": 0.0109,
+      "step": 130
+    },
+    {
+      "epoch": 0.16881443298969073,
+      "grad_norm": 2.310255765914917,
+      "learning_rate": 1.9716828036615006e-05,
+      "loss": 0.0245,
+      "step": 131
+    },
+    {
+      "epoch": 0.17010309278350516,
+      "grad_norm": 2.1358768939971924,
+      "learning_rate": 1.9706094637829797e-05,
+      "loss": 0.0506,
+      "step": 132
+    },
+    {
+      "epoch": 0.1713917525773196,
+      "grad_norm": 1.873978853225708,
+      "learning_rate": 1.9695164616782378e-05,
+      "loss": 0.0239,
+      "step": 133
+    },
+    {
+      "epoch": 0.17268041237113402,
+      "grad_norm": 3.210780620574951,
+      "learning_rate": 1.9684038194888827e-05,
+      "loss": 0.0453,
+      "step": 134
+    },
+    {
+      "epoch": 0.17396907216494845,
+      "grad_norm": 2.6000077724456787,
+      "learning_rate": 1.9672715597543845e-05,
+      "loss": 0.0222,
+      "step": 135
+    },
+    {
+      "epoch": 0.17525773195876287,
+      "grad_norm": 0.8902448415756226,
+      "learning_rate": 1.9661197054116165e-05,
+      "loss": 0.0114,
+      "step": 136
+    },
+    {
+      "epoch": 0.17654639175257733,
+      "grad_norm": 2.048377513885498,
+      "learning_rate": 1.964948279794393e-05,
+      "loss": 0.0299,
+      "step": 137
+    },
+    {
+      "epoch": 0.17783505154639176,
+      "grad_norm": 0.35185545682907104,
+      "learning_rate": 1.963757306632996e-05,
+      "loss": 0.0062,
+      "step": 138
+    },
+    {
+      "epoch": 0.1791237113402062,
+      "grad_norm": 0.8665434122085571,
+      "learning_rate": 1.962546810053692e-05,
+      "loss": 0.0122,
+      "step": 139
+    },
+    {
+      "epoch": 0.18041237113402062,
+      "grad_norm": 0.7568170428276062,
+      "learning_rate": 1.9613168145782468e-05,
+      "loss": 0.0109,
+      "step": 140
+    },
+    {
+      "epoch": 0.18041237113402062,
+      "eval_accuracy": 0.9910625620655412,
+      "eval_f1": 0.8448275862068966,
+      "eval_loss": 0.03413279354572296,
+      "eval_precision": 0.8305084745762712,
+      "eval_recall": 0.8596491228070176,
+      "eval_runtime": 83.9067,
+      "eval_samples_per_second": 5.423,
+      "eval_steps_per_second": 0.179,
+      "step": 140
+    },
+    {
+      "epoch": 0.18170103092783504,
+      "grad_norm": 2.2702317237854004,
+      "learning_rate": 1.960067345123427e-05,
+      "loss": 0.0247,
+      "step": 141
+    },
+    {
+      "epoch": 0.18298969072164947,
+      "grad_norm": 3.507333755493164,
+      "learning_rate": 1.958798427000495e-05,
+      "loss": 0.0297,
+      "step": 142
+    },
+    {
+      "epoch": 0.18427835051546393,
+      "grad_norm": 0.5789155960083008,
+      "learning_rate": 1.9575100859146974e-05,
+      "loss": 0.013,
+      "step": 143
+    },
+    {
+      "epoch": 0.18556701030927836,
+      "grad_norm": 1.9476535320281982,
+      "learning_rate": 1.956202347964743e-05,
+      "loss": 0.0208,
+      "step": 144
+    },
+    {
+      "epoch": 0.18685567010309279,
+      "grad_norm": 0.855241060256958,
+      "learning_rate": 1.954875239642274e-05,
+      "loss": 0.0071,
+      "step": 145
+    },
+    {
+      "epoch": 0.18814432989690721,
+      "grad_norm": 2.169466495513916,
+      "learning_rate": 1.9535287878313315e-05,
+      "loss": 0.0191,
+      "step": 146
+    },
+    {
+      "epoch": 0.18943298969072164,
+      "grad_norm": 1.1874339580535889,
+      "learning_rate": 1.952163019807809e-05,
+      "loss": 0.0086,
+      "step": 147
+    },
+    {
+      "epoch": 0.19072164948453607,
+      "grad_norm": 3.9380855560302734,
+      "learning_rate": 1.9507779632388997e-05,
+      "loss": 0.0264,
+      "step": 148
+    },
+    {
+      "epoch": 0.19201030927835053,
+      "grad_norm": 2.052539587020874,
+      "learning_rate": 1.9493736461825366e-05,
+      "loss": 0.0126,
+      "step": 149
+    },
+    {
+      "epoch": 0.19329896907216496,
+      "grad_norm": 2.4338552951812744,
+      "learning_rate": 1.947950097086825e-05,
+      "loss": 0.0426,
+      "step": 150
+    },
+    {
+      "epoch": 0.19458762886597938,
+      "grad_norm": 1.8210889101028442,
+      "learning_rate": 1.946507344789464e-05,
+      "loss": 0.0088,
+      "step": 151
+    },
+    {
+      "epoch": 0.1958762886597938,
+      "grad_norm": 0.9345032572746277,
+      "learning_rate": 1.945045418517165e-05,
+      "loss": 0.01,
+      "step": 152
+    },
+    {
+      "epoch": 0.19716494845360824,
+      "grad_norm": 2.274660587310791,
+      "learning_rate": 1.9435643478850573e-05,
+      "loss": 0.0208,
+      "step": 153
+    },
+    {
+      "epoch": 0.19845360824742267,
+      "grad_norm": 1.3613721132278442,
+      "learning_rate": 1.9420641628960897e-05,
+      "loss": 0.0136,
+      "step": 154
+    },
+    {
+      "epoch": 0.19974226804123713,
+      "grad_norm": 0.8850100040435791,
+      "learning_rate": 1.9405448939404215e-05,
+      "loss": 0.009,
+      "step": 155
+    },
+    {
+      "epoch": 0.20103092783505155,
+      "grad_norm": 0.5833643078804016,
+      "learning_rate": 1.9390065717948084e-05,
+      "loss": 0.0046,
+      "step": 156
+    },
+    {
+      "epoch": 0.20231958762886598,
+      "grad_norm": 0.42478522658348083,
+      "learning_rate": 1.9374492276219776e-05,
+      "loss": 0.0052,
+      "step": 157
+    },
+    {
+      "epoch": 0.2036082474226804,
+      "grad_norm": 1.2607591152191162,
+      "learning_rate": 1.9358728929699966e-05,
+      "loss": 0.0101,
+      "step": 158
+    },
+    {
+      "epoch": 0.20489690721649484,
+      "grad_norm": 1.5455127954483032,
+      "learning_rate": 1.9342775997716357e-05,
+      "loss": 0.0051,
+      "step": 159
+    },
+    {
+      "epoch": 0.20618556701030927,
+      "grad_norm": 5.292853832244873,
+      "learning_rate": 1.9326633803437197e-05,
+      "loss": 0.043,
+      "step": 160
+    },
+    {
+      "epoch": 0.20618556701030927,
+      "eval_accuracy": 0.9915590863952334,
+      "eval_f1": 0.8547008547008547,
+      "eval_loss": 0.033666037023067474,
+      "eval_precision": 0.8333333333333334,
+      "eval_recall": 0.8771929824561403,
+      "eval_runtime": 83.7677,
+      "eval_samples_per_second": 5.432,
+      "eval_steps_per_second": 0.179,
+      "step": 160
+    },
+    {
+      "epoch": 0.20747422680412372,
+      "grad_norm": 5.327892303466797,
+      "learning_rate": 1.9310302673864724e-05,
+      "loss": 0.057,
+      "step": 161
+    },
+    {
+      "epoch": 0.20876288659793815,
+      "grad_norm": 2.6782376766204834,
+      "learning_rate": 1.929378293982857e-05,
+      "loss": 0.0288,
+      "step": 162
+    },
+    {
+      "epoch": 0.21005154639175258,
+      "grad_norm": 1.8482961654663086,
+      "learning_rate": 1.9277074935979034e-05,
+      "loss": 0.0087,
+      "step": 163
+    },
+    {
+      "epoch": 0.211340206185567,
+      "grad_norm": 0.3108800947666168,
+      "learning_rate": 1.926017900078031e-05,
+      "loss": 0.002,
+      "step": 164
+    },
+    {
+      "epoch": 0.21262886597938144,
+      "grad_norm": 6.560524940490723,
+      "learning_rate": 1.924309547650363e-05,
+      "loss": 0.0385,
+      "step": 165
+    },
+    {
+      "epoch": 0.21391752577319587,
+      "grad_norm": 1.7873457670211792,
+      "learning_rate": 1.922582470922034e-05,
+      "loss": 0.006,
+      "step": 166
+    },
+    {
+      "epoch": 0.21520618556701032,
+      "grad_norm": 4.115209102630615,
+      "learning_rate": 1.9208367048794878e-05,
+      "loss": 0.0095,
+      "step": 167
+    },
+    {
+      "epoch": 0.21649484536082475,
+      "grad_norm": 3.2223434448242188,
+      "learning_rate": 1.9190722848877683e-05,
+      "loss": 0.0151,
+      "step": 168
+    },
+    {
+      "epoch": 0.21778350515463918,
+      "grad_norm": 4.802370071411133,
+      "learning_rate": 1.9172892466898047e-05,
+      "loss": 0.0576,
+      "step": 169
+    },
+    {
+      "epoch": 0.2190721649484536,
+      "grad_norm": 2.843043327331543,
+      "learning_rate": 1.9154876264056863e-05,
+      "loss": 0.0116,
+      "step": 170
+    },
+    {
+      "epoch": 0.22036082474226804,
+      "grad_norm": 1.8300056457519531,
+      "learning_rate": 1.9136674605319304e-05,
+      "loss": 0.0048,
+      "step": 171
+    },
+    {
+      "epoch": 0.22164948453608246,
+      "grad_norm": 0.7112641930580139,
+      "learning_rate": 1.911828785940745e-05,
+      "loss": 0.0029,
+      "step": 172
+    },
+    {
+      "epoch": 0.22293814432989692,
+      "grad_norm": 3.5936992168426514,
+      "learning_rate": 1.9099716398792788e-05,
+      "loss": 0.0335,
+      "step": 173
+    },
+    {
+      "epoch": 0.22422680412371135,
+      "grad_norm": 2.8544235229492188,
+      "learning_rate": 1.908096059968869e-05,
+      "loss": 0.0207,
+      "step": 174
+    },
+    {
+      "epoch": 0.22551546391752578,
+      "grad_norm": 3.7631168365478516,
+      "learning_rate": 1.906202084204279e-05,
+      "loss": 0.0212,
+      "step": 175
+    },
+    {
+      "epoch": 0.2268041237113402,
+      "grad_norm": 1.2712973356246948,
+      "learning_rate": 1.904289750952928e-05,
+      "loss": 0.0084,
+      "step": 176
+    },
+    {
+      "epoch": 0.22809278350515463,
+      "grad_norm": 2.580491542816162,
+      "learning_rate": 1.9023590989541126e-05,
+      "loss": 0.0151,
+      "step": 177
+    },
+    {
+      "epoch": 0.22938144329896906,
+      "grad_norm": 6.0741777420043945,
+      "learning_rate": 1.900410167318226e-05,
+      "loss": 0.0616,
+      "step": 178
+    },
+    {
+      "epoch": 0.23067010309278352,
+      "grad_norm": 1.9606350660324097,
+      "learning_rate": 1.8984429955259607e-05,
+      "loss": 0.0305,
+      "step": 179
+    },
+    {
+      "epoch": 0.23195876288659795,
+      "grad_norm": 4.825283527374268,
+      "learning_rate": 1.8964576234275123e-05,
+      "loss": 0.0233,
+      "step": 180
+    },
+    {
+      "epoch": 0.23195876288659795,
+      "eval_accuracy": 0.9925521350546177,
+      "eval_f1": 0.8760330578512396,
+      "eval_loss": 0.027217118069529533,
+      "eval_precision": 0.828125,
+      "eval_recall": 0.9298245614035088,
+      "eval_runtime": 84.1193,
+      "eval_samples_per_second": 5.409,
+      "eval_steps_per_second": 0.178,
+      "step": 180
+    },
+    {
+      "epoch": 0.23324742268041238,
+      "grad_norm": 3.7470309734344482,
+      "learning_rate": 1.894454091241771e-05,
+      "loss": 0.0375,
+      "step": 181
+    },
+    {
+      "epoch": 0.2345360824742268,
+      "grad_norm": 5.566728115081787,
+      "learning_rate": 1.8924324395555066e-05,
+      "loss": 0.0397,
+      "step": 182
+    },
+    {
+      "epoch": 0.23582474226804123,
+      "grad_norm": 4.115679740905762,
+      "learning_rate": 1.8903927093225474e-05,
+      "loss": 0.0318,
+      "step": 183
+    },
+    {
+      "epoch": 0.23711340206185566,
+      "grad_norm": 2.0655646324157715,
+      "learning_rate": 1.8883349418629487e-05,
+      "loss": 0.0502,
+      "step": 184
+    },
+    {
+      "epoch": 0.23840206185567012,
+      "grad_norm": 3.514209270477295,
+      "learning_rate": 1.8862591788621572e-05,
+      "loss": 0.034,
+      "step": 185
+    },
+    {
+      "epoch": 0.23969072164948454,
+      "grad_norm": 2.274663209915161,
+      "learning_rate": 1.8841654623701673e-05,
+      "loss": 0.0105,
+      "step": 186
+    },
+    {
+      "epoch": 0.24097938144329897,
+      "grad_norm": 1.3190113306045532,
+      "learning_rate": 1.8820538348006666e-05,
+      "loss": 0.0099,
+      "step": 187
+    },
+    {
+      "epoch": 0.2422680412371134,
+      "grad_norm": 1.9200594425201416,
+      "learning_rate": 1.8799243389301796e-05,
+      "loss": 0.0087,
+      "step": 188
+    },
+    {
+      "epoch": 0.24355670103092783,
+      "grad_norm": 3.5742523670196533,
+      "learning_rate": 1.877777017897199e-05,
+      "loss": 0.0383,
+      "step": 189
+    },
+    {
+      "epoch": 0.24484536082474226,
+      "grad_norm": 2.926935911178589,
+      "learning_rate": 1.8756119152013134e-05,
+      "loss": 0.0198,
+      "step": 190
+    },
+    {
+      "epoch": 0.24613402061855671,
+      "grad_norm": 4.095611095428467,
+      "learning_rate": 1.873429074702324e-05,
+      "loss": 0.0151,
+      "step": 191
+    },
+    {
+      "epoch": 0.24742268041237114,
+      "grad_norm": 1.0907986164093018,
+      "learning_rate": 1.8712285406193585e-05,
+      "loss": 0.0059,
+      "step": 192
+    },
+    {
+      "epoch": 0.24871134020618557,
+      "grad_norm": 1.646490454673767,
+      "learning_rate": 1.8690103575299754e-05,
+      "loss": 0.0262,
+      "step": 193
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.9283900856971741,
+      "learning_rate": 1.866774570369257e-05,
+      "loss": 0.0071,
+      "step": 194
+    },
+    {
+      "epoch": 0.25128865979381443,
+      "grad_norm": 1.8307346105575562,
+      "learning_rate": 1.8645212244289047e-05,
+      "loss": 0.0246,
+      "step": 195
+    },
+    {
+      "epoch": 0.25257731958762886,
+      "grad_norm": 1.3150577545166016,
+      "learning_rate": 1.8622503653563173e-05,
+      "loss": 0.0198,
+      "step": 196
+    },
+    {
+      "epoch": 0.2538659793814433,
+      "grad_norm": 3.4825661182403564,
+      "learning_rate": 1.8599620391536682e-05,
+      "loss": 0.0136,
+      "step": 197
+    },
+    {
+      "epoch": 0.2551546391752577,
+      "grad_norm": 5.4773077964782715,
+      "learning_rate": 1.8576562921769727e-05,
+      "loss": 0.0223,
+      "step": 198
+    },
+    {
+      "epoch": 0.25644329896907214,
+      "grad_norm": 3.3178765773773193,
+      "learning_rate": 1.8553331711351502e-05,
+      "loss": 0.0392,
+      "step": 199
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "grad_norm": 4.358588218688965,
+      "learning_rate": 1.8529927230890757e-05,
+      "loss": 0.029,
+      "step": 200
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "eval_accuracy": 0.9920556107249255,
+      "eval_f1": 0.8666666666666667,
+      "eval_loss": 0.02330821380019188,
+      "eval_precision": 0.8253968253968254,
+      "eval_recall": 0.9122807017543859,
+      "eval_runtime": 84.2136,
+      "eval_samples_per_second": 5.403,
+      "eval_steps_per_second": 0.178,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.685140289008435e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null