Training in progress, step 1300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e285698db4156337898b7507bc447cf892df1b2e2b1f627fbfa7fcf49ead7fe
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:b360a4328f640ed51ddaf65beb21759c2322654758d2b7b7f6e00f66a17354f8
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9347512a71b948ad7d0474b073744a28f38ea1b0f4808b47eaeee3bb038ee2a
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:20d1395c5a780e12bd9c2d3c0a3a98e6d11c049377ae734be8b4c6bec63af7cd
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61fe8222129691fd1c629440ebc055a5e22b32348d82bc6fb97d18d537ba38e6
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:b980d02c86a12c4ddd321afa25558b9bda6ce7377f5a7301fbc73043dd7e72fd
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb287ee7b4f22bfca83b3038b7765964ff726a01edfa1c77cefcecc5baaede6f
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:4716794fe32a12753a15aca9b69a92b8ff2a13cc9a1449ccd27487d4a1ca9a7d
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8135e2cfc3f870ad4d1b9488a555f6cbbcb61951312e0f574806197a3d04752
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c424477fe3f3aa933900f713ea30de6e63503f0eb3c14d4b5a3fd7be751453c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fd0182149b3046646213abcc88b729a39d44a31db12d71321dcf1672762dc92
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:992a85fd0f9141e2a7ce8e4ce2c770b6564f0c5de13f4c613cc4d93bc456ab03
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ecceaf4d23428de4f6eaf8a4db08e58b3b9e512e0fc350f3d39b90547824dde
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0f386445b7a0ecca12a354673d12666bd045fe42bc66c5282186ece7173d4fd
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93904d1910182fe133491da7a6c8bc9c6713b5f0c66d57fd0a846b185647198d
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:81c7ec7bbec3615990bf78e011b0f7bc719d60680964d34bbac0633971dd9f36
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f18ad258e576a1beb656290ab7d2a2eb5c1c200ce0d83645abdc17af01ce6b3
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce0c8f8d9638136cb5308b0b5847756c4993f316ede670798b5676d4508282ce
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4328b792cfa04ae062613c520f6291678aade826256d6a52acb864dcba8e97aa
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc378caf9e3227b70a474c0063f96ad82cc21701d0d5fa1f12d57ba19770909f
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8758a5d59dbad9a4b9628b626e50cf69861f409943163aab71d6b7d54040e68
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:41e92489ba1b6fe609dc774dd68b88282000969f034d53fc7540c25e859de003
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37d46b3ff156d0196e9a5d0a8efb49f4baca17f2c23d7f5843e853b9795049d4
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:037f3e8e143701c6dab9d7f5db31ada1d1f6e223405cca2ab7ccd4b03d64aac8
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:477a17a25cc7623279d8aa8946f887744ea0510845075294476c6dcaa37cf69c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:230ef6b51382a71e81c933c6e0f89f49737687e37bb89c538f18f98f56a78ee9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9184845005740528,
   "eval_steps": 20,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9139,6 +9139,766 @@
       "eval_samples_per_second": 6.853,
       "eval_steps_per_second": 0.228,
       "step": 1200
     }
   ],
   "logging_steps": 1,
@@ -9158,7 +9918,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8435297220388454e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9950248756218906,
   "eval_steps": 20,
+  "global_step": 1300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.853,
       "eval_steps_per_second": 0.228,
       "step": 1200
+    },
+    {
+      "epoch": 0.9192499043245312,
+      "grad_norm": 4.442579746246338,
+      "learning_rate": 3.914879239610392e-07,
+      "loss": 0.186,
+      "step": 1201
+    },
+    {
+      "epoch": 0.9200153080750095,
+      "grad_norm": 5.45106315612793,
+      "learning_rate": 3.8411440400117685e-07,
+      "loss": 0.1837,
+      "step": 1202
+    },
+    {
+      "epoch": 0.9207807118254879,
+      "grad_norm": 4.747509479522705,
+      "learning_rate": 3.768096245974129e-07,
+      "loss": 0.2562,
+      "step": 1203
+    },
+    {
+      "epoch": 0.9215461155759663,
+      "grad_norm": 6.138671398162842,
+      "learning_rate": 3.69573637969024e-07,
+      "loss": 0.3244,
+      "step": 1204
+    },
+    {
+      "epoch": 0.9223115193264447,
+      "grad_norm": 7.972070217132568,
+      "learning_rate": 3.6240649584351137e-07,
+      "loss": 0.4027,
+      "step": 1205
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 8.4572172164917,
+      "learning_rate": 3.553082494562354e-07,
+      "loss": 0.4941,
+      "step": 1206
+    },
+    {
+      "epoch": 0.9238423268274014,
+      "grad_norm": 9.352378845214844,
+      "learning_rate": 3.4827894955003825e-07,
+      "loss": 0.448,
+      "step": 1207
+    },
+    {
+      "epoch": 0.9246077305778798,
+      "grad_norm": 7.637875556945801,
+      "learning_rate": 3.413186463748941e-07,
+      "loss": 0.2718,
+      "step": 1208
+    },
+    {
+      "epoch": 0.9253731343283582,
+      "grad_norm": 8.596519470214844,
+      "learning_rate": 3.3442738968754164e-07,
+      "loss": 0.2043,
+      "step": 1209
+    },
+    {
+      "epoch": 0.9261385380788366,
+      "grad_norm": 11.038840293884277,
+      "learning_rate": 3.276052287511333e-07,
+      "loss": 0.2731,
+      "step": 1210
+    },
+    {
+      "epoch": 0.926903941829315,
+      "grad_norm": 6.149134635925293,
+      "learning_rate": 3.2085221233487564e-07,
+      "loss": 0.3046,
+      "step": 1211
+    },
+    {
+      "epoch": 0.9276693455797933,
+      "grad_norm": 5.461088180541992,
+      "learning_rate": 3.1416838871368925e-07,
+      "loss": 0.2553,
+      "step": 1212
+    },
+    {
+      "epoch": 0.9284347493302717,
+      "grad_norm": 8.15916919708252,
+      "learning_rate": 3.0755380566785955e-07,
+      "loss": 0.2793,
+      "step": 1213
+    },
+    {
+      "epoch": 0.9292001530807501,
+      "grad_norm": 6.028532028198242,
+      "learning_rate": 3.010085104826932e-07,
+      "loss": 0.2108,
+      "step": 1214
+    },
+    {
+      "epoch": 0.9299655568312285,
+      "grad_norm": 9.626595497131348,
+      "learning_rate": 2.945325499481855e-07,
+      "loss": 0.2889,
+      "step": 1215
+    },
+    {
+      "epoch": 0.9307309605817069,
+      "grad_norm": 8.43061637878418,
+      "learning_rate": 2.881259703586814e-07,
+      "loss": 0.3819,
+      "step": 1216
+    },
+    {
+      "epoch": 0.9314963643321852,
+      "grad_norm": 9.330650329589844,
+      "learning_rate": 2.817888175125472e-07,
+      "loss": 0.2979,
+      "step": 1217
+    },
+    {
+      "epoch": 0.9322617680826636,
+      "grad_norm": 6.501589775085449,
+      "learning_rate": 2.7552113671184264e-07,
+      "loss": 0.293,
+      "step": 1218
+    },
+    {
+      "epoch": 0.933027171833142,
+      "grad_norm": 6.367552757263184,
+      "learning_rate": 2.693229727619906e-07,
+      "loss": 0.3728,
+      "step": 1219
+    },
+    {
+      "epoch": 0.9337925755836204,
+      "grad_norm": 6.511219501495361,
+      "learning_rate": 2.631943699714712e-07,
+      "loss": 0.2681,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9337925755836204,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8390501319261213,
+      "eval_loss": 0.2956056296825409,
+      "eval_precision": 0.8932584269662921,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.3109,
+      "eval_samples_per_second": 6.95,
+      "eval_steps_per_second": 0.231,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9345579793340988,
+      "grad_norm": 5.723000526428223,
+      "learning_rate": 2.571353721514913e-07,
+      "loss": 0.2749,
+      "step": 1221
+    },
+    {
+      "epoch": 0.9353233830845771,
+      "grad_norm": 8.66303825378418,
+      "learning_rate": 2.51146022615677e-07,
+      "loss": 0.2631,
+      "step": 1222
+    },
+    {
+      "epoch": 0.9360887868350555,
+      "grad_norm": 6.536643981933594,
+      "learning_rate": 2.452263641797659e-07,
+      "loss": 0.2504,
+      "step": 1223
+    },
+    {
+      "epoch": 0.9368541905855339,
+      "grad_norm": 5.747756481170654,
+      "learning_rate": 2.3937643916129404e-07,
+      "loss": 0.2857,
+      "step": 1224
+    },
+    {
+      "epoch": 0.9376195943360123,
+      "grad_norm": 13.398006439208984,
+      "learning_rate": 2.3359628937930422e-07,
+      "loss": 0.4189,
+      "step": 1225
+    },
+    {
+      "epoch": 0.9383849980864907,
+      "grad_norm": 5.998396396636963,
+      "learning_rate": 2.2788595615403475e-07,
+      "loss": 0.3231,
+      "step": 1226
+    },
+    {
+      "epoch": 0.939150401836969,
+      "grad_norm": 6.068146705627441,
+      "learning_rate": 2.222454803066332e-07,
+      "loss": 0.3236,
+      "step": 1227
+    },
+    {
+      "epoch": 0.9399158055874474,
+      "grad_norm": 5.644654750823975,
+      "learning_rate": 2.16674902158861e-07,
+      "loss": 0.3332,
+      "step": 1228
+    },
+    {
+      "epoch": 0.9406812093379258,
+      "grad_norm": 4.82579231262207,
+      "learning_rate": 2.111742615328083e-07,
+      "loss": 0.2132,
+      "step": 1229
+    },
+    {
+      "epoch": 0.9414466130884042,
+      "grad_norm": 4.6144256591796875,
+      "learning_rate": 2.057435977506028e-07,
+      "loss": 0.2308,
+      "step": 1230
+    },
+    {
+      "epoch": 0.9422120168388826,
+      "grad_norm": 10.00190258026123,
+      "learning_rate": 2.0038294963413251e-07,
+      "loss": 0.373,
+      "step": 1231
+    },
+    {
+      "epoch": 0.9429774205893608,
+      "grad_norm": 5.754945755004883,
+      "learning_rate": 1.9509235550477123e-07,
+      "loss": 0.2395,
+      "step": 1232
+    },
+    {
+      "epoch": 0.9437428243398392,
+      "grad_norm": 6.360520362854004,
+      "learning_rate": 1.8987185318310009e-07,
+      "loss": 0.1902,
+      "step": 1233
+    },
+    {
+      "epoch": 0.9445082280903176,
+      "grad_norm": 9.590492248535156,
+      "learning_rate": 1.8472147998863877e-07,
+      "loss": 0.3155,
+      "step": 1234
+    },
+    {
+      "epoch": 0.945273631840796,
+      "grad_norm": 7.996187686920166,
+      "learning_rate": 1.796412727395802e-07,
+      "loss": 0.3433,
+      "step": 1235
+    },
+    {
+      "epoch": 0.9460390355912744,
+      "grad_norm": 4.422671794891357,
+      "learning_rate": 1.7463126775252192e-07,
+      "loss": 0.237,
+      "step": 1236
+    },
+    {
+      "epoch": 0.9468044393417527,
+      "grad_norm": 6.761044979095459,
+      "learning_rate": 1.6969150084221399e-07,
+      "loss": 0.3662,
+      "step": 1237
+    },
+    {
+      "epoch": 0.9475698430922311,
+      "grad_norm": 5.3165411949157715,
+      "learning_rate": 1.6482200732129804e-07,
+      "loss": 0.2149,
+      "step": 1238
+    },
+    {
+      "epoch": 0.9483352468427095,
+      "grad_norm": 8.114785194396973,
+      "learning_rate": 1.600228220000577e-07,
+      "loss": 0.3416,
+      "step": 1239
+    },
+    {
+      "epoch": 0.9491006505931879,
+      "grad_norm": 10.293120384216309,
+      "learning_rate": 1.552939791861663e-07,
+      "loss": 0.3409,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9491006505931879,
+      "eval_accuracy": 0.8880866425992779,
+      "eval_f1": 0.8368421052631579,
+      "eval_loss": 0.29501873254776,
+      "eval_precision": 0.888268156424581,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.815,
+      "eval_samples_per_second": 6.87,
+      "eval_steps_per_second": 0.228,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9498660543436663,
+      "grad_norm": 6.4339799880981445,
+      "learning_rate": 1.5063551268444275e-07,
+      "loss": 0.3244,
+      "step": 1241
+    },
+    {
+      "epoch": 0.9506314580941446,
+      "grad_norm": 5.49373722076416,
+      "learning_rate": 1.4604745579661405e-07,
+      "loss": 0.1764,
+      "step": 1242
+    },
+    {
+      "epoch": 0.951396861844623,
+      "grad_norm": 6.4061126708984375,
+      "learning_rate": 1.4152984132106972e-07,
+      "loss": 0.3189,
+      "step": 1243
+    },
+    {
+      "epoch": 0.9521622655951014,
+      "grad_norm": 5.936630725860596,
+      "learning_rate": 1.370827015526355e-07,
+      "loss": 0.3355,
+      "step": 1244
+    },
+    {
+      "epoch": 0.9529276693455798,
+      "grad_norm": 14.100617408752441,
+      "learning_rate": 1.3270606828233668e-07,
+      "loss": 0.5053,
+      "step": 1245
+    },
+    {
+      "epoch": 0.9536930730960582,
+      "grad_norm": 8.441110610961914,
+      "learning_rate": 1.2839997279717075e-07,
+      "loss": 0.274,
+      "step": 1246
+    },
+    {
+      "epoch": 0.9544584768465365,
+      "grad_norm": 6.178558826446533,
+      "learning_rate": 1.241644458798885e-07,
+      "loss": 0.2966,
+      "step": 1247
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 6.316476345062256,
+      "learning_rate": 1.1999951780876872e-07,
+      "loss": 0.2785,
+      "step": 1248
+    },
+    {
+      "epoch": 0.9559892843474933,
+      "grad_norm": 6.520962238311768,
+      "learning_rate": 1.159052183574072e-07,
+      "loss": 0.2933,
+      "step": 1249
+    },
+    {
+      "epoch": 0.9567546880979717,
+      "grad_norm": 6.651547431945801,
+      "learning_rate": 1.1188157679449585e-07,
+      "loss": 0.2775,
+      "step": 1250
+    },
+    {
+      "epoch": 0.9575200918484501,
+      "grad_norm": 5.902339935302734,
+      "learning_rate": 1.0792862188362396e-07,
+      "loss": 0.2386,
+      "step": 1251
+    },
+    {
+      "epoch": 0.9582854955989284,
+      "grad_norm": 7.483514308929443,
+      "learning_rate": 1.0404638188306504e-07,
+      "loss": 0.2501,
+      "step": 1252
+    },
+    {
+      "epoch": 0.9590508993494068,
+      "grad_norm": 6.495910167694092,
+      "learning_rate": 1.002348845455725e-07,
+      "loss": 0.3872,
+      "step": 1253
+    },
+    {
+      "epoch": 0.9598163030998852,
+      "grad_norm": 6.121851921081543,
+      "learning_rate": 9.64941571181921e-08,
+      "loss": 0.3186,
+      "step": 1254
+    },
+    {
+      "epoch": 0.9605817068503636,
+      "grad_norm": 6.671183109283447,
+      "learning_rate": 9.282422634205645e-08,
+      "loss": 0.2947,
+      "step": 1255
+    },
+    {
+      "epoch": 0.961347110600842,
+      "grad_norm": 5.844105243682861,
+      "learning_rate": 8.922511845219972e-08,
+      "loss": 0.2272,
+      "step": 1256
+    },
+    {
+      "epoch": 0.9621125143513203,
+      "grad_norm": 6.843101501464844,
+      "learning_rate": 8.569685917736659e-08,
+      "loss": 0.2826,
+      "step": 1257
+    },
+    {
+      "epoch": 0.9628779181017987,
+      "grad_norm": 6.810047626495361,
+      "learning_rate": 8.223947373983354e-08,
+      "loss": 0.2737,
+      "step": 1258
+    },
+    {
+      "epoch": 0.9636433218522771,
+      "grad_norm": 6.269131660461426,
+      "learning_rate": 7.885298685522235e-08,
+      "loss": 0.3041,
+      "step": 1259
+    },
+    {
+      "epoch": 0.9644087256027555,
+      "grad_norm": 7.05451774597168,
+      "learning_rate": 7.553742273232578e-08,
+      "loss": 0.3316,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9644087256027555,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8390501319261213,
+      "eval_loss": 0.2938833236694336,
+      "eval_precision": 0.8932584269662921,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.817,
+      "eval_samples_per_second": 6.869,
+      "eval_steps_per_second": 0.228,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9651741293532339,
+      "grad_norm": 7.257000923156738,
+      "learning_rate": 7.229280507293657e-08,
+      "loss": 0.3027,
+      "step": 1261
+    },
+    {
+      "epoch": 0.9659395331037122,
+      "grad_norm": 8.234956741333008,
+      "learning_rate": 6.911915707167538e-08,
+      "loss": 0.3549,
+      "step": 1262
+    },
+    {
+      "epoch": 0.9667049368541906,
+      "grad_norm": 6.89831018447876,
+      "learning_rate": 6.601650141582649e-08,
+      "loss": 0.2276,
+      "step": 1263
+    },
+    {
+      "epoch": 0.967470340604669,
+      "grad_norm": 5.264804840087891,
+      "learning_rate": 6.29848602851768e-08,
+      "loss": 0.2677,
+      "step": 1264
+    },
+    {
+      "epoch": 0.9682357443551474,
+      "grad_norm": 7.13667631149292,
+      "learning_rate": 6.002425535185041e-08,
+      "loss": 0.3305,
+      "step": 1265
+    },
+    {
+      "epoch": 0.9690011481056258,
+      "grad_norm": 5.207520008087158,
+      "learning_rate": 5.713470778016539e-08,
+      "loss": 0.2083,
+      "step": 1266
+    },
+    {
+      "epoch": 0.969766551856104,
+      "grad_norm": 5.961206436157227,
+      "learning_rate": 5.4316238226469476e-08,
+      "loss": 0.2633,
+      "step": 1267
+    },
+    {
+      "epoch": 0.9705319556065825,
+      "grad_norm": 11.930121421813965,
+      "learning_rate": 5.1568866839003525e-08,
+      "loss": 0.3997,
+      "step": 1268
+    },
+    {
+      "epoch": 0.9712973593570609,
+      "grad_norm": 6.59713077545166,
+      "learning_rate": 4.889261325775163e-08,
+      "loss": 0.2437,
+      "step": 1269
+    },
+    {
+      "epoch": 0.9720627631075393,
+      "grad_norm": 7.702863693237305,
+      "learning_rate": 4.628749661430121e-08,
+      "loss": 0.3456,
+      "step": 1270
+    },
+    {
+      "epoch": 0.9728281668580177,
+      "grad_norm": 7.830643177032471,
+      "learning_rate": 4.375353553170647e-08,
+      "loss": 0.3608,
+      "step": 1271
+    },
+    {
+      "epoch": 0.9735935706084959,
+      "grad_norm": 7.027949333190918,
+      "learning_rate": 4.1290748124358513e-08,
+      "loss": 0.2728,
+      "step": 1272
+    },
+    {
+      "epoch": 0.9743589743589743,
+      "grad_norm": 9.216780662536621,
+      "learning_rate": 3.889915199784877e-08,
+      "loss": 0.3055,
+      "step": 1273
+    },
+    {
+      "epoch": 0.9751243781094527,
+      "grad_norm": 5.373678684234619,
+      "learning_rate": 3.657876424885243e-08,
+      "loss": 0.2806,
+      "step": 1274
+    },
+    {
+      "epoch": 0.9758897818599311,
+      "grad_norm": 6.474977970123291,
+      "learning_rate": 3.432960146499631e-08,
+      "loss": 0.3257,
+      "step": 1275
+    },
+    {
+      "epoch": 0.9766551856104095,
+      "grad_norm": 8.3179292678833,
+      "learning_rate": 3.2151679724748974e-08,
+      "loss": 0.3389,
+      "step": 1276
+    },
+    {
+      "epoch": 0.9774205893608878,
+      "grad_norm": 5.711795806884766,
+      "learning_rate": 3.0045014597299695e-08,
+      "loss": 0.2503,
+      "step": 1277
+    },
+    {
+      "epoch": 0.9781859931113662,
+      "grad_norm": 5.385677337646484,
+      "learning_rate": 2.800962114245076e-08,
+      "loss": 0.2485,
+      "step": 1278
+    },
+    {
+      "epoch": 0.9789513968618446,
+      "grad_norm": 3.9317917823791504,
+      "learning_rate": 2.6045513910509802e-08,
+      "loss": 0.212,
+      "step": 1279
+    },
+    {
+      "epoch": 0.979716800612323,
+      "grad_norm": 4.621948719024658,
+      "learning_rate": 2.415270694217986e-08,
+      "loss": 0.1957,
+      "step": 1280
+    },
+    {
+      "epoch": 0.979716800612323,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8390501319261213,
+      "eval_loss": 0.2945975959300995,
+      "eval_precision": 0.8932584269662921,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 42.919,
+      "eval_samples_per_second": 7.013,
+      "eval_steps_per_second": 0.233,
+      "step": 1280
+    },
+    {
+      "epoch": 0.9804822043628014,
+      "grad_norm": 6.141805648803711,
+      "learning_rate": 2.2331213768468363e-08,
+      "loss": 0.2438,
+      "step": 1281
+    },
+    {
+      "epoch": 0.9812476081132797,
+      "grad_norm": 5.874077320098877,
+      "learning_rate": 2.0581047410583865e-08,
+      "loss": 0.343,
+      "step": 1282
+    },
+    {
+      "epoch": 0.9820130118637581,
+      "grad_norm": 9.686785697937012,
+      "learning_rate": 1.8902220379846125e-08,
+      "loss": 0.4448,
+      "step": 1283
+    },
+    {
+      "epoch": 0.9827784156142365,
+      "grad_norm": 6.589422225952148,
+      "learning_rate": 1.7294744677591733e-08,
+      "loss": 0.3774,
+      "step": 1284
+    },
+    {
+      "epoch": 0.9835438193647149,
+      "grad_norm": 7.531107425689697,
+      "learning_rate": 1.57586317950964e-08,
+      "loss": 0.2591,
+      "step": 1285
+    },
+    {
+      "epoch": 0.9843092231151933,
+      "grad_norm": 6.169864654541016,
+      "learning_rate": 1.4293892713486135e-08,
+      "loss": 0.3366,
+      "step": 1286
+    },
+    {
+      "epoch": 0.9850746268656716,
+      "grad_norm": 7.703701496124268,
+      "learning_rate": 1.2900537903660637e-08,
+      "loss": 0.2595,
+      "step": 1287
+    },
+    {
+      "epoch": 0.98584003061615,
+      "grad_norm": 5.90448522567749,
+      "learning_rate": 1.157857732622003e-08,
+      "loss": 0.2492,
+      "step": 1288
+    },
+    {
+      "epoch": 0.9866054343666284,
+      "grad_norm": 5.025811672210693,
+      "learning_rate": 1.0328020431391583e-08,
+      "loss": 0.2422,
+      "step": 1289
+    },
+    {
+      "epoch": 0.9873708381171068,
+      "grad_norm": 5.388332843780518,
+      "learning_rate": 9.148876158961983e-09,
+      "loss": 0.2482,
+      "step": 1290
+    },
+    {
+      "epoch": 0.9881362418675852,
+      "grad_norm": 4.219669342041016,
+      "learning_rate": 8.041152938216278e-09,
+      "loss": 0.2682,
+      "step": 1291
+    },
+    {
+      "epoch": 0.9889016456180635,
+      "grad_norm": 7.032052516937256,
+      "learning_rate": 7.004858687874594e-09,
+      "loss": 0.2261,
+      "step": 1292
+    },
+    {
+      "epoch": 0.9896670493685419,
+      "grad_norm": 5.230202674865723,
+      "learning_rate": 6.040000816037728e-09,
+      "loss": 0.2749,
+      "step": 1293
+    },
+    {
+      "epoch": 0.9904324531190203,
+      "grad_norm": 6.469751358032227,
+      "learning_rate": 5.146586220131644e-09,
+      "loss": 0.1947,
+      "step": 1294
+    },
+    {
+      "epoch": 0.9911978568694987,
+      "grad_norm": 4.652950286865234,
+      "learning_rate": 4.324621286861952e-09,
+      "loss": 0.1941,
+      "step": 1295
+    },
+    {
+      "epoch": 0.9919632606199771,
+      "grad_norm": 9.259235382080078,
+      "learning_rate": 3.5741118921628346e-09,
+      "loss": 0.2713,
+      "step": 1296
+    },
+    {
+      "epoch": 0.9927286643704554,
+      "grad_norm": 6.85486364364624,
+      "learning_rate": 2.895063401160414e-09,
+      "loss": 0.3251,
+      "step": 1297
+    },
+    {
+      "epoch": 0.9934940681209338,
+      "grad_norm": 9.239498138427734,
+      "learning_rate": 2.2874806681305593e-09,
+      "loss": 0.2696,
+      "step": 1298
+    },
+    {
+      "epoch": 0.9942594718714122,
+      "grad_norm": 4.937226295471191,
+      "learning_rate": 1.7513680364689145e-09,
+      "loss": 0.2714,
+      "step": 1299
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "grad_norm": 8.691539764404297,
+      "learning_rate": 1.2867293386531476e-09,
+      "loss": 0.2439,
+      "step": 1300
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8390501319261213,
+      "eval_loss": 0.2946934700012207,
+      "eval_precision": 0.8932584269662921,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.3576,
+      "eval_samples_per_second": 6.942,
+      "eval_steps_per_second": 0.231,
+      "step": 1300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9972530726187827e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null