Training in progress, step 2100, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d7192018c64bdccff774afcd22cbcd76059fa27194291eeaacbc76ea524aa63
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:c626d88cecaf6f37244c24626ee31bda254de73e335860f886b2be28c4358d97
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ca22c33f8080251d5f5d97f28d33c8cc18a4767e5f5cff87416545e5fb185fb
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:b98f82f21939a42caf63b3e60fa8693d044a5bada470fb4c47ca564bc1aa2906
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66623e6446f8054aee5d492b054a9455f9bb8adbad530ba6f6465ee2f5929c58
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1bccfb3da16edb9ca2352f991e7e2c84949c2cebb82bdfe6dff4edb7588812b
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54b62f8c309871fa5d8782861ae4bf92a5dceb25d023cd3a9d768be5615f069a
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f1b5e474c9b591c523f4c4558a63e2fdd86f92990aa17d39609578b1c9d025a
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84e430f88a0a44f989953bfa3d00715c78a1e556790668bcf94552bbb3132bcd
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:84eef1c8a398e669a09b130c39c3f146f2a1df5c8f58186431773f03716ad0dd
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c41f1e9710327af3eb1dbcd995f1c8c4728f5def02217750c574e1151cb857f
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:85c2c1bfcfbe43cb98961bcf7bbee9910700d60cc94ea9e559cdcc0bfcaf1d3a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f3d47d510d184b2506f02c98ec0193d42ca3e28479c7d3b1251b62aeee8ed8a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:65404a56baaeb38eea09621cc68aa2f31f268f0657702a26eb129038b9b80d1b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ee788f6b1cf391d52047972d3a7d27b4d29af32d1a4ba0a7f601e15b6e16d3a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3c2b908498addeec6c50ef933c786ada650e8ffdacabaf686c730cc90d5e9dd
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:893faec3b6c926fa56067e55d73350b0ed9727d9be736c36b2925e7f1e74fab7
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:75d7eee0983d654dc4f4d9d0aeab1c0cc99847a413b7ee9122cbe6f31278739d
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb66081da603be4d12e8cfebe24115be6094a48664c48955e07784d22997190a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6b89b5ae016f3558d6cf4489eb242de8fea1141c77af78593bebef95e5e45eb
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b1dff40192627c15279da223a06773cb9569b8accd66f51d83aab7cd1a1d6ae
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9375cbe9615de32a9bfeb48c97d58f16a884f450ceae1c1433fd9c53f512214c
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4bff99e2375f4a7846a05096a3ce957abe9a2c562cd9e7982d628fafd52f87e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:13c4476d4d3e749b45bb7cf5bd672971013f9e7d9039dbfad26020d82e32caff
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d73ccbddd9878e2801e4e223113f627d05857e225082b8462f35474c4ac4809
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:20531ddcffa25460cb7198bef6ec4382015b394eaa7700ad1ffe8c13cee7ce9f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9456264775413712,
   "eval_steps": 20,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15219,6 +15219,766 @@
       "eval_samples_per_second": 5.641,
       "eval_steps_per_second": 0.184,
       "step": 2000
     }
   ],
   "logging_steps": 1,
@@ -15238,7 +15998,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.1185465136093594e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9929078014184397,
   "eval_steps": 20,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.641,
       "eval_steps_per_second": 0.184,
       "step": 2000
+    },
+    {
+      "epoch": 0.9460992907801419,
+      "grad_norm": 5.928063869476318,
+      "learning_rate": 1.7657111276051852e-07,
+      "loss": 0.2758,
+      "step": 2001
+    },
+    {
+      "epoch": 0.9465721040189126,
+      "grad_norm": 5.081968784332275,
+      "learning_rate": 1.734959100204281e-07,
+      "loss": 0.1877,
+      "step": 2002
+    },
+    {
+      "epoch": 0.9470449172576832,
+      "grad_norm": 5.424426078796387,
+      "learning_rate": 1.704474879300766e-07,
+      "loss": 0.216,
+      "step": 2003
+    },
+    {
+      "epoch": 0.9475177304964539,
+      "grad_norm": 5.300611972808838,
+      "learning_rate": 1.6742585479747388e-07,
+      "loss": 0.2141,
+      "step": 2004
+    },
+    {
+      "epoch": 0.9479905437352246,
+      "grad_norm": 7.5446858406066895,
+      "learning_rate": 1.6443101885762812e-07,
+      "loss": 0.2932,
+      "step": 2005
+    },
+    {
+      "epoch": 0.9484633569739953,
+      "grad_norm": 6.073637008666992,
+      "learning_rate": 1.614629882725094e-07,
+      "loss": 0.2036,
+      "step": 2006
+    },
+    {
+      "epoch": 0.948936170212766,
+      "grad_norm": 7.519749164581299,
+      "learning_rate": 1.5852177113103606e-07,
+      "loss": 0.2765,
+      "step": 2007
+    },
+    {
+      "epoch": 0.9494089834515367,
+      "grad_norm": 6.116303443908691,
+      "learning_rate": 1.5560737544905058e-07,
+      "loss": 0.2913,
+      "step": 2008
+    },
+    {
+      "epoch": 0.9498817966903074,
+      "grad_norm": 5.81624174118042,
+      "learning_rate": 1.5271980916929497e-07,
+      "loss": 0.2321,
+      "step": 2009
+    },
+    {
+      "epoch": 0.950354609929078,
+      "grad_norm": 5.760371208190918,
+      "learning_rate": 1.498590801613975e-07,
+      "loss": 0.2134,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9508274231678487,
+      "grad_norm": 5.03253698348999,
+      "learning_rate": 1.4702519622184053e-07,
+      "loss": 0.2093,
+      "step": 2011
+    },
+    {
+      "epoch": 0.9513002364066194,
+      "grad_norm": 4.581620693206787,
+      "learning_rate": 1.4421816507394605e-07,
+      "loss": 0.2063,
+      "step": 2012
+    },
+    {
+      "epoch": 0.9517730496453901,
+      "grad_norm": 5.890350818634033,
+      "learning_rate": 1.4143799436785233e-07,
+      "loss": 0.2267,
+      "step": 2013
+    },
+    {
+      "epoch": 0.9522458628841608,
+      "grad_norm": 6.05654764175415,
+      "learning_rate": 1.3868469168049403e-07,
+      "loss": 0.2326,
+      "step": 2014
+    },
+    {
+      "epoch": 0.9527186761229315,
+      "grad_norm": 3.6070337295532227,
+      "learning_rate": 1.3595826451558214e-07,
+      "loss": 0.1469,
+      "step": 2015
+    },
+    {
+      "epoch": 0.9531914893617022,
+      "grad_norm": 7.624080181121826,
+      "learning_rate": 1.3325872030357955e-07,
+      "loss": 0.2893,
+      "step": 2016
+    },
+    {
+      "epoch": 0.9536643026004729,
+      "grad_norm": 6.688779354095459,
+      "learning_rate": 1.3058606640168558e-07,
+      "loss": 0.2668,
+      "step": 2017
+    },
+    {
+      "epoch": 0.9541371158392435,
+      "grad_norm": 6.714046001434326,
+      "learning_rate": 1.279403100938148e-07,
+      "loss": 0.2095,
+      "step": 2018
+    },
+    {
+      "epoch": 0.9546099290780142,
+      "grad_norm": 3.696683406829834,
+      "learning_rate": 1.25321458590576e-07,
+      "loss": 0.1431,
+      "step": 2019
+    },
+    {
+      "epoch": 0.9550827423167849,
+      "grad_norm": 6.133592128753662,
+      "learning_rate": 1.2272951902925211e-07,
+      "loss": 0.3241,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9550827423167849,
+      "eval_accuracy": 0.8647450110864745,
+      "eval_f1": 0.7162790697674418,
+      "eval_loss": 0.2992999255657196,
+      "eval_precision": 0.8700564971751412,
+      "eval_recall": 0.6086956521739131,
+      "eval_runtime": 48.4915,
+      "eval_samples_per_second": 5.692,
+      "eval_steps_per_second": 0.186,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9555555555555556,
+      "grad_norm": 7.198812007904053,
+      "learning_rate": 1.201644984737804e-07,
+      "loss": 0.2988,
+      "step": 2021
+    },
+    {
+      "epoch": 0.9560283687943263,
+      "grad_norm": 4.9037322998046875,
+      "learning_rate": 1.1762640391473901e-07,
+      "loss": 0.2401,
+      "step": 2022
+    },
+    {
+      "epoch": 0.956501182033097,
+      "grad_norm": 4.425469398498535,
+      "learning_rate": 1.1511524226931914e-07,
+      "loss": 0.1406,
+      "step": 2023
+    },
+    {
+      "epoch": 0.9569739952718677,
+      "grad_norm": 5.938382625579834,
+      "learning_rate": 1.126310203813108e-07,
+      "loss": 0.2148,
+      "step": 2024
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "grad_norm": 7.644670486450195,
+      "learning_rate": 1.1017374502108713e-07,
+      "loss": 0.2778,
+      "step": 2025
+    },
+    {
+      "epoch": 0.957919621749409,
+      "grad_norm": 5.539424896240234,
+      "learning_rate": 1.0774342288557892e-07,
+      "loss": 0.2106,
+      "step": 2026
+    },
+    {
+      "epoch": 0.9583924349881797,
+      "grad_norm": 6.603002548217773,
+      "learning_rate": 1.053400605982613e-07,
+      "loss": 0.2815,
+      "step": 2027
+    },
+    {
+      "epoch": 0.9588652482269504,
+      "grad_norm": 4.729203701019287,
+      "learning_rate": 1.0296366470913477e-07,
+      "loss": 0.2226,
+      "step": 2028
+    },
+    {
+      "epoch": 0.9593380614657211,
+      "grad_norm": 7.116330623626709,
+      "learning_rate": 1.0061424169470646e-07,
+      "loss": 0.299,
+      "step": 2029
+    },
+    {
+      "epoch": 0.9598108747044918,
+      "grad_norm": 6.153399467468262,
+      "learning_rate": 9.829179795797339e-08,
+      "loss": 0.2681,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9602836879432625,
+      "grad_norm": 4.379301071166992,
+      "learning_rate": 9.599633982840362e-08,
+      "loss": 0.1883,
+      "step": 2031
+    },
+    {
+      "epoch": 0.9607565011820332,
+      "grad_norm": 5.625801086425781,
+      "learning_rate": 9.372787356192181e-08,
+      "loss": 0.1923,
+      "step": 2032
+    },
+    {
+      "epoch": 0.9612293144208038,
+      "grad_norm": 4.8772077560424805,
+      "learning_rate": 9.148640534089037e-08,
+      "loss": 0.1565,
+      "step": 2033
+    },
+    {
+      "epoch": 0.9617021276595744,
+      "grad_norm": 6.87009334564209,
+      "learning_rate": 8.927194127408945e-08,
+      "loss": 0.2341,
+      "step": 2034
+    },
+    {
+      "epoch": 0.9621749408983451,
+      "grad_norm": 4.184564113616943,
+      "learning_rate": 8.708448739670805e-08,
+      "loss": 0.1848,
+      "step": 2035
+    },
+    {
+      "epoch": 0.9626477541371158,
+      "grad_norm": 4.61867094039917,
+      "learning_rate": 8.492404967031853e-08,
+      "loss": 0.175,
+      "step": 2036
+    },
+    {
+      "epoch": 0.9631205673758865,
+      "grad_norm": 3.9743919372558594,
+      "learning_rate": 8.27906339828688e-08,
+      "loss": 0.1485,
+      "step": 2037
+    },
+    {
+      "epoch": 0.9635933806146572,
+      "grad_norm": 6.921072959899902,
+      "learning_rate": 8.0684246148659e-08,
+      "loss": 0.2734,
+      "step": 2038
+    },
+    {
+      "epoch": 0.9640661938534278,
+      "grad_norm": 4.7037129402160645,
+      "learning_rate": 7.860489190833043e-08,
+      "loss": 0.1407,
+      "step": 2039
+    },
+    {
+      "epoch": 0.9645390070921985,
+      "grad_norm": 5.145064353942871,
+      "learning_rate": 7.655257692884998e-08,
+      "loss": 0.2289,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9645390070921985,
+      "eval_accuracy": 0.8658536585365854,
+      "eval_f1": 0.7192575406032483,
+      "eval_loss": 0.29763469099998474,
+      "eval_precision": 0.8707865168539326,
+      "eval_recall": 0.6126482213438735,
+      "eval_runtime": 48.2853,
+      "eval_samples_per_second": 5.716,
+      "eval_steps_per_second": 0.186,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9650118203309692,
+      "grad_norm": 5.289119243621826,
+      "learning_rate": 7.452730680349019e-08,
+      "loss": 0.2251,
+      "step": 2041
+    },
+    {
+      "epoch": 0.9654846335697399,
+      "grad_norm": 7.4958624839782715,
+      "learning_rate": 7.252908705181805e-08,
+      "loss": 0.2453,
+      "step": 2042
+    },
+    {
+      "epoch": 0.9659574468085106,
+      "grad_norm": 5.394641876220703,
+      "learning_rate": 7.055792311967958e-08,
+      "loss": 0.2879,
+      "step": 2043
+    },
+    {
+      "epoch": 0.9664302600472813,
+      "grad_norm": 4.002281665802002,
+      "learning_rate": 6.861382037918418e-08,
+      "loss": 0.1805,
+      "step": 2044
+    },
+    {
+      "epoch": 0.966903073286052,
+      "grad_norm": 5.974024295806885,
+      "learning_rate": 6.669678412868919e-08,
+      "loss": 0.2024,
+      "step": 2045
+    },
+    {
+      "epoch": 0.9673758865248226,
+      "grad_norm": 5.801767349243164,
+      "learning_rate": 6.480681959278645e-08,
+      "loss": 0.2164,
+      "step": 2046
+    },
+    {
+      "epoch": 0.9678486997635933,
+      "grad_norm": 4.779239177703857,
+      "learning_rate": 6.29439319222891e-08,
+      "loss": 0.1936,
+      "step": 2047
+    },
+    {
+      "epoch": 0.968321513002364,
+      "grad_norm": 4.674015522003174,
+      "learning_rate": 6.11081261942148e-08,
+      "loss": 0.2035,
+      "step": 2048
+    },
+    {
+      "epoch": 0.9687943262411347,
+      "grad_norm": 6.905233860015869,
+      "learning_rate": 5.929940741177476e-08,
+      "loss": 0.2818,
+      "step": 2049
+    },
+    {
+      "epoch": 0.9692671394799054,
+      "grad_norm": 9.568391799926758,
+      "learning_rate": 5.751778050435808e-08,
+      "loss": 0.32,
+      "step": 2050
+    },
+    {
+      "epoch": 0.9697399527186761,
+      "grad_norm": 5.665557384490967,
+      "learning_rate": 5.5763250327518505e-08,
+      "loss": 0.2695,
+      "step": 2051
+    },
+    {
+      "epoch": 0.9702127659574468,
+      "grad_norm": 4.919648170471191,
+      "learning_rate": 5.4035821662963285e-08,
+      "loss": 0.2343,
+      "step": 2052
+    },
+    {
+      "epoch": 0.9706855791962175,
+      "grad_norm": 3.9685451984405518,
+      "learning_rate": 5.233549921853876e-08,
+      "loss": 0.18,
+      "step": 2053
+    },
+    {
+      "epoch": 0.9711583924349881,
+      "grad_norm": 5.1178131103515625,
+      "learning_rate": 5.066228762821479e-08,
+      "loss": 0.1903,
+      "step": 2054
+    },
+    {
+      "epoch": 0.9716312056737588,
+      "grad_norm": 6.247317314147949,
+      "learning_rate": 4.901619145207703e-08,
+      "loss": 0.1892,
+      "step": 2055
+    },
+    {
+      "epoch": 0.9721040189125295,
+      "grad_norm": 3.8373396396636963,
+      "learning_rate": 4.7397215176311354e-08,
+      "loss": 0.1359,
+      "step": 2056
+    },
+    {
+      "epoch": 0.9725768321513002,
+      "grad_norm": 6.623259544372559,
+      "learning_rate": 4.580536321319273e-08,
+      "loss": 0.23,
+      "step": 2057
+    },
+    {
+      "epoch": 0.9730496453900709,
+      "grad_norm": 5.989914894104004,
+      "learning_rate": 4.424063990107308e-08,
+      "loss": 0.2538,
+      "step": 2058
+    },
+    {
+      "epoch": 0.9735224586288416,
+      "grad_norm": 4.51497745513916,
+      "learning_rate": 4.270304950436788e-08,
+      "loss": 0.1994,
+      "step": 2059
+    },
+    {
+      "epoch": 0.9739952718676123,
+      "grad_norm": 4.718496799468994,
+      "learning_rate": 4.119259621354843e-08,
+      "loss": 0.1593,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9739952718676123,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_f1": 0.7132867132867133,
+      "eval_loss": 0.29835787415504456,
+      "eval_precision": 0.8693181818181818,
+      "eval_recall": 0.6047430830039525,
+      "eval_runtime": 48.4979,
+      "eval_samples_per_second": 5.691,
+      "eval_steps_per_second": 0.186,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9744680851063829,
+      "grad_norm": 4.2522358894348145,
+      "learning_rate": 3.9709284145125205e-08,
+      "loss": 0.2072,
+      "step": 2061
+    },
+    {
+      "epoch": 0.9749408983451536,
+      "grad_norm": 6.090972900390625,
+      "learning_rate": 3.825311734164116e-08,
+      "loss": 0.227,
+      "step": 2062
+    },
+    {
+      "epoch": 0.9754137115839243,
+      "grad_norm": 5.209742546081543,
+      "learning_rate": 3.682409977165957e-08,
+      "loss": 0.214,
+      "step": 2063
+    },
+    {
+      "epoch": 0.975886524822695,
+      "grad_norm": 5.365957260131836,
+      "learning_rate": 3.5422235329751756e-08,
+      "loss": 0.1831,
+      "step": 2064
+    },
+    {
+      "epoch": 0.9763593380614657,
+      "grad_norm": 9.389203071594238,
+      "learning_rate": 3.4047527836483793e-08,
+      "loss": 0.2723,
+      "step": 2065
+    },
+    {
+      "epoch": 0.9768321513002364,
+      "grad_norm": 7.358561038970947,
+      "learning_rate": 3.269998103841765e-08,
+      "loss": 0.2694,
+      "step": 2066
+    },
+    {
+      "epoch": 0.9773049645390071,
+      "grad_norm": 5.198401927947998,
+      "learning_rate": 3.137959860808448e-08,
+      "loss": 0.29,
+      "step": 2067
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 5.073206901550293,
+      "learning_rate": 3.008638414398801e-08,
+      "loss": 0.2165,
+      "step": 2068
+    },
+    {
+      "epoch": 0.9782505910165484,
+      "grad_norm": 5.652972221374512,
+      "learning_rate": 2.882034117058896e-08,
+      "loss": 0.2447,
+      "step": 2069
+    },
+    {
+      "epoch": 0.9787234042553191,
+      "grad_norm": 5.199291229248047,
+      "learning_rate": 2.7581473138296177e-08,
+      "loss": 0.2055,
+      "step": 2070
+    },
+    {
+      "epoch": 0.9791962174940898,
+      "grad_norm": 4.334774017333984,
+      "learning_rate": 2.636978342345553e-08,
+      "loss": 0.1535,
+      "step": 2071
+    },
+    {
+      "epoch": 0.9796690307328605,
+      "grad_norm": 5.554661750793457,
+      "learning_rate": 2.518527532834436e-08,
+      "loss": 0.239,
+      "step": 2072
+    },
+    {
+      "epoch": 0.9801418439716312,
+      "grad_norm": 5.669870853424072,
+      "learning_rate": 2.402795208116149e-08,
+      "loss": 0.2128,
+      "step": 2073
+    },
+    {
+      "epoch": 0.9806146572104019,
+      "grad_norm": 5.936855316162109,
+      "learning_rate": 2.2897816836014996e-08,
+      "loss": 0.275,
+      "step": 2074
+    },
+    {
+      "epoch": 0.9810874704491725,
+      "grad_norm": 10.341303825378418,
+      "learning_rate": 2.179487267291891e-08,
+      "loss": 0.3173,
+      "step": 2075
+    },
+    {
+      "epoch": 0.9815602836879432,
+      "grad_norm": 6.050800323486328,
+      "learning_rate": 2.071912259777875e-08,
+      "loss": 0.2196,
+      "step": 2076
+    },
+    {
+      "epoch": 0.9820330969267139,
+      "grad_norm": 5.055636882781982,
+      "learning_rate": 1.967056954238933e-08,
+      "loss": 0.181,
+      "step": 2077
+    },
+    {
+      "epoch": 0.9825059101654846,
+      "grad_norm": 7.4767632484436035,
+      "learning_rate": 1.864921636442252e-08,
+      "loss": 0.201,
+      "step": 2078
+    },
+    {
+      "epoch": 0.9829787234042553,
+      "grad_norm": 6.8587493896484375,
+      "learning_rate": 1.7655065847423935e-08,
+      "loss": 0.3132,
+      "step": 2079
+    },
+    {
+      "epoch": 0.983451536643026,
+      "grad_norm": 7.90069580078125,
+      "learning_rate": 1.6688120700798505e-08,
+      "loss": 0.2018,
+      "step": 2080
+    },
+    {
+      "epoch": 0.983451536643026,
+      "eval_accuracy": 0.8647450110864745,
+      "eval_f1": 0.7175925925925926,
+      "eval_loss": 0.29836517572402954,
+      "eval_precision": 0.8659217877094972,
+      "eval_recall": 0.6126482213438735,
+      "eval_runtime": 48.9715,
+      "eval_samples_per_second": 5.636,
+      "eval_steps_per_second": 0.184,
+      "step": 2080
+    },
+    {
+      "epoch": 0.9839243498817967,
+      "grad_norm": 6.26698637008667,
+      "learning_rate": 1.5748383559809345e-08,
+      "loss": 0.2399,
+      "step": 2081
+    },
+    {
+      "epoch": 0.9843971631205674,
+      "grad_norm": 6.140974044799805,
+      "learning_rate": 1.4835856985568887e-08,
+      "loss": 0.2634,
+      "step": 2082
+    },
+    {
+      "epoch": 0.984869976359338,
+      "grad_norm": 4.758864879608154,
+      "learning_rate": 1.3950543465027777e-08,
+      "loss": 0.2022,
+      "step": 2083
+    },
+    {
+      "epoch": 0.9853427895981087,
+      "grad_norm": 6.061093330383301,
+      "learning_rate": 1.3092445410977094e-08,
+      "loss": 0.2611,
+      "step": 2084
+    },
+    {
+      "epoch": 0.9858156028368794,
+      "grad_norm": 5.0369696617126465,
+      "learning_rate": 1.2261565162030586e-08,
+      "loss": 0.242,
+      "step": 2085
+    },
+    {
+      "epoch": 0.9862884160756501,
+      "grad_norm": 4.759927272796631,
+      "learning_rate": 1.1457904982627998e-08,
+      "loss": 0.2424,
+      "step": 2086
+    },
+    {
+      "epoch": 0.9867612293144208,
+      "grad_norm": 4.427268028259277,
+      "learning_rate": 1.0681467063022866e-08,
+      "loss": 0.1903,
+      "step": 2087
+    },
+    {
+      "epoch": 0.9872340425531915,
+      "grad_norm": 5.498013496398926,
+      "learning_rate": 9.932253519280289e-09,
+      "loss": 0.1198,
+      "step": 2088
+    },
+    {
+      "epoch": 0.9877068557919622,
+      "grad_norm": 5.413758754730225,
+      "learning_rate": 9.210266393266942e-09,
+      "loss": 0.231,
+      "step": 2089
+    },
+    {
+      "epoch": 0.9881796690307328,
+      "grad_norm": 7.1858134269714355,
+      "learning_rate": 8.515507652649968e-09,
+      "loss": 0.26,
+      "step": 2090
+    },
+    {
+      "epoch": 0.9886524822695035,
+      "grad_norm": 4.840980052947998,
+      "learning_rate": 7.84797919089031e-09,
+      "loss": 0.2581,
+      "step": 2091
+    },
+    {
+      "epoch": 0.9891252955082742,
+      "grad_norm": 5.378105640411377,
+      "learning_rate": 7.20768282723383e-09,
+      "loss": 0.2107,
+      "step": 2092
+    },
+    {
+      "epoch": 0.9895981087470449,
+      "grad_norm": 8.181370735168457,
+      "learning_rate": 6.5946203067135395e-09,
+      "loss": 0.2245,
+      "step": 2093
+    },
+    {
+      "epoch": 0.9900709219858156,
+      "grad_norm": 5.936405181884766,
+      "learning_rate": 6.008793300136262e-09,
+      "loss": 0.1958,
+      "step": 2094
+    },
+    {
+      "epoch": 0.9905437352245863,
+      "grad_norm": 6.984827995300293,
+      "learning_rate": 5.450203404087084e-09,
+      "loss": 0.2338,
+      "step": 2095
+    },
+    {
+      "epoch": 0.991016548463357,
+      "grad_norm": 5.687265872955322,
+      "learning_rate": 4.918852140916031e-09,
+      "loss": 0.2498,
+      "step": 2096
+    },
+    {
+      "epoch": 0.9914893617021276,
+      "grad_norm": 8.568177223205566,
+      "learning_rate": 4.414740958742503e-09,
+      "loss": 0.3252,
+      "step": 2097
+    },
+    {
+      "epoch": 0.9919621749408983,
+      "grad_norm": 4.833063125610352,
+      "learning_rate": 3.937871231444179e-09,
+      "loss": 0.1798,
+      "step": 2098
+    },
+    {
+      "epoch": 0.992434988179669,
+      "grad_norm": 4.7450056076049805,
+      "learning_rate": 3.4882442586570143e-09,
+      "loss": 0.1758,
+      "step": 2099
+    },
+    {
+      "epoch": 0.9929078014184397,
+      "grad_norm": 5.54990291595459,
+      "learning_rate": 3.0658612657730182e-09,
+      "loss": 0.2018,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9929078014184397,
+      "eval_accuracy": 0.8647450110864745,
+      "eval_f1": 0.7162790697674418,
+      "eval_loss": 0.2974694073200226,
+      "eval_precision": 0.8700564971751412,
+      "eval_recall": 0.6086956521739131,
+      "eval_runtime": 47.9735,
+      "eval_samples_per_second": 5.753,
+      "eval_steps_per_second": 0.188,
+      "step": 2100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.377331196550185e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null