Training in progress, step 1800, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9ad4c45f6ed9ff141594db885ce7f7936b72c33bf7831ea51061b751c035d0
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab77ddbb637a9bc0d36ef5dbbbaa0af341f0bf80b31d6e285eda485f1898eb8f
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0005a7a0bf83524bb14a93793c3fdab26d6c2653ecf1f287deeb08e8e78ca1fd
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:286a3c21980a7a404bde1675a6009d842c88e5d90ac29813f962481a4368f26f
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ed9ba22411531d762cf848c2d9daddff6ee7f29ca806d5aef7f5ba9813947f0
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:09f72128a18889f676efa0e2e54c424b47d5e4132cc601aa9074f6f5411b8f94
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:371c2c2e2799dc1b7de0b141a212b857758839245977f9c58714ec11a1162c7e
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:041f67a3ce2b2d81077a75116ed983ec1c3d6e3f3611853c338c7ecf44913d9e
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c2bdb37a902663861f07a52281ef1995bcfda4e8830c535faae292fabb659b6
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:851162e189682dac7fc53a1c0d10ceb5145d8569c1a94696d7c715b4c49a67ea
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:478afb018e67b6963a405f6bfecae60632c4d7b580db98fb4a37e4698026d54a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7d32e1e73d5d548c4bd50868ff94314b76b56f22bf14438e5afcb5d47b865b7
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2f9589c38a3685a3a7913c666aa2459077a853b4e8f8a5230bce75fa99b9825
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9738f30136c7a74ad2e25b79cf200868a8a6622ff78163abd5aa23402612abf6
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6419cd9723247df1fda540548fd8769dc6b91a2aa84ee458e9c056ee561c4042
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a3d3761905544d982ee155e6770c63fdcd8e1d6ad804c9e3fc0b48ef3c557a
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5d4b484a25f92c99275105a25a5abc87d9965b9b7b7ca782045935178f7d615
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6294caa602c6fe4743ca0c7205bb0551de153ef41f54789786a229cd626bef4
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c549c91cf2b0439baf2468c247f8e2109889f720a27e0d09c9b7d5f695e49a5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:305f7da916867733708b5e00527298ca628c3162916331e86427a0e6c1d84c36
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81f7b75ebe10eb5c6ecc97c93cde36ee0b594c67c95103dbdcabab169117e465
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:91731ae666b3fff1615f6c83fbbbe5160c401bb673770f4a96920e7df7c75154
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9ada658c72a7f1c0eace40e44824bfa74094a719f3408a314ecbea87cf54304
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:30c1d4c35a1c4cecfd92a1a7ea971a84bf462bf7dead3baefbde0a5e7b2317cc
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c8c47081e0cd48c8e1647d14b0cfbcdb2a632b234bf18bf1a619d30eef11321
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1735f1ec303b05af874a7e52da143869d5f926b0a117b607b330e92e0e8872be
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8058781701825077,
   "eval_steps": 20,
-  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12939,6 +12939,766 @@
       "eval_samples_per_second": 5.502,
       "eval_steps_per_second": 0.183,
       "step": 1700
     }
   ],
   "logging_steps": 1,
@@ -12958,7 +13718,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.5441970776047616e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8532827684285376,
   "eval_steps": 20,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.502,
       "eval_steps_per_second": 0.183,
       "step": 1700
+    },
+    {
+      "epoch": 0.806352216164968,
+      "grad_norm": 5.284399509429932,
+      "learning_rate": 2.1949715425360173e-06,
+      "loss": 0.2302,
+      "step": 1701
+    },
+    {
+      "epoch": 0.8068262621474283,
+      "grad_norm": 3.2276976108551025,
+      "learning_rate": 2.184634643477831e-06,
+      "loss": 0.1153,
+      "step": 1702
+    },
+    {
+      "epoch": 0.8073003081298886,
+      "grad_norm": 3.992670774459839,
+      "learning_rate": 2.174319156384186e-06,
+      "loss": 0.1346,
+      "step": 1703
+    },
+    {
+      "epoch": 0.8077743541123489,
+      "grad_norm": 3.4810454845428467,
+      "learning_rate": 2.164025109516692e-06,
+      "loss": 0.095,
+      "step": 1704
+    },
+    {
+      "epoch": 0.8082484000948092,
+      "grad_norm": 6.212849140167236,
+      "learning_rate": 2.15375253107823e-06,
+      "loss": 0.2299,
+      "step": 1705
+    },
+    {
+      "epoch": 0.8087224460772695,
+      "grad_norm": 6.363603591918945,
+      "learning_rate": 2.1435014492128547e-06,
+      "loss": 0.2338,
+      "step": 1706
+    },
+    {
+      "epoch": 0.8091964920597298,
+      "grad_norm": 2.451110363006592,
+      "learning_rate": 2.1332718920057307e-06,
+      "loss": 0.084,
+      "step": 1707
+    },
+    {
+      "epoch": 0.8096705380421901,
+      "grad_norm": 6.087503910064697,
+      "learning_rate": 2.1230638874830413e-06,
+      "loss": 0.1361,
+      "step": 1708
+    },
+    {
+      "epoch": 0.8101445840246504,
+      "grad_norm": 6.973792552947998,
+      "learning_rate": 2.1128774636119307e-06,
+      "loss": 0.2558,
+      "step": 1709
+    },
+    {
+      "epoch": 0.8106186300071107,
+      "grad_norm": 6.504344463348389,
+      "learning_rate": 2.102712648300418e-06,
+      "loss": 0.1156,
+      "step": 1710
+    },
+    {
+      "epoch": 0.811092675989571,
+      "grad_norm": 5.404758930206299,
+      "learning_rate": 2.0925694693973162e-06,
+      "loss": 0.1702,
+      "step": 1711
+    },
+    {
+      "epoch": 0.8115667219720313,
+      "grad_norm": 5.191570281982422,
+      "learning_rate": 2.082447954692164e-06,
+      "loss": 0.1003,
+      "step": 1712
+    },
+    {
+      "epoch": 0.8120407679544915,
+      "grad_norm": 3.821763515472412,
+      "learning_rate": 2.0723481319151427e-06,
+      "loss": 0.1208,
+      "step": 1713
+    },
+    {
+      "epoch": 0.8125148139369519,
+      "grad_norm": 6.716168403625488,
+      "learning_rate": 2.062270028737008e-06,
+      "loss": 0.2031,
+      "step": 1714
+    },
+    {
+      "epoch": 0.8129888599194122,
+      "grad_norm": 2.98030948638916,
+      "learning_rate": 2.052213672769007e-06,
+      "loss": 0.101,
+      "step": 1715
+    },
+    {
+      "epoch": 0.8134629059018725,
+      "grad_norm": 5.622329235076904,
+      "learning_rate": 2.042179091562805e-06,
+      "loss": 0.1626,
+      "step": 1716
+    },
+    {
+      "epoch": 0.8139369518843328,
+      "grad_norm": 3.3454723358154297,
+      "learning_rate": 2.032166312610411e-06,
+      "loss": 0.0978,
+      "step": 1717
+    },
+    {
+      "epoch": 0.814410997866793,
+      "grad_norm": 5.193914413452148,
+      "learning_rate": 2.0221753633441033e-06,
+      "loss": 0.1742,
+      "step": 1718
+    },
+    {
+      "epoch": 0.8148850438492534,
+      "grad_norm": 6.165769577026367,
+      "learning_rate": 2.012206271136353e-06,
+      "loss": 0.1491,
+      "step": 1719
+    },
+    {
+      "epoch": 0.8153590898317137,
+      "grad_norm": 6.2735795974731445,
+      "learning_rate": 2.002259063299744e-06,
+      "loss": 0.1477,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8153590898317137,
+      "eval_accuracy": 0.9951690821256038,
+      "eval_f1": 0.9444444444444444,
+      "eval_loss": 0.0112903518602252,
+      "eval_precision": 0.9107142857142857,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.2837,
+      "eval_samples_per_second": 5.499,
+      "eval_steps_per_second": 0.183,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8158331358141739,
+      "grad_norm": 8.393010139465332,
+      "learning_rate": 1.992333767086905e-06,
+      "loss": 0.2223,
+      "step": 1721
+    },
+    {
+      "epoch": 0.8163071817966343,
+      "grad_norm": 8.414145469665527,
+      "learning_rate": 1.982430409690439e-06,
+      "loss": 0.1873,
+      "step": 1722
+    },
+    {
+      "epoch": 0.8167812277790946,
+      "grad_norm": 3.9387011528015137,
+      "learning_rate": 1.972549018242836e-06,
+      "loss": 0.1164,
+      "step": 1723
+    },
+    {
+      "epoch": 0.8172552737615548,
+      "grad_norm": 6.245006084442139,
+      "learning_rate": 1.9626896198164093e-06,
+      "loss": 0.1791,
+      "step": 1724
+    },
+    {
+      "epoch": 0.8177293197440152,
+      "grad_norm": 3.7231218814849854,
+      "learning_rate": 1.9528522414232122e-06,
+      "loss": 0.1483,
+      "step": 1725
+    },
+    {
+      "epoch": 0.8182033657264755,
+      "grad_norm": 7.006000995635986,
+      "learning_rate": 1.9430369100149727e-06,
+      "loss": 0.2054,
+      "step": 1726
+    },
+    {
+      "epoch": 0.8186774117089358,
+      "grad_norm": 4.269167900085449,
+      "learning_rate": 1.9332436524830167e-06,
+      "loss": 0.1074,
+      "step": 1727
+    },
+    {
+      "epoch": 0.8191514576913961,
+      "grad_norm": 4.43737268447876,
+      "learning_rate": 1.9234724956581918e-06,
+      "loss": 0.1194,
+      "step": 1728
+    },
+    {
+      "epoch": 0.8196255036738563,
+      "grad_norm": 5.734049320220947,
+      "learning_rate": 1.9137234663107995e-06,
+      "loss": 0.2281,
+      "step": 1729
+    },
+    {
+      "epoch": 0.8200995496563167,
+      "grad_norm": 4.329126358032227,
+      "learning_rate": 1.9039965911505098e-06,
+      "loss": 0.1464,
+      "step": 1730
+    },
+    {
+      "epoch": 0.820573595638777,
+      "grad_norm": 6.123368263244629,
+      "learning_rate": 1.8942918968263036e-06,
+      "loss": 0.1876,
+      "step": 1731
+    },
+    {
+      "epoch": 0.8210476416212372,
+      "grad_norm": 5.27827262878418,
+      "learning_rate": 1.8846094099263911e-06,
+      "loss": 0.1182,
+      "step": 1732
+    },
+    {
+      "epoch": 0.8215216876036976,
+      "grad_norm": 3.905064344406128,
+      "learning_rate": 1.8749491569781397e-06,
+      "loss": 0.1297,
+      "step": 1733
+    },
+    {
+      "epoch": 0.8219957335861579,
+      "grad_norm": 4.914556980133057,
+      "learning_rate": 1.8653111644480004e-06,
+      "loss": 0.1504,
+      "step": 1734
+    },
+    {
+      "epoch": 0.8224697795686181,
+      "grad_norm": 2.135080337524414,
+      "learning_rate": 1.8556954587414377e-06,
+      "loss": 0.0756,
+      "step": 1735
+    },
+    {
+      "epoch": 0.8229438255510785,
+      "grad_norm": 5.558071136474609,
+      "learning_rate": 1.8461020662028583e-06,
+      "loss": 0.1586,
+      "step": 1736
+    },
+    {
+      "epoch": 0.8234178715335387,
+      "grad_norm": 4.518209934234619,
+      "learning_rate": 1.8365310131155345e-06,
+      "loss": 0.2052,
+      "step": 1737
+    },
+    {
+      "epoch": 0.8238919175159991,
+      "grad_norm": 5.095973014831543,
+      "learning_rate": 1.8269823257015351e-06,
+      "loss": 0.1441,
+      "step": 1738
+    },
+    {
+      "epoch": 0.8243659634984594,
+      "grad_norm": 5.229091644287109,
+      "learning_rate": 1.8174560301216527e-06,
+      "loss": 0.1543,
+      "step": 1739
+    },
+    {
+      "epoch": 0.8248400094809196,
+      "grad_norm": 5.269925594329834,
+      "learning_rate": 1.807952152475333e-06,
+      "loss": 0.1781,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8248400094809196,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.01386988628655672,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.0148,
+      "eval_samples_per_second": 5.418,
+      "eval_steps_per_second": 0.18,
+      "step": 1740
+    },
+    {
+      "epoch": 0.82531405546338,
+      "grad_norm": 3.926471710205078,
+      "learning_rate": 1.7984707188006034e-06,
+      "loss": 0.1284,
+      "step": 1741
+    },
+    {
+      "epoch": 0.8257881014458403,
+      "grad_norm": 3.689272403717041,
+      "learning_rate": 1.7890117550739995e-06,
+      "loss": 0.1592,
+      "step": 1742
+    },
+    {
+      "epoch": 0.8262621474283005,
+      "grad_norm": 8.198687553405762,
+      "learning_rate": 1.7795752872104965e-06,
+      "loss": 0.2166,
+      "step": 1743
+    },
+    {
+      "epoch": 0.8267361934107609,
+      "grad_norm": 5.243244171142578,
+      "learning_rate": 1.7701613410634367e-06,
+      "loss": 0.238,
+      "step": 1744
+    },
+    {
+      "epoch": 0.8272102393932211,
+      "grad_norm": 7.627920150756836,
+      "learning_rate": 1.7607699424244583e-06,
+      "loss": 0.1358,
+      "step": 1745
+    },
+    {
+      "epoch": 0.8276842853756814,
+      "grad_norm": 4.7214884757995605,
+      "learning_rate": 1.7514011170234258e-06,
+      "loss": 0.1165,
+      "step": 1746
+    },
+    {
+      "epoch": 0.8281583313581418,
+      "grad_norm": 4.949544906616211,
+      "learning_rate": 1.7420548905283619e-06,
+      "loss": 0.1227,
+      "step": 1747
+    },
+    {
+      "epoch": 0.828632377340602,
+      "grad_norm": 3.5602853298187256,
+      "learning_rate": 1.7327312885453695e-06,
+      "loss": 0.1247,
+      "step": 1748
+    },
+    {
+      "epoch": 0.8291064233230624,
+      "grad_norm": 4.533194065093994,
+      "learning_rate": 1.7234303366185712e-06,
+      "loss": 0.183,
+      "step": 1749
+    },
+    {
+      "epoch": 0.8295804693055226,
+      "grad_norm": 4.326444625854492,
+      "learning_rate": 1.7141520602300332e-06,
+      "loss": 0.1427,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8300545152879829,
+      "grad_norm": 2.9050464630126953,
+      "learning_rate": 1.7048964847996928e-06,
+      "loss": 0.1105,
+      "step": 1751
+    },
+    {
+      "epoch": 0.8305285612704433,
+      "grad_norm": 4.191965579986572,
+      "learning_rate": 1.6956636356852984e-06,
+      "loss": 0.1444,
+      "step": 1752
+    },
+    {
+      "epoch": 0.8310026072529035,
+      "grad_norm": 4.245302677154541,
+      "learning_rate": 1.6864535381823333e-06,
+      "loss": 0.1695,
+      "step": 1753
+    },
+    {
+      "epoch": 0.8314766532353638,
+      "grad_norm": 4.924167156219482,
+      "learning_rate": 1.6772662175239451e-06,
+      "loss": 0.1323,
+      "step": 1754
+    },
+    {
+      "epoch": 0.8319506992178242,
+      "grad_norm": 3.5585765838623047,
+      "learning_rate": 1.668101698880883e-06,
+      "loss": 0.1285,
+      "step": 1755
+    },
+    {
+      "epoch": 0.8324247452002844,
+      "grad_norm": 5.416965484619141,
+      "learning_rate": 1.6589600073614175e-06,
+      "loss": 0.1603,
+      "step": 1756
+    },
+    {
+      "epoch": 0.8328987911827447,
+      "grad_norm": 4.387139320373535,
+      "learning_rate": 1.6498411680112925e-06,
+      "loss": 0.1554,
+      "step": 1757
+    },
+    {
+      "epoch": 0.833372837165205,
+      "grad_norm": 3.8568196296691895,
+      "learning_rate": 1.6407452058136298e-06,
+      "loss": 0.1279,
+      "step": 1758
+    },
+    {
+      "epoch": 0.8338468831476653,
+      "grad_norm": 5.32737922668457,
+      "learning_rate": 1.6316721456888807e-06,
+      "loss": 0.209,
+      "step": 1759
+    },
+    {
+      "epoch": 0.8343209291301257,
+      "grad_norm": 6.815487861633301,
+      "learning_rate": 1.6226220124947513e-06,
+      "loss": 0.1517,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8343209291301257,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012907618656754494,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.0121,
+      "eval_samples_per_second": 5.419,
+      "eval_steps_per_second": 0.18,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8347949751125859,
+      "grad_norm": 3.5248119831085205,
+      "learning_rate": 1.6135948310261272e-06,
+      "loss": 0.1413,
+      "step": 1761
+    },
+    {
+      "epoch": 0.8352690210950462,
+      "grad_norm": 3.0675511360168457,
+      "learning_rate": 1.6045906260150212e-06,
+      "loss": 0.1353,
+      "step": 1762
+    },
+    {
+      "epoch": 0.8357430670775066,
+      "grad_norm": 7.004110336303711,
+      "learning_rate": 1.595609422130494e-06,
+      "loss": 0.1473,
+      "step": 1763
+    },
+    {
+      "epoch": 0.8362171130599668,
+      "grad_norm": 2.630929470062256,
+      "learning_rate": 1.5866512439785876e-06,
+      "loss": 0.0991,
+      "step": 1764
+    },
+    {
+      "epoch": 0.8366911590424271,
+      "grad_norm": 3.722667694091797,
+      "learning_rate": 1.5777161161022614e-06,
+      "loss": 0.1403,
+      "step": 1765
+    },
+    {
+      "epoch": 0.8371652050248874,
+      "grad_norm": 3.6338841915130615,
+      "learning_rate": 1.5688040629813229e-06,
+      "loss": 0.0963,
+      "step": 1766
+    },
+    {
+      "epoch": 0.8376392510073477,
+      "grad_norm": 2.220780611038208,
+      "learning_rate": 1.5599151090323627e-06,
+      "loss": 0.094,
+      "step": 1767
+    },
+    {
+      "epoch": 0.838113296989808,
+      "grad_norm": 5.549960136413574,
+      "learning_rate": 1.5510492786086828e-06,
+      "loss": 0.2037,
+      "step": 1768
+    },
+    {
+      "epoch": 0.8385873429722683,
+      "grad_norm": 3.976283073425293,
+      "learning_rate": 1.5422065960002364e-06,
+      "loss": 0.1453,
+      "step": 1769
+    },
+    {
+      "epoch": 0.8390613889547286,
+      "grad_norm": 5.508865833282471,
+      "learning_rate": 1.5333870854335554e-06,
+      "loss": 0.2064,
+      "step": 1770
+    },
+    {
+      "epoch": 0.839535434937189,
+      "grad_norm": 3.408942222595215,
+      "learning_rate": 1.5245907710716912e-06,
+      "loss": 0.1245,
+      "step": 1771
+    },
+    {
+      "epoch": 0.8400094809196492,
+      "grad_norm": 7.579738616943359,
+      "learning_rate": 1.5158176770141342e-06,
+      "loss": 0.1888,
+      "step": 1772
+    },
+    {
+      "epoch": 0.8404835269021095,
+      "grad_norm": 6.760648727416992,
+      "learning_rate": 1.5070678272967654e-06,
+      "loss": 0.2148,
+      "step": 1773
+    },
+    {
+      "epoch": 0.8409575728845698,
+      "grad_norm": 3.159531593322754,
+      "learning_rate": 1.4983412458917846e-06,
+      "loss": 0.1209,
+      "step": 1774
+    },
+    {
+      "epoch": 0.8414316188670301,
+      "grad_norm": 4.622367858886719,
+      "learning_rate": 1.4896379567076369e-06,
+      "loss": 0.1917,
+      "step": 1775
+    },
+    {
+      "epoch": 0.8419056648494904,
+      "grad_norm": 3.152876377105713,
+      "learning_rate": 1.4809579835889564e-06,
+      "loss": 0.0609,
+      "step": 1776
+    },
+    {
+      "epoch": 0.8423797108319507,
+      "grad_norm": 3.5214357376098633,
+      "learning_rate": 1.472301350316495e-06,
+      "loss": 0.1228,
+      "step": 1777
+    },
+    {
+      "epoch": 0.842853756814411,
+      "grad_norm": 2.849489450454712,
+      "learning_rate": 1.4636680806070625e-06,
+      "loss": 0.0938,
+      "step": 1778
+    },
+    {
+      "epoch": 0.8433278027968713,
+      "grad_norm": 5.918670654296875,
+      "learning_rate": 1.4550581981134571e-06,
+      "loss": 0.185,
+      "step": 1779
+    },
+    {
+      "epoch": 0.8438018487793316,
+      "grad_norm": 4.758391857147217,
+      "learning_rate": 1.4464717264244043e-06,
+      "loss": 0.1811,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8438018487793316,
+      "eval_accuracy": 0.9943639291465378,
+      "eval_f1": 0.9357798165137615,
+      "eval_loss": 0.012266670353710651,
+      "eval_precision": 0.8947368421052632,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.3857,
+      "eval_samples_per_second": 5.379,
+      "eval_steps_per_second": 0.179,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8442758947617919,
+      "grad_norm": 3.0533530712127686,
+      "learning_rate": 1.43790868906449e-06,
+      "loss": 0.0867,
+      "step": 1781
+    },
+    {
+      "epoch": 0.8447499407442522,
+      "grad_norm": 3.962001085281372,
+      "learning_rate": 1.429369109494091e-06,
+      "loss": 0.182,
+      "step": 1782
+    },
+    {
+      "epoch": 0.8452239867267125,
+      "grad_norm": 4.5312180519104,
+      "learning_rate": 1.4208530111093244e-06,
+      "loss": 0.1194,
+      "step": 1783
+    },
+    {
+      "epoch": 0.8456980327091728,
+      "grad_norm": 6.248788356781006,
+      "learning_rate": 1.4123604172419714e-06,
+      "loss": 0.1418,
+      "step": 1784
+    },
+    {
+      "epoch": 0.8461720786916331,
+      "grad_norm": 5.026639938354492,
+      "learning_rate": 1.4038913511594166e-06,
+      "loss": 0.1182,
+      "step": 1785
+    },
+    {
+      "epoch": 0.8466461246740934,
+      "grad_norm": 3.611996650695801,
+      "learning_rate": 1.395445836064586e-06,
+      "loss": 0.1078,
+      "step": 1786
+    },
+    {
+      "epoch": 0.8471201706565537,
+      "grad_norm": 6.5539984703063965,
+      "learning_rate": 1.3870238950958837e-06,
+      "loss": 0.15,
+      "step": 1787
+    },
+    {
+      "epoch": 0.847594216639014,
+      "grad_norm": 5.68766450881958,
+      "learning_rate": 1.378625551327124e-06,
+      "loss": 0.1344,
+      "step": 1788
+    },
+    {
+      "epoch": 0.8480682626214743,
+      "grad_norm": 5.3630828857421875,
+      "learning_rate": 1.3702508277674731e-06,
+      "loss": 0.2046,
+      "step": 1789
+    },
+    {
+      "epoch": 0.8485423086039345,
+      "grad_norm": 3.6046223640441895,
+      "learning_rate": 1.3618997473613837e-06,
+      "loss": 0.1093,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8490163545863949,
+      "grad_norm": 5.983584403991699,
+      "learning_rate": 1.353572332988534e-06,
+      "loss": 0.1991,
+      "step": 1791
+    },
+    {
+      "epoch": 0.8494904005688552,
+      "grad_norm": 10.93433952331543,
+      "learning_rate": 1.3452686074637632e-06,
+      "loss": 0.1925,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8499644465513154,
+      "grad_norm": 5.214844226837158,
+      "learning_rate": 1.3369885935370086e-06,
+      "loss": 0.1227,
+      "step": 1793
+    },
+    {
+      "epoch": 0.8504384925337758,
+      "grad_norm": 4.261415481567383,
+      "learning_rate": 1.328732313893245e-06,
+      "loss": 0.1287,
+      "step": 1794
+    },
+    {
+      "epoch": 0.850912538516236,
+      "grad_norm": 4.207308292388916,
+      "learning_rate": 1.320499791152421e-06,
+      "loss": 0.2133,
+      "step": 1795
+    },
+    {
+      "epoch": 0.8513865844986964,
+      "grad_norm": 4.4212141036987305,
+      "learning_rate": 1.3122910478693984e-06,
+      "loss": 0.1429,
+      "step": 1796
+    },
+    {
+      "epoch": 0.8518606304811567,
+      "grad_norm": 4.221442222595215,
+      "learning_rate": 1.30410610653389e-06,
+      "loss": 0.1585,
+      "step": 1797
+    },
+    {
+      "epoch": 0.8523346764636169,
+      "grad_norm": 3.037301778793335,
+      "learning_rate": 1.295944989570398e-06,
+      "loss": 0.1518,
+      "step": 1798
+    },
+    {
+      "epoch": 0.8528087224460773,
+      "grad_norm": 4.325135231018066,
+      "learning_rate": 1.2878077193381511e-06,
+      "loss": 0.1136,
+      "step": 1799
+    },
+    {
+      "epoch": 0.8532827684285376,
+      "grad_norm": 4.634499549865723,
+      "learning_rate": 1.279694318131046e-06,
+      "loss": 0.1592,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8532827684285376,
+      "eval_accuracy": 0.9943639291465378,
+      "eval_f1": 0.9369369369369369,
+      "eval_loss": 0.01357492059469223,
+      "eval_precision": 0.8813559322033898,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.1253,
+      "eval_samples_per_second": 5.301,
+      "eval_steps_per_second": 0.176,
+      "step": 1800
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.8095721145604506e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null