Training in progress, step 1900, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab77ddbb637a9bc0d36ef5dbbbaa0af341f0bf80b31d6e285eda485f1898eb8f
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:48f0b842ee73338c5196631f87772bba6f5edf4b3ae89cae7bbfc7f309e0857a
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:286a3c21980a7a404bde1675a6009d842c88e5d90ac29813f962481a4368f26f
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:3172121c5181db7f36c5f20a872297dfe5b4f0ae30a7959ec1c6216d04d0d1cc
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09f72128a18889f676efa0e2e54c424b47d5e4132cc601aa9074f6f5411b8f94
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:88a60cedca48e5fc8740b4f1f705f978c0560a4e6385b3969f4dac4afed261e8
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:041f67a3ce2b2d81077a75116ed983ec1c3d6e3f3611853c338c7ecf44913d9e
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb17705c60e3748d16ff6a5ed77b771e13f629bc8439632ab64d0f641cc2332a
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:851162e189682dac7fc53a1c0d10ceb5145d8569c1a94696d7c715b4c49a67ea
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c799f3fc1e686a2648fd9a88df8f0e9f27001631c96224ad9df9e896a5d223
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7d32e1e73d5d548c4bd50868ff94314b76b56f22bf14438e5afcb5d47b865b7
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:900d0bd1d3c3bcd0dad9c4909629cf63a5d624cabc1257f001e2d9077a9e9e53
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9738f30136c7a74ad2e25b79cf200868a8a6622ff78163abd5aa23402612abf6
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e86c07f1298f4667edef5c54e67b1e608e33a7d17ed5a2972f6c419f38e6ca94
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4a3d3761905544d982ee155e6770c63fdcd8e1d6ad804c9e3fc0b48ef3c557a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:85791137bbe5abdeb01422c95c0695f38d7b465390cfce57a8908907a93aa9c3
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6294caa602c6fe4743ca0c7205bb0551de153ef41f54789786a229cd626bef4
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eeab6b7e925d9ac0af1499c6158c2bd3d2fa709063a35e8908c75fc9a3bf66e
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:305f7da916867733708b5e00527298ca628c3162916331e86427a0e6c1d84c36
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:d56b19c89e54575da49ba3691c2d1cd4239936a6e7cdd184f280c64e52c90fc2
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91731ae666b3fff1615f6c83fbbbe5160c401bb673770f4a96920e7df7c75154
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:660fb9882f614217e98ebdc720c67d1f69f90546870acb0d060c2c463fa269c7
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30c1d4c35a1c4cecfd92a1a7ea971a84bf462bf7dead3baefbde0a5e7b2317cc
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc5612b1d5a8804a93743e626503af0c5c4b4134be7747f86c470f7d404097de
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1735f1ec303b05af874a7e52da143869d5f926b0a117b607b330e92e0e8872be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fbd4dd1b12705ad122adddd6e7db3dc1baec5f8063c359269d322c1f0027ee1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8532827684285376,
   "eval_steps": 20,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13699,6 +13699,766 @@
       "eval_samples_per_second": 5.301,
       "eval_steps_per_second": 0.176,
       "step": 1800
     }
   ],
   "logging_steps": 1,
@@ -13718,7 +14478,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.8095721145604506e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9006873666745674,
   "eval_steps": 20,
+  "global_step": 1900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.301,
       "eval_steps_per_second": 0.176,
       "step": 1800
+    },
+    {
+      "epoch": 0.8537568144109978,
+      "grad_norm": 3.1635870933532715,
+      "learning_rate": 1.2716048081775823e-06,
+      "loss": 0.1749,
+      "step": 1801
+    },
+    {
+      "epoch": 0.8542308603934582,
+      "grad_norm": 8.236771583557129,
+      "learning_rate": 1.2635392116408095e-06,
+      "loss": 0.1951,
+      "step": 1802
+    },
+    {
+      "epoch": 0.8547049063759184,
+      "grad_norm": 7.184986114501953,
+      "learning_rate": 1.2554975506182533e-06,
+      "loss": 0.157,
+      "step": 1803
+    },
+    {
+      "epoch": 0.8551789523583787,
+      "grad_norm": 2.5440175533294678,
+      "learning_rate": 1.247479847141867e-06,
+      "loss": 0.0708,
+      "step": 1804
+    },
+    {
+      "epoch": 0.8556529983408391,
+      "grad_norm": 3.4107348918914795,
+      "learning_rate": 1.2394861231779677e-06,
+      "loss": 0.0968,
+      "step": 1805
+    },
+    {
+      "epoch": 0.8561270443232993,
+      "grad_norm": 8.80566692352295,
+      "learning_rate": 1.2315164006271718e-06,
+      "loss": 0.1692,
+      "step": 1806
+    },
+    {
+      "epoch": 0.8566010903057597,
+      "grad_norm": 5.312666416168213,
+      "learning_rate": 1.2235707013243426e-06,
+      "loss": 0.119,
+      "step": 1807
+    },
+    {
+      "epoch": 0.85707513628822,
+      "grad_norm": 7.94031286239624,
+      "learning_rate": 1.2156490470385207e-06,
+      "loss": 0.1993,
+      "step": 1808
+    },
+    {
+      "epoch": 0.8575491822706802,
+      "grad_norm": 3.85893177986145,
+      "learning_rate": 1.2077514594728778e-06,
+      "loss": 0.1085,
+      "step": 1809
+    },
+    {
+      "epoch": 0.8580232282531406,
+      "grad_norm": 2.8813283443450928,
+      "learning_rate": 1.1998779602646438e-06,
+      "loss": 0.1099,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8584972742356008,
+      "grad_norm": 4.950772762298584,
+      "learning_rate": 1.1920285709850509e-06,
+      "loss": 0.1064,
+      "step": 1811
+    },
+    {
+      "epoch": 0.8589713202180611,
+      "grad_norm": 3.9935288429260254,
+      "learning_rate": 1.184203313139286e-06,
+      "loss": 0.1145,
+      "step": 1812
+    },
+    {
+      "epoch": 0.8594453662005215,
+      "grad_norm": 5.1902360916137695,
+      "learning_rate": 1.1764022081664094e-06,
+      "loss": 0.164,
+      "step": 1813
+    },
+    {
+      "epoch": 0.8599194121829817,
+      "grad_norm": 4.6810150146484375,
+      "learning_rate": 1.1686252774393181e-06,
+      "loss": 0.1272,
+      "step": 1814
+    },
+    {
+      "epoch": 0.860393458165442,
+      "grad_norm": 3.890429735183716,
+      "learning_rate": 1.1608725422646782e-06,
+      "loss": 0.1128,
+      "step": 1815
+    },
+    {
+      "epoch": 0.8608675041479024,
+      "grad_norm": 9.929910659790039,
+      "learning_rate": 1.1531440238828639e-06,
+      "loss": 0.169,
+      "step": 1816
+    },
+    {
+      "epoch": 0.8613415501303626,
+      "grad_norm": 3.39127516746521,
+      "learning_rate": 1.1454397434679022e-06,
+      "loss": 0.0916,
+      "step": 1817
+    },
+    {
+      "epoch": 0.861815596112823,
+      "grad_norm": 3.8935232162475586,
+      "learning_rate": 1.137759722127415e-06,
+      "loss": 0.1236,
+      "step": 1818
+    },
+    {
+      "epoch": 0.8622896420952832,
+      "grad_norm": 4.592057704925537,
+      "learning_rate": 1.1301039809025628e-06,
+      "loss": 0.1573,
+      "step": 1819
+    },
+    {
+      "epoch": 0.8627636880777435,
+      "grad_norm": 3.4906246662139893,
+      "learning_rate": 1.1224725407679814e-06,
+      "loss": 0.0799,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8627636880777435,
+      "eval_accuracy": 0.9943639291465378,
+      "eval_f1": 0.9369369369369369,
+      "eval_loss": 0.014933480881154537,
+      "eval_precision": 0.8813559322033898,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.8899,
+      "eval_samples_per_second": 5.432,
+      "eval_steps_per_second": 0.18,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8632377340602039,
+      "grad_norm": 7.27462911605835,
+      "learning_rate": 1.1148654226317325e-06,
+      "loss": 0.1538,
+      "step": 1821
+    },
+    {
+      "epoch": 0.8637117800426641,
+      "grad_norm": 3.6112170219421387,
+      "learning_rate": 1.1072826473352394e-06,
+      "loss": 0.1337,
+      "step": 1822
+    },
+    {
+      "epoch": 0.8641858260251244,
+      "grad_norm": 4.936607360839844,
+      "learning_rate": 1.0997242356532335e-06,
+      "loss": 0.152,
+      "step": 1823
+    },
+    {
+      "epoch": 0.8646598720075848,
+      "grad_norm": 7.105523109436035,
+      "learning_rate": 1.0921902082936987e-06,
+      "loss": 0.1772,
+      "step": 1824
+    },
+    {
+      "epoch": 0.865133917990045,
+      "grad_norm": 7.956032752990723,
+      "learning_rate": 1.0846805858978038e-06,
+      "loss": 0.1794,
+      "step": 1825
+    },
+    {
+      "epoch": 0.8656079639725053,
+      "grad_norm": 2.654674530029297,
+      "learning_rate": 1.0771953890398679e-06,
+      "loss": 0.1223,
+      "step": 1826
+    },
+    {
+      "epoch": 0.8660820099549656,
+      "grad_norm": 5.592787265777588,
+      "learning_rate": 1.0697346382272822e-06,
+      "loss": 0.1459,
+      "step": 1827
+    },
+    {
+      "epoch": 0.8665560559374259,
+      "grad_norm": 9.735966682434082,
+      "learning_rate": 1.0622983539004628e-06,
+      "loss": 0.176,
+      "step": 1828
+    },
+    {
+      "epoch": 0.8670301019198863,
+      "grad_norm": 7.254702568054199,
+      "learning_rate": 1.054886556432798e-06,
+      "loss": 0.1962,
+      "step": 1829
+    },
+    {
+      "epoch": 0.8675041479023465,
+      "grad_norm": 3.388284206390381,
+      "learning_rate": 1.047499266130585e-06,
+      "loss": 0.1744,
+      "step": 1830
+    },
+    {
+      "epoch": 0.8679781938848068,
+      "grad_norm": 5.419455051422119,
+      "learning_rate": 1.0401365032329812e-06,
+      "loss": 0.2004,
+      "step": 1831
+    },
+    {
+      "epoch": 0.8684522398672672,
+      "grad_norm": 5.385417938232422,
+      "learning_rate": 1.0327982879119425e-06,
+      "loss": 0.2027,
+      "step": 1832
+    },
+    {
+      "epoch": 0.8689262858497274,
+      "grad_norm": 4.17827033996582,
+      "learning_rate": 1.0254846402721764e-06,
+      "loss": 0.1501,
+      "step": 1833
+    },
+    {
+      "epoch": 0.8694003318321877,
+      "grad_norm": 4.2940354347229,
+      "learning_rate": 1.0181955803510724e-06,
+      "loss": 0.1162,
+      "step": 1834
+    },
+    {
+      "epoch": 0.869874377814648,
+      "grad_norm": 8.596222877502441,
+      "learning_rate": 1.010931128118665e-06,
+      "loss": 0.1216,
+      "step": 1835
+    },
+    {
+      "epoch": 0.8703484237971083,
+      "grad_norm": 4.9963884353637695,
+      "learning_rate": 1.0036913034775675e-06,
+      "loss": 0.1779,
+      "step": 1836
+    },
+    {
+      "epoch": 0.8708224697795686,
+      "grad_norm": 4.238993167877197,
+      "learning_rate": 9.964761262629196e-07,
+      "loss": 0.1237,
+      "step": 1837
+    },
+    {
+      "epoch": 0.8712965157620289,
+      "grad_norm": 8.45755672454834,
+      "learning_rate": 9.892856162423348e-07,
+      "loss": 0.1578,
+      "step": 1838
+    },
+    {
+      "epoch": 0.8717705617444892,
+      "grad_norm": 7.35408353805542,
+      "learning_rate": 9.821197931158455e-07,
+      "loss": 0.2077,
+      "step": 1839
+    },
+    {
+      "epoch": 0.8722446077269496,
+      "grad_norm": 4.194153785705566,
+      "learning_rate": 9.749786765158464e-07,
+      "loss": 0.1294,
+      "step": 1840
+    },
+    {
+      "epoch": 0.8722446077269496,
+      "eval_accuracy": 0.9943639291465378,
+      "eval_f1": 0.9369369369369369,
+      "eval_loss": 0.012980014085769653,
+      "eval_precision": 0.8813559322033898,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.6245,
+      "eval_samples_per_second": 5.461,
+      "eval_steps_per_second": 0.181,
+      "step": 1840
+    },
+    {
+      "epoch": 0.8727186537094098,
+      "grad_norm": 8.562105178833008,
+      "learning_rate": 9.678622860070474e-07,
+      "loss": 0.2731,
+      "step": 1841
+    },
+    {
+      "epoch": 0.8731926996918701,
+      "grad_norm": 7.327461242675781,
+      "learning_rate": 9.607706410864083e-07,
+      "loss": 0.1846,
+      "step": 1842
+    },
+    {
+      "epoch": 0.8736667456743304,
+      "grad_norm": 5.737156867980957,
+      "learning_rate": 9.537037611831047e-07,
+      "loss": 0.2219,
+      "step": 1843
+    },
+    {
+      "epoch": 0.8741407916567907,
+      "grad_norm": 3.665459156036377,
+      "learning_rate": 9.466616656584493e-07,
+      "loss": 0.1163,
+      "step": 1844
+    },
+    {
+      "epoch": 0.874614837639251,
+      "grad_norm": 5.575207710266113,
+      "learning_rate": 9.396443738058614e-07,
+      "loss": 0.1411,
+      "step": 1845
+    },
+    {
+      "epoch": 0.8750888836217113,
+      "grad_norm": 2.1095454692840576,
+      "learning_rate": 9.32651904850801e-07,
+      "loss": 0.0826,
+      "step": 1846
+    },
+    {
+      "epoch": 0.8755629296041716,
+      "grad_norm": 8.68192195892334,
+      "learning_rate": 9.256842779507236e-07,
+      "loss": 0.1324,
+      "step": 1847
+    },
+    {
+      "epoch": 0.8760369755866318,
+      "grad_norm": 7.812302112579346,
+      "learning_rate": 9.187415121950194e-07,
+      "loss": 0.2442,
+      "step": 1848
+    },
+    {
+      "epoch": 0.8765110215690922,
+      "grad_norm": 3.16363787651062,
+      "learning_rate": 9.118236266049707e-07,
+      "loss": 0.1255,
+      "step": 1849
+    },
+    {
+      "epoch": 0.8769850675515525,
+      "grad_norm": 5.470139503479004,
+      "learning_rate": 9.049306401336922e-07,
+      "loss": 0.1974,
+      "step": 1850
+    },
+    {
+      "epoch": 0.8774591135340128,
+      "grad_norm": 3.268472194671631,
+      "learning_rate": 8.980625716660829e-07,
+      "loss": 0.0863,
+      "step": 1851
+    },
+    {
+      "epoch": 0.8779331595164731,
+      "grad_norm": 2.927609920501709,
+      "learning_rate": 8.912194400187712e-07,
+      "loss": 0.0827,
+      "step": 1852
+    },
+    {
+      "epoch": 0.8784072054989334,
+      "grad_norm": 6.857902526855469,
+      "learning_rate": 8.84401263940069e-07,
+      "loss": 0.1555,
+      "step": 1853
+    },
+    {
+      "epoch": 0.8788812514813937,
+      "grad_norm": 4.798774719238281,
+      "learning_rate": 8.776080621099159e-07,
+      "loss": 0.1973,
+      "step": 1854
+    },
+    {
+      "epoch": 0.879355297463854,
+      "grad_norm": 4.6252946853637695,
+      "learning_rate": 8.708398531398233e-07,
+      "loss": 0.1612,
+      "step": 1855
+    },
+    {
+      "epoch": 0.8798293434463142,
+      "grad_norm": 4.394217491149902,
+      "learning_rate": 8.640966555728369e-07,
+      "loss": 0.1261,
+      "step": 1856
+    },
+    {
+      "epoch": 0.8803033894287746,
+      "grad_norm": 6.826826095581055,
+      "learning_rate": 8.573784878834734e-07,
+      "loss": 0.1587,
+      "step": 1857
+    },
+    {
+      "epoch": 0.8807774354112349,
+      "grad_norm": 10.54698657989502,
+      "learning_rate": 8.506853684776773e-07,
+      "loss": 0.154,
+      "step": 1858
+    },
+    {
+      "epoch": 0.8812514813936951,
+      "grad_norm": 4.272285461425781,
+      "learning_rate": 8.440173156927612e-07,
+      "loss": 0.1157,
+      "step": 1859
+    },
+    {
+      "epoch": 0.8817255273761555,
+      "grad_norm": 5.016007900238037,
+      "learning_rate": 8.373743477973739e-07,
+      "loss": 0.2076,
+      "step": 1860
+    },
+    {
+      "epoch": 0.8817255273761555,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012083540670573711,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.9345,
+      "eval_samples_per_second": 5.427,
+      "eval_steps_per_second": 0.18,
+      "step": 1860
+    },
+    {
+      "epoch": 0.8821995733586158,
+      "grad_norm": 5.868921756744385,
+      "learning_rate": 8.307564829914272e-07,
+      "loss": 0.168,
+      "step": 1861
+    },
+    {
+      "epoch": 0.8826736193410761,
+      "grad_norm": 8.008037567138672,
+      "learning_rate": 8.241637394060619e-07,
+      "loss": 0.0711,
+      "step": 1862
+    },
+    {
+      "epoch": 0.8831476653235364,
+      "grad_norm": 4.42324686050415,
+      "learning_rate": 8.175961351035943e-07,
+      "loss": 0.0957,
+      "step": 1863
+    },
+    {
+      "epoch": 0.8836217113059966,
+      "grad_norm": 5.00337553024292,
+      "learning_rate": 8.110536880774655e-07,
+      "loss": 0.1814,
+      "step": 1864
+    },
+    {
+      "epoch": 0.884095757288457,
+      "grad_norm": 4.169017791748047,
+      "learning_rate": 8.045364162521884e-07,
+      "loss": 0.112,
+      "step": 1865
+    },
+    {
+      "epoch": 0.8845698032709173,
+      "grad_norm": 8.79692554473877,
+      "learning_rate": 7.98044337483308e-07,
+      "loss": 0.2539,
+      "step": 1866
+    },
+    {
+      "epoch": 0.8850438492533775,
+      "grad_norm": 6.905977725982666,
+      "learning_rate": 7.915774695573452e-07,
+      "loss": 0.1628,
+      "step": 1867
+    },
+    {
+      "epoch": 0.8855178952358379,
+      "grad_norm": 3.759481430053711,
+      "learning_rate": 7.851358301917511e-07,
+      "loss": 0.17,
+      "step": 1868
+    },
+    {
+      "epoch": 0.8859919412182982,
+      "grad_norm": 4.754873275756836,
+      "learning_rate": 7.787194370348549e-07,
+      "loss": 0.2469,
+      "step": 1869
+    },
+    {
+      "epoch": 0.8864659872007584,
+      "grad_norm": 5.5656280517578125,
+      "learning_rate": 7.723283076658217e-07,
+      "loss": 0.1551,
+      "step": 1870
+    },
+    {
+      "epoch": 0.8869400331832188,
+      "grad_norm": 2.3625526428222656,
+      "learning_rate": 7.659624595945969e-07,
+      "loss": 0.0846,
+      "step": 1871
+    },
+    {
+      "epoch": 0.887414079165679,
+      "grad_norm": 10.592917442321777,
+      "learning_rate": 7.596219102618652e-07,
+      "loss": 0.2762,
+      "step": 1872
+    },
+    {
+      "epoch": 0.8878881251481394,
+      "grad_norm": 5.2067952156066895,
+      "learning_rate": 7.533066770389985e-07,
+      "loss": 0.1768,
+      "step": 1873
+    },
+    {
+      "epoch": 0.8883621711305997,
+      "grad_norm": 4.715292930603027,
+      "learning_rate": 7.470167772280091e-07,
+      "loss": 0.1107,
+      "step": 1874
+    },
+    {
+      "epoch": 0.8888362171130599,
+      "grad_norm": 3.512718439102173,
+      "learning_rate": 7.40752228061502e-07,
+      "loss": 0.1145,
+      "step": 1875
+    },
+    {
+      "epoch": 0.8893102630955203,
+      "grad_norm": 3.8536527156829834,
+      "learning_rate": 7.345130467026318e-07,
+      "loss": 0.1473,
+      "step": 1876
+    },
+    {
+      "epoch": 0.8897843090779806,
+      "grad_norm": 3.4637436866760254,
+      "learning_rate": 7.282992502450447e-07,
+      "loss": 0.1661,
+      "step": 1877
+    },
+    {
+      "epoch": 0.8902583550604408,
+      "grad_norm": 2.695815324783325,
+      "learning_rate": 7.221108557128509e-07,
+      "loss": 0.139,
+      "step": 1878
+    },
+    {
+      "epoch": 0.8907324010429012,
+      "grad_norm": 4.534758567810059,
+      "learning_rate": 7.159478800605546e-07,
+      "loss": 0.1425,
+      "step": 1879
+    },
+    {
+      "epoch": 0.8912064470253614,
+      "grad_norm": 7.158409595489502,
+      "learning_rate": 7.098103401730272e-07,
+      "loss": 0.1628,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8912064470253614,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012087295763194561,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.8216,
+      "eval_samples_per_second": 5.439,
+      "eval_steps_per_second": 0.181,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8916804930078217,
+      "grad_norm": 4.419368267059326,
+      "learning_rate": 7.03698252865449e-07,
+      "loss": 0.0986,
+      "step": 1881
+    },
+    {
+      "epoch": 0.8921545389902821,
+      "grad_norm": 5.9724931716918945,
+      "learning_rate": 6.976116348832684e-07,
+      "loss": 0.2064,
+      "step": 1882
+    },
+    {
+      "epoch": 0.8926285849727423,
+      "grad_norm": 4.130607604980469,
+      "learning_rate": 6.915505029021552e-07,
+      "loss": 0.1445,
+      "step": 1883
+    },
+    {
+      "epoch": 0.8931026309552027,
+      "grad_norm": 4.273713111877441,
+      "learning_rate": 6.855148735279527e-07,
+      "loss": 0.1389,
+      "step": 1884
+    },
+    {
+      "epoch": 0.893576676937663,
+      "grad_norm": 5.399996280670166,
+      "learning_rate": 6.795047632966379e-07,
+      "loss": 0.1461,
+      "step": 1885
+    },
+    {
+      "epoch": 0.8940507229201232,
+      "grad_norm": 6.056548118591309,
+      "learning_rate": 6.735201886742671e-07,
+      "loss": 0.1935,
+      "step": 1886
+    },
+    {
+      "epoch": 0.8945247689025836,
+      "grad_norm": 5.537142276763916,
+      "learning_rate": 6.675611660569403e-07,
+      "loss": 0.1816,
+      "step": 1887
+    },
+    {
+      "epoch": 0.8949988148850438,
+      "grad_norm": 6.469786167144775,
+      "learning_rate": 6.616277117707493e-07,
+      "loss": 0.1772,
+      "step": 1888
+    },
+    {
+      "epoch": 0.8954728608675041,
+      "grad_norm": 4.300382137298584,
+      "learning_rate": 6.55719842071737e-07,
+      "loss": 0.0932,
+      "step": 1889
+    },
+    {
+      "epoch": 0.8959469068499645,
+      "grad_norm": 6.920015335083008,
+      "learning_rate": 6.498375731458529e-07,
+      "loss": 0.208,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8964209528324247,
+      "grad_norm": 5.358169078826904,
+      "learning_rate": 6.439809211089043e-07,
+      "loss": 0.1518,
+      "step": 1891
+    },
+    {
+      "epoch": 0.896894998814885,
+      "grad_norm": 9.420503616333008,
+      "learning_rate": 6.381499020065163e-07,
+      "loss": 0.1817,
+      "step": 1892
+    },
+    {
+      "epoch": 0.8973690447973454,
+      "grad_norm": 5.0321855545043945,
+      "learning_rate": 6.323445318140886e-07,
+      "loss": 0.1786,
+      "step": 1893
+    },
+    {
+      "epoch": 0.8978430907798056,
+      "grad_norm": 4.13561487197876,
+      "learning_rate": 6.265648264367452e-07,
+      "loss": 0.1003,
+      "step": 1894
+    },
+    {
+      "epoch": 0.898317136762266,
+      "grad_norm": 7.733060359954834,
+      "learning_rate": 6.20810801709305e-07,
+      "loss": 0.216,
+      "step": 1895
+    },
+    {
+      "epoch": 0.8987911827447262,
+      "grad_norm": 2.7273457050323486,
+      "learning_rate": 6.15082473396218e-07,
+      "loss": 0.1149,
+      "step": 1896
+    },
+    {
+      "epoch": 0.8992652287271865,
+      "grad_norm": 2.0938057899475098,
+      "learning_rate": 6.093798571915389e-07,
+      "loss": 0.0787,
+      "step": 1897
+    },
+    {
+      "epoch": 0.8997392747096469,
+      "grad_norm": 6.044375896453857,
+      "learning_rate": 6.037029687188767e-07,
+      "loss": 0.1878,
+      "step": 1898
+    },
+    {
+      "epoch": 0.9002133206921071,
+      "grad_norm": 2.365513563156128,
+      "learning_rate": 5.980518235313549e-07,
+      "loss": 0.1065,
+      "step": 1899
+    },
+    {
+      "epoch": 0.9006873666745674,
+      "grad_norm": 4.049135684967041,
+      "learning_rate": 5.924264371115652e-07,
+      "loss": 0.156,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9006873666745674,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012837257236242294,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.4558,
+      "eval_samples_per_second": 5.48,
+      "eval_steps_per_second": 0.182,
+      "step": 1900
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.0749333019243315e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null