Training in progress, step 2000, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48f0b842ee73338c5196631f87772bba6f5edf4b3ae89cae7bbfc7f309e0857a
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:97e5f90b02b18eee0439efcd1e11c562003887a0a8341c65f3c61afc97e6ce91
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3172121c5181db7f36c5f20a872297dfe5b4f0ae30a7959ec1c6216d04d0d1cc
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa33fe523d912fae3cb37eeb6b60af785266354c6c31911ecc4617df910b0be2
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88a60cedca48e5fc8740b4f1f705f978c0560a4e6385b3969f4dac4afed261e8
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe1bbd6e31aea6726660dc7dac9d7b7b788a128231286077750bd3b7ceeb5a97
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb17705c60e3748d16ff6a5ed77b771e13f629bc8439632ab64d0f641cc2332a
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cefe39a14475612351b6fccd8db8eec85a931549215bf24bafd93144edce8a5
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22c799f3fc1e686a2648fd9a88df8f0e9f27001631c96224ad9df9e896a5d223
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:57079b1ad6dfda7f50c73be4cc9a2461ca37b66b4a9e6186c57fa89a2fbb32dc
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:900d0bd1d3c3bcd0dad9c4909629cf63a5d624cabc1257f001e2d9077a9e9e53
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b90c40fdfe265353374604f556a9c76615bc263d7688eb1dc6fa1733158babe8
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e86c07f1298f4667edef5c54e67b1e608e33a7d17ed5a2972f6c419f38e6ca94
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:834bf46634f0752bdb674694ee8a0f7d157d699667caf2b5dc77591f5ada58ec
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85791137bbe5abdeb01422c95c0695f38d7b465390cfce57a8908907a93aa9c3
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:20a45e516450ff75e5f30798a9fd5c55d60506aebd3e02c1c8b581ae0fd8ecb1
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8eeab6b7e925d9ac0af1499c6158c2bd3d2fa709063a35e8908c75fc9a3bf66e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f258b75154d2aee1a76c51ba8c53eb9ff1afc1684f65be22d906efc966e2f31d
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d56b19c89e54575da49ba3691c2d1cd4239936a6e7cdd184f280c64e52c90fc2
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a2cd1c1229272286316fc487e083e3c0dbb26b851fd444bc5cfa3906d05744d
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660fb9882f614217e98ebdc720c67d1f69f90546870acb0d060c2c463fa269c7
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:54bd2f8ba2fbed41edcaf0b31a7cc52ace7dc5e888e79b744825e45b024f9c0c
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc5612b1d5a8804a93743e626503af0c5c4b4134be7747f86c470f7d404097de
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:20daa4d654ef46df708f18dbbf7bc707be5815cfc90479bf1752f4b1f5183f51
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fbd4dd1b12705ad122adddd6e7db3dc1baec5f8063c359269d322c1f0027ee1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0c332a71d8fb512346f2df9841021fb4baac7da78dd4eb8a3c1b75157d59e96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9006873666745674,
   "eval_steps": 20,
-  "global_step": 1900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14459,6 +14459,766 @@
       "eval_samples_per_second": 5.48,
       "eval_steps_per_second": 0.182,
       "step": 1900
     }
   ],
   "logging_steps": 1,
@@ -14478,7 +15238,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.0749333019243315e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9480919649205973,
   "eval_steps": 20,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.48,
       "eval_steps_per_second": 0.182,
       "step": 1900
+    },
+    {
+      "epoch": 0.9011614126570278,
+      "grad_norm": 4.734807014465332,
+      "learning_rate": 5.868268248715292e-07,
+      "loss": 0.2087,
+      "step": 1901
+    },
+    {
+      "epoch": 0.901635458639488,
+      "grad_norm": 3.426779270172119,
+      "learning_rate": 5.812530021526541e-07,
+      "loss": 0.1254,
+      "step": 1902
+    },
+    {
+      "epoch": 0.9021095046219483,
+      "grad_norm": 6.730406761169434,
+      "learning_rate": 5.7570498422569e-07,
+      "loss": 0.1027,
+      "step": 1903
+    },
+    {
+      "epoch": 0.9025835506044086,
+      "grad_norm": 7.400092601776123,
+      "learning_rate": 5.701827862906894e-07,
+      "loss": 0.2117,
+      "step": 1904
+    },
+    {
+      "epoch": 0.9030575965868689,
+      "grad_norm": 5.896395206451416,
+      "learning_rate": 5.646864234769644e-07,
+      "loss": 0.2147,
+      "step": 1905
+    },
+    {
+      "epoch": 0.9035316425693293,
+      "grad_norm": 4.465495586395264,
+      "learning_rate": 5.592159108430472e-07,
+      "loss": 0.0945,
+      "step": 1906
+    },
+    {
+      "epoch": 0.9040056885517895,
+      "grad_norm": 3.8033761978149414,
+      "learning_rate": 5.537712633766479e-07,
+      "loss": 0.0876,
+      "step": 1907
+    },
+    {
+      "epoch": 0.9044797345342498,
+      "grad_norm": 4.422494888305664,
+      "learning_rate": 5.483524959946097e-07,
+      "loss": 0.0863,
+      "step": 1908
+    },
+    {
+      "epoch": 0.9049537805167102,
+      "grad_norm": 5.122066974639893,
+      "learning_rate": 5.429596235428746e-07,
+      "loss": 0.1666,
+      "step": 1909
+    },
+    {
+      "epoch": 0.9054278264991704,
+      "grad_norm": 4.508274078369141,
+      "learning_rate": 5.375926607964399e-07,
+      "loss": 0.1302,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9059018724816307,
+      "grad_norm": 5.495452880859375,
+      "learning_rate": 5.322516224593143e-07,
+      "loss": 0.1386,
+      "step": 1911
+    },
+    {
+      "epoch": 0.906375918464091,
+      "grad_norm": 4.296015739440918,
+      "learning_rate": 5.269365231644851e-07,
+      "loss": 0.1947,
+      "step": 1912
+    },
+    {
+      "epoch": 0.9068499644465513,
+      "grad_norm": 5.446202278137207,
+      "learning_rate": 5.216473774738706e-07,
+      "loss": 0.2568,
+      "step": 1913
+    },
+    {
+      "epoch": 0.9073240104290116,
+      "grad_norm": 3.5428926944732666,
+      "learning_rate": 5.163841998782837e-07,
+      "loss": 0.0723,
+      "step": 1914
+    },
+    {
+      "epoch": 0.9077980564114719,
+      "grad_norm": 3.931621789932251,
+      "learning_rate": 5.111470047973932e-07,
+      "loss": 0.1773,
+      "step": 1915
+    },
+    {
+      "epoch": 0.9082721023939322,
+      "grad_norm": 2.9896233081817627,
+      "learning_rate": 5.059358065796816e-07,
+      "loss": 0.1289,
+      "step": 1916
+    },
+    {
+      "epoch": 0.9087461483763926,
+      "grad_norm": 4.83162784576416,
+      "learning_rate": 5.007506195024059e-07,
+      "loss": 0.1292,
+      "step": 1917
+    },
+    {
+      "epoch": 0.9092201943588528,
+      "grad_norm": 3.8033645153045654,
+      "learning_rate": 4.955914577715615e-07,
+      "loss": 0.1018,
+      "step": 1918
+    },
+    {
+      "epoch": 0.9096942403413131,
+      "grad_norm": 3.928222417831421,
+      "learning_rate": 4.904583355218429e-07,
+      "loss": 0.1198,
+      "step": 1919
+    },
+    {
+      "epoch": 0.9101682863237734,
+      "grad_norm": 5.3848557472229,
+      "learning_rate": 4.853512668166005e-07,
+      "loss": 0.0762,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9101682863237734,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012816701084375381,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.4456,
+      "eval_samples_per_second": 5.372,
+      "eval_steps_per_second": 0.178,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9106423323062337,
+      "grad_norm": 5.235629558563232,
+      "learning_rate": 4.802702656478053e-07,
+      "loss": 0.1394,
+      "step": 1921
+    },
+    {
+      "epoch": 0.911116378288694,
+      "grad_norm": 6.737102031707764,
+      "learning_rate": 4.752153459360143e-07,
+      "loss": 0.1753,
+      "step": 1922
+    },
+    {
+      "epoch": 0.9115904242711543,
+      "grad_norm": 6.279690265655518,
+      "learning_rate": 4.701865215303236e-07,
+      "loss": 0.1381,
+      "step": 1923
+    },
+    {
+      "epoch": 0.9120644702536146,
+      "grad_norm": 5.9221086502075195,
+      "learning_rate": 4.6518380620833694e-07,
+      "loss": 0.1984,
+      "step": 1924
+    },
+    {
+      "epoch": 0.9125385162360748,
+      "grad_norm": 3.1503348350524902,
+      "learning_rate": 4.602072136761282e-07,
+      "loss": 0.1374,
+      "step": 1925
+    },
+    {
+      "epoch": 0.9130125622185352,
+      "grad_norm": 5.046225070953369,
+      "learning_rate": 4.5525675756819987e-07,
+      "loss": 0.1439,
+      "step": 1926
+    },
+    {
+      "epoch": 0.9134866082009955,
+      "grad_norm": 4.287316799163818,
+      "learning_rate": 4.503324514474483e-07,
+      "loss": 0.1769,
+      "step": 1927
+    },
+    {
+      "epoch": 0.9139606541834558,
+      "grad_norm": 3.769968032836914,
+      "learning_rate": 4.4543430880512604e-07,
+      "loss": 0.1381,
+      "step": 1928
+    },
+    {
+      "epoch": 0.9144347001659161,
+      "grad_norm": 3.910022020339966,
+      "learning_rate": 4.4056234306080415e-07,
+      "loss": 0.142,
+      "step": 1929
+    },
+    {
+      "epoch": 0.9149087461483764,
+      "grad_norm": 2.3405351638793945,
+      "learning_rate": 4.357165675623376e-07,
+      "loss": 0.1014,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9153827921308367,
+      "grad_norm": 5.19395637512207,
+      "learning_rate": 4.3089699558582776e-07,
+      "loss": 0.1192,
+      "step": 1931
+    },
+    {
+      "epoch": 0.915856838113297,
+      "grad_norm": 4.177900314331055,
+      "learning_rate": 4.261036403355823e-07,
+      "loss": 0.1327,
+      "step": 1932
+    },
+    {
+      "epoch": 0.9163308840957572,
+      "grad_norm": 8.132122039794922,
+      "learning_rate": 4.2133651494408513e-07,
+      "loss": 0.1815,
+      "step": 1933
+    },
+    {
+      "epoch": 0.9168049300782176,
+      "grad_norm": 4.363158702850342,
+      "learning_rate": 4.165956324719556e-07,
+      "loss": 0.1009,
+      "step": 1934
+    },
+    {
+      "epoch": 0.9172789760606779,
+      "grad_norm": 2.370462417602539,
+      "learning_rate": 4.1188100590791704e-07,
+      "loss": 0.0722,
+      "step": 1935
+    },
+    {
+      "epoch": 0.9177530220431381,
+      "grad_norm": 3.8629467487335205,
+      "learning_rate": 4.0719264816875713e-07,
+      "loss": 0.1657,
+      "step": 1936
+    },
+    {
+      "epoch": 0.9182270680255985,
+      "grad_norm": 5.270659923553467,
+      "learning_rate": 4.0253057209929556e-07,
+      "loss": 0.1906,
+      "step": 1937
+    },
+    {
+      "epoch": 0.9187011140080588,
+      "grad_norm": 3.739020824432373,
+      "learning_rate": 3.9789479047234293e-07,
+      "loss": 0.1354,
+      "step": 1938
+    },
+    {
+      "epoch": 0.9191751599905191,
+      "grad_norm": 3.877326011657715,
+      "learning_rate": 3.9328531598867517e-07,
+      "loss": 0.1159,
+      "step": 1939
+    },
+    {
+      "epoch": 0.9196492059729794,
+      "grad_norm": 3.6506576538085938,
+      "learning_rate": 3.887021612769937e-07,
+      "loss": 0.1372,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9196492059729794,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012422804720699787,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.6153,
+      "eval_samples_per_second": 5.462,
+      "eval_steps_per_second": 0.181,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9201232519554396,
+      "grad_norm": 4.246330261230469,
+      "learning_rate": 3.841453388938876e-07,
+      "loss": 0.1756,
+      "step": 1941
+    },
+    {
+      "epoch": 0.9205972979379,
+      "grad_norm": 4.453822135925293,
+      "learning_rate": 3.7961486132380487e-07,
+      "loss": 0.0994,
+      "step": 1942
+    },
+    {
+      "epoch": 0.9210713439203603,
+      "grad_norm": 3.8408455848693848,
+      "learning_rate": 3.7511074097901557e-07,
+      "loss": 0.1043,
+      "step": 1943
+    },
+    {
+      "epoch": 0.9215453899028205,
+      "grad_norm": 4.067150592803955,
+      "learning_rate": 3.7063299019957867e-07,
+      "loss": 0.1134,
+      "step": 1944
+    },
+    {
+      "epoch": 0.9220194358852809,
+      "grad_norm": 6.159415245056152,
+      "learning_rate": 3.661816212533076e-07,
+      "loss": 0.1361,
+      "step": 1945
+    },
+    {
+      "epoch": 0.9224934818677412,
+      "grad_norm": 2.458495616912842,
+      "learning_rate": 3.617566463357336e-07,
+      "loss": 0.0948,
+      "step": 1946
+    },
+    {
+      "epoch": 0.9229675278502014,
+      "grad_norm": 6.143227577209473,
+      "learning_rate": 3.5735807757008354e-07,
+      "loss": 0.2176,
+      "step": 1947
+    },
+    {
+      "epoch": 0.9234415738326618,
+      "grad_norm": 3.9085354804992676,
+      "learning_rate": 3.529859270072289e-07,
+      "loss": 0.1214,
+      "step": 1948
+    },
+    {
+      "epoch": 0.923915619815122,
+      "grad_norm": 4.7195963859558105,
+      "learning_rate": 3.4864020662566775e-07,
+      "loss": 0.1125,
+      "step": 1949
+    },
+    {
+      "epoch": 0.9243896657975824,
+      "grad_norm": 4.297183990478516,
+      "learning_rate": 3.443209283314863e-07,
+      "loss": 0.1678,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9248637117800427,
+      "grad_norm": 2.1935582160949707,
+      "learning_rate": 3.4002810395832753e-07,
+      "loss": 0.0998,
+      "step": 1951
+    },
+    {
+      "epoch": 0.9253377577625029,
+      "grad_norm": 4.309812068939209,
+      "learning_rate": 3.357617452673545e-07,
+      "loss": 0.0861,
+      "step": 1952
+    },
+    {
+      "epoch": 0.9258118037449633,
+      "grad_norm": 5.1253743171691895,
+      "learning_rate": 3.3152186394722506e-07,
+      "loss": 0.1119,
+      "step": 1953
+    },
+    {
+      "epoch": 0.9262858497274236,
+      "grad_norm": 4.127727031707764,
+      "learning_rate": 3.27308471614054e-07,
+      "loss": 0.1562,
+      "step": 1954
+    },
+    {
+      "epoch": 0.9267598957098838,
+      "grad_norm": 3.679004430770874,
+      "learning_rate": 3.2312157981138626e-07,
+      "loss": 0.1136,
+      "step": 1955
+    },
+    {
+      "epoch": 0.9272339416923442,
+      "grad_norm": 6.002187728881836,
+      "learning_rate": 3.189612000101594e-07,
+      "loss": 0.1292,
+      "step": 1956
+    },
+    {
+      "epoch": 0.9277079876748044,
+      "grad_norm": 4.653674125671387,
+      "learning_rate": 3.148273436086757e-07,
+      "loss": 0.1301,
+      "step": 1957
+    },
+    {
+      "epoch": 0.9281820336572647,
+      "grad_norm": 3.5616414546966553,
+      "learning_rate": 3.107200219325746e-07,
+      "loss": 0.1325,
+      "step": 1958
+    },
+    {
+      "epoch": 0.9286560796397251,
+      "grad_norm": 3.704566240310669,
+      "learning_rate": 3.0663924623479337e-07,
+      "loss": 0.1194,
+      "step": 1959
+    },
+    {
+      "epoch": 0.9291301256221853,
+      "grad_norm": 3.3392817974090576,
+      "learning_rate": 3.0258502769553996e-07,
+      "loss": 0.0837,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9291301256221853,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012340452522039413,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.1351,
+      "eval_samples_per_second": 5.405,
+      "eval_steps_per_second": 0.18,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9296041716046457,
+      "grad_norm": 8.908299446105957,
+      "learning_rate": 2.985573774222661e-07,
+      "loss": 0.1625,
+      "step": 1961
+    },
+    {
+      "epoch": 0.930078217587106,
+      "grad_norm": 3.4975991249084473,
+      "learning_rate": 2.945563064496326e-07,
+      "loss": 0.1712,
+      "step": 1962
+    },
+    {
+      "epoch": 0.9305522635695662,
+      "grad_norm": 4.6506147384643555,
+      "learning_rate": 2.905818257394799e-07,
+      "loss": 0.1451,
+      "step": 1963
+    },
+    {
+      "epoch": 0.9310263095520266,
+      "grad_norm": 1.9439915418624878,
+      "learning_rate": 2.8663394618079875e-07,
+      "loss": 0.0572,
+      "step": 1964
+    },
+    {
+      "epoch": 0.9315003555344868,
+      "grad_norm": 4.1189374923706055,
+      "learning_rate": 2.827126785897005e-07,
+      "loss": 0.1361,
+      "step": 1965
+    },
+    {
+      "epoch": 0.9319744015169471,
+      "grad_norm": 6.66880989074707,
+      "learning_rate": 2.78818033709386e-07,
+      "loss": 0.1701,
+      "step": 1966
+    },
+    {
+      "epoch": 0.9324484474994075,
+      "grad_norm": 4.2832794189453125,
+      "learning_rate": 2.7495002221011757e-07,
+      "loss": 0.1376,
+      "step": 1967
+    },
+    {
+      "epoch": 0.9329224934818677,
+      "grad_norm": 3.8820581436157227,
+      "learning_rate": 2.7110865468919057e-07,
+      "loss": 0.1829,
+      "step": 1968
+    },
+    {
+      "epoch": 0.933396539464328,
+      "grad_norm": 4.808830261230469,
+      "learning_rate": 2.672939416708986e-07,
+      "loss": 0.1535,
+      "step": 1969
+    },
+    {
+      "epoch": 0.9338705854467884,
+      "grad_norm": 3.9023189544677734,
+      "learning_rate": 2.635058936065138e-07,
+      "loss": 0.1386,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9343446314292486,
+      "grad_norm": 8.328058242797852,
+      "learning_rate": 2.5974452087425437e-07,
+      "loss": 0.2852,
+      "step": 1971
+    },
+    {
+      "epoch": 0.934818677411709,
+      "grad_norm": 7.914390563964844,
+      "learning_rate": 2.5600983377925046e-07,
+      "loss": 0.1979,
+      "step": 1972
+    },
+    {
+      "epoch": 0.9352927233941692,
+      "grad_norm": 3.548283815383911,
+      "learning_rate": 2.523018425535251e-07,
+      "loss": 0.1297,
+      "step": 1973
+    },
+    {
+      "epoch": 0.9357667693766295,
+      "grad_norm": 6.728952884674072,
+      "learning_rate": 2.486205573559608e-07,
+      "loss": 0.1692,
+      "step": 1974
+    },
+    {
+      "epoch": 0.9362408153590899,
+      "grad_norm": 3.3491721153259277,
+      "learning_rate": 2.4496598827227213e-07,
+      "loss": 0.0886,
+      "step": 1975
+    },
+    {
+      "epoch": 0.9367148613415501,
+      "grad_norm": 5.318295001983643,
+      "learning_rate": 2.413381453149799e-07,
+      "loss": 0.1496,
+      "step": 1976
+    },
+    {
+      "epoch": 0.9371889073240104,
+      "grad_norm": 8.961012840270996,
+      "learning_rate": 2.3773703842338125e-07,
+      "loss": 0.1294,
+      "step": 1977
+    },
+    {
+      "epoch": 0.9376629533064708,
+      "grad_norm": 8.02442741394043,
+      "learning_rate": 2.3416267746352528e-07,
+      "loss": 0.1405,
+      "step": 1978
+    },
+    {
+      "epoch": 0.938136999288931,
+      "grad_norm": 5.480352401733398,
+      "learning_rate": 2.3061507222818303e-07,
+      "loss": 0.1055,
+      "step": 1979
+    },
+    {
+      "epoch": 0.9386110452713913,
+      "grad_norm": 4.235230445861816,
+      "learning_rate": 2.2709423243682416e-07,
+      "loss": 0.1353,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9386110452713913,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.01255668792873621,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.3085,
+      "eval_samples_per_second": 5.496,
+      "eval_steps_per_second": 0.183,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9390850912538516,
+      "grad_norm": 3.984555959701538,
+      "learning_rate": 2.23600167735587e-07,
+      "loss": 0.1236,
+      "step": 1981
+    },
+    {
+      "epoch": 0.9395591372363119,
+      "grad_norm": 5.206995487213135,
+      "learning_rate": 2.2013288769725194e-07,
+      "loss": 0.2124,
+      "step": 1982
+    },
+    {
+      "epoch": 0.9400331832187723,
+      "grad_norm": 4.533375263214111,
+      "learning_rate": 2.166924018212202e-07,
+      "loss": 0.1632,
+      "step": 1983
+    },
+    {
+      "epoch": 0.9405072292012325,
+      "grad_norm": 5.9977641105651855,
+      "learning_rate": 2.132787195334829e-07,
+      "loss": 0.2039,
+      "step": 1984
+    },
+    {
+      "epoch": 0.9409812751836928,
+      "grad_norm": 6.321089744567871,
+      "learning_rate": 2.0989185018659431e-07,
+      "loss": 0.1539,
+      "step": 1985
+    },
+    {
+      "epoch": 0.9414553211661532,
+      "grad_norm": 4.989069938659668,
+      "learning_rate": 2.0653180305965194e-07,
+      "loss": 0.1501,
+      "step": 1986
+    },
+    {
+      "epoch": 0.9419293671486134,
+      "grad_norm": 4.138362407684326,
+      "learning_rate": 2.0319858735826648e-07,
+      "loss": 0.1388,
+      "step": 1987
+    },
+    {
+      "epoch": 0.9424034131310737,
+      "grad_norm": 11.884577751159668,
+      "learning_rate": 1.9989221221453746e-07,
+      "loss": 0.2071,
+      "step": 1988
+    },
+    {
+      "epoch": 0.942877459113534,
+      "grad_norm": 4.623379707336426,
+      "learning_rate": 1.966126866870277e-07,
+      "loss": 0.1529,
+      "step": 1989
+    },
+    {
+      "epoch": 0.9433515050959943,
+      "grad_norm": 5.523632526397705,
+      "learning_rate": 1.9336001976074326e-07,
+      "loss": 0.2024,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9438255510784546,
+      "grad_norm": 4.839412689208984,
+      "learning_rate": 1.9013422034710016e-07,
+      "loss": 0.1426,
+      "step": 1991
+    },
+    {
+      "epoch": 0.9442995970609149,
+      "grad_norm": 9.59015941619873,
+      "learning_rate": 1.869352972839067e-07,
+      "loss": 0.2005,
+      "step": 1992
+    },
+    {
+      "epoch": 0.9447736430433752,
+      "grad_norm": 4.234097957611084,
+      "learning_rate": 1.837632593353389e-07,
+      "loss": 0.1123,
+      "step": 1993
+    },
+    {
+      "epoch": 0.9452476890258356,
+      "grad_norm": 4.442883491516113,
+      "learning_rate": 1.8061811519191287e-07,
+      "loss": 0.1053,
+      "step": 1994
+    },
+    {
+      "epoch": 0.9457217350082958,
+      "grad_norm": 4.088728904724121,
+      "learning_rate": 1.7749987347046471e-07,
+      "loss": 0.0867,
+      "step": 1995
+    },
+    {
+      "epoch": 0.9461957809907561,
+      "grad_norm": 4.195045471191406,
+      "learning_rate": 1.7440854271412288e-07,
+      "loss": 0.159,
+      "step": 1996
+    },
+    {
+      "epoch": 0.9466698269732164,
+      "grad_norm": 4.0102739334106445,
+      "learning_rate": 1.7134413139228812e-07,
+      "loss": 0.1162,
+      "step": 1997
+    },
+    {
+      "epoch": 0.9471438729556767,
+      "grad_norm": 5.108349800109863,
+      "learning_rate": 1.6830664790061124e-07,
+      "loss": 0.1445,
+      "step": 1998
+    },
+    {
+      "epoch": 0.947617918938137,
+      "grad_norm": 6.93289852142334,
+      "learning_rate": 1.6529610056096768e-07,
+      "loss": 0.1204,
+      "step": 1999
+    },
+    {
+      "epoch": 0.9480919649205973,
+      "grad_norm": 8.224555015563965,
+      "learning_rate": 1.6231249762143187e-07,
+      "loss": 0.1914,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9480919649205973,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012721872888505459,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.4202,
+      "eval_samples_per_second": 5.375,
+      "eval_steps_per_second": 0.179,
+      "step": 2000
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.343662741557084e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null