Training in progress, step 2100, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97e5f90b02b18eee0439efcd1e11c562003887a0a8341c65f3c61afc97e6ce91
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:050e4db55e69664bf6d9c834522ec2206b36b64c8d2f6ed4d5d17b4cf9da2f4e
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa33fe523d912fae3cb37eeb6b60af785266354c6c31911ecc4617df910b0be2
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:adb3a674abc7da7a23279462f8cae294d8ecdec98362fed586fc3bccef1a61d4
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe1bbd6e31aea6726660dc7dac9d7b7b788a128231286077750bd3b7ceeb5a97
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1e641d2b2e349a4c213409e52cf62d25bc236ac15c9791b7bc804909f7f92c3
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cefe39a14475612351b6fccd8db8eec85a931549215bf24bafd93144edce8a5
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:866ec72c28b8ea1e8a4c76f5ed42b739d69875ec24137c268880795bd767ba9b
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57079b1ad6dfda7f50c73be4cc9a2461ca37b66b4a9e6186c57fa89a2fbb32dc
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f5d80504b530d1236d869d6a0431889ce3c16ca369fab9ca79aef572e1e676f
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b90c40fdfe265353374604f556a9c76615bc263d7688eb1dc6fa1733158babe8
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b0148021e09d7b7a64e41765bf2c33e45d25853d9e709eca7c135e74bee54b7
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:834bf46634f0752bdb674694ee8a0f7d157d699667caf2b5dc77591f5ada58ec
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cda280986df81c923c89a0a8a61df0a1484f3b11f668604be6beb240af22c140
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20a45e516450ff75e5f30798a9fd5c55d60506aebd3e02c1c8b581ae0fd8ecb1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bb78205b0b38be64245705e3d63c368f26e81d439c05fe7f4f6ee459319648f
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f258b75154d2aee1a76c51ba8c53eb9ff1afc1684f65be22d906efc966e2f31d
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:68bc9217b6e9ab217f22aba698dbeddd344df01c6c8d3bf496373786b4d6b46f
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a2cd1c1229272286316fc487e083e3c0dbb26b851fd444bc5cfa3906d05744d
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:72a20a9702c2689058ab5d5d2baeb8c7227e34d68571334f92805043bd9e18eb
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54bd2f8ba2fbed41edcaf0b31a7cc52ace7dc5e888e79b744825e45b024f9c0c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8533b05acf81e2a8c388c137bc99083b4a5fc4f3554fc80f7b0497d2e0eca05f
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20daa4d654ef46df708f18dbbf7bc707be5815cfc90479bf1752f4b1f5183f51
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4e0b82e92d540a47961438b15ece197574d010671ffe40e6c7ee07f5dac4307
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0c332a71d8fb512346f2df9841021fb4baac7da78dd4eb8a3c1b75157d59e96
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ac1b330f53ae14ab4a2bb829af8af4d5e4c909474cfca651cf822672c87529f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9480919649205973,
   "eval_steps": 20,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15219,6 +15219,766 @@
       "eval_samples_per_second": 5.375,
       "eval_steps_per_second": 0.179,
       "step": 2000
     }
   ],
   "logging_steps": 1,
@@ -15238,7 +15998,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.343662741557084e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9954965631666272,
   "eval_steps": 20,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.375,
       "eval_steps_per_second": 0.179,
       "step": 2000
+    },
+    {
+      "epoch": 0.9485660109030576,
+      "grad_norm": 2.924222707748413,
+      "learning_rate": 1.5935584725626062e-07,
+      "loss": 0.0924,
+      "step": 2001
+    },
+    {
+      "epoch": 0.9490400568855178,
+      "grad_norm": 5.106085300445557,
+      "learning_rate": 1.5642615756586765e-07,
+      "loss": 0.1919,
+      "step": 2002
+    },
+    {
+      "epoch": 0.9495141028679782,
+      "grad_norm": 5.821203708648682,
+      "learning_rate": 1.5352343657680234e-07,
+      "loss": 0.1551,
+      "step": 2003
+    },
+    {
+      "epoch": 0.9499881488504385,
+      "grad_norm": 4.752243518829346,
+      "learning_rate": 1.506476922417266e-07,
+      "loss": 0.16,
+      "step": 2004
+    },
+    {
+      "epoch": 0.9504621948328988,
+      "grad_norm": 4.044118404388428,
+      "learning_rate": 1.4779893243939358e-07,
+      "loss": 0.1228,
+      "step": 2005
+    },
+    {
+      "epoch": 0.9509362408153591,
+      "grad_norm": 5.809322834014893,
+      "learning_rate": 1.4497716497462676e-07,
+      "loss": 0.1309,
+      "step": 2006
+    },
+    {
+      "epoch": 0.9514102867978194,
+      "grad_norm": 5.9313459396362305,
+      "learning_rate": 1.4218239757829656e-07,
+      "loss": 0.1126,
+      "step": 2007
+    },
+    {
+      "epoch": 0.9518843327802797,
+      "grad_norm": 5.524699687957764,
+      "learning_rate": 1.3941463790730248e-07,
+      "loss": 0.0932,
+      "step": 2008
+    },
+    {
+      "epoch": 0.95235837876274,
+      "grad_norm": 3.8316197395324707,
+      "learning_rate": 1.3667389354454997e-07,
+      "loss": 0.1288,
+      "step": 2009
+    },
+    {
+      "epoch": 0.9528324247452002,
+      "grad_norm": 4.261562347412109,
+      "learning_rate": 1.3396017199892808e-07,
+      "loss": 0.0725,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9533064707276606,
+      "grad_norm": 3.045381546020508,
+      "learning_rate": 1.312734807052929e-07,
+      "loss": 0.1336,
+      "step": 2011
+    },
+    {
+      "epoch": 0.9537805167101209,
+      "grad_norm": 4.582825183868408,
+      "learning_rate": 1.2861382702444304e-07,
+      "loss": 0.1122,
+      "step": 2012
+    },
+    {
+      "epoch": 0.9542545626925811,
+      "grad_norm": 5.358804702758789,
+      "learning_rate": 1.2598121824310305e-07,
+      "loss": 0.2103,
+      "step": 2013
+    },
+    {
+      "epoch": 0.9547286086750415,
+      "grad_norm": 8.944177627563477,
+      "learning_rate": 1.2337566157390124e-07,
+      "loss": 0.2294,
+      "step": 2014
+    },
+    {
+      "epoch": 0.9552026546575018,
+      "grad_norm": 3.860495090484619,
+      "learning_rate": 1.2079716415534958e-07,
+      "loss": 0.1725,
+      "step": 2015
+    },
+    {
+      "epoch": 0.9556767006399621,
+      "grad_norm": 5.890530586242676,
+      "learning_rate": 1.1824573305182829e-07,
+      "loss": 0.1347,
+      "step": 2016
+    },
+    {
+      "epoch": 0.9561507466224224,
+      "grad_norm": 4.890679359436035,
+      "learning_rate": 1.1572137525356019e-07,
+      "loss": 0.1632,
+      "step": 2017
+    },
+    {
+      "epoch": 0.9566247926048826,
+      "grad_norm": 3.409152030944824,
+      "learning_rate": 1.1322409767659526e-07,
+      "loss": 0.1673,
+      "step": 2018
+    },
+    {
+      "epoch": 0.957098838587343,
+      "grad_norm": 2.9978771209716797,
+      "learning_rate": 1.1075390716279167e-07,
+      "loss": 0.0933,
+      "step": 2019
+    },
+    {
+      "epoch": 0.9575728845698033,
+      "grad_norm": 4.279489994049072,
+      "learning_rate": 1.0831081047979585e-07,
+      "loss": 0.1072,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9575728845698033,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012736320495605469,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.4208,
+      "eval_samples_per_second": 5.375,
+      "eval_steps_per_second": 0.178,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9580469305522635,
+      "grad_norm": 3.377288579940796,
+      "learning_rate": 1.0589481432102588e-07,
+      "loss": 0.1007,
+      "step": 2021
+    },
+    {
+      "epoch": 0.9585209765347239,
+      "grad_norm": 4.943248271942139,
+      "learning_rate": 1.0350592530564919e-07,
+      "loss": 0.1345,
+      "step": 2022
+    },
+    {
+      "epoch": 0.9589950225171842,
+      "grad_norm": 3.178915500640869,
+      "learning_rate": 1.0114414997856814e-07,
+      "loss": 0.1501,
+      "step": 2023
+    },
+    {
+      "epoch": 0.9594690684996444,
+      "grad_norm": 2.851790428161621,
+      "learning_rate": 9.880949481040347e-08,
+      "loss": 0.1128,
+      "step": 2024
+    },
+    {
+      "epoch": 0.9599431144821048,
+      "grad_norm": 7.474143981933594,
+      "learning_rate": 9.650196619747088e-08,
+      "loss": 0.2338,
+      "step": 2025
+    },
+    {
+      "epoch": 0.960417160464565,
+      "grad_norm": 4.426879405975342,
+      "learning_rate": 9.422157046176772e-08,
+      "loss": 0.1695,
+      "step": 2026
+    },
+    {
+      "epoch": 0.9608912064470254,
+      "grad_norm": 4.276393890380859,
+      "learning_rate": 9.19683138509564e-08,
+      "loss": 0.1695,
+      "step": 2027
+    },
+    {
+      "epoch": 0.9613652524294857,
+      "grad_norm": 4.4484357833862305,
+      "learning_rate": 8.974220253834209e-08,
+      "loss": 0.1489,
+      "step": 2028
+    },
+    {
+      "epoch": 0.9618392984119459,
+      "grad_norm": 6.785750389099121,
+      "learning_rate": 8.754324262286284e-08,
+      "loss": 0.1951,
+      "step": 2029
+    },
+    {
+      "epoch": 0.9623133443944063,
+      "grad_norm": 5.472995281219482,
+      "learning_rate": 8.537144012906728e-08,
+      "loss": 0.1067,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9627873903768666,
+      "grad_norm": 7.181637287139893,
+      "learning_rate": 8.322680100710023e-08,
+      "loss": 0.161,
+      "step": 2031
+    },
+    {
+      "epoch": 0.9632614363593268,
+      "grad_norm": 2.844578504562378,
+      "learning_rate": 8.110933113268604e-08,
+      "loss": 0.1443,
+      "step": 2032
+    },
+    {
+      "epoch": 0.9637354823417872,
+      "grad_norm": 4.869422435760498,
+      "learning_rate": 7.901903630711416e-08,
+      "loss": 0.0947,
+      "step": 2033
+    },
+    {
+      "epoch": 0.9642095283242474,
+      "grad_norm": 8.479473114013672,
+      "learning_rate": 7.695592225722137e-08,
+      "loss": 0.1779,
+      "step": 2034
+    },
+    {
+      "epoch": 0.9646835743067077,
+      "grad_norm": 6.677021503448486,
+      "learning_rate": 7.491999463537403e-08,
+      "loss": 0.2122,
+      "step": 2035
+    },
+    {
+      "epoch": 0.9651576202891681,
+      "grad_norm": 6.709725379943848,
+      "learning_rate": 7.291125901946027e-08,
+      "loss": 0.2262,
+      "step": 2036
+    },
+    {
+      "epoch": 0.9656316662716283,
+      "grad_norm": 9.639774322509766,
+      "learning_rate": 7.092972091286454e-08,
+      "loss": 0.1651,
+      "step": 2037
+    },
+    {
+      "epoch": 0.9661057122540887,
+      "grad_norm": 4.166116714477539,
+      "learning_rate": 6.897538574445972e-08,
+      "loss": 0.0947,
+      "step": 2038
+    },
+    {
+      "epoch": 0.966579758236549,
+      "grad_norm": 5.3391876220703125,
+      "learning_rate": 6.704825886858946e-08,
+      "loss": 0.1904,
+      "step": 2039
+    },
+    {
+      "epoch": 0.9670538042190092,
+      "grad_norm": 4.7893595695495605,
+      "learning_rate": 6.5148345565057e-08,
+      "loss": 0.2165,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9670538042190092,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012882479466497898,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.0769,
+      "eval_samples_per_second": 5.412,
+      "eval_steps_per_second": 0.18,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9675278502014696,
+      "grad_norm": 4.419187545776367,
+      "learning_rate": 6.327565103910193e-08,
+      "loss": 0.168,
+      "step": 2041
+    },
+    {
+      "epoch": 0.9680018961839298,
+      "grad_norm": 10.345693588256836,
+      "learning_rate": 6.143018042139903e-08,
+      "loss": 0.1948,
+      "step": 2042
+    },
+    {
+      "epoch": 0.9684759421663901,
+      "grad_norm": 8.49881649017334,
+      "learning_rate": 5.96119387680294e-08,
+      "loss": 0.1262,
+      "step": 2043
+    },
+    {
+      "epoch": 0.9689499881488505,
+      "grad_norm": 3.0430965423583984,
+      "learning_rate": 5.782093106048159e-08,
+      "loss": 0.1379,
+      "step": 2044
+    },
+    {
+      "epoch": 0.9694240341313107,
+      "grad_norm": 3.5971128940582275,
+      "learning_rate": 5.605716220562385e-08,
+      "loss": 0.1537,
+      "step": 2045
+    },
+    {
+      "epoch": 0.969898080113771,
+      "grad_norm": 2.2294721603393555,
+      "learning_rate": 5.4320637035704114e-08,
+      "loss": 0.0722,
+      "step": 2046
+    },
+    {
+      "epoch": 0.9703721260962314,
+      "grad_norm": 6.108776569366455,
+      "learning_rate": 5.2611360308323364e-08,
+      "loss": 0.1432,
+      "step": 2047
+    },
+    {
+      "epoch": 0.9708461720786916,
+      "grad_norm": 4.834316730499268,
+      "learning_rate": 5.092933670643452e-08,
+      "loss": 0.1153,
+      "step": 2048
+    },
+    {
+      "epoch": 0.971320218061152,
+      "grad_norm": 3.5349068641662598,
+      "learning_rate": 4.9274570838322436e-08,
+      "loss": 0.09,
+      "step": 2049
+    },
+    {
+      "epoch": 0.9717942640436122,
+      "grad_norm": 5.70138692855835,
+      "learning_rate": 4.764706723759172e-08,
+      "loss": 0.1562,
+      "step": 2050
+    },
+    {
+      "epoch": 0.9722683100260725,
+      "grad_norm": 7.175850868225098,
+      "learning_rate": 4.604683036316004e-08,
+      "loss": 0.3258,
+      "step": 2051
+    },
+    {
+      "epoch": 0.9727423560085329,
+      "grad_norm": 4.018371105194092,
+      "learning_rate": 4.4473864599235975e-08,
+      "loss": 0.2188,
+      "step": 2052
+    },
+    {
+      "epoch": 0.9732164019909931,
+      "grad_norm": 5.978484153747559,
+      "learning_rate": 4.29281742553167e-08,
+      "loss": 0.1379,
+      "step": 2053
+    },
+    {
+      "epoch": 0.9736904479734534,
+      "grad_norm": 3.8246636390686035,
+      "learning_rate": 4.1409763566172544e-08,
+      "loss": 0.1241,
+      "step": 2054
+    },
+    {
+      "epoch": 0.9741644939559138,
+      "grad_norm": 3.782214641571045,
+      "learning_rate": 3.991863669183138e-08,
+      "loss": 0.1725,
+      "step": 2055
+    },
+    {
+      "epoch": 0.974638539938374,
+      "grad_norm": 5.974038124084473,
+      "learning_rate": 3.845479771757532e-08,
+      "loss": 0.0927,
+      "step": 2056
+    },
+    {
+      "epoch": 0.9751125859208343,
+      "grad_norm": 4.958864688873291,
+      "learning_rate": 3.701825065392184e-08,
+      "loss": 0.1666,
+      "step": 2057
+    },
+    {
+      "epoch": 0.9755866319032946,
+      "grad_norm": 7.515510559082031,
+      "learning_rate": 3.560899943661822e-08,
+      "loss": 0.1924,
+      "step": 2058
+    },
+    {
+      "epoch": 0.9760606778857549,
+      "grad_norm": 6.320629596710205,
+      "learning_rate": 3.422704792662601e-08,
+      "loss": 0.1618,
+      "step": 2059
+    },
+    {
+      "epoch": 0.9765347238682153,
+      "grad_norm": 3.3863184452056885,
+      "learning_rate": 3.2872399910115484e-08,
+      "loss": 0.1417,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9765347238682153,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012739640660583973,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.7841,
+      "eval_samples_per_second": 5.444,
+      "eval_steps_per_second": 0.181,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9770087698506755,
+      "grad_norm": 4.818965911865234,
+      "learning_rate": 3.154505909845229e-08,
+      "loss": 0.1236,
+      "step": 2061
+    },
+    {
+      "epoch": 0.9774828158331358,
+      "grad_norm": 6.437606334686279,
+      "learning_rate": 3.024502912818528e-08,
+      "loss": 0.2105,
+      "step": 2062
+    },
+    {
+      "epoch": 0.9779568618155962,
+      "grad_norm": 4.611502647399902,
+      "learning_rate": 2.897231356104424e-08,
+      "loss": 0.1779,
+      "step": 2063
+    },
+    {
+      "epoch": 0.9784309077980564,
+      "grad_norm": 5.7043843269348145,
+      "learning_rate": 2.7726915883919958e-08,
+      "loss": 0.1738,
+      "step": 2064
+    },
+    {
+      "epoch": 0.9789049537805167,
+      "grad_norm": 3.3945627212524414,
+      "learning_rate": 2.6508839508861963e-08,
+      "loss": 0.1066,
+      "step": 2065
+    },
+    {
+      "epoch": 0.979378999762977,
+      "grad_norm": 3.7300400733947754,
+      "learning_rate": 2.5318087773066325e-08,
+      "loss": 0.1186,
+      "step": 2066
+    },
+    {
+      "epoch": 0.9798530457454373,
+      "grad_norm": 5.509089469909668,
+      "learning_rate": 2.4154663938867894e-08,
+      "loss": 0.1847,
+      "step": 2067
+    },
+    {
+      "epoch": 0.9803270917278976,
+      "grad_norm": 3.7570600509643555,
+      "learning_rate": 2.3018571193729188e-08,
+      "loss": 0.1604,
+      "step": 2068
+    },
+    {
+      "epoch": 0.9808011377103579,
+      "grad_norm": 3.3540408611297607,
+      "learning_rate": 2.190981265023373e-08,
+      "loss": 0.0865,
+      "step": 2069
+    },
+    {
+      "epoch": 0.9812751836928182,
+      "grad_norm": 3.976696252822876,
+      "learning_rate": 2.082839134607828e-08,
+      "loss": 0.1681,
+      "step": 2070
+    },
+    {
+      "epoch": 0.9817492296752786,
+      "grad_norm": 5.1151838302612305,
+      "learning_rate": 1.9774310244059512e-08,
+      "loss": 0.1638,
+      "step": 2071
+    },
+    {
+      "epoch": 0.9822232756577388,
+      "grad_norm": 6.2366414070129395,
+      "learning_rate": 1.874757223207291e-08,
+      "loss": 0.1142,
+      "step": 2072
+    },
+    {
+      "epoch": 0.9826973216401991,
+      "grad_norm": 3.962942361831665,
+      "learning_rate": 1.7748180123100535e-08,
+      "loss": 0.136,
+      "step": 2073
+    },
+    {
+      "epoch": 0.9831713676226594,
+      "grad_norm": 9.428374290466309,
+      "learning_rate": 1.677613665520106e-08,
+      "loss": 0.1083,
+      "step": 2074
+    },
+    {
+      "epoch": 0.9836454136051197,
+      "grad_norm": 6.933211326599121,
+      "learning_rate": 1.583144449150975e-08,
+      "loss": 0.1716,
+      "step": 2075
+    },
+    {
+      "epoch": 0.98411945958758,
+      "grad_norm": 5.4883575439453125,
+      "learning_rate": 1.4914106220225156e-08,
+      "loss": 0.1931,
+      "step": 2076
+    },
+    {
+      "epoch": 0.9845935055700403,
+      "grad_norm": 3.674689531326294,
+      "learning_rate": 1.402412435460132e-08,
+      "loss": 0.167,
+      "step": 2077
+    },
+    {
+      "epoch": 0.9850675515525006,
+      "grad_norm": 3.3293275833129883,
+      "learning_rate": 1.3161501332947802e-08,
+      "loss": 0.1224,
+      "step": 2078
+    },
+    {
+      "epoch": 0.9855415975349608,
+      "grad_norm": 5.863772392272949,
+      "learning_rate": 1.2326239518614114e-08,
+      "loss": 0.1418,
+      "step": 2079
+    },
+    {
+      "epoch": 0.9860156435174212,
+      "grad_norm": 4.600866317749023,
+      "learning_rate": 1.1518341199989735e-08,
+      "loss": 0.101,
+      "step": 2080
+    },
+    {
+      "epoch": 0.9860156435174212,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012615163810551167,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.0081,
+      "eval_samples_per_second": 5.419,
+      "eval_steps_per_second": 0.18,
+      "step": 2080
+    },
+    {
+      "epoch": 0.9864896894998815,
+      "grad_norm": 6.645082950592041,
+      "learning_rate": 1.0737808590495225e-08,
+      "loss": 0.1798,
+      "step": 2081
+    },
+    {
+      "epoch": 0.9869637354823418,
+      "grad_norm": 3.026750087738037,
+      "learning_rate": 9.984643828576669e-09,
+      "loss": 0.1094,
+      "step": 2082
+    },
+    {
+      "epoch": 0.9874377814648021,
+      "grad_norm": 4.144604206085205,
+      "learning_rate": 9.25884897770013e-09,
+      "loss": 0.1389,
+      "step": 2083
+    },
+    {
+      "epoch": 0.9879118274472624,
+      "grad_norm": 5.202576637268066,
+      "learning_rate": 8.560426026343881e-09,
+      "loss": 0.2081,
+      "step": 2084
+    },
+    {
+      "epoch": 0.9883858734297227,
+      "grad_norm": 3.02374005317688,
+      "learning_rate": 7.889376887997291e-09,
+      "loss": 0.1092,
+      "step": 2085
+    },
+    {
+      "epoch": 0.988859919412183,
+      "grad_norm": 2.9011049270629883,
+      "learning_rate": 7.245703401149717e-09,
+      "loss": 0.1357,
+      "step": 2086
+    },
+    {
+      "epoch": 0.9893339653946432,
+      "grad_norm": 6.7899250984191895,
+      "learning_rate": 6.629407329292736e-09,
+      "loss": 0.1352,
+      "step": 2087
+    },
+    {
+      "epoch": 0.9898080113771036,
+      "grad_norm": 3.2638795375823975,
+      "learning_rate": 6.0404903609068146e-09,
+      "loss": 0.1101,
+      "step": 2088
+    },
+    {
+      "epoch": 0.9902820573595639,
+      "grad_norm": 5.045032501220703,
+      "learning_rate": 5.47895410946575e-09,
+      "loss": 0.1703,
+      "step": 2089
+    },
+    {
+      "epoch": 0.9907561033420241,
+      "grad_norm": 3.866666078567505,
+      "learning_rate": 4.9448001134233536e-09,
+      "loss": 0.1551,
+      "step": 2090
+    },
+    {
+      "epoch": 0.9912301493244845,
+      "grad_norm": 3.6094112396240234,
+      "learning_rate": 4.438029836216773e-09,
+      "loss": 0.1368,
+      "step": 2091
+    },
+    {
+      "epoch": 0.9917041953069448,
+      "grad_norm": 4.1954779624938965,
+      "learning_rate": 3.958644666257616e-09,
+      "loss": 0.1503,
+      "step": 2092
+    },
+    {
+      "epoch": 0.9921782412894051,
+      "grad_norm": 3.4606990814208984,
+      "learning_rate": 3.5066459169297294e-09,
+      "loss": 0.1193,
+      "step": 2093
+    },
+    {
+      "epoch": 0.9926522872718654,
+      "grad_norm": 3.768021821975708,
+      "learning_rate": 3.082034826586977e-09,
+      "loss": 0.171,
+      "step": 2094
+    },
+    {
+      "epoch": 0.9931263332543256,
+      "grad_norm": 3.0747859477996826,
+      "learning_rate": 2.684812558547689e-09,
+      "loss": 0.0801,
+      "step": 2095
+    },
+    {
+      "epoch": 0.993600379236786,
+      "grad_norm": 6.338437080383301,
+      "learning_rate": 2.3149802010913323e-09,
+      "loss": 0.1644,
+      "step": 2096
+    },
+    {
+      "epoch": 0.9940744252192463,
+      "grad_norm": 3.9809048175811768,
+      "learning_rate": 1.9725387674585095e-09,
+      "loss": 0.1284,
+      "step": 2097
+    },
+    {
+      "epoch": 0.9945484712017065,
+      "grad_norm": 4.982059955596924,
+      "learning_rate": 1.6574891958442973e-09,
+      "loss": 0.1434,
+      "step": 2098
+    },
+    {
+      "epoch": 0.9950225171841669,
+      "grad_norm": 2.924060583114624,
+      "learning_rate": 1.3698323493993582e-09,
+      "loss": 0.0911,
+      "step": 2099
+    },
+    {
+      "epoch": 0.9954965631666272,
+      "grad_norm": 7.759647846221924,
+      "learning_rate": 1.1095690162243878e-09,
+      "loss": 0.2136,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9954965631666272,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012555374763906002,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.017,
+      "eval_samples_per_second": 5.418,
+      "eval_steps_per_second": 0.18,
+      "step": 2100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.6093907946255155e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null