Training in progress, step 700, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7454f5845a5f23b4913750fbc16c23c17c15de424259fe838f50365af1a6fc31
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5fb4d724032a1245dc6cde40f4e5188553186f46cc33db24ff9acace6d64996
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85f7e2225ecc77b15d23f17a6bea4d6eff8126f32e4809d5fb9012178465eb09
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:79e385d511e036b931d8833bb9f18f12b276860005885c6db5883e2bb8ffb250
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a00dd5beda4d499c230a9f8ca29e291ebb388ce836dab2a836a479101ade1b29
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:92c37b03fb2e32f372fe4bc5de8cfbfdcd80d4c5f02647d02082856a40cb7d81
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f93bf48e5d0d2bd9aeb51d2e8ded2cd18f7df64624a0dc6007c452f77b97c0b
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fc189980b81b63a0f5eb185c059a38e0e687a3da1cdbabb13632220bbd92f29
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:321edf67e47d0b4c67f8b27b7638c352cf813e649e5ee9996cca152fb9c75062
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:22866ce89c0e7ab0cc0f664b14f5ba101d34c338fdb1a105f2b2815d715ca268
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fed803da648fcbfb47d40579c66789c1b5813d1ca024980a285cc0b048653350
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ba3c5c58c231743a3320074589c773530610636502758ac373fb041860f7629
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c97e2f6d521cea150acde4f0539f7f18dddad1bc75aab9306523cb6a5047e1ae
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d79b8891ee0d25a2be271a38d0ac5e556ce0257bf5123113c070352f99023ae9
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f33f2493dd6209c0c885d7b0bc168e9eae2ef749d5250330e5bbff5e28b5a6d9
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcec9183c14a35cf480d0f7871398da31d6da2b44461bb7bdc738de5f51e523a
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f19fb56fbaf65a779ecd9cb3b30247bfd45158eafdcd105585ee87f1735d98
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d9fa53e4b694823856182f5d79606d713a9c38f7b0a474c8e8377b701cc4064
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afab5b50c52c688a707864652d6c5558ef69395b7a2375fa583b1b7139f6c609
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e467e256d1aeb5c59910c1df837a848b831bc8f1a437fc0b52c0ae7e6a47b29
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1755b69d438567bb52e96e1dc58c619fdbd9a694f1794f20010dff70a9f6c151
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:61a104e0586ff0fcc9930cb2ff4e524b78a6f6ffc91335870d99757828f52f1c
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd2c36f5a9cc648d59e856fb43df0193c9d5e0acbe931f548fb0ceebfba5c6a1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d01842b4ecf9c63cb6983558b75f5223cbe340d5e106d6e47d3afec1652f1f03
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be9988adf605fcbeeb14de5bdc4b2db6b176f9774ef7818d04698d021a01fbf6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff7644a4cf9b613e830e53fbdb92eb21facf6604e16b66cdc1f7a045b886b1a7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7531380753138075,
   "eval_steps": 20,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4579,6 +4579,766 @@
       "eval_samples_per_second": 5.341,
       "eval_steps_per_second": 0.174,
       "step": 600
     }
   ],
   "logging_steps": 1,
@@ -4598,7 +5358,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.19779349803434e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8786610878661087,
   "eval_steps": 20,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.341,
       "eval_steps_per_second": 0.174,
       "step": 600
+    },
+    {
+      "epoch": 0.7543933054393306,
+      "grad_norm": 5.352249622344971,
+      "learning_rate": 3.4423537100200068e-06,
+      "loss": 0.2344,
+      "step": 601
+    },
+    {
+      "epoch": 0.7556485355648536,
+      "grad_norm": 4.358277797698975,
+      "learning_rate": 3.4092913288148254e-06,
+      "loss": 0.2084,
+      "step": 602
+    },
+    {
+      "epoch": 0.7569037656903765,
+      "grad_norm": 4.106777667999268,
+      "learning_rate": 3.3763558311006207e-06,
+      "loss": 0.2017,
+      "step": 603
+    },
+    {
+      "epoch": 0.7581589958158996,
+      "grad_norm": 6.909910678863525,
+      "learning_rate": 3.343547850947434e-06,
+      "loss": 0.3994,
+      "step": 604
+    },
+    {
+      "epoch": 0.7594142259414226,
+      "grad_norm": 4.24434757232666,
+      "learning_rate": 3.310868019970356e-06,
+      "loss": 0.2443,
+      "step": 605
+    },
+    {
+      "epoch": 0.7606694560669456,
+      "grad_norm": 4.735110759735107,
+      "learning_rate": 3.2783169673173666e-06,
+      "loss": 0.2305,
+      "step": 606
+    },
+    {
+      "epoch": 0.7619246861924687,
+      "grad_norm": 4.206883907318115,
+      "learning_rate": 3.2458953196572194e-06,
+      "loss": 0.2061,
+      "step": 607
+    },
+    {
+      "epoch": 0.7631799163179916,
+      "grad_norm": 2.6777400970458984,
+      "learning_rate": 3.2136037011673803e-06,
+      "loss": 0.1777,
+      "step": 608
+    },
+    {
+      "epoch": 0.7644351464435146,
+      "grad_norm": 3.7428863048553467,
+      "learning_rate": 3.181442733522008e-06,
+      "loss": 0.211,
+      "step": 609
+    },
+    {
+      "epoch": 0.7656903765690377,
+      "grad_norm": 5.144768714904785,
+      "learning_rate": 3.149413035879996e-06,
+      "loss": 0.2571,
+      "step": 610
+    },
+    {
+      "epoch": 0.7669456066945607,
+      "grad_norm": 6.341953754425049,
+      "learning_rate": 3.1175152248730343e-06,
+      "loss": 0.2649,
+      "step": 611
+    },
+    {
+      "epoch": 0.7682008368200837,
+      "grad_norm": 4.261897563934326,
+      "learning_rate": 3.085749914593752e-06,
+      "loss": 0.2207,
+      "step": 612
+    },
+    {
+      "epoch": 0.7694560669456066,
+      "grad_norm": 3.700777053833008,
+      "learning_rate": 3.0541177165838954e-06,
+      "loss": 0.2589,
+      "step": 613
+    },
+    {
+      "epoch": 0.7707112970711297,
+      "grad_norm": 5.691616535186768,
+      "learning_rate": 3.022619239822535e-06,
+      "loss": 0.2042,
+      "step": 614
+    },
+    {
+      "epoch": 0.7719665271966527,
+      "grad_norm": 2.532932996749878,
+      "learning_rate": 2.9912550907143766e-06,
+      "loss": 0.2177,
+      "step": 615
+    },
+    {
+      "epoch": 0.7732217573221757,
+      "grad_norm": 6.345351219177246,
+      "learning_rate": 2.9600258730780564e-06,
+      "loss": 0.2141,
+      "step": 616
+    },
+    {
+      "epoch": 0.7744769874476988,
+      "grad_norm": 4.4296793937683105,
+      "learning_rate": 2.9289321881345257e-06,
+      "loss": 0.2414,
+      "step": 617
+    },
+    {
+      "epoch": 0.7757322175732217,
+      "grad_norm": 5.737855911254883,
+      "learning_rate": 2.897974634495482e-06,
+      "loss": 0.2163,
+      "step": 618
+    },
+    {
+      "epoch": 0.7769874476987447,
+      "grad_norm": 3.722508430480957,
+      "learning_rate": 2.867153808151837e-06,
+      "loss": 0.2102,
+      "step": 619
+    },
+    {
+      "epoch": 0.7782426778242678,
+      "grad_norm": 3.9203503131866455,
+      "learning_rate": 2.8364703024622474e-06,
+      "loss": 0.2049,
+      "step": 620
+    },
+    {
+      "epoch": 0.7782426778242678,
+      "eval_accuracy": 0.8587196467991169,
+      "eval_f1": 0.7117117117117117,
+      "eval_loss": 0.28623539209365845,
+      "eval_precision": 0.8315789473684211,
+      "eval_recall": 0.6220472440944882,
+      "eval_runtime": 51.4017,
+      "eval_samples_per_second": 5.389,
+      "eval_steps_per_second": 0.175,
+      "step": 620
+    },
+    {
+      "epoch": 0.7794979079497908,
+      "grad_norm": 5.395325660705566,
+      "learning_rate": 2.8059247081416887e-06,
+      "loss": 0.2889,
+      "step": 621
+    },
+    {
+      "epoch": 0.7807531380753138,
+      "grad_norm": 3.7470452785491943,
+      "learning_rate": 2.7755176132500905e-06,
+      "loss": 0.2567,
+      "step": 622
+    },
+    {
+      "epoch": 0.7820083682008369,
+      "grad_norm": 3.5239267349243164,
+      "learning_rate": 2.745249603180996e-06,
+      "loss": 0.214,
+      "step": 623
+    },
+    {
+      "epoch": 0.7832635983263598,
+      "grad_norm": 3.5487923622131348,
+      "learning_rate": 2.7151212606503164e-06,
+      "loss": 0.2062,
+      "step": 624
+    },
+    {
+      "epoch": 0.7845188284518828,
+      "grad_norm": 3.3393709659576416,
+      "learning_rate": 2.6851331656850966e-06,
+      "loss": 0.1947,
+      "step": 625
+    },
+    {
+      "epoch": 0.7857740585774059,
+      "grad_norm": 2.6931920051574707,
+      "learning_rate": 2.6552858956123485e-06,
+      "loss": 0.2918,
+      "step": 626
+    },
+    {
+      "epoch": 0.7870292887029289,
+      "grad_norm": 3.748667001724243,
+      "learning_rate": 2.625580025047956e-06,
+      "loss": 0.2286,
+      "step": 627
+    },
+    {
+      "epoch": 0.7882845188284519,
+      "grad_norm": 3.2201664447784424,
+      "learning_rate": 2.5960161258855807e-06,
+      "loss": 0.2037,
+      "step": 628
+    },
+    {
+      "epoch": 0.7895397489539749,
+      "grad_norm": 3.861560821533203,
+      "learning_rate": 2.5665947672856774e-06,
+      "loss": 0.2023,
+      "step": 629
+    },
+    {
+      "epoch": 0.7907949790794979,
+      "grad_norm": 2.7438437938690186,
+      "learning_rate": 2.5373165156645263e-06,
+      "loss": 0.2018,
+      "step": 630
+    },
+    {
+      "epoch": 0.7920502092050209,
+      "grad_norm": 4.868431568145752,
+      "learning_rate": 2.5081819346833293e-06,
+      "loss": 0.2575,
+      "step": 631
+    },
+    {
+      "epoch": 0.793305439330544,
+      "grad_norm": 4.836085796356201,
+      "learning_rate": 2.4791915852373604e-06,
+      "loss": 0.206,
+      "step": 632
+    },
+    {
+      "epoch": 0.794560669456067,
+      "grad_norm": 3.095149278640747,
+      "learning_rate": 2.450346025445165e-06,
+      "loss": 0.173,
+      "step": 633
+    },
+    {
+      "epoch": 0.7958158995815899,
+      "grad_norm": 3.0923187732696533,
+      "learning_rate": 2.4216458106378194e-06,
+      "loss": 0.2016,
+      "step": 634
+    },
+    {
+      "epoch": 0.797071129707113,
+      "grad_norm": 5.667265892028809,
+      "learning_rate": 2.3930914933482317e-06,
+      "loss": 0.3038,
+      "step": 635
+    },
+    {
+      "epoch": 0.798326359832636,
+      "grad_norm": 4.840297222137451,
+      "learning_rate": 2.3646836233005133e-06,
+      "loss": 0.2346,
+      "step": 636
+    },
+    {
+      "epoch": 0.799581589958159,
+      "grad_norm": 3.6551482677459717,
+      "learning_rate": 2.3364227473993885e-06,
+      "loss": 0.2153,
+      "step": 637
+    },
+    {
+      "epoch": 0.800836820083682,
+      "grad_norm": 6.236753940582275,
+      "learning_rate": 2.3083094097196766e-06,
+      "loss": 0.3236,
+      "step": 638
+    },
+    {
+      "epoch": 0.802092050209205,
+      "grad_norm": 3.9249565601348877,
+      "learning_rate": 2.280344151495799e-06,
+      "loss": 0.1873,
+      "step": 639
+    },
+    {
+      "epoch": 0.803347280334728,
+      "grad_norm": 5.489711284637451,
+      "learning_rate": 2.252527511111381e-06,
+      "loss": 0.2972,
+      "step": 640
+    },
+    {
+      "epoch": 0.803347280334728,
+      "eval_accuracy": 0.8609271523178808,
+      "eval_f1": 0.7149321266968326,
+      "eval_loss": 0.2890259623527527,
+      "eval_precision": 0.8404255319148937,
+      "eval_recall": 0.6220472440944882,
+      "eval_runtime": 52.9255,
+      "eval_samples_per_second": 5.234,
+      "eval_steps_per_second": 0.17,
+      "step": 640
+    },
+    {
+      "epoch": 0.804602510460251,
+      "grad_norm": 4.235107421875,
+      "learning_rate": 2.224860024088863e-06,
+      "loss": 0.2522,
+      "step": 641
+    },
+    {
+      "epoch": 0.8058577405857741,
+      "grad_norm": 5.042692184448242,
+      "learning_rate": 2.197342223079212e-06,
+      "loss": 0.2259,
+      "step": 642
+    },
+    {
+      "epoch": 0.8071129707112971,
+      "grad_norm": 6.554571628570557,
+      "learning_rate": 2.1699746378516618e-06,
+      "loss": 0.3102,
+      "step": 643
+    },
+    {
+      "epoch": 0.80836820083682,
+      "grad_norm": 5.590906143188477,
+      "learning_rate": 2.1427577952835044e-06,
+      "loss": 0.242,
+      "step": 644
+    },
+    {
+      "epoch": 0.8096234309623431,
+      "grad_norm": 3.1682546138763428,
+      "learning_rate": 2.1156922193499573e-06,
+      "loss": 0.2016,
+      "step": 645
+    },
+    {
+      "epoch": 0.8108786610878661,
+      "grad_norm": 5.03267765045166,
+      "learning_rate": 2.088778431114068e-06,
+      "loss": 0.3032,
+      "step": 646
+    },
+    {
+      "epoch": 0.8121338912133891,
+      "grad_norm": 5.085690498352051,
+      "learning_rate": 2.06201694871669e-06,
+      "loss": 0.2572,
+      "step": 647
+    },
+    {
+      "epoch": 0.8133891213389122,
+      "grad_norm": 6.410571098327637,
+      "learning_rate": 2.0354082873665015e-06,
+      "loss": 0.2776,
+      "step": 648
+    },
+    {
+      "epoch": 0.8146443514644351,
+      "grad_norm": 2.672776699066162,
+      "learning_rate": 2.0089529593300916e-06,
+      "loss": 0.1729,
+      "step": 649
+    },
+    {
+      "epoch": 0.8158995815899581,
+      "grad_norm": 4.959750175476074,
+      "learning_rate": 1.9826514739220946e-06,
+      "loss": 0.2254,
+      "step": 650
+    },
+    {
+      "epoch": 0.8171548117154812,
+      "grad_norm": 4.0036725997924805,
+      "learning_rate": 1.956504337495384e-06,
+      "loss": 0.1674,
+      "step": 651
+    },
+    {
+      "epoch": 0.8184100418410042,
+      "grad_norm": 4.883665561676025,
+      "learning_rate": 1.9305120534313295e-06,
+      "loss": 0.1647,
+      "step": 652
+    },
+    {
+      "epoch": 0.8196652719665272,
+      "grad_norm": 5.845210075378418,
+      "learning_rate": 1.9046751221301018e-06,
+      "loss": 0.3202,
+      "step": 653
+    },
+    {
+      "epoch": 0.8209205020920503,
+      "grad_norm": 5.12738037109375,
+      "learning_rate": 1.8789940410010355e-06,
+      "loss": 0.1829,
+      "step": 654
+    },
+    {
+      "epoch": 0.8221757322175732,
+      "grad_norm": 3.904860019683838,
+      "learning_rate": 1.853469304453066e-06,
+      "loss": 0.2275,
+      "step": 655
+    },
+    {
+      "epoch": 0.8234309623430962,
+      "grad_norm": 4.157991409301758,
+      "learning_rate": 1.8281014038851963e-06,
+      "loss": 0.2335,
+      "step": 656
+    },
+    {
+      "epoch": 0.8246861924686193,
+      "grad_norm": 6.301884651184082,
+      "learning_rate": 1.802890827677045e-06,
+      "loss": 0.265,
+      "step": 657
+    },
+    {
+      "epoch": 0.8259414225941423,
+      "grad_norm": 4.426259994506836,
+      "learning_rate": 1.777838061179442e-06,
+      "loss": 0.2346,
+      "step": 658
+    },
+    {
+      "epoch": 0.8271966527196652,
+      "grad_norm": 3.300267457962036,
+      "learning_rate": 1.7529435867050771e-06,
+      "loss": 0.2312,
+      "step": 659
+    },
+    {
+      "epoch": 0.8284518828451883,
+      "grad_norm": 3.5169765949249268,
+      "learning_rate": 1.7282078835192362e-06,
+      "loss": 0.1953,
+      "step": 660
+    },
+    {
+      "epoch": 0.8284518828451883,
+      "eval_accuracy": 0.8609271523178808,
+      "eval_f1": 0.7136363636363636,
+      "eval_loss": 0.2910914123058319,
+      "eval_precision": 0.8440860215053764,
+      "eval_recall": 0.6181102362204725,
+      "eval_runtime": 52.6057,
+      "eval_samples_per_second": 5.266,
+      "eval_steps_per_second": 0.171,
+      "step": 660
+    },
+    {
+      "epoch": 0.8297071129707113,
+      "grad_norm": 3.4855308532714844,
+      "learning_rate": 1.703631427830551e-06,
+      "loss": 0.2036,
+      "step": 661
+    },
+    {
+      "epoch": 0.8309623430962343,
+      "grad_norm": 4.0676493644714355,
+      "learning_rate": 1.679214692781842e-06,
+      "loss": 0.2412,
+      "step": 662
+    },
+    {
+      "epoch": 0.8322175732217573,
+      "grad_norm": 4.750482559204102,
+      "learning_rate": 1.6549581484410105e-06,
+      "loss": 0.2193,
+      "step": 663
+    },
+    {
+      "epoch": 0.8334728033472804,
+      "grad_norm": 7.349670886993408,
+      "learning_rate": 1.6308622617919823e-06,
+      "loss": 0.2712,
+      "step": 664
+    },
+    {
+      "epoch": 0.8347280334728033,
+      "grad_norm": 3.89208984375,
+      "learning_rate": 1.606927496725722e-06,
+      "loss": 0.2761,
+      "step": 665
+    },
+    {
+      "epoch": 0.8359832635983263,
+      "grad_norm": 3.2538020610809326,
+      "learning_rate": 1.583154314031311e-06,
+      "loss": 0.1974,
+      "step": 666
+    },
+    {
+      "epoch": 0.8372384937238494,
+      "grad_norm": 4.290145397186279,
+      "learning_rate": 1.5595431713870569e-06,
+      "loss": 0.2562,
+      "step": 667
+    },
+    {
+      "epoch": 0.8384937238493724,
+      "grad_norm": 5.561316013336182,
+      "learning_rate": 1.5360945233516933e-06,
+      "loss": 0.2707,
+      "step": 668
+    },
+    {
+      "epoch": 0.8397489539748954,
+      "grad_norm": 4.019890308380127,
+      "learning_rate": 1.5128088213556324e-06,
+      "loss": 0.1786,
+      "step": 669
+    },
+    {
+      "epoch": 0.8410041841004184,
+      "grad_norm": 4.0204758644104,
+      "learning_rate": 1.489686513692269e-06,
+      "loss": 0.2377,
+      "step": 670
+    },
+    {
+      "epoch": 0.8422594142259414,
+      "grad_norm": 4.556098461151123,
+      "learning_rate": 1.4667280455093468e-06,
+      "loss": 0.2138,
+      "step": 671
+    },
+    {
+      "epoch": 0.8435146443514644,
+      "grad_norm": 5.089337348937988,
+      "learning_rate": 1.4439338588004005e-06,
+      "loss": 0.2272,
+      "step": 672
+    },
+    {
+      "epoch": 0.8447698744769875,
+      "grad_norm": 4.120019435882568,
+      "learning_rate": 1.4213043923962322e-06,
+      "loss": 0.2104,
+      "step": 673
+    },
+    {
+      "epoch": 0.8460251046025105,
+      "grad_norm": 3.5715548992156982,
+      "learning_rate": 1.3988400819564707e-06,
+      "loss": 0.2013,
+      "step": 674
+    },
+    {
+      "epoch": 0.8472803347280334,
+      "grad_norm": 4.313863277435303,
+      "learning_rate": 1.3765413599611832e-06,
+      "loss": 0.2265,
+      "step": 675
+    },
+    {
+      "epoch": 0.8485355648535565,
+      "grad_norm": 5.553587436676025,
+      "learning_rate": 1.3544086557025493e-06,
+      "loss": 0.2667,
+      "step": 676
+    },
+    {
+      "epoch": 0.8497907949790795,
+      "grad_norm": 4.209076404571533,
+      "learning_rate": 1.3324423952765974e-06,
+      "loss": 0.2375,
+      "step": 677
+    },
+    {
+      "epoch": 0.8510460251046025,
+      "grad_norm": 4.849112033843994,
+      "learning_rate": 1.3106430015749971e-06,
+      "loss": 0.2268,
+      "step": 678
+    },
+    {
+      "epoch": 0.8523012552301256,
+      "grad_norm": 4.489964485168457,
+      "learning_rate": 1.2890108942769253e-06,
+      "loss": 0.1934,
+      "step": 679
+    },
+    {
+      "epoch": 0.8535564853556485,
+      "grad_norm": 3.962709665298462,
+      "learning_rate": 1.2675464898409772e-06,
+      "loss": 0.24,
+      "step": 680
+    },
+    {
+      "epoch": 0.8535564853556485,
+      "eval_accuracy": 0.8653421633554084,
+      "eval_f1": 0.7288888888888889,
+      "eval_loss": 0.28242796659469604,
+      "eval_precision": 0.8367346938775511,
+      "eval_recall": 0.6456692913385826,
+      "eval_runtime": 53.7633,
+      "eval_samples_per_second": 5.152,
+      "eval_steps_per_second": 0.167,
+      "step": 680
+    },
+    {
+      "epoch": 0.8548117154811715,
+      "grad_norm": 4.079026699066162,
+      "learning_rate": 1.2462502014971579e-06,
+      "loss": 0.2389,
+      "step": 681
+    },
+    {
+      "epoch": 0.8560669456066946,
+      "grad_norm": 5.030835151672363,
+      "learning_rate": 1.2251224392389183e-06,
+      "loss": 0.296,
+      "step": 682
+    },
+    {
+      "epoch": 0.8573221757322176,
+      "grad_norm": 4.880098819732666,
+      "learning_rate": 1.2041636098152742e-06,
+      "loss": 0.2687,
+      "step": 683
+    },
+    {
+      "epoch": 0.8585774058577406,
+      "grad_norm": 3.222585439682007,
+      "learning_rate": 1.1833741167229584e-06,
+      "loss": 0.2378,
+      "step": 684
+    },
+    {
+      "epoch": 0.8598326359832636,
+      "grad_norm": 4.026751518249512,
+      "learning_rate": 1.1627543601986702e-06,
+      "loss": 0.1571,
+      "step": 685
+    },
+    {
+      "epoch": 0.8610878661087866,
+      "grad_norm": 4.304843902587891,
+      "learning_rate": 1.1423047372113538e-06,
+      "loss": 0.2836,
+      "step": 686
+    },
+    {
+      "epoch": 0.8623430962343096,
+      "grad_norm": 4.018265247344971,
+      "learning_rate": 1.1220256414545682e-06,
+      "loss": 0.2154,
+      "step": 687
+    },
+    {
+      "epoch": 0.8635983263598327,
+      "grad_norm": 5.214784622192383,
+      "learning_rate": 1.1019174633389073e-06,
+      "loss": 0.235,
+      "step": 688
+    },
+    {
+      "epoch": 0.8648535564853557,
+      "grad_norm": 3.2286956310272217,
+      "learning_rate": 1.0819805899844748e-06,
+      "loss": 0.1933,
+      "step": 689
+    },
+    {
+      "epoch": 0.8661087866108786,
+      "grad_norm": 4.96722936630249,
+      "learning_rate": 1.0622154052134392e-06,
+      "loss": 0.2189,
+      "step": 690
+    },
+    {
+      "epoch": 0.8673640167364016,
+      "grad_norm": 5.077961444854736,
+      "learning_rate": 1.042622289542642e-06,
+      "loss": 0.1864,
+      "step": 691
+    },
+    {
+      "epoch": 0.8686192468619247,
+      "grad_norm": 4.23472785949707,
+      "learning_rate": 1.0232016201762696e-06,
+      "loss": 0.286,
+      "step": 692
+    },
+    {
+      "epoch": 0.8698744769874477,
+      "grad_norm": 4.877628803253174,
+      "learning_rate": 1.0039537709985968e-06,
+      "loss": 0.23,
+      "step": 693
+    },
+    {
+      "epoch": 0.8711297071129707,
+      "grad_norm": 5.60928201675415,
+      "learning_rate": 9.848791125667867e-07,
+      "loss": 0.2311,
+      "step": 694
+    },
+    {
+      "epoch": 0.8723849372384938,
+      "grad_norm": 4.585776329040527,
+      "learning_rate": 9.659780121037533e-07,
+      "loss": 0.2079,
+      "step": 695
+    },
+    {
+      "epoch": 0.8736401673640167,
+      "grad_norm": 4.836354732513428,
+      "learning_rate": 9.472508334910946e-07,
+      "loss": 0.1449,
+      "step": 696
+    },
+    {
+      "epoch": 0.8748953974895397,
+      "grad_norm": 6.011707782745361,
+      "learning_rate": 9.286979372620885e-07,
+      "loss": 0.2135,
+      "step": 697
+    },
+    {
+      "epoch": 0.8761506276150628,
+      "grad_norm": 5.969391822814941,
+      "learning_rate": 9.103196805947522e-07,
+      "loss": 0.2964,
+      "step": 698
+    },
+    {
+      "epoch": 0.8774058577405858,
+      "grad_norm": 5.757129192352295,
+      "learning_rate": 8.92116417304958e-07,
+      "loss": 0.2444,
+      "step": 699
+    },
+    {
+      "epoch": 0.8786610878661087,
+      "grad_norm": 4.445234298706055,
+      "learning_rate": 8.740884978396358e-07,
+      "loss": 0.282,
+      "step": 700
+    },
+    {
+      "epoch": 0.8786610878661087,
+      "eval_accuracy": 0.8631346578366446,
+      "eval_f1": 0.7219730941704036,
+      "eval_loss": 0.2860436737537384,
+      "eval_precision": 0.8385416666666666,
+      "eval_recall": 0.6338582677165354,
+      "eval_runtime": 51.8577,
+      "eval_samples_per_second": 5.342,
+      "eval_steps_per_second": 0.174,
+      "step": 700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.5677470361033114e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null