Training in progress, step 1700, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b3067cadc9a6b6288d648e729308b59c8205582769114a2174ac7793a1c0f7
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca9ad4c45f6ed9ff141594db885ce7f7936b72c33bf7831ea51061b751c035d0
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8073125026f2108e54015e375aa7b740d2d75884fc1c727a72246964566922ea
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:0005a7a0bf83524bb14a93793c3fdab26d6c2653ecf1f287deeb08e8e78ca1fd
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e5abbde4ca3822f1f7f4a8e1bc6bc07dee8a4408705c977218063313754aed8
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ed9ba22411531d762cf848c2d9daddff6ee7f29ca806d5aef7f5ba9813947f0
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0347fac0faf901c20b49c9a8da56dfe6a2d4fc4a8d1d17d2653b3fdf314373c
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:371c2c2e2799dc1b7de0b141a212b857758839245977f9c58714ec11a1162c7e
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0adf8dfb4f071dbd258f6b78e089dbae582d016b34020a7a5258f77704d0bb72
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c2bdb37a902663861f07a52281ef1995bcfda4e8830c535faae292fabb659b6
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:123607e08a6efb56d07d9b0176bbefe77dbc0ba8afe0ea10c7cca368cea46f3e
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:478afb018e67b6963a405f6bfecae60632c4d7b580db98fb4a37e4698026d54a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:455965ff8e08d76926b4a5db2181f14085f56488fae539b6ff0a35a22650710e
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2f9589c38a3685a3a7913c666aa2459077a853b4e8f8a5230bce75fa99b9825
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a04e762cbd4d47aee16732cda8f4c7502c27308609f7ce076b4e2f0d3fb4e5d
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6419cd9723247df1fda540548fd8769dc6b91a2aa84ee458e9c056ee561c4042
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48d247744d91b0cf3a238f968b2951ba5f6bd23f26407678b401da8a2acbb383
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5d4b484a25f92c99275105a25a5abc87d9965b9b7b7ca782045935178f7d615
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16ba34a14be23116f11a9748f367721ca69d7011e51824e858c2c479e347dcd2
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c549c91cf2b0439baf2468c247f8e2109889f720a27e0d09c9b7d5f695e49a5
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95569b2a398b0a1ffd69ece8b6a4563b909b698504e65a48d908f9a52eef793b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:81f7b75ebe10eb5c6ecc97c93cde36ee0b594c67c95103dbdcabab169117e465
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3939aff3aee9b7ef5e206c8fc125283e081f9551035e6c540260c6004f5ebe67
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9ada658c72a7f1c0eace40e44824bfa74094a719f3408a314ecbea87cf54304
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdc30bf95193bb74ac994ed7ae22377e2ad2041f81720e59ece18a966aa1e5ab
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c8c47081e0cd48c8e1647d14b0cfbcdb2a632b234bf18bf1a619d30eef11321
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7584735719364778,
   "eval_steps": 20,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12179,6 +12179,766 @@
       "eval_samples_per_second": 5.387,
       "eval_steps_per_second": 0.179,
       "step": 1600
     }
   ],
   "logging_steps": 1,
@@ -12198,7 +12958,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.276067349792031e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8058781701825077,
   "eval_steps": 20,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.387,
       "eval_steps_per_second": 0.179,
       "step": 1600
+    },
+    {
+      "epoch": 0.7589476179189382,
+      "grad_norm": 2.9690921306610107,
+      "learning_rate": 3.3316870025959693e-06,
+      "loss": 0.1082,
+      "step": 1601
+    },
+    {
+      "epoch": 0.7594216639013984,
+      "grad_norm": 5.340085506439209,
+      "learning_rate": 3.3193613578646633e-06,
+      "loss": 0.1429,
+      "step": 1602
+    },
+    {
+      "epoch": 0.7598957098838587,
+      "grad_norm": 3.9515483379364014,
+      "learning_rate": 3.307054016256912e-06,
+      "loss": 0.1083,
+      "step": 1603
+    },
+    {
+      "epoch": 0.760369755866319,
+      "grad_norm": 6.481595993041992,
+      "learning_rate": 3.2947650114914587e-06,
+      "loss": 0.189,
+      "step": 1604
+    },
+    {
+      "epoch": 0.7608438018487793,
+      "grad_norm": 5.499702453613281,
+      "learning_rate": 3.2824943772368213e-06,
+      "loss": 0.1637,
+      "step": 1605
+    },
+    {
+      "epoch": 0.7613178478312397,
+      "grad_norm": 6.298553943634033,
+      "learning_rate": 3.270242147111182e-06,
+      "loss": 0.1212,
+      "step": 1606
+    },
+    {
+      "epoch": 0.7617918938136999,
+      "grad_norm": 3.0482068061828613,
+      "learning_rate": 3.258008354682303e-06,
+      "loss": 0.1139,
+      "step": 1607
+    },
+    {
+      "epoch": 0.7622659397961602,
+      "grad_norm": 8.920551300048828,
+      "learning_rate": 3.2457930334674304e-06,
+      "loss": 0.1548,
+      "step": 1608
+    },
+    {
+      "epoch": 0.7627399857786206,
+      "grad_norm": 7.286499500274658,
+      "learning_rate": 3.233596216933206e-06,
+      "loss": 0.1776,
+      "step": 1609
+    },
+    {
+      "epoch": 0.7632140317610808,
+      "grad_norm": 12.77665901184082,
+      "learning_rate": 3.2214179384955713e-06,
+      "loss": 0.1825,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7636880777435411,
+      "grad_norm": 5.8278374671936035,
+      "learning_rate": 3.209258231519682e-06,
+      "loss": 0.1913,
+      "step": 1611
+    },
+    {
+      "epoch": 0.7641621237260015,
+      "grad_norm": 3.0561583042144775,
+      "learning_rate": 3.197117129319808e-06,
+      "loss": 0.1343,
+      "step": 1612
+    },
+    {
+      "epoch": 0.7646361697084617,
+      "grad_norm": 6.679983139038086,
+      "learning_rate": 3.1849946651592532e-06,
+      "loss": 0.1593,
+      "step": 1613
+    },
+    {
+      "epoch": 0.765110215690922,
+      "grad_norm": 4.746762275695801,
+      "learning_rate": 3.172890872250254e-06,
+      "loss": 0.2468,
+      "step": 1614
+    },
+    {
+      "epoch": 0.7655842616733823,
+      "grad_norm": 3.5384531021118164,
+      "learning_rate": 3.1608057837538976e-06,
+      "loss": 0.0998,
+      "step": 1615
+    },
+    {
+      "epoch": 0.7660583076558426,
+      "grad_norm": 3.744356870651245,
+      "learning_rate": 3.1487394327800156e-06,
+      "loss": 0.1393,
+      "step": 1616
+    },
+    {
+      "epoch": 0.766532353638303,
+      "grad_norm": 3.5314719676971436,
+      "learning_rate": 3.136691852387116e-06,
+      "loss": 0.0888,
+      "step": 1617
+    },
+    {
+      "epoch": 0.7670063996207632,
+      "grad_norm": 5.413354396820068,
+      "learning_rate": 3.1246630755822703e-06,
+      "loss": 0.1746,
+      "step": 1618
+    },
+    {
+      "epoch": 0.7674804456032235,
+      "grad_norm": 5.721497535705566,
+      "learning_rate": 3.1126531353210456e-06,
+      "loss": 0.1132,
+      "step": 1619
+    },
+    {
+      "epoch": 0.7679544915856839,
+      "grad_norm": 6.063429355621338,
+      "learning_rate": 3.1006620645073925e-06,
+      "loss": 0.1388,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7679544915856839,
+      "eval_accuracy": 0.9951690821256038,
+      "eval_f1": 0.9454545454545454,
+      "eval_loss": 0.012482204474508762,
+      "eval_precision": 0.896551724137931,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.5878,
+      "eval_samples_per_second": 5.465,
+      "eval_steps_per_second": 0.181,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7684285375681441,
+      "grad_norm": 5.663280487060547,
+      "learning_rate": 3.0886898959935663e-06,
+      "loss": 0.1339,
+      "step": 1621
+    },
+    {
+      "epoch": 0.7689025835506044,
+      "grad_norm": 3.009401321411133,
+      "learning_rate": 3.0767366625800366e-06,
+      "loss": 0.1137,
+      "step": 1622
+    },
+    {
+      "epoch": 0.7693766295330647,
+      "grad_norm": 4.703526973724365,
+      "learning_rate": 3.064802397015394e-06,
+      "loss": 0.2366,
+      "step": 1623
+    },
+    {
+      "epoch": 0.769850675515525,
+      "grad_norm": 3.2940542697906494,
+      "learning_rate": 3.052887131996267e-06,
+      "loss": 0.1395,
+      "step": 1624
+    },
+    {
+      "epoch": 0.7703247214979853,
+      "grad_norm": 3.261302947998047,
+      "learning_rate": 3.040990900167219e-06,
+      "loss": 0.1505,
+      "step": 1625
+    },
+    {
+      "epoch": 0.7707987674804456,
+      "grad_norm": 3.4305295944213867,
+      "learning_rate": 3.0291137341206755e-06,
+      "loss": 0.1372,
+      "step": 1626
+    },
+    {
+      "epoch": 0.7712728134629059,
+      "grad_norm": 8.65300178527832,
+      "learning_rate": 3.0172556663968254e-06,
+      "loss": 0.1821,
+      "step": 1627
+    },
+    {
+      "epoch": 0.7717468594453663,
+      "grad_norm": 5.62878942489624,
+      "learning_rate": 3.0054167294835314e-06,
+      "loss": 0.1512,
+      "step": 1628
+    },
+    {
+      "epoch": 0.7722209054278265,
+      "grad_norm": 5.76574182510376,
+      "learning_rate": 2.993596955816244e-06,
+      "loss": 0.1573,
+      "step": 1629
+    },
+    {
+      "epoch": 0.7726949514102868,
+      "grad_norm": 7.997915267944336,
+      "learning_rate": 2.9817963777779124e-06,
+      "loss": 0.2725,
+      "step": 1630
+    },
+    {
+      "epoch": 0.7731689973927471,
+      "grad_norm": 3.254222869873047,
+      "learning_rate": 2.970015027698895e-06,
+      "loss": 0.1247,
+      "step": 1631
+    },
+    {
+      "epoch": 0.7736430433752074,
+      "grad_norm": 8.073678016662598,
+      "learning_rate": 2.958252937856869e-06,
+      "loss": 0.1538,
+      "step": 1632
+    },
+    {
+      "epoch": 0.7741170893576677,
+      "grad_norm": 2.6469109058380127,
+      "learning_rate": 2.946510140476747e-06,
+      "loss": 0.0928,
+      "step": 1633
+    },
+    {
+      "epoch": 0.774591135340128,
+      "grad_norm": 6.9095869064331055,
+      "learning_rate": 2.9347866677305814e-06,
+      "loss": 0.1415,
+      "step": 1634
+    },
+    {
+      "epoch": 0.7750651813225883,
+      "grad_norm": 3.802766799926758,
+      "learning_rate": 2.923082551737484e-06,
+      "loss": 0.1323,
+      "step": 1635
+    },
+    {
+      "epoch": 0.7755392273050485,
+      "grad_norm": 4.053550720214844,
+      "learning_rate": 2.911397824563533e-06,
+      "loss": 0.1498,
+      "step": 1636
+    },
+    {
+      "epoch": 0.7760132732875089,
+      "grad_norm": 5.973599910736084,
+      "learning_rate": 2.899732518221685e-06,
+      "loss": 0.149,
+      "step": 1637
+    },
+    {
+      "epoch": 0.7764873192699692,
+      "grad_norm": 3.402735710144043,
+      "learning_rate": 2.888086664671693e-06,
+      "loss": 0.1312,
+      "step": 1638
+    },
+    {
+      "epoch": 0.7769613652524295,
+      "grad_norm": 6.684436798095703,
+      "learning_rate": 2.8764602958200096e-06,
+      "loss": 0.1108,
+      "step": 1639
+    },
+    {
+      "epoch": 0.7774354112348898,
+      "grad_norm": 3.762352466583252,
+      "learning_rate": 2.8648534435197086e-06,
+      "loss": 0.1221,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7774354112348898,
+      "eval_accuracy": 0.9959742351046699,
+      "eval_f1": 0.9532710280373832,
+      "eval_loss": 0.009969827719032764,
+      "eval_precision": 0.9272727272727272,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 50.0594,
+      "eval_samples_per_second": 5.414,
+      "eval_steps_per_second": 0.18,
+      "step": 1640
+    },
+    {
+      "epoch": 0.77790945721735,
+      "grad_norm": 5.541801452636719,
+      "learning_rate": 2.853266139570391e-06,
+      "loss": 0.1781,
+      "step": 1641
+    },
+    {
+      "epoch": 0.7783835031998104,
+      "grad_norm": 5.2935638427734375,
+      "learning_rate": 2.841698415718103e-06,
+      "loss": 0.1746,
+      "step": 1642
+    },
+    {
+      "epoch": 0.7788575491822707,
+      "grad_norm": 3.5511698722839355,
+      "learning_rate": 2.8301503036552446e-06,
+      "loss": 0.1303,
+      "step": 1643
+    },
+    {
+      "epoch": 0.7793315951647309,
+      "grad_norm": 2.210439682006836,
+      "learning_rate": 2.8186218350204865e-06,
+      "loss": 0.1052,
+      "step": 1644
+    },
+    {
+      "epoch": 0.7798056411471913,
+      "grad_norm": 3.1148386001586914,
+      "learning_rate": 2.8071130413986814e-06,
+      "loss": 0.0829,
+      "step": 1645
+    },
+    {
+      "epoch": 0.7802796871296516,
+      "grad_norm": 7.042520999908447,
+      "learning_rate": 2.795623954320781e-06,
+      "loss": 0.2299,
+      "step": 1646
+    },
+    {
+      "epoch": 0.7807537331121118,
+      "grad_norm": 4.106062889099121,
+      "learning_rate": 2.7841546052637346e-06,
+      "loss": 0.119,
+      "step": 1647
+    },
+    {
+      "epoch": 0.7812277790945722,
+      "grad_norm": 2.969593048095703,
+      "learning_rate": 2.7727050256504295e-06,
+      "loss": 0.0684,
+      "step": 1648
+    },
+    {
+      "epoch": 0.7817018250770325,
+      "grad_norm": 6.737387180328369,
+      "learning_rate": 2.761275246849582e-06,
+      "loss": 0.1164,
+      "step": 1649
+    },
+    {
+      "epoch": 0.7821758710594928,
+      "grad_norm": 6.33607292175293,
+      "learning_rate": 2.7498653001756615e-06,
+      "loss": 0.1104,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7826499170419531,
+      "grad_norm": 3.347256898880005,
+      "learning_rate": 2.738475216888802e-06,
+      "loss": 0.1036,
+      "step": 1651
+    },
+    {
+      "epoch": 0.7831239630244133,
+      "grad_norm": 3.709547281265259,
+      "learning_rate": 2.7271050281947165e-06,
+      "loss": 0.1436,
+      "step": 1652
+    },
+    {
+      "epoch": 0.7835980090068737,
+      "grad_norm": 3.4499459266662598,
+      "learning_rate": 2.7157547652446193e-06,
+      "loss": 0.1515,
+      "step": 1653
+    },
+    {
+      "epoch": 0.784072054989334,
+      "grad_norm": 2.6657423973083496,
+      "learning_rate": 2.704424459135123e-06,
+      "loss": 0.1087,
+      "step": 1654
+    },
+    {
+      "epoch": 0.7845461009717942,
+      "grad_norm": 6.451166152954102,
+      "learning_rate": 2.6931141409081753e-06,
+      "loss": 0.2029,
+      "step": 1655
+    },
+    {
+      "epoch": 0.7850201469542546,
+      "grad_norm": 4.049078464508057,
+      "learning_rate": 2.681823841550947e-06,
+      "loss": 0.1342,
+      "step": 1656
+    },
+    {
+      "epoch": 0.7854941929367149,
+      "grad_norm": 5.632473468780518,
+      "learning_rate": 2.6705535919957772e-06,
+      "loss": 0.1467,
+      "step": 1657
+    },
+    {
+      "epoch": 0.7859682389191751,
+      "grad_norm": 3.3033530712127686,
+      "learning_rate": 2.6593034231200664e-06,
+      "loss": 0.1404,
+      "step": 1658
+    },
+    {
+      "epoch": 0.7864422849016355,
+      "grad_norm": 3.3128445148468018,
+      "learning_rate": 2.648073365746204e-06,
+      "loss": 0.1129,
+      "step": 1659
+    },
+    {
+      "epoch": 0.7869163308840957,
+      "grad_norm": 5.318967342376709,
+      "learning_rate": 2.6368634506414757e-06,
+      "loss": 0.1571,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7869163308840957,
+      "eval_accuracy": 0.9959742351046699,
+      "eval_f1": 0.9532710280373832,
+      "eval_loss": 0.010810844600200653,
+      "eval_precision": 0.9272727272727272,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.9177,
+      "eval_samples_per_second": 5.429,
+      "eval_steps_per_second": 0.18,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7873903768665561,
+      "grad_norm": 6.077727317810059,
+      "learning_rate": 2.6256737085179852e-06,
+      "loss": 0.1892,
+      "step": 1661
+    },
+    {
+      "epoch": 0.7878644228490164,
+      "grad_norm": 5.929904460906982,
+      "learning_rate": 2.614504170032567e-06,
+      "loss": 0.1609,
+      "step": 1662
+    },
+    {
+      "epoch": 0.7883384688314766,
+      "grad_norm": 12.54429817199707,
+      "learning_rate": 2.6033548657867013e-06,
+      "loss": 0.149,
+      "step": 1663
+    },
+    {
+      "epoch": 0.788812514813937,
+      "grad_norm": 3.4696834087371826,
+      "learning_rate": 2.5922258263264366e-06,
+      "loss": 0.1037,
+      "step": 1664
+    },
+    {
+      "epoch": 0.7892865607963973,
+      "grad_norm": 3.9441494941711426,
+      "learning_rate": 2.581117082142296e-06,
+      "loss": 0.1487,
+      "step": 1665
+    },
+    {
+      "epoch": 0.7897606067788575,
+      "grad_norm": 3.3771462440490723,
+      "learning_rate": 2.570028663669204e-06,
+      "loss": 0.0966,
+      "step": 1666
+    },
+    {
+      "epoch": 0.7902346527613179,
+      "grad_norm": 5.6400604248046875,
+      "learning_rate": 2.5589606012863968e-06,
+      "loss": 0.1358,
+      "step": 1667
+    },
+    {
+      "epoch": 0.7907086987437781,
+      "grad_norm": 3.4519641399383545,
+      "learning_rate": 2.547912925317334e-06,
+      "loss": 0.0834,
+      "step": 1668
+    },
+    {
+      "epoch": 0.7911827447262384,
+      "grad_norm": 7.2654242515563965,
+      "learning_rate": 2.5368856660296327e-06,
+      "loss": 0.1244,
+      "step": 1669
+    },
+    {
+      "epoch": 0.7916567907086988,
+      "grad_norm": 6.323776721954346,
+      "learning_rate": 2.5258788536349622e-06,
+      "loss": 0.1153,
+      "step": 1670
+    },
+    {
+      "epoch": 0.792130836691159,
+      "grad_norm": 8.622234344482422,
+      "learning_rate": 2.514892518288988e-06,
+      "loss": 0.2104,
+      "step": 1671
+    },
+    {
+      "epoch": 0.7926048826736194,
+      "grad_norm": 3.370286703109741,
+      "learning_rate": 2.503926690091263e-06,
+      "loss": 0.0609,
+      "step": 1672
+    },
+    {
+      "epoch": 0.7930789286560797,
+      "grad_norm": 5.871740818023682,
+      "learning_rate": 2.492981399085157e-06,
+      "loss": 0.1789,
+      "step": 1673
+    },
+    {
+      "epoch": 0.7935529746385399,
+      "grad_norm": 5.285881519317627,
+      "learning_rate": 2.482056675257776e-06,
+      "loss": 0.1565,
+      "step": 1674
+    },
+    {
+      "epoch": 0.7940270206210003,
+      "grad_norm": 6.630995273590088,
+      "learning_rate": 2.471152548539876e-06,
+      "loss": 0.176,
+      "step": 1675
+    },
+    {
+      "epoch": 0.7945010666034605,
+      "grad_norm": 2.7057905197143555,
+      "learning_rate": 2.4602690488057836e-06,
+      "loss": 0.0897,
+      "step": 1676
+    },
+    {
+      "epoch": 0.7949751125859208,
+      "grad_norm": 3.194324493408203,
+      "learning_rate": 2.4494062058733157e-06,
+      "loss": 0.1121,
+      "step": 1677
+    },
+    {
+      "epoch": 0.7954491585683812,
+      "grad_norm": 7.977220058441162,
+      "learning_rate": 2.438564049503688e-06,
+      "loss": 0.1833,
+      "step": 1678
+    },
+    {
+      "epoch": 0.7959232045508414,
+      "grad_norm": 4.833785057067871,
+      "learning_rate": 2.4277426094014457e-06,
+      "loss": 0.1875,
+      "step": 1679
+    },
+    {
+      "epoch": 0.7963972505333017,
+      "grad_norm": 5.799574375152588,
+      "learning_rate": 2.416941915214377e-06,
+      "loss": 0.1472,
+      "step": 1680
+    },
+    {
+      "epoch": 0.7963972505333017,
+      "eval_accuracy": 0.9943639291465378,
+      "eval_f1": 0.9357798165137615,
+      "eval_loss": 0.011454065330326557,
+      "eval_precision": 0.8947368421052632,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.6644,
+      "eval_samples_per_second": 5.457,
+      "eval_steps_per_second": 0.181,
+      "step": 1680
+    },
+    {
+      "epoch": 0.796871296515762,
+      "grad_norm": 5.203197956085205,
+      "learning_rate": 2.4061619965334314e-06,
+      "loss": 0.1582,
+      "step": 1681
+    },
+    {
+      "epoch": 0.7973453424982223,
+      "grad_norm": 8.293927192687988,
+      "learning_rate": 2.395402882892639e-06,
+      "loss": 0.2625,
+      "step": 1682
+    },
+    {
+      "epoch": 0.7978193884806827,
+      "grad_norm": 4.733770847320557,
+      "learning_rate": 2.3846646037690304e-06,
+      "loss": 0.1162,
+      "step": 1683
+    },
+    {
+      "epoch": 0.7982934344631429,
+      "grad_norm": 3.6557698249816895,
+      "learning_rate": 2.3739471885825536e-06,
+      "loss": 0.142,
+      "step": 1684
+    },
+    {
+      "epoch": 0.7987674804456032,
+      "grad_norm": 5.944900989532471,
+      "learning_rate": 2.363250666695999e-06,
+      "loss": 0.1202,
+      "step": 1685
+    },
+    {
+      "epoch": 0.7992415264280636,
+      "grad_norm": 3.3309900760650635,
+      "learning_rate": 2.3525750674149094e-06,
+      "loss": 0.1227,
+      "step": 1686
+    },
+    {
+      "epoch": 0.7997155724105238,
+      "grad_norm": 5.317230224609375,
+      "learning_rate": 2.34192041998751e-06,
+      "loss": 0.1406,
+      "step": 1687
+    },
+    {
+      "epoch": 0.8001896183929841,
+      "grad_norm": 4.319701671600342,
+      "learning_rate": 2.331286753604621e-06,
+      "loss": 0.1916,
+      "step": 1688
+    },
+    {
+      "epoch": 0.8006636643754445,
+      "grad_norm": 4.4361982345581055,
+      "learning_rate": 2.3206740973995823e-06,
+      "loss": 0.1844,
+      "step": 1689
+    },
+    {
+      "epoch": 0.8011377103579047,
+      "grad_norm": 3.2999582290649414,
+      "learning_rate": 2.3100824804481703e-06,
+      "loss": 0.0952,
+      "step": 1690
+    },
+    {
+      "epoch": 0.801611756340365,
+      "grad_norm": 7.211174964904785,
+      "learning_rate": 2.29951193176852e-06,
+      "loss": 0.1072,
+      "step": 1691
+    },
+    {
+      "epoch": 0.8020858023228253,
+      "grad_norm": 5.33006477355957,
+      "learning_rate": 2.2889624803210453e-06,
+      "loss": 0.1978,
+      "step": 1692
+    },
+    {
+      "epoch": 0.8025598483052856,
+      "grad_norm": 5.028670787811279,
+      "learning_rate": 2.2784341550083577e-06,
+      "loss": 0.0922,
+      "step": 1693
+    },
+    {
+      "epoch": 0.803033894287746,
+      "grad_norm": 5.079577445983887,
+      "learning_rate": 2.2679269846751915e-06,
+      "loss": 0.1134,
+      "step": 1694
+    },
+    {
+      "epoch": 0.8035079402702062,
+      "grad_norm": 3.310760974884033,
+      "learning_rate": 2.2574409981083224e-06,
+      "loss": 0.0928,
+      "step": 1695
+    },
+    {
+      "epoch": 0.8039819862526665,
+      "grad_norm": 5.977758884429932,
+      "learning_rate": 2.2469762240364847e-06,
+      "loss": 0.1011,
+      "step": 1696
+    },
+    {
+      "epoch": 0.8044560322351268,
+      "grad_norm": 6.029415607452393,
+      "learning_rate": 2.236532691130299e-06,
+      "loss": 0.1699,
+      "step": 1697
+    },
+    {
+      "epoch": 0.8049300782175871,
+      "grad_norm": 9.231821060180664,
+      "learning_rate": 2.2261104280021937e-06,
+      "loss": 0.2549,
+      "step": 1698
+    },
+    {
+      "epoch": 0.8054041242000474,
+      "grad_norm": 2.8385801315307617,
+      "learning_rate": 2.215709463206316e-06,
+      "loss": 0.0953,
+      "step": 1699
+    },
+    {
+      "epoch": 0.8058781701825077,
+      "grad_norm": 6.947047233581543,
+      "learning_rate": 2.205329825238467e-06,
+      "loss": 0.1236,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8058781701825077,
+      "eval_accuracy": 0.9935587761674718,
+      "eval_f1": 0.9272727272727272,
+      "eval_loss": 0.012126692570745945,
+      "eval_precision": 0.8793103448275862,
+      "eval_recall": 0.9807692307692307,
+      "eval_runtime": 49.2509,
+      "eval_samples_per_second": 5.502,
+      "eval_steps_per_second": 0.183,
+      "step": 1700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.5441970776047616e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null