Training in progress, step 6700, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d4fccc41669d8adadb54f68349f74f89ffff09966ac60dcb53a6e48cd78c003
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:965566f8b9a741a6f2801dc78e4fbc5ac70240c8d6d7b5570ba0182bcd9674e9
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67369eaffaaf23fcc57a3579d2b350eecf84593e088e012b88be2cddfbf73336
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:7212ed89906b0804da8eba1f5c500d042a2a31b594b63c7afc77b7fca62b4f05
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b50419c39b978efc4f0a7211e73d09aa76109771056a53f0af1043bfa2a908e
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:93ad7abb665289229475a0dc55018b7ca6c10b70ef45f15c0b9b8f137cc5c291
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:558bd7a1550e1f29246bbb3508f6e1aeea579c63ac91e9658afafb526206e361
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:a28d9e945552a66feca51fc9780b294ee621de58c9db83d3aefe7462105d0d49
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b3c3c85375cb3b52f1d532892946383bc9042f73634efc9351ea34228856e5f
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:49977e9fb46265ba81ad5ce120a7b938b5fafa454d7bb632a57a63f975e9f54a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc71fae38f9e58f7ed5e1e8ac6eae4e0afc3c45a3119840f87936211ac808bef
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a633db66552fb787cb1151b9a3e2e30b0293e84603ef7d545351fc947c5f219
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8ed0d0c7fd248cf46be28fe84a80281716dee0a1579c90e502dfbf7a133a4db
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f2168060d5d243a5dda1e0bc7482749ed6c7fc4cb39ff029c8a95d29643dcf6
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:318d0617050b5302b7b9fd244c0bcdb8dedde6e6db48bf8d3bfab29c9662237c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:581e13951882957811a470d66e41e45bbc9bb66544ca2d6e3568683cc9866887
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8b1b52eaa5cc0adbc5ad547706bdc14a1c79b929a785b296eb1b0d394f8b5e5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:091b7cd663405f9e474cf640b71ae20df31b45b8cceb2d74232e5c4232ae67f5
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01f0a58e9f4a9804440e8394c58ad8351def40b4f77ca1177f17b91d40c5e86b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:951da6c961efeea8abd4771cf6f335146152fd6e811aedd9376cfbaf0b5c2661
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bcc5c1e32fe134cab8ae52b6ee4359379c0b414157c020ab3e06d21256e51f1
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:48de50c66a37a5de2f7b1873acf38375f58754d859c5eb82d7fe707070cddd0c
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90a32c65375a0b35f1aa52aca5fe27b9247b98c2cd81ac883e623d8b0225929b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:2136ce865bd31b51bdee33783218e662d324835501f13ef2cf89d65f472e3f07
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab30ef4bf6ec4e411aa77a20b4b6abd224f83b1f055386091808c7312483b117
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f3d454f05c0bda87b3125802c8738baab69763f7e63757668c9f80a78618863
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9738104020656584,
   "eval_steps": 20,
-  "global_step": 6600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -50179,6 +50179,766 @@
       "eval_samples_per_second": 5.723,
       "eval_steps_per_second": 0.197,
       "step": 6600
     }
   ],
   "logging_steps": 1,
@@ -50198,7 +50958,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0335814788555735e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9885651051272594,
   "eval_steps": 20,
+  "global_step": 6700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.723,
       "eval_steps_per_second": 0.197,
       "step": 6600
+    },
+    {
+      "epoch": 0.9739579490962744,
+      "grad_norm": 4.089635372161865,
+      "learning_rate": 4.106580592637577e-08,
+      "loss": 0.0861,
+      "step": 6601
+    },
+    {
+      "epoch": 0.9741054961268905,
+      "grad_norm": 3.2651960849761963,
+      "learning_rate": 4.060078990829719e-08,
+      "loss": 0.0572,
+      "step": 6602
+    },
+    {
+      "epoch": 0.9742530431575065,
+      "grad_norm": 1.9765956401824951,
+      "learning_rate": 4.0138416393955545e-08,
+      "loss": 0.0234,
+      "step": 6603
+    },
+    {
+      "epoch": 0.9744005901881224,
+      "grad_norm": 3.121824264526367,
+      "learning_rate": 3.967868550602827e-08,
+      "loss": 0.0691,
+      "step": 6604
+    },
+    {
+      "epoch": 0.9745481372187385,
+      "grad_norm": 2.891749620437622,
+      "learning_rate": 3.922159736649889e-08,
+      "loss": 0.0814,
+      "step": 6605
+    },
+    {
+      "epoch": 0.9746956842493545,
+      "grad_norm": 3.361797332763672,
+      "learning_rate": 3.8767152096641504e-08,
+      "loss": 0.0982,
+      "step": 6606
+    },
+    {
+      "epoch": 0.9748432312799705,
+      "grad_norm": 2.2206366062164307,
+      "learning_rate": 3.831534981703522e-08,
+      "loss": 0.0196,
+      "step": 6607
+    },
+    {
+      "epoch": 0.9749907783105864,
+      "grad_norm": 1.349016785621643,
+      "learning_rate": 3.7866190647554145e-08,
+      "loss": 0.0523,
+      "step": 6608
+    },
+    {
+      "epoch": 0.9751383253412025,
+      "grad_norm": 2.72078537940979,
+      "learning_rate": 3.7419674707374064e-08,
+      "loss": 0.089,
+      "step": 6609
+    },
+    {
+      "epoch": 0.9752858723718185,
+      "grad_norm": 1.52629816532135,
+      "learning_rate": 3.697580211496798e-08,
+      "loss": 0.0607,
+      "step": 6610
+    },
+    {
+      "epoch": 0.9754334194024346,
+      "grad_norm": 1.2776182889938354,
+      "learning_rate": 3.6534572988106144e-08,
+      "loss": 0.0283,
+      "step": 6611
+    },
+    {
+      "epoch": 0.9755809664330506,
+      "grad_norm": 1.8487846851348877,
+      "learning_rate": 3.6095987443860445e-08,
+      "loss": 0.0396,
+      "step": 6612
+    },
+    {
+      "epoch": 0.9757285134636665,
+      "grad_norm": 1.9192994832992554,
+      "learning_rate": 3.5660045598597814e-08,
+      "loss": 0.0598,
+      "step": 6613
+    },
+    {
+      "epoch": 0.9758760604942825,
+      "grad_norm": 1.6062878370285034,
+      "learning_rate": 3.522674756798794e-08,
+      "loss": 0.0665,
+      "step": 6614
+    },
+    {
+      "epoch": 0.9760236075248986,
+      "grad_norm": 1.8371132612228394,
+      "learning_rate": 3.479609346699553e-08,
+      "loss": 0.0509,
+      "step": 6615
+    },
+    {
+      "epoch": 0.9761711545555146,
+      "grad_norm": 2.38232159614563,
+      "learning_rate": 3.4368083409885844e-08,
+      "loss": 0.0964,
+      "step": 6616
+    },
+    {
+      "epoch": 0.9763187015861305,
+      "grad_norm": 2.736990451812744,
+      "learning_rate": 3.394271751021916e-08,
+      "loss": 0.141,
+      "step": 6617
+    },
+    {
+      "epoch": 0.9764662486167466,
+      "grad_norm": 6.989748954772949,
+      "learning_rate": 3.351999588085963e-08,
+      "loss": 0.0612,
+      "step": 6618
+    },
+    {
+      "epoch": 0.9766137956473626,
+      "grad_norm": 1.7669501304626465,
+      "learning_rate": 3.309991863396644e-08,
+      "loss": 0.0488,
+      "step": 6619
+    },
+    {
+      "epoch": 0.9767613426779787,
+      "grad_norm": 1.4926352500915527,
+      "learning_rate": 3.2682485880997096e-08,
+      "loss": 0.0275,
+      "step": 6620
+    },
+    {
+      "epoch": 0.9767613426779787,
+      "eval_accuracy": 0.9797395079594791,
+      "eval_f1": 0.9653465346534653,
+      "eval_loss": 0.055932920426130295,
+      "eval_precision": 0.9848484848484849,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.2316,
+      "eval_samples_per_second": 5.911,
+      "eval_steps_per_second": 0.203,
+      "step": 6620
+    },
+    {
+      "epoch": 0.9769088897085946,
+      "grad_norm": 3.745084047317505,
+      "learning_rate": 3.226769773270855e-08,
+      "loss": 0.0572,
+      "step": 6621
+    },
+    {
+      "epoch": 0.9770564367392106,
+      "grad_norm": 1.6596072912216187,
+      "learning_rate": 3.1855554299156096e-08,
+      "loss": 0.0188,
+      "step": 6622
+    },
+    {
+      "epoch": 0.9772039837698266,
+      "grad_norm": 2.8496854305267334,
+      "learning_rate": 3.1446055689690056e-08,
+      "loss": 0.0525,
+      "step": 6623
+    },
+    {
+      "epoch": 0.9773515308004427,
+      "grad_norm": 2.801842451095581,
+      "learning_rate": 3.103920201296462e-08,
+      "loss": 0.0328,
+      "step": 6624
+    },
+    {
+      "epoch": 0.9774990778310586,
+      "grad_norm": 2.546543598175049,
+      "learning_rate": 3.063499337692788e-08,
+      "loss": 0.0721,
+      "step": 6625
+    },
+    {
+      "epoch": 0.9776466248616746,
+      "grad_norm": 2.072725534439087,
+      "learning_rate": 3.023342988882849e-08,
+      "loss": 0.037,
+      "step": 6626
+    },
+    {
+      "epoch": 0.9777941718922907,
+      "grad_norm": 2.3779847621917725,
+      "learning_rate": 2.983451165521123e-08,
+      "loss": 0.0952,
+      "step": 6627
+    },
+    {
+      "epoch": 0.9779417189229067,
+      "grad_norm": 2.976325035095215,
+      "learning_rate": 2.9438238781921424e-08,
+      "loss": 0.071,
+      "step": 6628
+    },
+    {
+      "epoch": 0.9780892659535226,
+      "grad_norm": 3.863071918487549,
+      "learning_rate": 2.9044611374099418e-08,
+      "loss": 0.1468,
+      "step": 6629
+    },
+    {
+      "epoch": 0.9782368129841387,
+      "grad_norm": 4.173577785491943,
+      "learning_rate": 2.8653629536187222e-08,
+      "loss": 0.0564,
+      "step": 6630
+    },
+    {
+      "epoch": 0.9783843600147547,
+      "grad_norm": 3.290264844894409,
+      "learning_rate": 2.8265293371922965e-08,
+      "loss": 0.0889,
+      "step": 6631
+    },
+    {
+      "epoch": 0.9785319070453707,
+      "grad_norm": 1.5761719942092896,
+      "learning_rate": 2.7879602984342002e-08,
+      "loss": 0.0203,
+      "step": 6632
+    },
+    {
+      "epoch": 0.9786794540759867,
+      "grad_norm": 3.7511749267578125,
+      "learning_rate": 2.7496558475778035e-08,
+      "loss": 0.0736,
+      "step": 6633
+    },
+    {
+      "epoch": 0.9788270011066027,
+      "grad_norm": 4.070005893707275,
+      "learning_rate": 2.7116159947865318e-08,
+      "loss": 0.0997,
+      "step": 6634
+    },
+    {
+      "epoch": 0.9789745481372187,
+      "grad_norm": 2.2428393363952637,
+      "learning_rate": 2.6738407501533113e-08,
+      "loss": 0.064,
+      "step": 6635
+    },
+    {
+      "epoch": 0.9791220951678348,
+      "grad_norm": 1.4023271799087524,
+      "learning_rate": 2.636330123701014e-08,
+      "loss": 0.0415,
+      "step": 6636
+    },
+    {
+      "epoch": 0.9792696421984508,
+      "grad_norm": 1.616129755973816,
+      "learning_rate": 2.599084125382123e-08,
+      "loss": 0.0531,
+      "step": 6637
+    },
+    {
+      "epoch": 0.9794171892290667,
+      "grad_norm": 4.515521049499512,
+      "learning_rate": 2.5621027650790664e-08,
+      "loss": 0.2382,
+      "step": 6638
+    },
+    {
+      "epoch": 0.9795647362596828,
+      "grad_norm": 2.131122589111328,
+      "learning_rate": 2.5253860526042173e-08,
+      "loss": 0.0389,
+      "step": 6639
+    },
+    {
+      "epoch": 0.9797122832902988,
+      "grad_norm": 1.6050862073898315,
+      "learning_rate": 2.4889339976992277e-08,
+      "loss": 0.0358,
+      "step": 6640
+    },
+    {
+      "epoch": 0.9797122832902988,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05516430363059044,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.5399,
+      "eval_samples_per_second": 5.874,
+      "eval_steps_per_second": 0.202,
+      "step": 6640
+    },
+    {
+      "epoch": 0.9798598303209148,
+      "grad_norm": 1.8880443572998047,
+      "learning_rate": 2.4527466100360277e-08,
+      "loss": 0.0747,
+      "step": 6641
+    },
+    {
+      "epoch": 0.9800073773515308,
+      "grad_norm": 5.500354290008545,
+      "learning_rate": 2.4168238992160477e-08,
+      "loss": 0.0474,
+      "step": 6642
+    },
+    {
+      "epoch": 0.9801549243821468,
+      "grad_norm": 2.404766321182251,
+      "learning_rate": 2.3811658747705525e-08,
+      "loss": 0.0494,
+      "step": 6643
+    },
+    {
+      "epoch": 0.9803024714127628,
+      "grad_norm": 2.824960947036743,
+      "learning_rate": 2.3457725461607518e-08,
+      "loss": 0.074,
+      "step": 6644
+    },
+    {
+      "epoch": 0.9804500184433789,
+      "grad_norm": 1.472124457359314,
+      "learning_rate": 2.3106439227773558e-08,
+      "loss": 0.0277,
+      "step": 6645
+    },
+    {
+      "epoch": 0.9805975654739948,
+      "grad_norm": 0.9315122365951538,
+      "learning_rate": 2.27578001394102e-08,
+      "loss": 0.0097,
+      "step": 6646
+    },
+    {
+      "epoch": 0.9807451125046108,
+      "grad_norm": 2.713543176651001,
+      "learning_rate": 2.241180828902012e-08,
+      "loss": 0.0622,
+      "step": 6647
+    },
+    {
+      "epoch": 0.9808926595352269,
+      "grad_norm": 5.194150447845459,
+      "learning_rate": 2.2068463768405435e-08,
+      "loss": 0.0851,
+      "step": 6648
+    },
+    {
+      "epoch": 0.9810402065658429,
+      "grad_norm": 5.96819543838501,
+      "learning_rate": 2.1727766668664385e-08,
+      "loss": 0.0849,
+      "step": 6649
+    },
+    {
+      "epoch": 0.9811877535964588,
+      "grad_norm": 1.1071208715438843,
+      "learning_rate": 2.138971708019355e-08,
+      "loss": 0.0268,
+      "step": 6650
+    },
+    {
+      "epoch": 0.9813353006270749,
+      "grad_norm": 2.806211471557617,
+      "learning_rate": 2.105431509268563e-08,
+      "loss": 0.0916,
+      "step": 6651
+    },
+    {
+      "epoch": 0.9814828476576909,
+      "grad_norm": 3.1690165996551514,
+      "learning_rate": 2.0721560795133876e-08,
+      "loss": 0.0993,
+      "step": 6652
+    },
+    {
+      "epoch": 0.9816303946883069,
+      "grad_norm": 2.2227795124053955,
+      "learning_rate": 2.0391454275827673e-08,
+      "loss": 0.0388,
+      "step": 6653
+    },
+    {
+      "epoch": 0.9817779417189229,
+      "grad_norm": 0.5616309642791748,
+      "learning_rate": 2.0063995622350287e-08,
+      "loss": 0.0045,
+      "step": 6654
+    },
+    {
+      "epoch": 0.9819254887495389,
+      "grad_norm": 2.450514316558838,
+      "learning_rate": 1.9739184921588885e-08,
+      "loss": 0.0688,
+      "step": 6655
+    },
+    {
+      "epoch": 0.9820730357801549,
+      "grad_norm": 2.0356853008270264,
+      "learning_rate": 1.9417022259723418e-08,
+      "loss": 0.0511,
+      "step": 6656
+    },
+    {
+      "epoch": 0.982220582810771,
+      "grad_norm": 2.293266773223877,
+      "learning_rate": 1.9097507722231068e-08,
+      "loss": 0.0289,
+      "step": 6657
+    },
+    {
+      "epoch": 0.982368129841387,
+      "grad_norm": 2.306947708129883,
+      "learning_rate": 1.8780641393890685e-08,
+      "loss": 0.0559,
+      "step": 6658
+    },
+    {
+      "epoch": 0.9825156768720029,
+      "grad_norm": 0.8441616296768188,
+      "learning_rate": 1.84664233587728e-08,
+      "loss": 0.0107,
+      "step": 6659
+    },
+    {
+      "epoch": 0.982663223902619,
+      "grad_norm": 1.6219745874404907,
+      "learning_rate": 1.815485370025072e-08,
+      "loss": 0.0266,
+      "step": 6660
+    },
+    {
+      "epoch": 0.982663223902619,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05498597025871277,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.5621,
+      "eval_samples_per_second": 5.871,
+      "eval_steps_per_second": 0.202,
+      "step": 6660
+    },
+    {
+      "epoch": 0.982810770933235,
+      "grad_norm": 1.976530909538269,
+      "learning_rate": 1.784593250099054e-08,
+      "loss": 0.0253,
+      "step": 6661
+    },
+    {
+      "epoch": 0.982958317963851,
+      "grad_norm": 2.217996120452881,
+      "learning_rate": 1.7539659842957803e-08,
+      "loss": 0.0555,
+      "step": 6662
+    },
+    {
+      "epoch": 0.983105864994467,
+      "grad_norm": 2.010887861251831,
+      "learning_rate": 1.7236035807416397e-08,
+      "loss": 0.0421,
+      "step": 6663
+    },
+    {
+      "epoch": 0.983253412025083,
+      "grad_norm": 0.6405054926872253,
+      "learning_rate": 1.6935060474926323e-08,
+      "loss": 0.0071,
+      "step": 6664
+    },
+    {
+      "epoch": 0.983400959055699,
+      "grad_norm": 2.444506883621216,
+      "learning_rate": 1.6636733925342595e-08,
+      "loss": 0.033,
+      "step": 6665
+    },
+    {
+      "epoch": 0.983548506086315,
+      "grad_norm": 1.0735312700271606,
+      "learning_rate": 1.6341056237820784e-08,
+      "loss": 0.0151,
+      "step": 6666
+    },
+    {
+      "epoch": 0.983696053116931,
+      "grad_norm": 2.435049533843994,
+      "learning_rate": 1.6048027490812577e-08,
+      "loss": 0.0543,
+      "step": 6667
+    },
+    {
+      "epoch": 0.983843600147547,
+      "grad_norm": 2.4513931274414062,
+      "learning_rate": 1.5757647762065786e-08,
+      "loss": 0.0621,
+      "step": 6668
+    },
+    {
+      "epoch": 0.983991147178163,
+      "grad_norm": 1.8004716634750366,
+      "learning_rate": 1.5469917128626554e-08,
+      "loss": 0.025,
+      "step": 6669
+    },
+    {
+      "epoch": 0.9841386942087791,
+      "grad_norm": 1.50918710231781,
+      "learning_rate": 1.518483566683826e-08,
+      "loss": 0.0401,
+      "step": 6670
+    },
+    {
+      "epoch": 0.984286241239395,
+      "grad_norm": 2.1539971828460693,
+      "learning_rate": 1.4902403452339287e-08,
+      "loss": 0.0664,
+      "step": 6671
+    },
+    {
+      "epoch": 0.984433788270011,
+      "grad_norm": 7.559150218963623,
+      "learning_rate": 1.4622620560069688e-08,
+      "loss": 0.0937,
+      "step": 6672
+    },
+    {
+      "epoch": 0.9845813353006271,
+      "grad_norm": 1.530104637145996,
+      "learning_rate": 1.4345487064260089e-08,
+      "loss": 0.0648,
+      "step": 6673
+    },
+    {
+      "epoch": 0.9847288823312431,
+      "grad_norm": 1.3213176727294922,
+      "learning_rate": 1.4071003038443887e-08,
+      "loss": 0.0344,
+      "step": 6674
+    },
+    {
+      "epoch": 0.984876429361859,
+      "grad_norm": 1.8271011114120483,
+      "learning_rate": 1.3799168555449494e-08,
+      "loss": 0.0243,
+      "step": 6675
+    },
+    {
+      "epoch": 0.9850239763924751,
+      "grad_norm": 1.226176142692566,
+      "learning_rate": 1.3529983687400328e-08,
+      "loss": 0.0178,
+      "step": 6676
+    },
+    {
+      "epoch": 0.9851715234230911,
+      "grad_norm": 0.6308827996253967,
+      "learning_rate": 1.3263448505720366e-08,
+      "loss": 0.007,
+      "step": 6677
+    },
+    {
+      "epoch": 0.9853190704537071,
+      "grad_norm": 2.996870517730713,
+      "learning_rate": 1.2999563081127486e-08,
+      "loss": 0.0786,
+      "step": 6678
+    },
+    {
+      "epoch": 0.9854666174843232,
+      "grad_norm": 2.7150681018829346,
+      "learning_rate": 1.2738327483639013e-08,
+      "loss": 0.0394,
+      "step": 6679
+    },
+    {
+      "epoch": 0.9856141645149391,
+      "grad_norm": 2.043134927749634,
+      "learning_rate": 1.2479741782566168e-08,
+      "loss": 0.0759,
+      "step": 6680
+    },
+    {
+      "epoch": 0.9856141645149391,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05593600869178772,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.7146,
+      "eval_samples_per_second": 5.853,
+      "eval_steps_per_second": 0.201,
+      "step": 6680
+    },
+    {
+      "epoch": 0.9857617115455551,
+      "grad_norm": 1.8694920539855957,
+      "learning_rate": 1.2223806046520737e-08,
+      "loss": 0.0362,
+      "step": 6681
+    },
+    {
+      "epoch": 0.9859092585761712,
+      "grad_norm": 2.6727139949798584,
+      "learning_rate": 1.1970520343408398e-08,
+      "loss": 0.073,
+      "step": 6682
+    },
+    {
+      "epoch": 0.9860568056067872,
+      "grad_norm": 0.7778927683830261,
+      "learning_rate": 1.1719884740433174e-08,
+      "loss": 0.0056,
+      "step": 6683
+    },
+    {
+      "epoch": 0.9862043526374031,
+      "grad_norm": 2.3464653491973877,
+      "learning_rate": 1.1471899304095202e-08,
+      "loss": 0.0314,
+      "step": 6684
+    },
+    {
+      "epoch": 0.9863518996680192,
+      "grad_norm": 0.8709948658943176,
+      "learning_rate": 1.122656410019296e-08,
+      "loss": 0.0199,
+      "step": 6685
+    },
+    {
+      "epoch": 0.9864994466986352,
+      "grad_norm": 6.606779098510742,
+      "learning_rate": 1.0983879193819936e-08,
+      "loss": 0.108,
+      "step": 6686
+    },
+    {
+      "epoch": 0.9866469937292512,
+      "grad_norm": 4.287250995635986,
+      "learning_rate": 1.074384464936684e-08,
+      "loss": 0.0716,
+      "step": 6687
+    },
+    {
+      "epoch": 0.9867945407598672,
+      "grad_norm": 0.7073714733123779,
+      "learning_rate": 1.0506460530521622e-08,
+      "loss": 0.0188,
+      "step": 6688
+    },
+    {
+      "epoch": 0.9869420877904832,
+      "grad_norm": 4.2220563888549805,
+      "learning_rate": 1.0271726900269452e-08,
+      "loss": 0.0769,
+      "step": 6689
+    },
+    {
+      "epoch": 0.9870896348210992,
+      "grad_norm": 1.6127564907073975,
+      "learning_rate": 1.003964382089162e-08,
+      "loss": 0.0457,
+      "step": 6690
+    },
+    {
+      "epoch": 0.9872371818517153,
+      "grad_norm": 2.2320802211761475,
+      "learning_rate": 9.810211353965537e-09,
+      "loss": 0.047,
+      "step": 6691
+    },
+    {
+      "epoch": 0.9873847288823312,
+      "grad_norm": 3.913719654083252,
+      "learning_rate": 9.583429560365843e-09,
+      "loss": 0.0715,
+      "step": 6692
+    },
+    {
+      "epoch": 0.9875322759129472,
+      "grad_norm": 2.9218332767486572,
+      "learning_rate": 9.359298500264402e-09,
+      "loss": 0.0513,
+      "step": 6693
+    },
+    {
+      "epoch": 0.9876798229435633,
+      "grad_norm": 1.7875134944915771,
+      "learning_rate": 9.137818233129203e-09,
+      "loss": 0.0406,
+      "step": 6694
+    },
+    {
+      "epoch": 0.9878273699741793,
+      "grad_norm": 2.7455263137817383,
+      "learning_rate": 8.91898881772657e-09,
+      "loss": 0.0704,
+      "step": 6695
+    },
+    {
+      "epoch": 0.9879749170047952,
+      "grad_norm": 0.6625596880912781,
+      "learning_rate": 8.702810312115618e-09,
+      "loss": 0.006,
+      "step": 6696
+    },
+    {
+      "epoch": 0.9881224640354113,
+      "grad_norm": 1.6851662397384644,
+      "learning_rate": 8.489282773656016e-09,
+      "loss": 0.0527,
+      "step": 6697
+    },
+    {
+      "epoch": 0.9882700110660273,
+      "grad_norm": 2.4347875118255615,
+      "learning_rate": 8.278406259001337e-09,
+      "loss": 0.0673,
+      "step": 6698
+    },
+    {
+      "epoch": 0.9884175580966433,
+      "grad_norm": 5.950766563415527,
+      "learning_rate": 8.07018082410349e-09,
+      "loss": 0.091,
+      "step": 6699
+    },
+    {
+      "epoch": 0.9885651051272594,
+      "grad_norm": 1.7334251403808594,
+      "learning_rate": 7.864606524211616e-09,
+      "loss": 0.0396,
+      "step": 6700
+    },
+    {
+      "epoch": 0.9885651051272594,
+      "eval_accuracy": 0.9797395079594791,
+      "eval_f1": 0.9653465346534653,
+      "eval_loss": 0.05492059141397476,
+      "eval_precision": 0.9848484848484849,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.3051,
+      "eval_samples_per_second": 5.902,
+      "eval_steps_per_second": 0.203,
+      "step": 6700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0639708098351596e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null