Training in progress, step 600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f4e1f5f1b463bbf7a2ef4d4af3eb26c728852abec7c6787de609ac33d09a95c
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:933b1f63d90c319542a4fd47759174fed83fc881d8cb4cb2a83a713fabd5a6a8
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90a4eef445695e00c0448191c471e20fc90fac55088f64ebc374faeb67378993
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:25fa0e6ce8d54d0ff171f555366adec8729dd853388ab8d8c9f00eb8bd9371dd
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c69c54a9cccf4257b34f1b979d5d539b31b5218794be3960611b7d2d897e994a
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:21407e44a54ae327fa01bf921b6d09dfdd5516385f912101dd79966b49088d89
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ed25b5e3653278282ac873c3af5310841446a9e13773d544889afce31024bcb
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f41da44c9f99411f6202714d8e5e84be2ba87c642f032b48d842df5f62d4222
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39de24dbe6f2f3a1b4e34daf6b8e7473a3a38ea40a91769099a82e8f4ebd1d0b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b57b77c4bb1d00af9ed39553b6d0ea59b3e5d5141d103e1b5721d70f1c1075
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98fb28188ad6ed7eb480ef9e981c73e6e5e156423f75a203ab35ebe4c0ee7122
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d1c230b287be50383ea4060312fe31d090370284705ec75e143fb62864c38fd
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8f0f9b2d5716e1b93fa3c48662c835a10bad645dcd88050a14008f0e7777a56
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ada10e4fc29560cc70bbb7f18e8d12a735aff41ce11272efee5b1a4fe85f4c4
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a1a3d5f6e07161b2ee73578e4b8d161f40891058e3f83f813289b5c369f350a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9fc5c2486e572dc7f0881c6dd684dbcdd44bc14f5a416e106e39724f7005e6d
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c0996004e3280ba2b8c5308142e245e93b9a3d5870de383914360145085a647
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae91bbe4bb3448f9fe588b5f12c6d570f98cbeb7f79c6b4c021fdd413e35a673
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b99dae60d08ae089466b878474ef297a0b281547cd1097ea214ecee77244b16
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5e2bdfc538b632be76938bdc369215d9c9e9696454b505d6d5c099a19d59619
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c3acfb47638e30fe1106672a6fd0db74c9187c94c19467e9d22bd366fbb5472
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:654f94a53cbd3a4c0aa96462f7eefb36cea6a40f65967f82f41333fe8d59b3e6
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9723827a668573edbd596a65e0f225b208491adf853284b8da3f11b792077fdc
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:24ee86115e5e887f663c435c280ac37373efa53275c443e874691073017d1363
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a124d1e9d8a7b4a76d7294be394802bfec19da05b0209e12c8dc6b8ab250293
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b85ee37d9a532de8cdb09f3a64e5b2fe9e638521f567e2b493ae4f1f2c3b0617
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6443298969072165,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3819,6 +3819,766 @@
       "eval_samples_per_second": 5.451,
       "eval_steps_per_second": 0.18,
       "step": 500
     }
   ],
   "logging_steps": 1,
@@ -3838,7 +4598,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6687462625574912e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7731958762886598,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.451,
       "eval_steps_per_second": 0.18,
       "step": 500
+    },
+    {
+      "epoch": 0.645618556701031,
+      "grad_norm": 0.3875870704650879,
+      "learning_rate": 6.730609277866644e-06,
+      "loss": 0.0013,
+      "step": 501
+    },
+    {
+      "epoch": 0.6469072164948454,
+      "grad_norm": 0.7030169367790222,
+      "learning_rate": 6.688107468527297e-06,
+      "loss": 0.0044,
+      "step": 502
+    },
+    {
+      "epoch": 0.6481958762886598,
+      "grad_norm": 0.05920355021953583,
+      "learning_rate": 6.645672750209216e-06,
+      "loss": 0.0007,
+      "step": 503
+    },
+    {
+      "epoch": 0.6494845360824743,
+      "grad_norm": 2.848557472229004,
+      "learning_rate": 6.603305982538295e-06,
+      "loss": 0.014,
+      "step": 504
+    },
+    {
+      "epoch": 0.6507731958762887,
+      "grad_norm": 0.3917801082134247,
+      "learning_rate": 6.561008023763915e-06,
+      "loss": 0.0009,
+      "step": 505
+    },
+    {
+      "epoch": 0.6520618556701031,
+      "grad_norm": 1.1397738456726074,
+      "learning_rate": 6.518779730741555e-06,
+      "loss": 0.0072,
+      "step": 506
+    },
+    {
+      "epoch": 0.6533505154639175,
+      "grad_norm": 0.10615069419145584,
+      "learning_rate": 6.476621958915426e-06,
+      "loss": 0.0007,
+      "step": 507
+    },
+    {
+      "epoch": 0.654639175257732,
+      "grad_norm": 0.2596324384212494,
+      "learning_rate": 6.434535562301153e-06,
+      "loss": 0.0006,
+      "step": 508
+    },
+    {
+      "epoch": 0.6559278350515464,
+      "grad_norm": 1.1918329000473022,
+      "learning_rate": 6.392521393468471e-06,
+      "loss": 0.0025,
+      "step": 509
+    },
+    {
+      "epoch": 0.6572164948453608,
+      "grad_norm": 2.2419281005859375,
+      "learning_rate": 6.350580303523947e-06,
+      "loss": 0.006,
+      "step": 510
+    },
+    {
+      "epoch": 0.6585051546391752,
+      "grad_norm": 1.821906328201294,
+      "learning_rate": 6.308713142093749e-06,
+      "loss": 0.025,
+      "step": 511
+    },
+    {
+      "epoch": 0.6597938144329897,
+      "grad_norm": 2.59908390045166,
+      "learning_rate": 6.266920757306429e-06,
+      "loss": 0.0225,
+      "step": 512
+    },
+    {
+      "epoch": 0.6610824742268041,
+      "grad_norm": 2.4867560863494873,
+      "learning_rate": 6.225203995775746e-06,
+      "loss": 0.0097,
+      "step": 513
+    },
+    {
+      "epoch": 0.6623711340206185,
+      "grad_norm": 0.33032119274139404,
+      "learning_rate": 6.183563702583506e-06,
+      "loss": 0.0012,
+      "step": 514
+    },
+    {
+      "epoch": 0.663659793814433,
+      "grad_norm": 0.6683783531188965,
+      "learning_rate": 6.1420007212624584e-06,
+      "loss": 0.0014,
+      "step": 515
+    },
+    {
+      "epoch": 0.6649484536082474,
+      "grad_norm": 0.08879516273736954,
+      "learning_rate": 6.100515893779188e-06,
+      "loss": 0.0006,
+      "step": 516
+    },
+    {
+      "epoch": 0.6662371134020618,
+      "grad_norm": 1.5069953203201294,
+      "learning_rate": 6.05911006051708e-06,
+      "loss": 0.0062,
+      "step": 517
+    },
+    {
+      "epoch": 0.6675257731958762,
+      "grad_norm": 1.1832886934280396,
+      "learning_rate": 6.01778406025928e-06,
+      "loss": 0.0051,
+      "step": 518
+    },
+    {
+      "epoch": 0.6688144329896907,
+      "grad_norm": 1.7542977333068848,
+      "learning_rate": 5.976538730171708e-06,
+      "loss": 0.0072,
+      "step": 519
+    },
+    {
+      "epoch": 0.6701030927835051,
+      "grad_norm": 2.53532338142395,
+      "learning_rate": 5.935374905786102e-06,
+      "loss": 0.0054,
+      "step": 520
+    },
+    {
+      "epoch": 0.6701030927835051,
+      "eval_accuracy": 0.997020854021847,
+      "eval_f1": 0.9473684210526315,
+      "eval_loss": 0.014478031545877457,
+      "eval_precision": 0.9473684210526315,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 85.5952,
+      "eval_samples_per_second": 5.316,
+      "eval_steps_per_second": 0.175,
+      "step": 520
+    },
+    {
+      "epoch": 0.6713917525773195,
+      "grad_norm": 3.9269418716430664,
+      "learning_rate": 5.89429342098309e-06,
+      "loss": 0.0174,
+      "step": 521
+    },
+    {
+      "epoch": 0.6726804123711341,
+      "grad_norm": 1.222317099571228,
+      "learning_rate": 5.8532951079752895e-06,
+      "loss": 0.0046,
+      "step": 522
+    },
+    {
+      "epoch": 0.6739690721649485,
+      "grad_norm": 0.17730024456977844,
+      "learning_rate": 5.812380797290465e-06,
+      "loss": 0.0008,
+      "step": 523
+    },
+    {
+      "epoch": 0.6752577319587629,
+      "grad_norm": 0.8336971998214722,
+      "learning_rate": 5.771551317754691e-06,
+      "loss": 0.0014,
+      "step": 524
+    },
+    {
+      "epoch": 0.6765463917525774,
+      "grad_norm": 0.8036553859710693,
+      "learning_rate": 5.730807496475568e-06,
+      "loss": 0.0033,
+      "step": 525
+    },
+    {
+      "epoch": 0.6778350515463918,
+      "grad_norm": 0.5665665864944458,
+      "learning_rate": 5.690150158825462e-06,
+      "loss": 0.0016,
+      "step": 526
+    },
+    {
+      "epoch": 0.6791237113402062,
+      "grad_norm": 0.08514845371246338,
+      "learning_rate": 5.649580128424792e-06,
+      "loss": 0.0013,
+      "step": 527
+    },
+    {
+      "epoch": 0.6804123711340206,
+      "grad_norm": 0.22260144352912903,
+      "learning_rate": 5.609098227125334e-06,
+      "loss": 0.001,
+      "step": 528
+    },
+    {
+      "epoch": 0.6817010309278351,
+      "grad_norm": 0.6056246161460876,
+      "learning_rate": 5.568705274993584e-06,
+      "loss": 0.0013,
+      "step": 529
+    },
+    {
+      "epoch": 0.6829896907216495,
+      "grad_norm": 0.2608482539653778,
+      "learning_rate": 5.528402090294142e-06,
+      "loss": 0.0013,
+      "step": 530
+    },
+    {
+      "epoch": 0.6842783505154639,
+      "grad_norm": 2.119140386581421,
+      "learning_rate": 5.488189489473133e-06,
+      "loss": 0.0264,
+      "step": 531
+    },
+    {
+      "epoch": 0.6855670103092784,
+      "grad_norm": 0.605993390083313,
+      "learning_rate": 5.448068287141663e-06,
+      "loss": 0.0025,
+      "step": 532
+    },
+    {
+      "epoch": 0.6868556701030928,
+      "grad_norm": 0.04999390244483948,
+      "learning_rate": 5.4080392960593355e-06,
+      "loss": 0.0003,
+      "step": 533
+    },
+    {
+      "epoch": 0.6881443298969072,
+      "grad_norm": 1.6986360549926758,
+      "learning_rate": 5.368103327117768e-06,
+      "loss": 0.0199,
+      "step": 534
+    },
+    {
+      "epoch": 0.6894329896907216,
+      "grad_norm": 1.8997451066970825,
+      "learning_rate": 5.328261189324166e-06,
+      "loss": 0.0236,
+      "step": 535
+    },
+    {
+      "epoch": 0.6907216494845361,
+      "grad_norm": 0.4543597102165222,
+      "learning_rate": 5.288513689784951e-06,
+      "loss": 0.0013,
+      "step": 536
+    },
+    {
+      "epoch": 0.6920103092783505,
+      "grad_norm": 0.3688147962093353,
+      "learning_rate": 5.2488616336893915e-06,
+      "loss": 0.001,
+      "step": 537
+    },
+    {
+      "epoch": 0.6932989690721649,
+      "grad_norm": 1.8557827472686768,
+      "learning_rate": 5.209305824293307e-06,
+      "loss": 0.0086,
+      "step": 538
+    },
+    {
+      "epoch": 0.6945876288659794,
+      "grad_norm": 2.0368287563323975,
+      "learning_rate": 5.1698470629027845e-06,
+      "loss": 0.0127,
+      "step": 539
+    },
+    {
+      "epoch": 0.6958762886597938,
+      "grad_norm": 1.7883585691452026,
+      "learning_rate": 5.130486148857952e-06,
+      "loss": 0.0293,
+      "step": 540
+    },
+    {
+      "epoch": 0.6958762886597938,
+      "eval_accuracy": 0.997020854021847,
+      "eval_f1": 0.9473684210526315,
+      "eval_loss": 0.014807779341936111,
+      "eval_precision": 0.9473684210526315,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 84.982,
+      "eval_samples_per_second": 5.354,
+      "eval_steps_per_second": 0.177,
+      "step": 540
+    },
+    {
+      "epoch": 0.6971649484536082,
+      "grad_norm": 1.6709312200546265,
+      "learning_rate": 5.0912238795167845e-06,
+      "loss": 0.022,
+      "step": 541
+    },
+    {
+      "epoch": 0.6984536082474226,
+      "grad_norm": 0.772537350654602,
+      "learning_rate": 5.05206105023895e-06,
+      "loss": 0.0029,
+      "step": 542
+    },
+    {
+      "epoch": 0.6997422680412371,
+      "grad_norm": 4.051438331604004,
+      "learning_rate": 5.012998454369701e-06,
+      "loss": 0.038,
+      "step": 543
+    },
+    {
+      "epoch": 0.7010309278350515,
+      "grad_norm": 1.2733999490737915,
+      "learning_rate": 4.974036883223798e-06,
+      "loss": 0.0065,
+      "step": 544
+    },
+    {
+      "epoch": 0.7023195876288659,
+      "grad_norm": 0.21695715188980103,
+      "learning_rate": 4.935177126069485e-06,
+      "loss": 0.0006,
+      "step": 545
+    },
+    {
+      "epoch": 0.7036082474226805,
+      "grad_norm": 0.9881150722503662,
+      "learning_rate": 4.896419970112499e-06,
+      "loss": 0.0061,
+      "step": 546
+    },
+    {
+      "epoch": 0.7048969072164949,
+      "grad_norm": 0.4101882576942444,
+      "learning_rate": 4.857766200480115e-06,
+      "loss": 0.0012,
+      "step": 547
+    },
+    {
+      "epoch": 0.7061855670103093,
+      "grad_norm": 0.4901997745037079,
+      "learning_rate": 4.819216600205254e-06,
+      "loss": 0.0022,
+      "step": 548
+    },
+    {
+      "epoch": 0.7074742268041238,
+      "grad_norm": 1.6338658332824707,
+      "learning_rate": 4.780771950210616e-06,
+      "loss": 0.0074,
+      "step": 549
+    },
+    {
+      "epoch": 0.7087628865979382,
+      "grad_norm": 0.9421409964561462,
+      "learning_rate": 4.742433029292856e-06,
+      "loss": 0.0023,
+      "step": 550
+    },
+    {
+      "epoch": 0.7100515463917526,
+      "grad_norm": 0.20757536590099335,
+      "learning_rate": 4.704200614106813e-06,
+      "loss": 0.0012,
+      "step": 551
+    },
+    {
+      "epoch": 0.711340206185567,
+      "grad_norm": 2.018266201019287,
+      "learning_rate": 4.6660754791497755e-06,
+      "loss": 0.0096,
+      "step": 552
+    },
+    {
+      "epoch": 0.7126288659793815,
+      "grad_norm": 2.6476552486419678,
+      "learning_rate": 4.628058396745787e-06,
+      "loss": 0.0053,
+      "step": 553
+    },
+    {
+      "epoch": 0.7139175257731959,
+      "grad_norm": 1.7703890800476074,
+      "learning_rate": 4.590150137030009e-06,
+      "loss": 0.0071,
+      "step": 554
+    },
+    {
+      "epoch": 0.7152061855670103,
+      "grad_norm": 1.2769412994384766,
+      "learning_rate": 4.552351467933115e-06,
+      "loss": 0.0036,
+      "step": 555
+    },
+    {
+      "epoch": 0.7164948453608248,
+      "grad_norm": 1.8354310989379883,
+      "learning_rate": 4.514663155165731e-06,
+      "loss": 0.008,
+      "step": 556
+    },
+    {
+      "epoch": 0.7177835051546392,
+      "grad_norm": 0.896404504776001,
+      "learning_rate": 4.477085962202931e-06,
+      "loss": 0.0028,
+      "step": 557
+    },
+    {
+      "epoch": 0.7190721649484536,
+      "grad_norm": 0.33429154753685,
+      "learning_rate": 4.439620650268771e-06,
+      "loss": 0.0013,
+      "step": 558
+    },
+    {
+      "epoch": 0.720360824742268,
+      "grad_norm": 1.1864862442016602,
+      "learning_rate": 4.402267978320854e-06,
+      "loss": 0.0035,
+      "step": 559
+    },
+    {
+      "epoch": 0.7216494845360825,
+      "grad_norm": 2.4220573902130127,
+      "learning_rate": 4.365028703034976e-06,
+      "loss": 0.0133,
+      "step": 560
+    },
+    {
+      "epoch": 0.7216494845360825,
+      "eval_accuracy": 0.997020854021847,
+      "eval_f1": 0.9473684210526315,
+      "eval_loss": 0.013733865693211555,
+      "eval_precision": 0.9473684210526315,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 85.2875,
+      "eval_samples_per_second": 5.335,
+      "eval_steps_per_second": 0.176,
+      "step": 560
+    },
+    {
+      "epoch": 0.7229381443298969,
+      "grad_norm": 2.1442863941192627,
+      "learning_rate": 4.327903578789785e-06,
+      "loss": 0.0307,
+      "step": 561
+    },
+    {
+      "epoch": 0.7242268041237113,
+      "grad_norm": 1.1676955223083496,
+      "learning_rate": 4.290893357651502e-06,
+      "loss": 0.002,
+      "step": 562
+    },
+    {
+      "epoch": 0.7255154639175257,
+      "grad_norm": 1.461906909942627,
+      "learning_rate": 4.253998789358683e-06,
+      "loss": 0.0105,
+      "step": 563
+    },
+    {
+      "epoch": 0.7268041237113402,
+      "grad_norm": 2.029210090637207,
+      "learning_rate": 4.217220621307043e-06,
+      "loss": 0.0066,
+      "step": 564
+    },
+    {
+      "epoch": 0.7280927835051546,
+      "grad_norm": 0.26991185545921326,
+      "learning_rate": 4.180559598534297e-06,
+      "loss": 0.0009,
+      "step": 565
+    },
+    {
+      "epoch": 0.729381443298969,
+      "grad_norm": 2.1972944736480713,
+      "learning_rate": 4.144016463705081e-06,
+      "loss": 0.0074,
+      "step": 566
+    },
+    {
+      "epoch": 0.7306701030927835,
+      "grad_norm": 1.7855631113052368,
+      "learning_rate": 4.107591957095903e-06,
+      "loss": 0.0234,
+      "step": 567
+    },
+    {
+      "epoch": 0.7319587628865979,
+      "grad_norm": 0.13372205197811127,
+      "learning_rate": 4.071286816580142e-06,
+      "loss": 0.0011,
+      "step": 568
+    },
+    {
+      "epoch": 0.7332474226804123,
+      "grad_norm": 0.3758986294269562,
+      "learning_rate": 4.035101777613113e-06,
+      "loss": 0.0009,
+      "step": 569
+    },
+    {
+      "epoch": 0.7345360824742269,
+      "grad_norm": 4.052021026611328,
+      "learning_rate": 3.999037573217157e-06,
+      "loss": 0.031,
+      "step": 570
+    },
+    {
+      "epoch": 0.7358247422680413,
+      "grad_norm": 3.024075508117676,
+      "learning_rate": 3.963094933966797e-06,
+      "loss": 0.0191,
+      "step": 571
+    },
+    {
+      "epoch": 0.7371134020618557,
+      "grad_norm": 0.10660507529973984,
+      "learning_rate": 3.927274587973935e-06,
+      "loss": 0.0004,
+      "step": 572
+    },
+    {
+      "epoch": 0.7384020618556701,
+      "grad_norm": 0.7237541079521179,
+      "learning_rate": 3.8915772608731066e-06,
+      "loss": 0.0015,
+      "step": 573
+    },
+    {
+      "epoch": 0.7396907216494846,
+      "grad_norm": 3.8813493251800537,
+      "learning_rate": 3.856003675806777e-06,
+      "loss": 0.0142,
+      "step": 574
+    },
+    {
+      "epoch": 0.740979381443299,
+      "grad_norm": 0.08904914557933807,
+      "learning_rate": 3.820554553410693e-06,
+      "loss": 0.0006,
+      "step": 575
+    },
+    {
+      "epoch": 0.7422680412371134,
+      "grad_norm": 2.8645918369293213,
+      "learning_rate": 3.78523061179929e-06,
+      "loss": 0.0151,
+      "step": 576
+    },
+    {
+      "epoch": 0.7435567010309279,
+      "grad_norm": 0.8430268168449402,
+      "learning_rate": 3.7500325665511337e-06,
+      "loss": 0.0031,
+      "step": 577
+    },
+    {
+      "epoch": 0.7448453608247423,
+      "grad_norm": 0.0855301171541214,
+      "learning_rate": 3.7149611306944356e-06,
+      "loss": 0.0007,
+      "step": 578
+    },
+    {
+      "epoch": 0.7461340206185567,
+      "grad_norm": 1.7717701196670532,
+      "learning_rate": 3.680017014692604e-06,
+      "loss": 0.0075,
+      "step": 579
+    },
+    {
+      "epoch": 0.7474226804123711,
+      "grad_norm": 1.216423749923706,
+      "learning_rate": 3.645200926429844e-06,
+      "loss": 0.0028,
+      "step": 580
+    },
+    {
+      "epoch": 0.7474226804123711,
+      "eval_accuracy": 0.9980139026812314,
+      "eval_f1": 0.9642857142857143,
+      "eval_loss": 0.014089370146393776,
+      "eval_precision": 0.9818181818181818,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 85.7572,
+      "eval_samples_per_second": 5.306,
+      "eval_steps_per_second": 0.175,
+      "step": 580
+    },
+    {
+      "epoch": 0.7487113402061856,
+      "grad_norm": 0.18626463413238525,
+      "learning_rate": 3.610513571196832e-06,
+      "loss": 0.0008,
+      "step": 581
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.16629698872566223,
+      "learning_rate": 3.5759556516764205e-06,
+      "loss": 0.001,
+      "step": 582
+    },
+    {
+      "epoch": 0.7512886597938144,
+      "grad_norm": 0.0471065454185009,
+      "learning_rate": 3.541527867929403e-06,
+      "loss": 0.0003,
+      "step": 583
+    },
+    {
+      "epoch": 0.7525773195876289,
+      "grad_norm": 0.925058901309967,
+      "learning_rate": 3.507230917380332e-06,
+      "loss": 0.0022,
+      "step": 584
+    },
+    {
+      "epoch": 0.7538659793814433,
+      "grad_norm": 5.241347312927246,
+      "learning_rate": 3.4730654948033957e-06,
+      "loss": 0.0038,
+      "step": 585
+    },
+    {
+      "epoch": 0.7551546391752577,
+      "grad_norm": 5.135495662689209,
+      "learning_rate": 3.4390322923083385e-06,
+      "loss": 0.0154,
+      "step": 586
+    },
+    {
+      "epoch": 0.7564432989690721,
+      "grad_norm": 0.30281150341033936,
+      "learning_rate": 3.4051319993264397e-06,
+      "loss": 0.0009,
+      "step": 587
+    },
+    {
+      "epoch": 0.7577319587628866,
+      "grad_norm": 0.08247953653335571,
+      "learning_rate": 3.3713653025965544e-06,
+      "loss": 0.0006,
+      "step": 588
+    },
+    {
+      "epoch": 0.759020618556701,
+      "grad_norm": 0.1323813498020172,
+      "learning_rate": 3.3377328861511927e-06,
+      "loss": 0.0005,
+      "step": 589
+    },
+    {
+      "epoch": 0.7603092783505154,
+      "grad_norm": 1.5231373310089111,
+      "learning_rate": 3.3042354313026702e-06,
+      "loss": 0.0051,
+      "step": 590
+    },
+    {
+      "epoch": 0.7615979381443299,
+      "grad_norm": 0.08996398001909256,
+      "learning_rate": 3.2708736166293064e-06,
+      "loss": 0.0004,
+      "step": 591
+    },
+    {
+      "epoch": 0.7628865979381443,
+      "grad_norm": 0.5507305264472961,
+      "learning_rate": 3.237648117961665e-06,
+      "loss": 0.001,
+      "step": 592
+    },
+    {
+      "epoch": 0.7641752577319587,
+      "grad_norm": 3.912440061569214,
+      "learning_rate": 3.2045596083688814e-06,
+      "loss": 0.0169,
+      "step": 593
+    },
+    {
+      "epoch": 0.7654639175257731,
+      "grad_norm": 1.7454997301101685,
+      "learning_rate": 3.1716087581450193e-06,
+      "loss": 0.0051,
+      "step": 594
+    },
+    {
+      "epoch": 0.7667525773195877,
+      "grad_norm": 2.3474819660186768,
+      "learning_rate": 3.1387962347954936e-06,
+      "loss": 0.0101,
+      "step": 595
+    },
+    {
+      "epoch": 0.7680412371134021,
+      "grad_norm": 0.4886447787284851,
+      "learning_rate": 3.1061227030235442e-06,
+      "loss": 0.0009,
+      "step": 596
+    },
+    {
+      "epoch": 0.7693298969072165,
+      "grad_norm": 2.3838088512420654,
+      "learning_rate": 3.073588824716777e-06,
+      "loss": 0.0057,
+      "step": 597
+    },
+    {
+      "epoch": 0.770618556701031,
+      "grad_norm": 0.4210747480392456,
+      "learning_rate": 3.041195258933749e-06,
+      "loss": 0.0026,
+      "step": 598
+    },
+    {
+      "epoch": 0.7719072164948454,
+      "grad_norm": 1.517642855644226,
+      "learning_rate": 3.008942661890627e-06,
+      "loss": 0.0033,
+      "step": 599
+    },
+    {
+      "epoch": 0.7731958762886598,
+      "grad_norm": 0.5007296800613403,
+      "learning_rate": 2.976831686947884e-06,
+      "loss": 0.0012,
+      "step": 600
+    },
+    {
+      "epoch": 0.7731958762886598,
+      "eval_accuracy": 0.9980139026812314,
+      "eval_f1": 0.9642857142857143,
+      "eval_loss": 0.01421260554343462,
+      "eval_precision": 0.9818181818181818,
+      "eval_recall": 0.9473684210526315,
+      "eval_runtime": 85.1923,
+      "eval_samples_per_second": 5.341,
+      "eval_steps_per_second": 0.176,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.004089890144256e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null