mtzig commited on Dec 4, 2024

Commit

c5a961f

verified ·

1 Parent(s): fe2e3cb

Training in progress, step 3614, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/optimizer_0/.metadata +1 -1
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/optimizer_0/__4_0.distcp +1 -1
last-checkpoint/optimizer_0/__5_0.distcp +1 -1
last-checkpoint/optimizer_0/__6_0.distcp +1 -1
last-checkpoint/optimizer_0/__7_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__4_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__5_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__6_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__7_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +814 -4

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:268444beddbb5a7d91ef5cb5b665db6aef7c7fcec333ad0c3a08c686565a8913
 size 1130174

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b57402c9a04b6a83c55631793729abf4135e066e940007e5be32d1b580969c5
 size 1130174

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c087ac61d068ff86b9310239fcb0b763d36d2fb265ae2f65972b0892c62e815b
 size 7242420036

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b082226244870565d28873eba1d507851f0af49f4366f9a37b971141a812bac
 size 7242420036

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:289e64957b824caccb5a7d36e8929fef7b62cf8fcec2dd4c9b69df6d6d2ad84e
 size 7242473280

 version https://git-lfs.github.com/spec/v1
+oid sha256:94d305a995adc93c165aa366b5cfa7cea152c21931cf4b250d0e0f76cf977dc6
 size 7242473280

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc3a9e94aa60029ab2b26eee275332b5602a587d09513e314517fe265b826336
 size 7242469280

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce18db0ad733a422365d20b5d06639b0c2e8c082890dcee42f3551c057730408
 size 7242469280

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75ffef6d56758276b78cf9eebe93d4d83914fa79fcaeca75ae94133640be3b29
 size 7242469280

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d1fd6f4a58d8be9b8f4ed9c00096312ac2a19be2b05a83ef344c3caa6fddfb0
 size 7242469280

last-checkpoint/optimizer_0/__4_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d01e5b9ddf802f6a422646b056a23b3fbe05ff93b6930b6755300be4894c712
 size 7242471556

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dc057d11daf173591f444f3e42edce09b92d5f8fa6cf2ce68d3ec7654d90c72
 size 7242471556

last-checkpoint/optimizer_0/__5_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16fe6a883206ff7b9651bc19a06d8b3987ddbd9a9e8cbbe9c11d875741d9dc6a
 size 7242471556

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6f87ef3065fc4b31182b03a4a17a669e4d62016bfcaf05113ea4793e1d37546
 size 7242471556

last-checkpoint/optimizer_0/__6_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:420747a58261d11f13d0b7877ca8d5a836aedbcf81b1ab915458eca1c5b7b07c
 size 7242471556

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aec250e9248ff1407735a2e38d1f42ca07be095eb7d003ce955c101c4bf37f4
 size 7242471556

last-checkpoint/optimizer_0/__7_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd539001454d1aecf6ff0aed4e849255d703a67f16dc4fba8c31a28ccd1fd027
 size 7242481476

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f74c7304e82f6b6ca55a4662ed1108321ff9c5805d048fa74b7eced022291ad
 size 7242481476

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b32cd75a5673f4c46449f0ff87db37d4991506ede421aab3f9b20a60edbaa45
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:96a514e755628059dd0e872f51e9e9c03303f32c8bb807e60ede865d5074b952
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd4dc89c486499582d0239f57be38d061d43385604d9dca4aba765cf2241536c
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dabe2309a6a1a18a27265cbb83de5cbf207f35f6ef8f3af19f22dcb76735a00
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34dfdc92dc5c4d7743496ab404c7b2bdb4ef766a1ecc160e4b587f3a3148a09e
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a6c9137d8b880c8044701a18add7422c303241d293c1b566c8d7be63bbda599
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c2d077edf81f8a2e0faaffb9ad04610ca0596326e8669b526b260742e7cb4d5
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ec44558c788ed40d962a7a7ac7d47f797d88247ed258682966e1699e97fb500
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__4_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f138bb4a538672b2e4a60a1a043a7f1e4fb6d41e05a6a12867f22b2f6b4443b2
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:bda62e5d3c9978ebc867b9a5f6e80ddeeb08c36f0e4c0f708e3b4650f841d014
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__5_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c55b02b75216a84dc5bc094cc9fe1eb4bce52ed53eb5b4d8422a4980092ef06e
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:79b845162dd458f08b347feb21b321cc26bd49f8a90ec6692679f7cc11b5843f
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__6_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60733eb18a71043c1601a1e3d88059714c1609dc45ea18a81ee2ed0f06026b16
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:293577d7261da8e39c01fb14ec56c5de9511e969763ae8a2c7e45eae07bb561c
 size 3621209428

last-checkpoint/pytorch_model_fsdp_0/__7_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ebe351a9e7adc275647873f0d026749cd90c2d7f0b02b4f54e8db4db1c3b1d7
 size 3621209428

 version https://git-lfs.github.com/spec/v1
+oid sha256:b52705274f60d2ba6542de0450be411273d3dedeffe53a0afb4913227822ee7a
 size 3621209428

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37563542a2053d121a18e38b53d5eacbd5a8a56ffc762d2fc6ba3aca1c345c28
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d567092e95857ec2cef0d42902ce0b7b850534369c357b926f52de75e6483b0c
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22b4d19df971cb0e10833e6468d4e75e98f2bb9f15fba9ac69c676842f44a7bf
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a43106d8f7ea7f1b60a91f9c8dae3af8f4578d4a265510b906d37cd15ce8b30e
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f4075d6bc44efbb6da438685827fb7ea74011b7ee8a7952293c08412e393ec0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2aebd5c68731a8f11af25059034403042750f2005fa4358349f244ccdff4a5d
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb2b5faa03ec4380b2492cab429fbb33ad1cf1dc9709616dc45076680e1d9489
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6d2d85ac2d4aae4a01ac2269d0aad572db524a435d3c1422869e17cc061f2f8
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02d3942e4518f17813014944d7923a9ea06fd5afadf183e6f63ff2ea9f10296b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:148f3aa738ce382dd8aa49c18096e0644495a5e19f8e8545441dda2bef5afd1c
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:618b7aa8c086dac7361b603ef9fd226ea34d2b62e3b0380b72515bed54d74b1c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bfb030b9b6b13727bb580725f96bd18f81f6aa676eb9c08437ece83091d55a2
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:526882e40ab43ef441655b29b6feed50978eb1b4f317dbf6dc5727bab57b68b7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ae2f442a63b70c5786d8b8bc2857bc39fb849023f943cc0d7c5d4a9ba3108f4
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6109b90c545c3aa0c18e3d098415feeff62366f202fa6219bc0cab14f5e269b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6333d466bbde25a38a25343ca06136fd75295a54967090d2fe4c85ebb3b769ee
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bffb650b01ff286af25ed32d89dc7e672eba21627ca5382acef7e640641ba621
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:21662799391bd7e52a3f2ab8ae98718c240562ca5104178c8186801ae79acc59
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9683890157017362,
   "eval_steps": 100,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -24939,6 +24939,816 @@
       "eval_samples_per_second": 6.662,
       "eval_steps_per_second": 0.236,
       "step": 3500
     }
   ],
   "logging_steps": 1,
@@ -24953,12 +25763,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.311866995716915e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9999308293560213,
   "eval_steps": 100,
+  "global_step": 3614,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.662,
       "eval_steps_per_second": 0.236,
       "step": 3500
+    },
+    {
+      "epoch": 0.9686656982776509,
+      "grad_norm": 5.235546112060547,
+      "learning_rate": 4.9179685389096896e-08,
+      "loss": 0.3635,
+      "step": 3501
+    },
+    {
+      "epoch": 0.9689423808535658,
+      "grad_norm": 6.3581223487854,
+      "learning_rate": 4.831449832053525e-08,
+      "loss": 0.443,
+      "step": 3502
+    },
+    {
+      "epoch": 0.9692190634294805,
+      "grad_norm": 8.401195526123047,
+      "learning_rate": 4.74569523379137e-08,
+      "loss": 0.4533,
+      "step": 3503
+    },
+    {
+      "epoch": 0.9694957460053953,
+      "grad_norm": 10.938070297241211,
+      "learning_rate": 4.6607048764534814e-08,
+      "loss": 0.4868,
+      "step": 3504
+    },
+    {
+      "epoch": 0.9697724285813101,
+      "grad_norm": 5.621330261230469,
+      "learning_rate": 4.5764788911908384e-08,
+      "loss": 0.4099,
+      "step": 3505
+    },
+    {
+      "epoch": 0.9700491111572249,
+      "grad_norm": 8.117724418640137,
+      "learning_rate": 4.493017407975087e-08,
+      "loss": 0.419,
+      "step": 3506
+    },
+    {
+      "epoch": 0.9703257937331397,
+      "grad_norm": 6.391302108764648,
+      "learning_rate": 4.410320555597869e-08,
+      "loss": 0.4502,
+      "step": 3507
+    },
+    {
+      "epoch": 0.9706024763090544,
+      "grad_norm": 12.152544975280762,
+      "learning_rate": 4.328388461671107e-08,
+      "loss": 0.5602,
+      "step": 3508
+    },
+    {
+      "epoch": 0.9708791588849692,
+      "grad_norm": 11.282763481140137,
+      "learning_rate": 4.247221252626499e-08,
+      "loss": 0.5866,
+      "step": 3509
+    },
+    {
+      "epoch": 0.971155841460884,
+      "grad_norm": 6.5668253898620605,
+      "learning_rate": 4.166819053715521e-08,
+      "loss": 0.397,
+      "step": 3510
+    },
+    {
+      "epoch": 0.9714325240367988,
+      "grad_norm": 6.569908618927002,
+      "learning_rate": 4.087181989008926e-08,
+      "loss": 0.4887,
+      "step": 3511
+    },
+    {
+      "epoch": 0.9717092066127135,
+      "grad_norm": 9.562713623046875,
+      "learning_rate": 4.0083101813970794e-08,
+      "loss": 0.3468,
+      "step": 3512
+    },
+    {
+      "epoch": 0.9719858891886284,
+      "grad_norm": 9.6434907913208,
+      "learning_rate": 3.93020375258929e-08,
+      "loss": 0.36,
+      "step": 3513
+    },
+    {
+      "epoch": 0.9722625717645431,
+      "grad_norm": 11.750981330871582,
+      "learning_rate": 3.852862823113701e-08,
+      "loss": 0.4,
+      "step": 3514
+    },
+    {
+      "epoch": 0.972539254340458,
+      "grad_norm": 6.20719575881958,
+      "learning_rate": 3.776287512317345e-08,
+      "loss": 0.3826,
+      "step": 3515
+    },
+    {
+      "epoch": 0.9728159369163727,
+      "grad_norm": 5.036905288696289,
+      "learning_rate": 3.7004779383657543e-08,
+      "loss": 0.3524,
+      "step": 3516
+    },
+    {
+      "epoch": 0.9730926194922874,
+      "grad_norm": 10.913909912109375,
+      "learning_rate": 3.6254342182428515e-08,
+      "loss": 0.3848,
+      "step": 3517
+    },
+    {
+      "epoch": 0.9733693020682023,
+      "grad_norm": 5.970122814178467,
+      "learning_rate": 3.5511564677506715e-08,
+      "loss": 0.3321,
+      "step": 3518
+    },
+    {
+      "epoch": 0.973645984644117,
+      "grad_norm": 11.325397491455078,
+      "learning_rate": 3.477644801509306e-08,
+      "loss": 0.4813,
+      "step": 3519
+    },
+    {
+      "epoch": 0.9739226672200318,
+      "grad_norm": 6.1236066818237305,
+      "learning_rate": 3.404899332956735e-08,
+      "loss": 0.3705,
+      "step": 3520
+    },
+    {
+      "epoch": 0.9741993497959466,
+      "grad_norm": 7.407733917236328,
+      "learning_rate": 3.332920174348497e-08,
+      "loss": 0.4437,
+      "step": 3521
+    },
+    {
+      "epoch": 0.9744760323718614,
+      "grad_norm": 6.992598533630371,
+      "learning_rate": 3.2617074367576886e-08,
+      "loss": 0.4798,
+      "step": 3522
+    },
+    {
+      "epoch": 0.9747527149477762,
+      "grad_norm": 8.392826080322266,
+      "learning_rate": 3.1912612300747384e-08,
+      "loss": 0.3594,
+      "step": 3523
+    },
+    {
+      "epoch": 0.975029397523691,
+      "grad_norm": 6.5278639793396,
+      "learning_rate": 3.121581663007134e-08,
+      "loss": 0.4254,
+      "step": 3524
+    },
+    {
+      "epoch": 0.9753060800996057,
+      "grad_norm": 6.965699195861816,
+      "learning_rate": 3.052668843079365e-08,
+      "loss": 0.3341,
+      "step": 3525
+    },
+    {
+      "epoch": 0.9755827626755205,
+      "grad_norm": 6.369235992431641,
+      "learning_rate": 2.984522876632812e-08,
+      "loss": 0.4223,
+      "step": 3526
+    },
+    {
+      "epoch": 0.9758594452514353,
+      "grad_norm": 5.943597793579102,
+      "learning_rate": 2.9171438688254118e-08,
+      "loss": 0.4617,
+      "step": 3527
+    },
+    {
+      "epoch": 0.97613612782735,
+      "grad_norm": 8.69240665435791,
+      "learning_rate": 2.850531923631661e-08,
+      "loss": 0.4274,
+      "step": 3528
+    },
+    {
+      "epoch": 0.9764128104032649,
+      "grad_norm": 6.936566352844238,
+      "learning_rate": 2.784687143842224e-08,
+      "loss": 0.3652,
+      "step": 3529
+    },
+    {
+      "epoch": 0.9766894929791796,
+      "grad_norm": 6.269064426422119,
+      "learning_rate": 2.7196096310641573e-08,
+      "loss": 0.4139,
+      "step": 3530
+    },
+    {
+      "epoch": 0.9769661755550945,
+      "grad_norm": 7.397728443145752,
+      "learning_rate": 2.6552994857204083e-08,
+      "loss": 0.4978,
+      "step": 3531
+    },
+    {
+      "epoch": 0.9772428581310092,
+      "grad_norm": 6.353926181793213,
+      "learning_rate": 2.5917568070496503e-08,
+      "loss": 0.4468,
+      "step": 3532
+    },
+    {
+      "epoch": 0.9775195407069239,
+      "grad_norm": 6.348305702209473,
+      "learning_rate": 2.528981693106558e-08,
+      "loss": 0.4326,
+      "step": 3533
+    },
+    {
+      "epoch": 0.9777962232828388,
+      "grad_norm": 7.442327499389648,
+      "learning_rate": 2.4669742407610332e-08,
+      "loss": 0.4463,
+      "step": 3534
+    },
+    {
+      "epoch": 0.9780729058587535,
+      "grad_norm": 6.542540073394775,
+      "learning_rate": 2.4057345456987013e-08,
+      "loss": 0.4501,
+      "step": 3535
+    },
+    {
+      "epoch": 0.9783495884346683,
+      "grad_norm": 6.655422210693359,
+      "learning_rate": 2.3452627024200815e-08,
+      "loss": 0.4371,
+      "step": 3536
+    },
+    {
+      "epoch": 0.9786262710105831,
+      "grad_norm": 6.123124599456787,
+      "learning_rate": 2.2855588042410838e-08,
+      "loss": 0.4332,
+      "step": 3537
+    },
+    {
+      "epoch": 0.9789029535864979,
+      "grad_norm": 6.827947616577148,
+      "learning_rate": 2.226622943292567e-08,
+      "loss": 0.4926,
+      "step": 3538
+    },
+    {
+      "epoch": 0.9791796361624127,
+      "grad_norm": 4.61018705368042,
+      "learning_rate": 2.1684552105199485e-08,
+      "loss": 0.4004,
+      "step": 3539
+    },
+    {
+      "epoch": 0.9794563187383275,
+      "grad_norm": 8.030633926391602,
+      "learning_rate": 2.1110556956835394e-08,
+      "loss": 0.3661,
+      "step": 3540
+    },
+    {
+      "epoch": 0.9797330013142422,
+      "grad_norm": 5.738858222961426,
+      "learning_rate": 2.0544244873582643e-08,
+      "loss": 0.5086,
+      "step": 3541
+    },
+    {
+      "epoch": 0.980009683890157,
+      "grad_norm": 6.600244998931885,
+      "learning_rate": 1.9985616729332747e-08,
+      "loss": 0.391,
+      "step": 3542
+    },
+    {
+      "epoch": 0.9802863664660718,
+      "grad_norm": 5.6170806884765625,
+      "learning_rate": 1.9434673386120594e-08,
+      "loss": 0.4199,
+      "step": 3543
+    },
+    {
+      "epoch": 0.9805630490419865,
+      "grad_norm": 6.685068607330322,
+      "learning_rate": 1.889141569412223e-08,
+      "loss": 0.4244,
+      "step": 3544
+    },
+    {
+      "epoch": 0.9808397316179014,
+      "grad_norm": 8.005044937133789,
+      "learning_rate": 1.8355844491654284e-08,
+      "loss": 0.4274,
+      "step": 3545
+    },
+    {
+      "epoch": 0.9811164141938161,
+      "grad_norm": 9.169407844543457,
+      "learning_rate": 1.7827960605171778e-08,
+      "loss": 0.4674,
+      "step": 3546
+    },
+    {
+      "epoch": 0.981393096769731,
+      "grad_norm": 8.508087158203125,
+      "learning_rate": 1.7307764849266996e-08,
+      "loss": 0.4041,
+      "step": 3547
+    },
+    {
+      "epoch": 0.9816697793456457,
+      "grad_norm": 7.333049774169922,
+      "learning_rate": 1.679525802666948e-08,
+      "loss": 0.3855,
+      "step": 3548
+    },
+    {
+      "epoch": 0.9819464619215605,
+      "grad_norm": 5.400395393371582,
+      "learning_rate": 1.6290440928241613e-08,
+      "loss": 0.4063,
+      "step": 3549
+    },
+    {
+      "epoch": 0.9822231444974753,
+      "grad_norm": 8.128486633300781,
+      "learning_rate": 1.5793314332982477e-08,
+      "loss": 0.3734,
+      "step": 3550
+    },
+    {
+      "epoch": 0.98249982707339,
+      "grad_norm": 7.244846343994141,
+      "learning_rate": 1.5303879008021773e-08,
+      "loss": 0.3945,
+      "step": 3551
+    },
+    {
+      "epoch": 0.9827765096493049,
+      "grad_norm": 7.506839275360107,
+      "learning_rate": 1.482213570861979e-08,
+      "loss": 0.4032,
+      "step": 3552
+    },
+    {
+      "epoch": 0.9830531922252196,
+      "grad_norm": 6.991761207580566,
+      "learning_rate": 1.4348085178169658e-08,
+      "loss": 0.358,
+      "step": 3553
+    },
+    {
+      "epoch": 0.9833298748011344,
+      "grad_norm": 6.618139266967773,
+      "learning_rate": 1.3881728148191775e-08,
+      "loss": 0.4842,
+      "step": 3554
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 5.5989274978637695,
+      "learning_rate": 1.3423065338334373e-08,
+      "loss": 0.3639,
+      "step": 3555
+    },
+    {
+      "epoch": 0.983883239952964,
+      "grad_norm": 10.364370346069336,
+      "learning_rate": 1.2972097456373512e-08,
+      "loss": 0.3677,
+      "step": 3556
+    },
+    {
+      "epoch": 0.9841599225288787,
+      "grad_norm": 6.9868340492248535,
+      "learning_rate": 1.2528825198210304e-08,
+      "loss": 0.4279,
+      "step": 3557
+    },
+    {
+      "epoch": 0.9844366051047935,
+      "grad_norm": 7.0398125648498535,
+      "learning_rate": 1.209324924787092e-08,
+      "loss": 0.4194,
+      "step": 3558
+    },
+    {
+      "epoch": 0.9847132876807083,
+      "grad_norm": 4.859399795532227,
+      "learning_rate": 1.1665370277504917e-08,
+      "loss": 0.4016,
+      "step": 3559
+    },
+    {
+      "epoch": 0.984989970256623,
+      "grad_norm": 6.274821758270264,
+      "learning_rate": 1.1245188947384133e-08,
+      "loss": 0.4823,
+      "step": 3560
+    },
+    {
+      "epoch": 0.9852666528325379,
+      "grad_norm": 7.054055213928223,
+      "learning_rate": 1.083270590590213e-08,
+      "loss": 0.4286,
+      "step": 3561
+    },
+    {
+      "epoch": 0.9855433354084526,
+      "grad_norm": 4.351117134094238,
+      "learning_rate": 1.0427921789573636e-08,
+      "loss": 0.39,
+      "step": 3562
+    },
+    {
+      "epoch": 0.9858200179843675,
+      "grad_norm": 8.033738136291504,
+      "learning_rate": 1.003083722303233e-08,
+      "loss": 0.4421,
+      "step": 3563
+    },
+    {
+      "epoch": 0.9860967005602822,
+      "grad_norm": 4.982435703277588,
+      "learning_rate": 9.641452819030283e-09,
+      "loss": 0.332,
+      "step": 3564
+    },
+    {
+      "epoch": 0.986373383136197,
+      "grad_norm": 15.608251571655273,
+      "learning_rate": 9.259769178438516e-09,
+      "loss": 0.3892,
+      "step": 3565
+    },
+    {
+      "epoch": 0.9866500657121118,
+      "grad_norm": 7.015858173370361,
+      "learning_rate": 8.885786890242554e-09,
+      "loss": 0.3854,
+      "step": 3566
+    },
+    {
+      "epoch": 0.9869267482880265,
+      "grad_norm": 10.827554702758789,
+      "learning_rate": 8.519506531545763e-09,
+      "loss": 0.5023,
+      "step": 3567
+    },
+    {
+      "epoch": 0.9872034308639414,
+      "grad_norm": 5.95730447769165,
+      "learning_rate": 8.160928667566015e-09,
+      "loss": 0.4019,
+      "step": 3568
+    },
+    {
+      "epoch": 0.9874801134398561,
+      "grad_norm": 10.602973937988281,
+      "learning_rate": 7.81005385163458e-09,
+      "loss": 0.4717,
+      "step": 3569
+    },
+    {
+      "epoch": 0.9877567960157709,
+      "grad_norm": 6.7663164138793945,
+      "learning_rate": 7.466882625196126e-09,
+      "loss": 0.3858,
+      "step": 3570
+    },
+    {
+      "epoch": 0.9880334785916857,
+      "grad_norm": 14.224672317504883,
+      "learning_rate": 7.13141551780816e-09,
+      "loss": 0.587,
+      "step": 3571
+    },
+    {
+      "epoch": 0.9883101611676005,
+      "grad_norm": 10.713641166687012,
+      "learning_rate": 6.803653047138814e-09,
+      "loss": 0.379,
+      "step": 3572
+    },
+    {
+      "epoch": 0.9885868437435152,
+      "grad_norm": 6.506649494171143,
+      "learning_rate": 6.48359571896906e-09,
+      "loss": 0.3868,
+      "step": 3573
+    },
+    {
+      "epoch": 0.9888635263194301,
+      "grad_norm": 5.888006210327148,
+      "learning_rate": 6.171244027187162e-09,
+      "loss": 0.4599,
+      "step": 3574
+    },
+    {
+      "epoch": 0.9891402088953448,
+      "grad_norm": 4.954348087310791,
+      "learning_rate": 5.866598453792005e-09,
+      "loss": 0.4112,
+      "step": 3575
+    },
+    {
+      "epoch": 0.9894168914712596,
+      "grad_norm": 6.747551441192627,
+      "learning_rate": 5.569659468891431e-09,
+      "loss": 0.3918,
+      "step": 3576
+    },
+    {
+      "epoch": 0.9896935740471744,
+      "grad_norm": 6.1678972244262695,
+      "learning_rate": 5.2804275306994615e-09,
+      "loss": 0.49,
+      "step": 3577
+    },
+    {
+      "epoch": 0.9899702566230891,
+      "grad_norm": 9.625385284423828,
+      "learning_rate": 4.998903085539075e-09,
+      "loss": 0.4239,
+      "step": 3578
+    },
+    {
+      "epoch": 0.990246939199004,
+      "grad_norm": 12.304625511169434,
+      "learning_rate": 4.7250865678377665e-09,
+      "loss": 0.4733,
+      "step": 3579
+    },
+    {
+      "epoch": 0.9905236217749187,
+      "grad_norm": 7.027407646179199,
+      "learning_rate": 4.458978400130321e-09,
+      "loss": 0.5059,
+      "step": 3580
+    },
+    {
+      "epoch": 0.9908003043508335,
+      "grad_norm": 7.810775279998779,
+      "learning_rate": 4.200578993054927e-09,
+      "loss": 0.5052,
+      "step": 3581
+    },
+    {
+      "epoch": 0.9910769869267483,
+      "grad_norm": 8.920899391174316,
+      "learning_rate": 3.9498887453559565e-09,
+      "loss": 0.4596,
+      "step": 3582
+    },
+    {
+      "epoch": 0.991353669502663,
+      "grad_norm": 5.510407447814941,
+      "learning_rate": 3.70690804387952e-09,
+      "loss": 0.3717,
+      "step": 3583
+    },
+    {
+      "epoch": 0.9916303520785779,
+      "grad_norm": 10.58802604675293,
+      "learning_rate": 3.4716372635767993e-09,
+      "loss": 0.3158,
+      "step": 3584
+    },
+    {
+      "epoch": 0.9919070346544926,
+      "grad_norm": 6.024365425109863,
+      "learning_rate": 3.2440767675007144e-09,
+      "loss": 0.4396,
+      "step": 3585
+    },
+    {
+      "epoch": 0.9921837172304074,
+      "grad_norm": 4.717132091522217,
+      "learning_rate": 3.024226906805927e-09,
+      "loss": 0.3467,
+      "step": 3586
+    },
+    {
+      "epoch": 0.9924603998063222,
+      "grad_norm": 6.302797794342041,
+      "learning_rate": 2.8120880207493928e-09,
+      "loss": 0.4866,
+      "step": 3587
+    },
+    {
+      "epoch": 0.992737082382237,
+      "grad_norm": 5.059561252593994,
+      "learning_rate": 2.607660436688697e-09,
+      "loss": 0.4122,
+      "step": 3588
+    },
+    {
+      "epoch": 0.9930137649581517,
+      "grad_norm": 7.106605052947998,
+      "learning_rate": 2.4109444700815e-09,
+      "loss": 0.4918,
+      "step": 3589
+    },
+    {
+      "epoch": 0.9932904475340666,
+      "grad_norm": 5.022238731384277,
+      "learning_rate": 2.221940424485536e-09,
+      "loss": 0.3677,
+      "step": 3590
+    },
+    {
+      "epoch": 0.9935671301099813,
+      "grad_norm": 6.2519330978393555,
+      "learning_rate": 2.040648591559169e-09,
+      "loss": 0.482,
+      "step": 3591
+    },
+    {
+      "epoch": 0.993843812685896,
+      "grad_norm": 7.059159278869629,
+      "learning_rate": 1.8670692510580625e-09,
+      "loss": 0.44,
+      "step": 3592
+    },
+    {
+      "epoch": 0.9941204952618109,
+      "grad_norm": 7.916522026062012,
+      "learning_rate": 1.7012026708373985e-09,
+      "loss": 0.5168,
+      "step": 3593
+    },
+    {
+      "epoch": 0.9943971778377256,
+      "grad_norm": 8.189726829528809,
+      "learning_rate": 1.5430491068513243e-09,
+      "loss": 0.4161,
+      "step": 3594
+    },
+    {
+      "epoch": 0.9946738604136405,
+      "grad_norm": 10.01470947265625,
+      "learning_rate": 1.3926088031507302e-09,
+      "loss": 0.4104,
+      "step": 3595
+    },
+    {
+      "epoch": 0.9949505429895552,
+      "grad_norm": 6.116405010223389,
+      "learning_rate": 1.2498819918843609e-09,
+      "loss": 0.4398,
+      "step": 3596
+    },
+    {
+      "epoch": 0.99522722556547,
+      "grad_norm": 5.669225692749023,
+      "learning_rate": 1.1148688932977047e-09,
+      "loss": 0.4811,
+      "step": 3597
+    },
+    {
+      "epoch": 0.9955039081413848,
+      "grad_norm": 7.954200267791748,
+      "learning_rate": 9.875697157329945e-10,
+      "loss": 0.5057,
+      "step": 3598
+    },
+    {
+      "epoch": 0.9957805907172996,
+      "grad_norm": 12.605840682983398,
+      "learning_rate": 8.679846556303162e-10,
+      "loss": 0.4993,
+      "step": 3599
+    },
+    {
+      "epoch": 0.9960572732932144,
+      "grad_norm": 9.73613166809082,
+      "learning_rate": 7.561138975242798e-10,
+      "loss": 0.4514,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9960572732932144,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_f1": 0.3137254901960784,
+      "eval_loss": 0.6381392478942871,
+      "eval_precision": 0.5454545454545454,
+      "eval_recall": 0.22018348623853212,
+      "eval_runtime": 118.7108,
+      "eval_samples_per_second": 1.904,
+      "eval_steps_per_second": 0.067,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9963339558691291,
+      "grad_norm": 5.538408279418945,
+      "learning_rate": 6.519576140451289e-10,
+      "loss": 0.4153,
+      "step": 3601
+    },
+    {
+      "epoch": 0.9966106384450439,
+      "grad_norm": 5.18894624710083,
+      "learning_rate": 5.555159659204057e-10,
+      "loss": 0.4861,
+      "step": 3602
+    },
+    {
+      "epoch": 0.9968873210209587,
+      "grad_norm": 7.266717910766602,
+      "learning_rate": 4.667891019710657e-10,
+      "loss": 0.4072,
+      "step": 3603
+    },
+    {
+      "epoch": 0.9971640035968735,
+      "grad_norm": 8.036751747131348,
+      "learning_rate": 3.857771591142534e-10,
+      "loss": 0.4333,
+      "step": 3604
+    },
+    {
+      "epoch": 0.9974406861727882,
+      "grad_norm": 9.265700340270996,
+      "learning_rate": 3.124802623627465e-10,
+      "loss": 0.4393,
+      "step": 3605
+    },
+    {
+      "epoch": 0.9977173687487031,
+      "grad_norm": 5.40745210647583,
+      "learning_rate": 2.4689852482162604e-10,
+      "loss": 0.3861,
+      "step": 3606
+    },
+    {
+      "epoch": 0.9979940513246178,
+      "grad_norm": 5.892364025115967,
+      "learning_rate": 1.8903204769271655e-10,
+      "loss": 0.4592,
+      "step": 3607
+    },
+    {
+      "epoch": 0.9982707339005326,
+      "grad_norm": 8.214534759521484,
+      "learning_rate": 1.38880920271256e-10,
+      "loss": 0.4237,
+      "step": 3608
+    },
+    {
+      "epoch": 0.9985474164764474,
+      "grad_norm": 7.651143550872803,
+      "learning_rate": 9.64452199464505e-11,
+      "loss": 0.3782,
+      "step": 3609
+    },
+    {
+      "epoch": 0.9988240990523621,
+      "grad_norm": 6.732639312744141,
+      "learning_rate": 6.172501220313986e-11,
+      "loss": 0.4235,
+      "step": 3610
+    },
+    {
+      "epoch": 0.999100781628277,
+      "grad_norm": 11.96877670288086,
+      "learning_rate": 3.472035061791168e-11,
+      "loss": 0.484,
+      "step": 3611
+    },
+    {
+      "epoch": 0.9993774642041917,
+      "grad_norm": 6.621433258056641,
+      "learning_rate": 1.5431276862987176e-11,
+      "loss": 0.4221,
+      "step": 3612
+    },
+    {
+      "epoch": 0.9996541467801066,
+      "grad_norm": 9.467500686645508,
+      "learning_rate": 3.857820704000759e-12,
+      "loss": 0.4852,
+      "step": 3613
+    },
+    {
+      "epoch": 0.9999308293560213,
+      "grad_norm": 6.072620391845703,
+      "learning_rate": 0.0,
+      "loss": 0.401,
+      "step": 3614
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.582232535864443e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null