Training in progress, step 1180, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +612 -4

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2283e0a60eecf0e26db089b1ea106db4a8943588d7c5d1ae539887caf2a0623
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:52ee0fa3cfc5342a2048887d02427e60ff0afc569e7e72f28871b43609a7a5e1
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:039e2daa021420447c63254cecab80fa9d8c4955bb82c268ed4412f9d7cc457e
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9f3ceb0fb772fe24eaea01b326a2b2121847999c2f7a22802c742da1249ba05
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bb386b06abed058c971637632b15f30bf72e3f0fed658811dd9d1879b2cc249
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:456d2a34230921bdb7b561893b5af0cb6d8091afa425c17ee126aa146288889e
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b690d2a646fe4b43296ed7a11b9ed92846b14116b36ab4f256a0c0a38193fec5
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:28617eadf43410538e6a163b4682a3582927554dfc2ebcfeda5f2302a4f4912b
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40e60cce6b988d761a7cb0a778490b5bef357343f215f4368e74b271a3544add
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:04b2105cd0327f43c5634a1c90bb691d1139c485a9227b49d51855ad6d5171c7
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fbc16fe00aa2316ff9c35dc5c163a58bd61d544a0b373903f53b1dd607744f0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7dbf277a9ad869e3bc7ce92d0b6beb5dc907e7e8e3e8828157b5e8c8b2c1b41
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c26b5d36343cbeb9400248846e9572b9226655bba020bfffb57eb55ac503eaa0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7f74810044cc457671581eba123717edb24dcb5d167ecc94676bd0e932fe808
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80e37075e6a4c78861839fc539511c538b95c0905a026bfa2e725cda89b0c3ea
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc7e6b1dcce64027f24e8b2d594477e039fa19287eca4818051ab9d42c792951
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47c3058111d1013a8c7bee77444904a0475c2f0bffb7d0c4d6c87291a641236d
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:e46a58a2528053869840946c7933b4f9bc1822ca9c3fb63b1ff28c148d5b1b29
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ad5b62f0cc16eba86ed43478cd91d2660dc90a4ec6abf69d8eba3dc9fd166bb
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a6a28d5179eb5d23e5f03c55f87dfd35453c901e36b529451aecad818e40b0b
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b7a7201b10eea93ada67755ff9fd428efa7903fb7a7749a862485dd229f2c71
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:aec18cd050d35eff43c748243e23cab1004b447bcd8e50aa6f3860476da3cb24
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccc03cdb9d7cd36d375ad07cb7f8faa863f3ab0b15c5d442b25b00ccb4f627e1
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:34d8cb5b591066154ac37d679613e29503a64988ff370244e9998659dec40ef6
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b064707c1d587f8d90b9fc42a28979d7e7f25a60fc5fe43535927f2c04c08c63
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8568dd25b7f4b2267897ddbe3a35792475b47cddd04bad6ae5cd4aa526e892ed
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9322033898305084,
   "eval_steps": 20,
-  "global_step": 1100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8379,6 +8379,614 @@
       "eval_samples_per_second": 5.654,
       "eval_steps_per_second": 0.194,
       "step": 1100
     }
   ],
   "logging_steps": 1,
@@ -8393,12 +9001,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.384126928028959e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 20,
+  "global_step": 1180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.654,
       "eval_steps_per_second": 0.194,
       "step": 1100
+    },
+    {
+      "epoch": 0.9330508474576271,
+      "grad_norm": 2.0700523853302,
+      "learning_rate": 2.7183003920826846e-07,
+      "loss": 0.015,
+      "step": 1101
+    },
+    {
+      "epoch": 0.9338983050847458,
+      "grad_norm": 0.7995718717575073,
+      "learning_rate": 2.6502218965613335e-07,
+      "loss": 0.0059,
+      "step": 1102
+    },
+    {
+      "epoch": 0.9347457627118644,
+      "grad_norm": 1.953245759010315,
+      "learning_rate": 2.5829952946509585e-07,
+      "loss": 0.0084,
+      "step": 1103
+    },
+    {
+      "epoch": 0.9355932203389831,
+      "grad_norm": 1.5361946821212769,
+      "learning_rate": 2.5166211746416534e-07,
+      "loss": 0.0078,
+      "step": 1104
+    },
+    {
+      "epoch": 0.9364406779661016,
+      "grad_norm": 1.721569299697876,
+      "learning_rate": 2.451100117363603e-07,
+      "loss": 0.0134,
+      "step": 1105
+    },
+    {
+      "epoch": 0.9372881355932203,
+      "grad_norm": 0.24595603346824646,
+      "learning_rate": 2.386432696181973e-07,
+      "loss": 0.0011,
+      "step": 1106
+    },
+    {
+      "epoch": 0.938135593220339,
+      "grad_norm": 0.49296998977661133,
+      "learning_rate": 2.3226194769918497e-07,
+      "loss": 0.0035,
+      "step": 1107
+    },
+    {
+      "epoch": 0.9389830508474576,
+      "grad_norm": 0.35648539662361145,
+      "learning_rate": 2.2596610182133328e-07,
+      "loss": 0.0014,
+      "step": 1108
+    },
+    {
+      "epoch": 0.9398305084745763,
+      "grad_norm": 0.42918694019317627,
+      "learning_rate": 2.1975578707866818e-07,
+      "loss": 0.0037,
+      "step": 1109
+    },
+    {
+      "epoch": 0.940677966101695,
+      "grad_norm": 0.3251606822013855,
+      "learning_rate": 2.1363105781673888e-07,
+      "loss": 0.0015,
+      "step": 1110
+    },
+    {
+      "epoch": 0.9415254237288135,
+      "grad_norm": 1.1148656606674194,
+      "learning_rate": 2.0759196763215362e-07,
+      "loss": 0.0024,
+      "step": 1111
+    },
+    {
+      "epoch": 0.9423728813559322,
+      "grad_norm": 1.0703065395355225,
+      "learning_rate": 2.0163856937210236e-07,
+      "loss": 0.0057,
+      "step": 1112
+    },
+    {
+      "epoch": 0.9432203389830508,
+      "grad_norm": 0.5219106078147888,
+      "learning_rate": 1.9577091513389933e-07,
+      "loss": 0.0019,
+      "step": 1113
+    },
+    {
+      "epoch": 0.9440677966101695,
+      "grad_norm": 1.2193870544433594,
+      "learning_rate": 1.8998905626452568e-07,
+      "loss": 0.0039,
+      "step": 1114
+    },
+    {
+      "epoch": 0.9449152542372882,
+      "grad_norm": 0.7670567035675049,
+      "learning_rate": 1.842930433601775e-07,
+      "loss": 0.0023,
+      "step": 1115
+    },
+    {
+      "epoch": 0.9457627118644067,
+      "grad_norm": 1.6820135116577148,
+      "learning_rate": 1.7868292626582851e-07,
+      "loss": 0.0066,
+      "step": 1116
+    },
+    {
+      "epoch": 0.9466101694915254,
+      "grad_norm": 0.2756711542606354,
+      "learning_rate": 1.731587540747903e-07,
+      "loss": 0.0018,
+      "step": 1117
+    },
+    {
+      "epoch": 0.9474576271186441,
+      "grad_norm": 0.09309152513742447,
+      "learning_rate": 1.6772057512828178e-07,
+      "loss": 0.0005,
+      "step": 1118
+    },
+    {
+      "epoch": 0.9483050847457627,
+      "grad_norm": 0.9462043642997742,
+      "learning_rate": 1.6236843701500692e-07,
+      "loss": 0.0045,
+      "step": 1119
+    },
+    {
+      "epoch": 0.9491525423728814,
+      "grad_norm": 0.3377615213394165,
+      "learning_rate": 1.5710238657074218e-07,
+      "loss": 0.0015,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9491525423728814,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00010440533515065908,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.0065,
+      "eval_samples_per_second": 5.839,
+      "eval_steps_per_second": 0.2,
+      "step": 1120
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.3986833095550537,
+      "learning_rate": 1.519224698779198e-07,
+      "loss": 0.0143,
+      "step": 1121
+    },
+    {
+      "epoch": 0.9508474576271186,
+      "grad_norm": 2.198768377304077,
+      "learning_rate": 1.4682873226523064e-07,
+      "loss": 0.0134,
+      "step": 1122
+    },
+    {
+      "epoch": 0.9516949152542373,
+      "grad_norm": 3.4906070232391357,
+      "learning_rate": 1.418212183072254e-07,
+      "loss": 0.023,
+      "step": 1123
+    },
+    {
+      "epoch": 0.9525423728813559,
+      "grad_norm": 2.3907110691070557,
+      "learning_rate": 1.3689997182392278e-07,
+      "loss": 0.0341,
+      "step": 1124
+    },
+    {
+      "epoch": 0.9533898305084746,
+      "grad_norm": 1.1482832431793213,
+      "learning_rate": 1.3206503588042762e-07,
+      "loss": 0.0046,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9542372881355933,
+      "grad_norm": 0.41303661465644836,
+      "learning_rate": 1.2731645278655448e-07,
+      "loss": 0.0015,
+      "step": 1126
+    },
+    {
+      "epoch": 0.9550847457627119,
+      "grad_norm": 2.1115567684173584,
+      "learning_rate": 1.2265426409645676e-07,
+      "loss": 0.0193,
+      "step": 1127
+    },
+    {
+      "epoch": 0.9559322033898305,
+      "grad_norm": 0.9733043909072876,
+      "learning_rate": 1.180785106082627e-07,
+      "loss": 0.0063,
+      "step": 1128
+    },
+    {
+      "epoch": 0.9567796610169491,
+      "grad_norm": 1.6615018844604492,
+      "learning_rate": 1.1358923236371888e-07,
+      "loss": 0.0143,
+      "step": 1129
+    },
+    {
+      "epoch": 0.9576271186440678,
+      "grad_norm": 2.9333720207214355,
+      "learning_rate": 1.0918646864784166e-07,
+      "loss": 0.0204,
+      "step": 1130
+    },
+    {
+      "epoch": 0.9584745762711865,
+      "grad_norm": 0.4009217619895935,
+      "learning_rate": 1.0487025798856632e-07,
+      "loss": 0.0019,
+      "step": 1131
+    },
+    {
+      "epoch": 0.9593220338983051,
+      "grad_norm": 0.5355218052864075,
+      "learning_rate": 1.0064063815642178e-07,
+      "loss": 0.0024,
+      "step": 1132
+    },
+    {
+      "epoch": 0.9601694915254237,
+      "grad_norm": 1.6377936601638794,
+      "learning_rate": 9.649764616418866e-08,
+      "loss": 0.018,
+      "step": 1133
+    },
+    {
+      "epoch": 0.9610169491525423,
+      "grad_norm": 1.1204107999801636,
+      "learning_rate": 9.244131826658065e-08,
+      "loss": 0.0128,
+      "step": 1134
+    },
+    {
+      "epoch": 0.961864406779661,
+      "grad_norm": 1.4632524251937866,
+      "learning_rate": 8.847168995992916e-08,
+      "loss": 0.0098,
+      "step": 1135
+    },
+    {
+      "epoch": 0.9627118644067797,
+      "grad_norm": 0.7185283303260803,
+      "learning_rate": 8.458879598186586e-08,
+      "loss": 0.0023,
+      "step": 1136
+    },
+    {
+      "epoch": 0.9635593220338983,
+      "grad_norm": 2.070397138595581,
+      "learning_rate": 8.079267031102844e-08,
+      "loss": 0.014,
+      "step": 1137
+    },
+    {
+      "epoch": 0.964406779661017,
+      "grad_norm": 2.4648094177246094,
+      "learning_rate": 7.708334616675417e-08,
+      "loss": 0.0103,
+      "step": 1138
+    },
+    {
+      "epoch": 0.9652542372881356,
+      "grad_norm": 1.3357059955596924,
+      "learning_rate": 7.34608560087946e-08,
+      "loss": 0.0114,
+      "step": 1139
+    },
+    {
+      "epoch": 0.9661016949152542,
+      "grad_norm": 0.8426046371459961,
+      "learning_rate": 6.99252315370269e-08,
+      "loss": 0.0059,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9661016949152542,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00011169948993483558,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.2826,
+      "eval_samples_per_second": 5.807,
+      "eval_steps_per_second": 0.199,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9669491525423729,
+      "grad_norm": 0.7774562835693359,
+      "learning_rate": 6.647650369118408e-08,
+      "loss": 0.0078,
+      "step": 1141
+    },
+    {
+      "epoch": 0.9677966101694915,
+      "grad_norm": 2.7641003131866455,
+      "learning_rate": 6.311470265057518e-08,
+      "loss": 0.0138,
+      "step": 1142
+    },
+    {
+      "epoch": 0.9686440677966102,
+      "grad_norm": 2.618208885192871,
+      "learning_rate": 5.983985783382773e-08,
+      "loss": 0.0202,
+      "step": 1143
+    },
+    {
+      "epoch": 0.9694915254237289,
+      "grad_norm": 1.5658472776412964,
+      "learning_rate": 5.665199789862907e-08,
+      "loss": 0.0201,
+      "step": 1144
+    },
+    {
+      "epoch": 0.9703389830508474,
+      "grad_norm": 0.43462297320365906,
+      "learning_rate": 5.3551150741472104e-08,
+      "loss": 0.002,
+      "step": 1145
+    },
+    {
+      "epoch": 0.9711864406779661,
+      "grad_norm": 1.4689350128173828,
+      "learning_rate": 5.0537343497414346e-08,
+      "loss": 0.009,
+      "step": 1146
+    },
+    {
+      "epoch": 0.9720338983050848,
+      "grad_norm": 2.49544620513916,
+      "learning_rate": 4.761060253984151e-08,
+      "loss": 0.0279,
+      "step": 1147
+    },
+    {
+      "epoch": 0.9728813559322034,
+      "grad_norm": 1.6884862184524536,
+      "learning_rate": 4.47709534802343e-08,
+      "loss": 0.0078,
+      "step": 1148
+    },
+    {
+      "epoch": 0.9737288135593221,
+      "grad_norm": 0.37377646565437317,
+      "learning_rate": 4.201842116794308e-08,
+      "loss": 0.0023,
+      "step": 1149
+    },
+    {
+      "epoch": 0.9745762711864406,
+      "grad_norm": 0.7765163779258728,
+      "learning_rate": 3.9353029689974676e-08,
+      "loss": 0.0038,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9754237288135593,
+      "grad_norm": 0.513041615486145,
+      "learning_rate": 3.677480237077813e-08,
+      "loss": 0.0016,
+      "step": 1151
+    },
+    {
+      "epoch": 0.976271186440678,
+      "grad_norm": 0.7876710891723633,
+      "learning_rate": 3.4283761772042623e-08,
+      "loss": 0.0056,
+      "step": 1152
+    },
+    {
+      "epoch": 0.9771186440677966,
+      "grad_norm": 0.6897133588790894,
+      "learning_rate": 3.187992969249876e-08,
+      "loss": 0.0034,
+      "step": 1153
+    },
+    {
+      "epoch": 0.9779661016949153,
+      "grad_norm": 1.7506352663040161,
+      "learning_rate": 2.9563327167727585e-08,
+      "loss": 0.0099,
+      "step": 1154
+    },
+    {
+      "epoch": 0.9788135593220338,
+      "grad_norm": 2.4349284172058105,
+      "learning_rate": 2.733397446997632e-08,
+      "loss": 0.0097,
+      "step": 1155
+    },
+    {
+      "epoch": 0.9796610169491525,
+      "grad_norm": 1.168368935585022,
+      "learning_rate": 2.5191891107985143e-08,
+      "loss": 0.0082,
+      "step": 1156
+    },
+    {
+      "epoch": 0.9805084745762712,
+      "grad_norm": 1.3423504829406738,
+      "learning_rate": 2.3137095826809564e-08,
+      "loss": 0.0091,
+      "step": 1157
+    },
+    {
+      "epoch": 0.9813559322033898,
+      "grad_norm": 0.42089366912841797,
+      "learning_rate": 2.1169606607662764e-08,
+      "loss": 0.0024,
+      "step": 1158
+    },
+    {
+      "epoch": 0.9822033898305085,
+      "grad_norm": 1.1868031024932861,
+      "learning_rate": 1.92894406677524e-08,
+      "loss": 0.0064,
+      "step": 1159
+    },
+    {
+      "epoch": 0.9830508474576272,
+      "grad_norm": 1.4910340309143066,
+      "learning_rate": 1.7496614460135174e-08,
+      "loss": 0.0069,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9830508474576272,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0001118536019930616,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.1342,
+      "eval_samples_per_second": 5.824,
+      "eval_steps_per_second": 0.199,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9838983050847457,
+      "grad_norm": 1.986571192741394,
+      "learning_rate": 1.5791143673570263e-08,
+      "loss": 0.0193,
+      "step": 1161
+    },
+    {
+      "epoch": 0.9847457627118644,
+      "grad_norm": 2.655247688293457,
+      "learning_rate": 1.4173043232380557e-08,
+      "loss": 0.0257,
+      "step": 1162
+    },
+    {
+      "epoch": 0.985593220338983,
+      "grad_norm": 1.0046510696411133,
+      "learning_rate": 1.2642327296327194e-08,
+      "loss": 0.003,
+      "step": 1163
+    },
+    {
+      "epoch": 0.9864406779661017,
+      "grad_norm": 1.124706745147705,
+      "learning_rate": 1.1199009260479676e-08,
+      "loss": 0.0157,
+      "step": 1164
+    },
+    {
+      "epoch": 0.9872881355932204,
+      "grad_norm": 1.0634783506393433,
+      "learning_rate": 9.843101755101503e-09,
+      "loss": 0.0046,
+      "step": 1165
+    },
+    {
+      "epoch": 0.988135593220339,
+      "grad_norm": 1.6343358755111694,
+      "learning_rate": 8.574616645541377e-09,
+      "loss": 0.0113,
+      "step": 1166
+    },
+    {
+      "epoch": 0.9889830508474576,
+      "grad_norm": 0.2569604814052582,
+      "learning_rate": 7.3935650321255156e-09,
+      "loss": 0.0015,
+      "step": 1167
+    },
+    {
+      "epoch": 0.9898305084745763,
+      "grad_norm": 0.6046754717826843,
+      "learning_rate": 6.299957250064381e-09,
+      "loss": 0.0024,
+      "step": 1168
+    },
+    {
+      "epoch": 0.9906779661016949,
+      "grad_norm": 0.760793149471283,
+      "learning_rate": 5.293802869357212e-09,
+      "loss": 0.0026,
+      "step": 1169
+    },
+    {
+      "epoch": 0.9915254237288136,
+      "grad_norm": 1.5352802276611328,
+      "learning_rate": 4.375110694713192e-09,
+      "loss": 0.0089,
+      "step": 1170
+    },
+    {
+      "epoch": 0.9923728813559322,
+      "grad_norm": 1.066978931427002,
+      "learning_rate": 3.5438887654737355e-09,
+      "loss": 0.0054,
+      "step": 1171
+    },
+    {
+      "epoch": 0.9932203389830508,
+      "grad_norm": 0.2690616846084595,
+      "learning_rate": 2.800144355540324e-09,
+      "loss": 0.0012,
+      "step": 1172
+    },
+    {
+      "epoch": 0.9940677966101695,
+      "grad_norm": 0.24727602303028107,
+      "learning_rate": 2.1438839733101125e-09,
+      "loss": 0.0012,
+      "step": 1173
+    },
+    {
+      "epoch": 0.9949152542372881,
+      "grad_norm": 0.8187950849533081,
+      "learning_rate": 1.5751133616215276e-09,
+      "loss": 0.0028,
+      "step": 1174
+    },
+    {
+      "epoch": 0.9957627118644068,
+      "grad_norm": 5.176650047302246,
+      "learning_rate": 1.0938374977020882e-09,
+      "loss": 0.0332,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9966101694915255,
+      "grad_norm": 1.1245023012161255,
+      "learning_rate": 7.000605931273274e-10,
+      "loss": 0.0031,
+      "step": 1176
+    },
+    {
+      "epoch": 0.997457627118644,
+      "grad_norm": 0.7511110901832581,
+      "learning_rate": 3.9378609377971335e-10,
+      "loss": 0.0033,
+      "step": 1177
+    },
+    {
+      "epoch": 0.9983050847457627,
+      "grad_norm": 0.6101163029670715,
+      "learning_rate": 1.7501667982311454e-10,
+      "loss": 0.0029,
+      "step": 1178
+    },
+    {
+      "epoch": 0.9991525423728813,
+      "grad_norm": 1.6641690731048584,
+      "learning_rate": 4.375426567726493e-11,
+      "loss": 0.0074,
+      "step": 1179
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.8142516016960144,
+      "learning_rate": 0.0,
+      "loss": 0.0058,
+      "step": 1180
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0001048951453412883,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.7666,
+      "eval_samples_per_second": 5.867,
+      "eval_steps_per_second": 0.201,
+      "step": 1180
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.6331250614114714e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null