Training in progress, step 1200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd4094f5600490ddf6d9dc86706a89c258972627eabb482c09db8601aaa408b6
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e285698db4156337898b7507bc447cf892df1b2e2b1f627fbfa7fcf49ead7fe
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a5f19e172755f2ce57b999b6bf91cc0cd71f655dfb983069bc0cf1f20c1a06d
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9347512a71b948ad7d0474b073744a28f38ea1b0f4808b47eaeee3bb038ee2a
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c2c51b674c05b19e09a6f9dc112d8aed01c92bba25c7ff3c02cc7e583e58316
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:61fe8222129691fd1c629440ebc055a5e22b32348d82bc6fb97d18d537ba38e6
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87060ce519920d72bc5688fe4b87ba053fe5674703e0cfb88414391c60a767ad
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb287ee7b4f22bfca83b3038b7765964ff726a01edfa1c77cefcecc5baaede6f
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:223e910b7b1616737b5bc86e1ebfb716e2a5b926a5993ed4e39db2e7651a4478
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8135e2cfc3f870ad4d1b9488a555f6cbbcb61951312e0f574806197a3d04752
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43b45ba64474b3b8076d79d336bf19cbfbf47a3077e59ccccda7247f6abf0ebd
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fd0182149b3046646213abcc88b729a39d44a31db12d71321dcf1672762dc92
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02d133caa8a7c8c9f20ecb1f747d463913eb8e7adea3e916057db45aee893c68
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ecceaf4d23428de4f6eaf8a4db08e58b3b9e512e0fc350f3d39b90547824dde
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81cb5bfebcce1a4979fbe0cfe517ce8ed3410829b5d415fc3687e8cd5e5c8a63
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:93904d1910182fe133491da7a6c8bc9c6713b5f0c66d57fd0a846b185647198d
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:435d97755e037c527a64ed888b5fccf61252600460ddb0a957d40f8cf8984322
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f18ad258e576a1beb656290ab7d2a2eb5c1c200ce0d83645abdc17af01ce6b3
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e4a7ce1edd4170f6d4eb155e5e19998fd066ff3bfebd60f589551b3e6deedd6
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:4328b792cfa04ae062613c520f6291678aade826256d6a52acb864dcba8e97aa
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7b6f523269f600825123123e93e374bafdb4065da7c3500423ba2da40982a17
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8758a5d59dbad9a4b9628b626e50cf69861f409943163aab71d6b7d54040e68
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36347d57510ac50d1215fd7cfb5a25f5354d812e876333fa5409094c79836493
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:37d46b3ff156d0196e9a5d0a8efb49f4baca17f2c23d7f5843e853b9795049d4
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30bfb6fa4fd21ac286df0550c82cdbf8a597994647e5b3f5b958394e3a125a12
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:477a17a25cc7623279d8aa8946f887744ea0510845075294476c6dcaa37cf69c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8419441255262151,
   "eval_steps": 20,
-  "global_step": 1100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8379,6 +8379,766 @@
       "eval_samples_per_second": 7.001,
       "eval_steps_per_second": 0.233,
       "step": 1100
     }
   ],
   "logging_steps": 1,
@@ -8398,7 +9158,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6907983391188582e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9184845005740528,
   "eval_steps": 20,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.001,
       "eval_steps_per_second": 0.233,
       "step": 1100
+    },
+    {
+      "epoch": 0.8427095292766934,
+      "grad_norm": 5.925868034362793,
+      "learning_rate": 1.4648790011491544e-06,
+      "loss": 0.3003,
+      "step": 1101
+    },
+    {
+      "epoch": 0.8434749330271718,
+      "grad_norm": 6.9676995277404785,
+      "learning_rate": 1.4509776170997625e-06,
+      "loss": 0.3329,
+      "step": 1102
+    },
+    {
+      "epoch": 0.8442403367776502,
+      "grad_norm": 6.943129539489746,
+      "learning_rate": 1.4371373469796956e-06,
+      "loss": 0.2854,
+      "step": 1103
+    },
+    {
+      "epoch": 0.8450057405281286,
+      "grad_norm": 7.517777919769287,
+      "learning_rate": 1.4233582897281328e-06,
+      "loss": 0.2719,
+      "step": 1104
+    },
+    {
+      "epoch": 0.845771144278607,
+      "grad_norm": 7.715554237365723,
+      "learning_rate": 1.4096405438466687e-06,
+      "loss": 0.3078,
+      "step": 1105
+    },
+    {
+      "epoch": 0.8465365480290853,
+      "grad_norm": 7.961045742034912,
+      "learning_rate": 1.3959842073986085e-06,
+      "loss": 0.2775,
+      "step": 1106
+    },
+    {
+      "epoch": 0.8473019517795637,
+      "grad_norm": 5.7302751541137695,
+      "learning_rate": 1.3823893780082508e-06,
+      "loss": 0.2433,
+      "step": 1107
+    },
+    {
+      "epoch": 0.8480673555300421,
+      "grad_norm": 7.472646236419678,
+      "learning_rate": 1.368856152860215e-06,
+      "loss": 0.3264,
+      "step": 1108
+    },
+    {
+      "epoch": 0.8488327592805205,
+      "grad_norm": 8.17573070526123,
+      "learning_rate": 1.3553846286987271e-06,
+      "loss": 0.2075,
+      "step": 1109
+    },
+    {
+      "epoch": 0.8495981630309989,
+      "grad_norm": 8.035270690917969,
+      "learning_rate": 1.3419749018269368e-06,
+      "loss": 0.3511,
+      "step": 1110
+    },
+    {
+      "epoch": 0.8503635667814772,
+      "grad_norm": 7.398448467254639,
+      "learning_rate": 1.3286270681062275e-06,
+      "loss": 0.2243,
+      "step": 1111
+    },
+    {
+      "epoch": 0.8511289705319556,
+      "grad_norm": 5.270333290100098,
+      "learning_rate": 1.3153412229555251e-06,
+      "loss": 0.2921,
+      "step": 1112
+    },
+    {
+      "epoch": 0.851894374282434,
+      "grad_norm": 5.221624374389648,
+      "learning_rate": 1.302117461350627e-06,
+      "loss": 0.3181,
+      "step": 1113
+    },
+    {
+      "epoch": 0.8526597780329124,
+      "grad_norm": 8.733942985534668,
+      "learning_rate": 1.2889558778235157e-06,
+      "loss": 0.2652,
+      "step": 1114
+    },
+    {
+      "epoch": 0.8534251817833908,
+      "grad_norm": 5.429276466369629,
+      "learning_rate": 1.2758565664616829e-06,
+      "loss": 0.2734,
+      "step": 1115
+    },
+    {
+      "epoch": 0.8541905855338691,
+      "grad_norm": 10.059110641479492,
+      "learning_rate": 1.262819620907465e-06,
+      "loss": 0.3404,
+      "step": 1116
+    },
+    {
+      "epoch": 0.8549559892843475,
+      "grad_norm": 6.145954608917236,
+      "learning_rate": 1.249845134357357e-06,
+      "loss": 0.3076,
+      "step": 1117
+    },
+    {
+      "epoch": 0.8557213930348259,
+      "grad_norm": 5.079444885253906,
+      "learning_rate": 1.2369331995613664e-06,
+      "loss": 0.185,
+      "step": 1118
+    },
+    {
+      "epoch": 0.8564867967853043,
+      "grad_norm": 15.14505672454834,
+      "learning_rate": 1.224083908822331e-06,
+      "loss": 0.3866,
+      "step": 1119
+    },
+    {
+      "epoch": 0.8572522005357827,
+      "grad_norm": 6.147080421447754,
+      "learning_rate": 1.2112973539952777e-06,
+      "loss": 0.324,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8572522005357827,
+      "eval_accuracy": 0.8844765342960289,
+      "eval_f1": 0.8333333333333334,
+      "eval_loss": 0.29969924688339233,
+      "eval_precision": 0.8743169398907104,
+      "eval_recall": 0.7960199004975125,
+      "eval_runtime": 43.0138,
+      "eval_samples_per_second": 6.998,
+      "eval_steps_per_second": 0.232,
+      "step": 1120
+    },
+    {
+      "epoch": 0.858017604286261,
+      "grad_norm": 7.136957168579102,
+      "learning_rate": 1.198573626486751e-06,
+      "loss": 0.396,
+      "step": 1121
+    },
+    {
+      "epoch": 0.8587830080367393,
+      "grad_norm": 5.081778049468994,
+      "learning_rate": 1.1859128172541668e-06,
+      "loss": 0.2741,
+      "step": 1122
+    },
+    {
+      "epoch": 0.8595484117872177,
+      "grad_norm": 5.848927974700928,
+      "learning_rate": 1.1733150168051632e-06,
+      "loss": 0.301,
+      "step": 1123
+    },
+    {
+      "epoch": 0.8603138155376961,
+      "grad_norm": 8.139251708984375,
+      "learning_rate": 1.1607803151969443e-06,
+      "loss": 0.3968,
+      "step": 1124
+    },
+    {
+      "epoch": 0.8610792192881745,
+      "grad_norm": 11.221075057983398,
+      "learning_rate": 1.148308802035648e-06,
+      "loss": 0.3192,
+      "step": 1125
+    },
+    {
+      "epoch": 0.8618446230386528,
+      "grad_norm": 12.196139335632324,
+      "learning_rate": 1.1359005664756994e-06,
+      "loss": 0.3429,
+      "step": 1126
+    },
+    {
+      "epoch": 0.8626100267891312,
+      "grad_norm": 7.772244453430176,
+      "learning_rate": 1.123555697219174e-06,
+      "loss": 0.3333,
+      "step": 1127
+    },
+    {
+      "epoch": 0.8633754305396096,
+      "grad_norm": 6.083074569702148,
+      "learning_rate": 1.1112742825151669e-06,
+      "loss": 0.2641,
+      "step": 1128
+    },
+    {
+      "epoch": 0.864140834290088,
+      "grad_norm": 7.137205123901367,
+      "learning_rate": 1.0990564101591527e-06,
+      "loss": 0.3597,
+      "step": 1129
+    },
+    {
+      "epoch": 0.8649062380405664,
+      "grad_norm": 8.642711639404297,
+      "learning_rate": 1.0869021674923708e-06,
+      "loss": 0.2681,
+      "step": 1130
+    },
+    {
+      "epoch": 0.8656716417910447,
+      "grad_norm": 6.8455305099487305,
+      "learning_rate": 1.074811641401189e-06,
+      "loss": 0.3558,
+      "step": 1131
+    },
+    {
+      "epoch": 0.8664370455415231,
+      "grad_norm": 6.04085636138916,
+      "learning_rate": 1.0627849183164906e-06,
+      "loss": 0.3488,
+      "step": 1132
+    },
+    {
+      "epoch": 0.8672024492920015,
+      "grad_norm": 6.025130271911621,
+      "learning_rate": 1.0508220842130602e-06,
+      "loss": 0.3252,
+      "step": 1133
+    },
+    {
+      "epoch": 0.8679678530424799,
+      "grad_norm": 5.714728355407715,
+      "learning_rate": 1.0389232246089499e-06,
+      "loss": 0.2859,
+      "step": 1134
+    },
+    {
+      "epoch": 0.8687332567929583,
+      "grad_norm": 8.63733959197998,
+      "learning_rate": 1.0270884245648905e-06,
+      "loss": 0.3019,
+      "step": 1135
+    },
+    {
+      "epoch": 0.8694986605434366,
+      "grad_norm": 5.155510902404785,
+      "learning_rate": 1.015317768683669e-06,
+      "loss": 0.2339,
+      "step": 1136
+    },
+    {
+      "epoch": 0.870264064293915,
+      "grad_norm": 7.10530948638916,
+      "learning_rate": 1.0036113411095304e-06,
+      "loss": 0.2472,
+      "step": 1137
+    },
+    {
+      "epoch": 0.8710294680443934,
+      "grad_norm": 7.122653007507324,
+      "learning_rate": 9.919692255275747e-07,
+      "loss": 0.3575,
+      "step": 1138
+    },
+    {
+      "epoch": 0.8717948717948718,
+      "grad_norm": 7.5401530265808105,
+      "learning_rate": 9.803915051631574e-07,
+      "loss": 0.2504,
+      "step": 1139
+    },
+    {
+      "epoch": 0.8725602755453502,
+      "grad_norm": 6.913841247558594,
+      "learning_rate": 9.688782627812965e-07,
+      "loss": 0.3607,
+      "step": 1140
+    },
+    {
+      "epoch": 0.8725602755453502,
+      "eval_accuracy": 0.8826714801444043,
+      "eval_f1": 0.8302872062663186,
+      "eval_loss": 0.2986834943294525,
+      "eval_precision": 0.8736263736263736,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.2421,
+      "eval_samples_per_second": 6.961,
+      "eval_steps_per_second": 0.231,
+      "step": 1140
+    },
+    {
+      "epoch": 0.8733256792958285,
+      "grad_norm": 4.701968193054199,
+      "learning_rate": 9.574295806860767e-07,
+      "loss": 0.222,
+      "step": 1141
+    },
+    {
+      "epoch": 0.8740910830463069,
+      "grad_norm": 6.480667591094971,
+      "learning_rate": 9.460455407200708e-07,
+      "loss": 0.3484,
+      "step": 1142
+    },
+    {
+      "epoch": 0.8748564867967853,
+      "grad_norm": 6.2637481689453125,
+      "learning_rate": 9.347262242637345e-07,
+      "loss": 0.3202,
+      "step": 1143
+    },
+    {
+      "epoch": 0.8756218905472637,
+      "grad_norm": 7.320901393890381,
+      "learning_rate": 9.234717122348558e-07,
+      "loss": 0.3725,
+      "step": 1144
+    },
+    {
+      "epoch": 0.8763872942977421,
+      "grad_norm": 6.01532506942749,
+      "learning_rate": 9.122820850879488e-07,
+      "loss": 0.2905,
+      "step": 1145
+    },
+    {
+      "epoch": 0.8771526980482205,
+      "grad_norm": 8.483268737792969,
+      "learning_rate": 9.011574228136866e-07,
+      "loss": 0.4175,
+      "step": 1146
+    },
+    {
+      "epoch": 0.8779181017986988,
+      "grad_norm": 7.978078365325928,
+      "learning_rate": 8.90097804938338e-07,
+      "loss": 0.3556,
+      "step": 1147
+    },
+    {
+      "epoch": 0.8786835055491772,
+      "grad_norm": 4.914220333099365,
+      "learning_rate": 8.791033105231861e-07,
+      "loss": 0.3226,
+      "step": 1148
+    },
+    {
+      "epoch": 0.8794489092996556,
+      "grad_norm": 10.738564491271973,
+      "learning_rate": 8.681740181639731e-07,
+      "loss": 0.325,
+      "step": 1149
+    },
+    {
+      "epoch": 0.880214313050134,
+      "grad_norm": 5.5547990798950195,
+      "learning_rate": 8.573100059903349e-07,
+      "loss": 0.2508,
+      "step": 1150
+    },
+    {
+      "epoch": 0.8809797168006124,
+      "grad_norm": 9.317310333251953,
+      "learning_rate": 8.465113516652424e-07,
+      "loss": 0.2961,
+      "step": 1151
+    },
+    {
+      "epoch": 0.8817451205510907,
+      "grad_norm": 4.832771301269531,
+      "learning_rate": 8.357781323844482e-07,
+      "loss": 0.1824,
+      "step": 1152
+    },
+    {
+      "epoch": 0.8825105243015691,
+      "grad_norm": 7.913245677947998,
+      "learning_rate": 8.251104248759256e-07,
+      "loss": 0.3127,
+      "step": 1153
+    },
+    {
+      "epoch": 0.8832759280520475,
+      "grad_norm": 6.320401668548584,
+      "learning_rate": 8.145083053993364e-07,
+      "loss": 0.2046,
+      "step": 1154
+    },
+    {
+      "epoch": 0.8840413318025259,
+      "grad_norm": 6.381113052368164,
+      "learning_rate": 8.039718497454685e-07,
+      "loss": 0.3374,
+      "step": 1155
+    },
+    {
+      "epoch": 0.8848067355530043,
+      "grad_norm": 5.279355049133301,
+      "learning_rate": 7.935011332357113e-07,
+      "loss": 0.2347,
+      "step": 1156
+    },
+    {
+      "epoch": 0.8855721393034826,
+      "grad_norm": 5.956709861755371,
+      "learning_rate": 7.83096230721505e-07,
+      "loss": 0.2561,
+      "step": 1157
+    },
+    {
+      "epoch": 0.886337543053961,
+      "grad_norm": 8.500905990600586,
+      "learning_rate": 7.727572165838038e-07,
+      "loss": 0.3429,
+      "step": 1158
+    },
+    {
+      "epoch": 0.8871029468044394,
+      "grad_norm": 11.31344223022461,
+      "learning_rate": 7.624841647325565e-07,
+      "loss": 0.3175,
+      "step": 1159
+    },
+    {
+      "epoch": 0.8878683505549178,
+      "grad_norm": 4.852387428283691,
+      "learning_rate": 7.522771486061642e-07,
+      "loss": 0.2201,
+      "step": 1160
+    },
+    {
+      "epoch": 0.8878683505549178,
+      "eval_accuracy": 0.8880866425992779,
+      "eval_f1": 0.8368421052631579,
+      "eval_loss": 0.29599303007125854,
+      "eval_precision": 0.888268156424581,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 42.5979,
+      "eval_samples_per_second": 7.066,
+      "eval_steps_per_second": 0.235,
+      "step": 1160
+    },
+    {
+      "epoch": 0.8886337543053962,
+      "grad_norm": 5.681868076324463,
+      "learning_rate": 7.421362411709676e-07,
+      "loss": 0.2797,
+      "step": 1161
+    },
+    {
+      "epoch": 0.8893991580558744,
+      "grad_norm": 7.943777561187744,
+      "learning_rate": 7.320615149207177e-07,
+      "loss": 0.2878,
+      "step": 1162
+    },
+    {
+      "epoch": 0.8901645618063528,
+      "grad_norm": 7.188109397888184,
+      "learning_rate": 7.220530418760597e-07,
+      "loss": 0.2972,
+      "step": 1163
+    },
+    {
+      "epoch": 0.8909299655568312,
+      "grad_norm": 5.419342994689941,
+      "learning_rate": 7.121108935840193e-07,
+      "loss": 0.2502,
+      "step": 1164
+    },
+    {
+      "epoch": 0.8916953693073096,
+      "grad_norm": 10.313029289245605,
+      "learning_rate": 7.022351411174866e-07,
+      "loss": 0.4279,
+      "step": 1165
+    },
+    {
+      "epoch": 0.892460773057788,
+      "grad_norm": 9.825774192810059,
+      "learning_rate": 6.924258550747154e-07,
+      "loss": 0.3422,
+      "step": 1166
+    },
+    {
+      "epoch": 0.8932261768082663,
+      "grad_norm": 7.466933250427246,
+      "learning_rate": 6.826831055788119e-07,
+      "loss": 0.2288,
+      "step": 1167
+    },
+    {
+      "epoch": 0.8939915805587447,
+      "grad_norm": 4.190829277038574,
+      "learning_rate": 6.730069622772373e-07,
+      "loss": 0.2315,
+      "step": 1168
+    },
+    {
+      "epoch": 0.8947569843092231,
+      "grad_norm": 4.927202224731445,
+      "learning_rate": 6.633974943413113e-07,
+      "loss": 0.2855,
+      "step": 1169
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 5.255453109741211,
+      "learning_rate": 6.538547704657094e-07,
+      "loss": 0.2338,
+      "step": 1170
+    },
+    {
+      "epoch": 0.8962877918101799,
+      "grad_norm": 6.458939075469971,
+      "learning_rate": 6.443788588679823e-07,
+      "loss": 0.2398,
+      "step": 1171
+    },
+    {
+      "epoch": 0.8970531955606582,
+      "grad_norm": 6.905317783355713,
+      "learning_rate": 6.349698272880588e-07,
+      "loss": 0.2978,
+      "step": 1172
+    },
+    {
+      "epoch": 0.8978185993111366,
+      "grad_norm": 7.470308780670166,
+      "learning_rate": 6.256277429877711e-07,
+      "loss": 0.2552,
+      "step": 1173
+    },
+    {
+      "epoch": 0.898584003061615,
+      "grad_norm": 9.028374671936035,
+      "learning_rate": 6.163526727503688e-07,
+      "loss": 0.2822,
+      "step": 1174
+    },
+    {
+      "epoch": 0.8993494068120934,
+      "grad_norm": 4.99279260635376,
+      "learning_rate": 6.071446828800353e-07,
+      "loss": 0.1629,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9001148105625718,
+      "grad_norm": 5.656613349914551,
+      "learning_rate": 5.980038392014309e-07,
+      "loss": 0.2495,
+      "step": 1176
+    },
+    {
+      "epoch": 0.9008802143130501,
+      "grad_norm": 4.793300628662109,
+      "learning_rate": 5.889302070591985e-07,
+      "loss": 0.1765,
+      "step": 1177
+    },
+    {
+      "epoch": 0.9016456180635285,
+      "grad_norm": 5.23650598526001,
+      "learning_rate": 5.79923851317521e-07,
+      "loss": 0.1807,
+      "step": 1178
+    },
+    {
+      "epoch": 0.9024110218140069,
+      "grad_norm": 4.662338733673096,
+      "learning_rate": 5.709848363596404e-07,
+      "loss": 0.2996,
+      "step": 1179
+    },
+    {
+      "epoch": 0.9031764255644853,
+      "grad_norm": 6.364925384521484,
+      "learning_rate": 5.621132260874051e-07,
+      "loss": 0.2767,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9031764255644853,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8390501319261213,
+      "eval_loss": 0.2949095368385315,
+      "eval_precision": 0.8932584269662921,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 42.8147,
+      "eval_samples_per_second": 7.03,
+      "eval_steps_per_second": 0.234,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9039418293149637,
+      "grad_norm": 8.286806106567383,
+      "learning_rate": 5.533090839208133e-07,
+      "loss": 0.3283,
+      "step": 1181
+    },
+    {
+      "epoch": 0.904707233065442,
+      "grad_norm": 5.3382720947265625,
+      "learning_rate": 5.445724727975498e-07,
+      "loss": 0.2489,
+      "step": 1182
+    },
+    {
+      "epoch": 0.9054726368159204,
+      "grad_norm": 7.994104862213135,
+      "learning_rate": 5.359034551725517e-07,
+      "loss": 0.3883,
+      "step": 1183
+    },
+    {
+      "epoch": 0.9062380405663988,
+      "grad_norm": 10.035967826843262,
+      "learning_rate": 5.273020930175543e-07,
+      "loss": 0.325,
+      "step": 1184
+    },
+    {
+      "epoch": 0.9070034443168772,
+      "grad_norm": 5.84358549118042,
+      "learning_rate": 5.187684478206412e-07,
+      "loss": 0.2696,
+      "step": 1185
+    },
+    {
+      "epoch": 0.9077688480673556,
+      "grad_norm": 5.898288249969482,
+      "learning_rate": 5.103025805858197e-07,
+      "loss": 0.2285,
+      "step": 1186
+    },
+    {
+      "epoch": 0.9085342518178339,
+      "grad_norm": 4.795246601104736,
+      "learning_rate": 5.019045518325693e-07,
+      "loss": 0.2324,
+      "step": 1187
+    },
+    {
+      "epoch": 0.9092996555683123,
+      "grad_norm": 13.465359687805176,
+      "learning_rate": 4.935744215954197e-07,
+      "loss": 0.3142,
+      "step": 1188
+    },
+    {
+      "epoch": 0.9100650593187907,
+      "grad_norm": 7.159090995788574,
+      "learning_rate": 4.853122494235207e-07,
+      "loss": 0.2966,
+      "step": 1189
+    },
+    {
+      "epoch": 0.9108304630692691,
+      "grad_norm": 5.706002235412598,
+      "learning_rate": 4.77118094380209e-07,
+      "loss": 0.2718,
+      "step": 1190
+    },
+    {
+      "epoch": 0.9115958668197475,
+      "grad_norm": 5.979389190673828,
+      "learning_rate": 4.6899201504259196e-07,
+      "loss": 0.2746,
+      "step": 1191
+    },
+    {
+      "epoch": 0.9123612705702258,
+      "grad_norm": 8.064590454101562,
+      "learning_rate": 4.609340695011311e-07,
+      "loss": 0.2624,
+      "step": 1192
+    },
+    {
+      "epoch": 0.9131266743207042,
+      "grad_norm": 4.81801176071167,
+      "learning_rate": 4.5294431535922166e-07,
+      "loss": 0.1888,
+      "step": 1193
+    },
+    {
+      "epoch": 0.9138920780711826,
+      "grad_norm": 5.313014030456543,
+      "learning_rate": 4.4502280973278135e-07,
+      "loss": 0.3078,
+      "step": 1194
+    },
+    {
+      "epoch": 0.914657481821661,
+      "grad_norm": 6.325895309448242,
+      "learning_rate": 4.3716960924984566e-07,
+      "loss": 0.3188,
+      "step": 1195
+    },
+    {
+      "epoch": 0.9154228855721394,
+      "grad_norm": 5.998826026916504,
+      "learning_rate": 4.2938477005015853e-07,
+      "loss": 0.3208,
+      "step": 1196
+    },
+    {
+      "epoch": 0.9161882893226176,
+      "grad_norm": 6.817664623260498,
+      "learning_rate": 4.2166834778477717e-07,
+      "loss": 0.2706,
+      "step": 1197
+    },
+    {
+      "epoch": 0.916953693073096,
+      "grad_norm": 9.771849632263184,
+      "learning_rate": 4.140203976156665e-07,
+      "loss": 0.3291,
+      "step": 1198
+    },
+    {
+      "epoch": 0.9177190968235744,
+      "grad_norm": 7.858504772186279,
+      "learning_rate": 4.064409742153097e-07,
+      "loss": 0.3371,
+      "step": 1199
+    },
+    {
+      "epoch": 0.9184845005740528,
+      "grad_norm": 4.8687591552734375,
+      "learning_rate": 3.9893013176631636e-07,
+      "loss": 0.2563,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9184845005740528,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8390501319261213,
+      "eval_loss": 0.293884813785553,
+      "eval_precision": 0.8932584269662921,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.9202,
+      "eval_samples_per_second": 6.853,
+      "eval_steps_per_second": 0.228,
+      "step": 1200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8435297220388454e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null