Training in progress, step 303, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +529 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36c48e9709004b33bdbbd28b1e33adaa806cd06a26e1f4d1bf6b5fedd784f297
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:556d16bb6aae79c6f06e3f2b46b8e0433216e37e93f5a8a74d9897d77f66f311
 size 501168482

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc3893adf12779f0d48b1513b948863c9f74d5b80bf37fd6bb3d143cbfff91ec
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:3254f9e31f58266c38d6de2c365eacf98b89fb35d937a352ff406f7e1ed6eac8
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce62f71c8c10d088ccc652695dd03a663736071fc2cab92e5639ffdddbd4c788
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f1f81f7017fe3de5487899a5240e530892937427049e1d8f17c3160bd856c94
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8b5a959d9459f2fc9422d29e6b89c56e276e4fcd74ca81bc84eb9dc629ceec0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cd637ac2493efabb59c857ff309da18b7f1fa1c1f76d6f3f94628c5048f8d88
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.06933779365924124,
   "eval_steps": 76,
-  "global_step": 228,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1635,6 +1635,531 @@
       "eval_samples_per_second": 3.941,
       "eval_steps_per_second": 0.986,
       "step": 228
     }
   ],
   "logging_steps": 1,
@@ -1649,12 +2174,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.5612257832366244e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09214627841557059,
   "eval_steps": 76,
+  "global_step": 303,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.941,
       "eval_steps_per_second": 0.986,
       "step": 228
+    },
+    {
+      "epoch": 0.06964190678932564,
+      "grad_norm": NaN,
+      "learning_rate": 3.932929715102863e-05,
+      "loss": 0.0,
+      "step": 229
+    },
+    {
+      "epoch": 0.06994601991941002,
+      "grad_norm": NaN,
+      "learning_rate": 3.834691207696649e-05,
+      "loss": 0.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.07025013304949441,
+      "grad_norm": NaN,
+      "learning_rate": 3.7374033224987084e-05,
+      "loss": 0.0,
+      "step": 231
+    },
+    {
+      "epoch": 0.0705542461795788,
+      "grad_norm": NaN,
+      "learning_rate": 3.6410810602214684e-05,
+      "loss": 0.0,
+      "step": 232
+    },
+    {
+      "epoch": 0.0708583593096632,
+      "grad_norm": NaN,
+      "learning_rate": 3.5457392726890236e-05,
+      "loss": 0.0,
+      "step": 233
+    },
+    {
+      "epoch": 0.07116247243974759,
+      "grad_norm": NaN,
+      "learning_rate": 3.45139266054715e-05,
+      "loss": 0.0,
+      "step": 234
+    },
+    {
+      "epoch": 0.07146658556983197,
+      "grad_norm": NaN,
+      "learning_rate": 3.3580557709966066e-05,
+      "loss": 0.0,
+      "step": 235
+    },
+    {
+      "epoch": 0.07177069869991637,
+      "grad_norm": NaN,
+      "learning_rate": 3.2657429955501394e-05,
+      "loss": 0.0,
+      "step": 236
+    },
+    {
+      "epoch": 0.07207481183000077,
+      "grad_norm": NaN,
+      "learning_rate": 3.174468567813461e-05,
+      "loss": 0.0,
+      "step": 237
+    },
+    {
+      "epoch": 0.07237892496008515,
+      "grad_norm": NaN,
+      "learning_rate": 3.0842465612905837e-05,
+      "loss": 0.0,
+      "step": 238
+    },
+    {
+      "epoch": 0.07268303809016954,
+      "grad_norm": NaN,
+      "learning_rate": 2.9950908872138584e-05,
+      "loss": 0.0,
+      "step": 239
+    },
+    {
+      "epoch": 0.07298715122025394,
+      "grad_norm": NaN,
+      "learning_rate": 2.9070152923989946e-05,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.07329126435033832,
+      "grad_norm": NaN,
+      "learning_rate": 2.82003335712546e-05,
+      "loss": 0.0,
+      "step": 241
+    },
+    {
+      "epoch": 0.07359537748042272,
+      "grad_norm": NaN,
+      "learning_rate": 2.7341584930425657e-05,
+      "loss": 0.0,
+      "step": 242
+    },
+    {
+      "epoch": 0.07389949061050712,
+      "grad_norm": NaN,
+      "learning_rate": 2.6494039411015193e-05,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 0.0742036037405915,
+      "grad_norm": NaN,
+      "learning_rate": 2.5657827695138372e-05,
+      "loss": 0.0,
+      "step": 244
+    },
+    {
+      "epoch": 0.0745077168706759,
+      "grad_norm": NaN,
+      "learning_rate": 2.4833078717363544e-05,
+      "loss": 0.0,
+      "step": 245
+    },
+    {
+      "epoch": 0.07481183000076028,
+      "grad_norm": NaN,
+      "learning_rate": 2.4019919644832023e-05,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 0.07511594313084467,
+      "grad_norm": NaN,
+      "learning_rate": 2.3218475857650346e-05,
+      "loss": 0.0,
+      "step": 247
+    },
+    {
+      "epoch": 0.07542005626092907,
+      "grad_norm": NaN,
+      "learning_rate": 2.242887092955801e-05,
+      "loss": 0.0,
+      "step": 248
+    },
+    {
+      "epoch": 0.07572416939101345,
+      "grad_norm": NaN,
+      "learning_rate": 2.1651226608873877e-05,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 0.07602828252109785,
+      "grad_norm": NaN,
+      "learning_rate": 2.0885662799723804e-05,
+      "loss": 0.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.07633239565118224,
+      "grad_norm": NaN,
+      "learning_rate": 2.0132297543552757e-05,
+      "loss": 0.0,
+      "step": 251
+    },
+    {
+      "epoch": 0.07663650878126663,
+      "grad_norm": NaN,
+      "learning_rate": 1.939124700092423e-05,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 0.07694062191135102,
+      "grad_norm": NaN,
+      "learning_rate": 1.866262543360958e-05,
+      "loss": 0.0,
+      "step": 253
+    },
+    {
+      "epoch": 0.07724473504143542,
+      "grad_norm": NaN,
+      "learning_rate": 1.7946545186970022e-05,
+      "loss": 0.0,
+      "step": 254
+    },
+    {
+      "epoch": 0.0775488481715198,
+      "grad_norm": NaN,
+      "learning_rate": 1.7243116672634262e-05,
+      "loss": 0.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.0778529613016042,
+      "grad_norm": NaN,
+      "learning_rate": 1.6552448351474304e-05,
+      "loss": 0.0,
+      "step": 256
+    },
+    {
+      "epoch": 0.0781570744316886,
+      "grad_norm": NaN,
+      "learning_rate": 1.587464671688187e-05,
+      "loss": 0.0,
+      "step": 257
+    },
+    {
+      "epoch": 0.07846118756177298,
+      "grad_norm": NaN,
+      "learning_rate": 1.520981627834851e-05,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 0.07876530069185737,
+      "grad_norm": NaN,
+      "learning_rate": 1.4558059545351143e-05,
+      "loss": 0.0,
+      "step": 259
+    },
+    {
+      "epoch": 0.07906941382194176,
+      "grad_norm": NaN,
+      "learning_rate": 1.3919477011546423e-05,
+      "loss": 0.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.07937352695202615,
+      "grad_norm": NaN,
+      "learning_rate": 1.3294167139275593e-05,
+      "loss": 0.0,
+      "step": 261
+    },
+    {
+      "epoch": 0.07967764008211055,
+      "grad_norm": NaN,
+      "learning_rate": 1.2682226344382796e-05,
+      "loss": 0.0,
+      "step": 262
+    },
+    {
+      "epoch": 0.07998175321219493,
+      "grad_norm": NaN,
+      "learning_rate": 1.208374898134883e-05,
+      "loss": 0.0,
+      "step": 263
+    },
+    {
+      "epoch": 0.08028586634227933,
+      "grad_norm": NaN,
+      "learning_rate": 1.1498827328742623e-05,
+      "loss": 0.0,
+      "step": 264
+    },
+    {
+      "epoch": 0.08058997947236372,
+      "grad_norm": NaN,
+      "learning_rate": 1.0927551574992967e-05,
+      "loss": 0.0,
+      "step": 265
+    },
+    {
+      "epoch": 0.0808940926024481,
+      "grad_norm": NaN,
+      "learning_rate": 1.0370009804482483e-05,
+      "loss": 0.0,
+      "step": 266
+    },
+    {
+      "epoch": 0.0811982057325325,
+      "grad_norm": NaN,
+      "learning_rate": 9.82628798396592e-06,
+      "loss": 0.0,
+      "step": 267
+    },
+    {
+      "epoch": 0.0815023188626169,
+      "grad_norm": NaN,
+      "learning_rate": 9.296469949315156e-06,
+      "loss": 0.0,
+      "step": 268
+    },
+    {
+      "epoch": 0.08180643199270128,
+      "grad_norm": NaN,
+      "learning_rate": 8.780637392592495e-06,
+      "loss": 0.0,
+      "step": 269
+    },
+    {
+      "epoch": 0.08211054512278568,
+      "grad_norm": NaN,
+      "learning_rate": 8.278869849454718e-06,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.08241465825287007,
+      "grad_norm": NaN,
+      "learning_rate": 7.791244686889588e-06,
+      "loss": 0.0,
+      "step": 271
+    },
+    {
+      "epoch": 0.08271877138295446,
+      "grad_norm": NaN,
+      "learning_rate": 7.317837091286706e-06,
+      "loss": 0.0,
+      "step": 272
+    },
+    {
+      "epoch": 0.08302288451303885,
+      "grad_norm": NaN,
+      "learning_rate": 6.858720056844614e-06,
+      "loss": 0.0,
+      "step": 273
+    },
+    {
+      "epoch": 0.08332699764312324,
+      "grad_norm": NaN,
+      "learning_rate": 6.413964374315851e-06,
+      "loss": 0.0,
+      "step": 274
+    },
+    {
+      "epoch": 0.08363111077320763,
+      "grad_norm": NaN,
+      "learning_rate": 5.983638620091858e-06,
+      "loss": 0.0,
+      "step": 275
+    },
+    {
+      "epoch": 0.08393522390329203,
+      "grad_norm": NaN,
+      "learning_rate": 5.567809145629244e-06,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 0.08423933703337641,
+      "grad_norm": NaN,
+      "learning_rate": 5.1665400672190725e-06,
+      "loss": 0.0,
+      "step": 277
+    },
+    {
+      "epoch": 0.0845434501634608,
+      "grad_norm": NaN,
+      "learning_rate": 4.7798932561009865e-06,
+      "loss": 0.0,
+      "step": 278
+    },
+    {
+      "epoch": 0.0848475632935452,
+      "grad_norm": NaN,
+      "learning_rate": 4.407928328923194e-06,
+      "loss": 0.0,
+      "step": 279
+    },
+    {
+      "epoch": 0.08515167642362959,
+      "grad_norm": NaN,
+      "learning_rate": 4.050702638550275e-06,
+      "loss": 0.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.08545578955371398,
+      "grad_norm": NaN,
+      "learning_rate": 3.7082712652200867e-06,
+      "loss": 0.0,
+      "step": 281
+    },
+    {
+      "epoch": 0.08575990268379838,
+      "grad_norm": NaN,
+      "learning_rate": 3.380687008050909e-06,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 0.08606401581388276,
+      "grad_norm": NaN,
+      "learning_rate": 3.068000376900515e-06,
+      "loss": 0.0,
+      "step": 283
+    },
+    {
+      "epoch": 0.08636812894396716,
+      "grad_norm": NaN,
+      "learning_rate": 2.770259584577972e-06,
+      "loss": 0.0,
+      "step": 284
+    },
+    {
+      "epoch": 0.08667224207405155,
+      "grad_norm": NaN,
+      "learning_rate": 2.4875105394098654e-06,
+      "loss": 0.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.08697635520413594,
+      "grad_norm": NaN,
+      "learning_rate": 2.219796838161681e-06,
+      "loss": 0.0,
+      "step": 286
+    },
+    {
+      "epoch": 0.08728046833422033,
+      "grad_norm": NaN,
+      "learning_rate": 1.967159759315751e-06,
+      "loss": 0.0,
+      "step": 287
+    },
+    {
+      "epoch": 0.08758458146430473,
+      "grad_norm": NaN,
+      "learning_rate": 1.7296382567064672e-06,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 0.08788869459438911,
+      "grad_norm": NaN,
+      "learning_rate": 1.5072689535141072e-06,
+      "loss": 0.0,
+      "step": 289
+    },
+    {
+      "epoch": 0.08819280772447351,
+      "grad_norm": NaN,
+      "learning_rate": 1.3000861366179062e-06,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.08849692085455789,
+      "grad_norm": NaN,
+      "learning_rate": 1.1081217513094212e-06,
+      "loss": 0.0,
+      "step": 291
+    },
+    {
+      "epoch": 0.08880103398464229,
+      "grad_norm": NaN,
+      "learning_rate": 9.314053963669245e-07,
+      "loss": 0.0,
+      "step": 292
+    },
+    {
+      "epoch": 0.08910514711472668,
+      "grad_norm": NaN,
+      "learning_rate": 7.699643194915784e-07,
+      "loss": 0.0,
+      "step": 293
+    },
+    {
+      "epoch": 0.08940926024481106,
+      "grad_norm": NaN,
+      "learning_rate": 6.238234131061616e-07,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 0.08971337337489546,
+      "grad_norm": NaN,
+      "learning_rate": 4.93005210516928e-07,
+      "loss": 0.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.09001748650497986,
+      "grad_norm": NaN,
+      "learning_rate": 3.775298824391982e-07,
+      "loss": 0.0,
+      "step": 296
+    },
+    {
+      "epoch": 0.09032159963506424,
+      "grad_norm": NaN,
+      "learning_rate": 2.774152338873126e-07,
+      "loss": 0.0,
+      "step": 297
+    },
+    {
+      "epoch": 0.09062571276514864,
+      "grad_norm": NaN,
+      "learning_rate": 1.9267670142926187e-07,
+      "loss": 0.0,
+      "step": 298
+    },
+    {
+      "epoch": 0.09092982589523303,
+      "grad_norm": NaN,
+      "learning_rate": 1.2332735080651248e-07,
+      "loss": 0.0,
+      "step": 299
+    },
+    {
+      "epoch": 0.09123393902531741,
+      "grad_norm": NaN,
+      "learning_rate": 6.9377874919474e-08,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.09153805215540181,
+      "grad_norm": NaN,
+      "learning_rate": 3.0836592178717926e-08,
+      "loss": 0.0,
+      "step": 301
+    },
+    {
+      "epoch": 0.09184216528548621,
+      "grad_norm": NaN,
+      "learning_rate": 7.709445222403577e-09,
+      "loss": 0.0,
+      "step": 302
+    },
+    {
+      "epoch": 0.09214627841557059,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 303
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.06572946950665e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null