Training in progress, epoch 9, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e00286fe04914af602f8620e4a50073843f2087a23b39f7a999a6314deac97ed
 size 2609498088

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e8958507cb33c738a1416fc6ea5aa008483c79ebed1b6716585bb8372cf9dc7
 size 2609498088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e4c822c18a79168516c9ff03658697c71eef8179abb9efd40071977d42c2a60
 size 5208796146

 version https://git-lfs.github.com/spec/v1
+oid sha256:60d734e07d80ad91c2bb8235c72edba967a6a361ade8ae63cac6f54a66d20a80
 size 5208796146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79467bc01205da61e009aa2fbf32ec57e19156a9ee560a9b1cdbafaf10bb888e
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:7eb63e44fd6d80531fd8b09122d759705ec463d367260b460bcecf49efbb0ca2
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17d282d44e6a12e9ca82ec6b42e7f212659678f5fe8c9a58e24a30599040d3e5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c42147d2487e975dcb8b015449194c61c9350b5c1b3a114ecd6e3942d3403969
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.0,
   "eval_steps": 50,
-  "global_step": 1161,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -352,6 +352,36 @@
       "eval_samples_per_second": 37.465,
       "eval_steps_per_second": 18.732,
       "step": 1150
     }
   ],
   "logging_steps": 50,
@@ -366,12 +396,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.209686125652214e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.929233772571987,
   "eval_steps": 50,
+  "global_step": 1280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 37.465,
       "eval_steps_per_second": 18.732,
       "step": 1150
+    },
+    {
+      "epoch": 9.304538799414349,
+      "grad_norm": 0.7794139385223389,
+      "learning_rate": 6.25e-06,
+      "loss": 0.9863,
+      "step": 1200
+    },
+    {
+      "epoch": 9.304538799414349,
+      "eval_loss": 1.1227957010269165,
+      "eval_runtime": 11.5133,
+      "eval_samples_per_second": 37.522,
+      "eval_steps_per_second": 18.761,
+      "step": 1200
+    },
+    {
+      "epoch": 9.694973157637872,
+      "grad_norm": 0.7152210474014282,
+      "learning_rate": 2.3437500000000002e-06,
+      "loss": 1.005,
+      "step": 1250
+    },
+    {
+      "epoch": 9.694973157637872,
+      "eval_loss": 1.1129647493362427,
+      "eval_runtime": 11.5181,
+      "eval_samples_per_second": 37.506,
+      "eval_steps_per_second": 18.753,
+      "step": 1250
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.541080433502454e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null