Training in progress, epoch 9, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba163da7ac5c05dca7b23ba9ae84e43000a41894b62d4b0bd6c156263a09d667
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a664102d1b3ac5fecaadaaf9968da194c74be4d99b0e5648fc5ba6e5edbbd53
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:228620246956b9c20bcf1b4373421a28779315491724ca8b3e1ccf5acdfefaac
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d77595fb689b5c663dc6d92d024119a8b254d933443aff4cf5d2c4e893f1277
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d2d83df56a301a7a031ee1a2baca538bacda8ebe202ee2460e255209acd4857
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecdbbc81f1577c58564d520539f0ecd1e3c63b150d117eedae0016db0ec8a85c
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5bdf0f87d77b7de3138456a39226e05b8a47b0bad9a0f4dd8d726aafd08598b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6602c18a1ebe894c1d51ce5c9cea3744db091c466423f123d4fa8b7754d9378a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.998966111430212,
   "eval_steps": 50,
-  "global_step": 2448,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -727,6 +727,96 @@
       "eval_samples_per_second": 41.601,
       "eval_steps_per_second": 20.801,
       "step": 2400
     }
   ],
   "logging_steps": 50,
@@ -741,12 +831,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.316931268340613e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.998851234922459,
   "eval_steps": 50,
+  "global_step": 2720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.601,
       "eval_steps_per_second": 20.801,
       "step": 2400
+    },
+    {
+      "epoch": 9.00631820792648,
+      "grad_norm": 69.84994506835938,
+      "learning_rate": 9.926470588235293e-06,
+      "loss": 0.8202,
+      "step": 2450
+    },
+    {
+      "epoch": 9.00631820792648,
+      "eval_loss": 1.2383702993392944,
+      "eval_runtime": 116.7345,
+      "eval_samples_per_second": 41.342,
+      "eval_steps_per_second": 20.671,
+      "step": 2450
+    },
+    {
+      "epoch": 9.190120620333142,
+      "grad_norm": 75.23961639404297,
+      "learning_rate": 8.088235294117648e-06,
+      "loss": 0.8143,
+      "step": 2500
+    },
+    {
+      "epoch": 9.190120620333142,
+      "eval_loss": 1.236066460609436,
+      "eval_runtime": 115.996,
+      "eval_samples_per_second": 41.605,
+      "eval_steps_per_second": 20.802,
+      "step": 2500
+    },
+    {
+      "epoch": 9.373923032739805,
+      "grad_norm": 62.9267692565918,
+      "learning_rate": 6.25e-06,
+      "loss": 0.8106,
+      "step": 2550
+    },
+    {
+      "epoch": 9.373923032739805,
+      "eval_loss": 1.23640775680542,
+      "eval_runtime": 115.848,
+      "eval_samples_per_second": 41.658,
+      "eval_steps_per_second": 20.829,
+      "step": 2550
+    },
+    {
+      "epoch": 9.557725445146467,
+      "grad_norm": 54.76566696166992,
+      "learning_rate": 4.411764705882353e-06,
+      "loss": 0.8144,
+      "step": 2600
+    },
+    {
+      "epoch": 9.557725445146467,
+      "eval_loss": 1.2419943809509277,
+      "eval_runtime": 116.0232,
+      "eval_samples_per_second": 41.595,
+      "eval_steps_per_second": 20.798,
+      "step": 2600
+    },
+    {
+      "epoch": 9.74152785755313,
+      "grad_norm": 51.20401382446289,
+      "learning_rate": 2.573529411764706e-06,
+      "loss": 0.8061,
+      "step": 2650
+    },
+    {
+      "epoch": 9.74152785755313,
+      "eval_loss": 1.2368206977844238,
+      "eval_runtime": 116.069,
+      "eval_samples_per_second": 41.579,
+      "eval_steps_per_second": 20.789,
+      "step": 2650
+    },
+    {
+      "epoch": 9.925330269959794,
+      "grad_norm": 52.51292419433594,
+      "learning_rate": 7.352941176470589e-07,
+      "loss": 0.8122,
+      "step": 2700
+    },
+    {
+      "epoch": 9.925330269959794,
+      "eval_loss": 1.2355531454086304,
+      "eval_runtime": 116.1057,
+      "eval_samples_per_second": 41.566,
+      "eval_steps_per_second": 20.783,
+      "step": 2700
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.018175725001769e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null