Training in progress, step 71, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +175 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d92ea60efbfec261af770665fdfbc613d0eec6f177813f0128f10a26a682c754
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:9760cc00fcc6c08640955253db2351e0fa8f6d8c6ba4fcd95faaa067cadaaf68
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f7f417a985c37b21d6e2e7565c7584b79b3b88cc5ebc32ed6ff296a24ac2333
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:97555fac4974d5de2f4830d3d1b76e43cbfc8cb5d904d61db74c44a63293e8b5
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a537322ad8b13e53e04e7307211efb0c953aabdad90bc42ba3149fe4980cca8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:068139d00f03861bb041ac976325366e812cd7e0f33232157dc99b83a2d7f085
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5d90e9c1bf64ebe69004bc26a02dd8597602f1a7db0279de49dcd6a296224c7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e683effdbf1801ca21c52b8334cbe1684c23fef6e33fad16cce510e4700ea65
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.127659574468085,
   "eval_steps": 6,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -429,6 +429,177 @@
       "learning_rate": 2.650116284863402e-05,
       "loss": 1.7862,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -443,12 +614,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.021276595744681,
   "eval_steps": 6,
+  "global_step": 71,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.650116284863402e-05,
       "loss": 1.7862,
       "step": 50
+    },
+    {
+      "epoch": 2.1702127659574466,
+      "grad_norm": 3.1009395122528076,
+      "learning_rate": 2.426035992450848e-05,
+      "loss": 1.5236,
+      "step": 51
+    },
+    {
+      "epoch": 2.2127659574468086,
+      "grad_norm": 3.100109577178955,
+      "learning_rate": 2.2087813898656774e-05,
+      "loss": 1.7312,
+      "step": 52
+    },
+    {
+      "epoch": 2.25531914893617,
+      "grad_norm": 2.772387981414795,
+      "learning_rate": 1.9989285972581595e-05,
+      "loss": 1.8003,
+      "step": 53
+    },
+    {
+      "epoch": 2.297872340425532,
+      "grad_norm": 2.9776549339294434,
+      "learning_rate": 1.7970341065091245e-05,
+      "loss": 1.6636,
+      "step": 54
+    },
+    {
+      "epoch": 2.297872340425532,
+      "eval_loss": 2.307121753692627,
+      "eval_runtime": 2.2327,
+      "eval_samples_per_second": 8.958,
+      "eval_steps_per_second": 1.344,
+      "step": 54
+    },
+    {
+      "epoch": 2.3404255319148937,
+      "grad_norm": 2.711627960205078,
+      "learning_rate": 1.6036333055135344e-05,
+      "loss": 1.7249,
+      "step": 55
+    },
+    {
+      "epoch": 2.382978723404255,
+      "grad_norm": 2.998987913131714,
+      "learning_rate": 1.4192390584280346e-05,
+      "loss": 1.7655,
+      "step": 56
+    },
+    {
+      "epoch": 2.425531914893617,
+      "grad_norm": 3.725801706314087,
+      "learning_rate": 1.2443403456474017e-05,
+      "loss": 1.8057,
+      "step": 57
+    },
+    {
+      "epoch": 2.4680851063829787,
+      "grad_norm": 3.7398223876953125,
+      "learning_rate": 1.0794009671164484e-05,
+      "loss": 1.79,
+      "step": 58
+    },
+    {
+      "epoch": 2.5106382978723403,
+      "grad_norm": 2.811511993408203,
+      "learning_rate": 9.248583124159438e-06,
+      "loss": 1.7487,
+      "step": 59
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 3.29445219039917,
+      "learning_rate": 7.81122200884072e-06,
+      "loss": 1.617,
+      "step": 60
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "eval_loss": 2.3166096210479736,
+      "eval_runtime": 2.2287,
+      "eval_samples_per_second": 8.974,
+      "eval_steps_per_second": 1.346,
+      "step": 60
+    },
+    {
+      "epoch": 2.595744680851064,
+      "grad_norm": 4.6789445877075195,
+      "learning_rate": 6.4857379484922375e-06,
+      "loss": 2.0944,
+      "step": 61
+    },
+    {
+      "epoch": 2.6382978723404253,
+      "grad_norm": 3.2288119792938232,
+      "learning_rate": 5.275645888560232e-06,
+      "loss": 1.6808,
+      "step": 62
+    },
+    {
+      "epoch": 2.6808510638297873,
+      "grad_norm": 4.059349536895752,
+      "learning_rate": 4.184154775649768e-06,
+      "loss": 2.0006,
+      "step": 63
+    },
+    {
+      "epoch": 2.723404255319149,
+      "grad_norm": 2.783024549484253,
+      "learning_rate": 3.2141590479753236e-06,
+      "loss": 1.7605,
+      "step": 64
+    },
+    {
+      "epoch": 2.7659574468085104,
+      "grad_norm": 3.785507917404175,
+      "learning_rate": 2.3682309598308747e-06,
+      "loss": 1.8019,
+      "step": 65
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "grad_norm": 3.3201539516448975,
+      "learning_rate": 1.6486137604339813e-06,
+      "loss": 1.7181,
+      "step": 66
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "eval_loss": 2.3182761669158936,
+      "eval_runtime": 2.2303,
+      "eval_samples_per_second": 8.967,
+      "eval_steps_per_second": 1.345,
+      "step": 66
+    },
+    {
+      "epoch": 2.851063829787234,
+      "grad_norm": 3.517794370651245,
+      "learning_rate": 1.0572157452321097e-06,
+      "loss": 1.4794,
+      "step": 67
+    },
+    {
+      "epoch": 2.8936170212765955,
+      "grad_norm": 3.758125066757202,
+      "learning_rate": 5.956051954461472e-07,
+      "loss": 1.526,
+      "step": 68
+    },
+    {
+      "epoch": 2.9361702127659575,
+      "grad_norm": 2.9481680393218994,
+      "learning_rate": 2.6500621927054715e-07,
+      "loss": 1.5486,
+      "step": 69
+    },
+    {
+      "epoch": 2.978723404255319,
+      "grad_norm": 3.1529266834259033,
+      "learning_rate": 6.629550575847354e-08,
+      "loss": 1.6324,
+      "step": 70
+    },
+    {
+      "epoch": 3.021276595744681,
+      "grad_norm": 5.245131492614746,
+      "learning_rate": 0.0,
+      "loss": 2.7132,
+      "step": 71
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.267399713279181e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null