Training in progress, step 2850, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34a5bba41906f9f428e6b9882dfd4d856b56c484f938adb5b91c13f807825343
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:19ebc916102bd897c5a532ac3f58497235a1148be37ea6a1ea9db19d99ca1db5
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2fac45a83552e6f54d1d48788ee1ad99cce2a8a3748b5d5279def750c7f2649
 size 640010002

 version https://git-lfs.github.com/spec/v1
+oid sha256:d55e197c8f406a9f22113b0e432bce93d4a21dd8f9d620ac4152d1d3b245d71b
 size 640010002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7c3255f314f041e3de52c6733809edd66559e9181ef4ef8f2fba5b079b8c283
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:907e1adaa4ec46d2f92c4fd8268f0e5676d486ec2724a1d5fa466592b50eb492
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e8e814a3ea7a3fec5d7f1032ab27d6ea4d3652fa198b69d7c23c46d7aaf8587
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b8777906a662e6dafe00feb5f2bf980ad201a49ea0c6fff31eeab815bd530b6
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2451845407485962,
   "best_model_checkpoint": "./output/checkpoint-1950",
-  "epoch": 3.982300884955752,
   "eval_steps": 150,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2041,6 +2041,119 @@
       "eval_samples_per_second": 6.928,
       "eval_steps_per_second": 6.928,
       "step": 2700
     }
   ],
   "logging_steps": 10,
@@ -2060,7 +2173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.030623090821857e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2451845407485962,
   "best_model_checkpoint": "./output/checkpoint-1950",
+  "epoch": 4.20353982300885,
   "eval_steps": 150,
+  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.928,
       "eval_steps_per_second": 6.928,
       "step": 2700
+    },
+    {
+      "epoch": 3.9970501474926254,
+      "grad_norm": 0.3948822021484375,
+      "learning_rate": 1.851294233700798e-05,
+      "loss": 0.058,
+      "step": 2710
+    },
+    {
+      "epoch": 4.011799410029498,
+      "grad_norm": 2.1759111881256104,
+      "learning_rate": 1.8381446401780052e-05,
+      "loss": 0.0544,
+      "step": 2720
+    },
+    {
+      "epoch": 4.0265486725663715,
+      "grad_norm": 1.0792875289916992,
+      "learning_rate": 1.825004269025315e-05,
+      "loss": 0.0438,
+      "step": 2730
+    },
+    {
+      "epoch": 4.041297935103245,
+      "grad_norm": 0.6035469770431519,
+      "learning_rate": 1.811873660391918e-05,
+      "loss": 0.068,
+      "step": 2740
+    },
+    {
+      "epoch": 4.056047197640118,
+      "grad_norm": 2.127488613128662,
+      "learning_rate": 1.7987533540257062e-05,
+      "loss": 0.0842,
+      "step": 2750
+    },
+    {
+      "epoch": 4.070796460176991,
+      "grad_norm": 0.9804584980010986,
+      "learning_rate": 1.7856438892510862e-05,
+      "loss": 0.0512,
+      "step": 2760
+    },
+    {
+      "epoch": 4.0855457227138645,
+      "grad_norm": 0.3105282187461853,
+      "learning_rate": 1.772545804946807e-05,
+      "loss": 0.0632,
+      "step": 2770
+    },
+    {
+      "epoch": 4.100294985250738,
+      "grad_norm": 0.9263339638710022,
+      "learning_rate": 1.759459639523813e-05,
+      "loss": 0.0495,
+      "step": 2780
+    },
+    {
+      "epoch": 4.115044247787611,
+      "grad_norm": 0.42594772577285767,
+      "learning_rate": 1.7463859309031106e-05,
+      "loss": 0.0467,
+      "step": 2790
+    },
+    {
+      "epoch": 4.129793510324483,
+      "grad_norm": 1.5321959257125854,
+      "learning_rate": 1.7333252164936557e-05,
+      "loss": 0.0622,
+      "step": 2800
+    },
+    {
+      "epoch": 4.144542772861357,
+      "grad_norm": 0.47825008630752563,
+      "learning_rate": 1.7202780331702608e-05,
+      "loss": 0.0667,
+      "step": 2810
+    },
+    {
+      "epoch": 4.15929203539823,
+      "grad_norm": 2.095520496368408,
+      "learning_rate": 1.70724491725153e-05,
+      "loss": 0.063,
+      "step": 2820
+    },
+    {
+      "epoch": 4.174041297935103,
+      "grad_norm": 0.4359021782875061,
+      "learning_rate": 1.694226404477812e-05,
+      "loss": 0.0429,
+      "step": 2830
+    },
+    {
+      "epoch": 4.188790560471976,
+      "grad_norm": 2.7264065742492676,
+      "learning_rate": 1.681223029989177e-05,
+      "loss": 0.0501,
+      "step": 2840
+    },
+    {
+      "epoch": 4.20353982300885,
+      "grad_norm": 0.8709071278572083,
+      "learning_rate": 1.66823532830342e-05,
+      "loss": 0.0464,
+      "step": 2850
+    },
+    {
+      "epoch": 4.20353982300885,
+      "eval_loss": 0.29095226526260376,
+      "eval_runtime": 43.6544,
+      "eval_samples_per_second": 6.918,
+      "eval_steps_per_second": 6.918,
+      "step": 2850
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.313588061300654e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null