Training in progress, step 14000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d7e7ce5d8087ead3443b4f08e582b8deb0371c597dc0bcefa92b27b47cf757b
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6126aaf54fb0a8fa636e61c84c76f38b4601fd61074fb5bca240d2a736f4f66
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b3343f5795c77c59b4597ad652cbd699824ac18f885e075e189a3d182b5959e
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:f867dcc57d02d73c1b56b57d7d1b1b32d706b98344ba93376758e87f7b8d3c66
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:134eebb9d67a08338a927439b5399d422ef15da51b7ad38136806c07d685a893
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:641d66ee8d5d7452522e196306c4649612954d1a71ab68743aace7ace44a6ed9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f1ce7c9ab70607ae470f91da12ff0d4b8f6d4eec2f38f9df9861eec2ba77599
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01772d8cb8f09c4951eb7361881a716af1bc369413a65c2401d6dc240309cc7c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
-  "epoch": 2.16,
   "eval_steps": 500,
-  "global_step": 13500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2113,6 +2113,84 @@
       "eval_samples_per_second": 17.139,
       "eval_steps_per_second": 2.142,
       "step": 13500
     }
   ],
   "logging_steps": 50,
@@ -2132,7 +2210,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.576745218048e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
+  "epoch": 2.24,
   "eval_steps": 500,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.139,
       "eval_steps_per_second": 2.142,
       "step": 13500
+    },
+    {
+      "epoch": 2.168,
+      "grad_norm": 4402.388671875,
+      "learning_rate": 8.32e-06,
+      "loss": 0.0499,
+      "step": 13550
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 9858.970703125,
+      "learning_rate": 8.24e-06,
+      "loss": 0.0506,
+      "step": 13600
+    },
+    {
+      "epoch": 2.184,
+      "grad_norm": 6748.5732421875,
+      "learning_rate": 8.160000000000001e-06,
+      "loss": 0.05,
+      "step": 13650
+    },
+    {
+      "epoch": 2.192,
+      "grad_norm": 7720.3994140625,
+      "learning_rate": 8.079999999999999e-06,
+      "loss": 0.0504,
+      "step": 13700
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 5066.37060546875,
+      "learning_rate": 8e-06,
+      "loss": 0.0533,
+      "step": 13750
+    },
+    {
+      "epoch": 2.208,
+      "grad_norm": 7975.1376953125,
+      "learning_rate": 7.92e-06,
+      "loss": 0.0482,
+      "step": 13800
+    },
+    {
+      "epoch": 2.216,
+      "grad_norm": 6690.85302734375,
+      "learning_rate": 7.84e-06,
+      "loss": 0.0518,
+      "step": 13850
+    },
+    {
+      "epoch": 2.224,
+      "grad_norm": 8501.337890625,
+      "learning_rate": 7.76e-06,
+      "loss": 0.0534,
+      "step": 13900
+    },
+    {
+      "epoch": 2.232,
+      "grad_norm": 15215.427734375,
+      "learning_rate": 7.680000000000001e-06,
+      "loss": 0.0488,
+      "step": 13950
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 6265.7568359375,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.0468,
+      "step": 14000
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.08207998424768448,
+      "eval_runtime": 116.7104,
+      "eval_samples_per_second": 17.136,
+      "eval_steps_per_second": 2.142,
+      "step": 14000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 6.820328374272e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null