Training in progress, step 14500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6126aaf54fb0a8fa636e61c84c76f38b4601fd61074fb5bca240d2a736f4f66
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff540b9931ff3b9051aa7ca25e64a8e24ca7e8526e26bc089bc76ac294f8b424
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f867dcc57d02d73c1b56b57d7d1b1b32d706b98344ba93376758e87f7b8d3c66
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:a063f1bf8d5647653d13d9d67ef96e737ad0d45a0be438a667d109a536c16697
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:641d66ee8d5d7452522e196306c4649612954d1a71ab68743aace7ace44a6ed9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b330fcd1c4b02a2985ceb253ae804bf16171e108be502780a5eab9132fe8fd30
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01772d8cb8f09c4951eb7361881a716af1bc369413a65c2401d6dc240309cc7c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c2d50ca5391f126ee8cc2961637b87c22247c1f8f80ebd7b00bac4d79271141
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
-  "epoch": 2.24,
   "eval_steps": 500,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2191,6 +2191,84 @@
       "eval_samples_per_second": 17.136,
       "eval_steps_per_second": 2.142,
       "step": 14000
     }
   ],
   "logging_steps": 50,
@@ -2210,7 +2288,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.820328374272e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
+  "epoch": 2.32,
   "eval_steps": 500,
+  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.136,
       "eval_steps_per_second": 2.142,
       "step": 14000
+    },
+    {
+      "epoch": 2.248,
+      "grad_norm": 5661.556640625,
+      "learning_rate": 7.52e-06,
+      "loss": 0.0516,
+      "step": 14050
+    },
+    {
+      "epoch": 2.2560000000000002,
+      "grad_norm": 6117.46728515625,
+      "learning_rate": 7.44e-06,
+      "loss": 0.0535,
+      "step": 14100
+    },
+    {
+      "epoch": 2.2640000000000002,
+      "grad_norm": 5083.50634765625,
+      "learning_rate": 7.36e-06,
+      "loss": 0.0514,
+      "step": 14150
+    },
+    {
+      "epoch": 2.2720000000000002,
+      "grad_norm": 6597.24365234375,
+      "learning_rate": 7.280000000000001e-06,
+      "loss": 0.0566,
+      "step": 14200
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 7306.90185546875,
+      "learning_rate": 7.2e-06,
+      "loss": 0.0523,
+      "step": 14250
+    },
+    {
+      "epoch": 2.288,
+      "grad_norm": 6694.41552734375,
+      "learning_rate": 7.1200000000000004e-06,
+      "loss": 0.0475,
+      "step": 14300
+    },
+    {
+      "epoch": 2.296,
+      "grad_norm": 3753.303466796875,
+      "learning_rate": 7.04e-06,
+      "loss": 0.0501,
+      "step": 14350
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 5714.30078125,
+      "learning_rate": 6.96e-06,
+      "loss": 0.0485,
+      "step": 14400
+    },
+    {
+      "epoch": 2.312,
+      "grad_norm": 7579.119140625,
+      "learning_rate": 6.88e-06,
+      "loss": 0.0504,
+      "step": 14450
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 6103.64599609375,
+      "learning_rate": 6.8e-06,
+      "loss": 0.0531,
+      "step": 14500
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.08199251443147659,
+      "eval_runtime": 116.661,
+      "eval_samples_per_second": 17.144,
+      "eval_steps_per_second": 2.143,
+      "step": 14500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 7.063911530496e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null