Training in progress, step 16500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39065861c3b099700bb000236a9e498a039343f48398b98c2fb9a14bb096b6c1
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcd4b260e271cf50f226ed5b7b322e87d12ca1eaa8c5c59023d510360785bd75
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e12bc163cfe02cd564c638e298b40f4155a4f87b8f01adeb81746cbd797e5ef
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:c320206d058917027a9677aae069cffa405a4671b0c52efd251f8eff20644910
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eebbe4891f802a9c170f9968f3ddf4d71a0eff2d959ee8775998aa9a7034155
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:55c1d4daeb9503469e608c59ee558a87893ccabfba88dd0e89cafcafa3474077
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6949e36257fd6db2d60885342ebdb2dc7d96352bf8e47bc5271716a48f4cbc6e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b17e813c289d034a09f864648b82a92fe61bb865901d4d03fe480b494ff98cc3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
-  "epoch": 2.56,
   "eval_steps": 500,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2503,6 +2503,84 @@
       "eval_samples_per_second": 17.123,
       "eval_steps_per_second": 2.14,
       "step": 16000
     }
   ],
   "logging_steps": 50,
@@ -2522,7 +2600,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.794660999168e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
+  "epoch": 2.64,
   "eval_steps": 500,
+  "global_step": 16500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.123,
       "eval_steps_per_second": 2.14,
       "step": 16000
+    },
+    {
+      "epoch": 2.568,
+      "grad_norm": 5753.2734375,
+      "learning_rate": 4.32e-06,
+      "loss": 0.0474,
+      "step": 16050
+    },
+    {
+      "epoch": 2.576,
+      "grad_norm": 8457.216796875,
+      "learning_rate": 4.24e-06,
+      "loss": 0.0511,
+      "step": 16100
+    },
+    {
+      "epoch": 2.584,
+      "grad_norm": 8808.5458984375,
+      "learning_rate": 4.16e-06,
+      "loss": 0.0497,
+      "step": 16150
+    },
+    {
+      "epoch": 2.592,
+      "grad_norm": 7374.8994140625,
+      "learning_rate": 4.080000000000001e-06,
+      "loss": 0.0469,
+      "step": 16200
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 8480.7109375,
+      "learning_rate": 4e-06,
+      "loss": 0.0527,
+      "step": 16250
+    },
+    {
+      "epoch": 2.608,
+      "grad_norm": 9268.271484375,
+      "learning_rate": 3.92e-06,
+      "loss": 0.0514,
+      "step": 16300
+    },
+    {
+      "epoch": 2.616,
+      "grad_norm": 7013.30810546875,
+      "learning_rate": 3.8400000000000005e-06,
+      "loss": 0.0529,
+      "step": 16350
+    },
+    {
+      "epoch": 2.624,
+      "grad_norm": 5726.31298828125,
+      "learning_rate": 3.76e-06,
+      "loss": 0.0532,
+      "step": 16400
+    },
+    {
+      "epoch": 2.632,
+      "grad_norm": 6278.4267578125,
+      "learning_rate": 3.68e-06,
+      "loss": 0.0508,
+      "step": 16450
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 7901.65576171875,
+      "learning_rate": 3.6e-06,
+      "loss": 0.0489,
+      "step": 16500
+    },
+    {
+      "epoch": 2.64,
+      "eval_loss": 0.08172949403524399,
+      "eval_runtime": 116.6616,
+      "eval_samples_per_second": 17.144,
+      "eval_steps_per_second": 2.143,
+      "step": 16500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 8.038244155392e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null