Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +78 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ba78013670a5e8754e3e538080ba8af3888f00be0641ecd712b9a49e93870c1
 size 109086416

 version https://git-lfs.github.com/spec/v1
+oid sha256:213054c4927c6f3bca1e8082d827c430bb295745b32b92115688f61434f7f075
 size 109086416

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b192ffa3c570887b69f25ba42412c7594e70565f65b802562fded9f8bbdb794
 size 218260730

 version https://git-lfs.github.com/spec/v1
+oid sha256:102d67e35bfbcc4b9e815d03b2ae65a3860e14c952cb6a160cddaed2bd9e62df
 size 218260730

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d72ed5d4a41f5335cd07414271c9444686910c8d74653e496881abb75037bae2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca646238b9defc5bf2a095179cb788aa143627991f51a70cd39966e3562a2aab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d5e804c4c0039d75698286d90173db37204c5c7e59b000f6920a7c9798abfca
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:199e6824b18b1d9debbd05233cf73ed2bcbb72beea16b10948ab69d09fd868c5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.6910121440887451,
   "best_model_checkpoint": "Pricer-FineTune-OpenSource-2024-10-23_08.48.15/checkpoint-750",
-  "epoch": 1.2,
   "eval_steps": 50,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -232,6 +232,81 @@
       "eval_samples_per_second": 20.085,
       "eval_steps_per_second": 5.021,
       "step": 750
     }
   ],
   "logging_steps": 50,
@@ -251,7 +326,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.927851979580375e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.6910121440887451,
   "best_model_checkpoint": "Pricer-FineTune-OpenSource-2024-10-23_08.48.15/checkpoint-750",
+  "epoch": 1.6,
   "eval_steps": 50,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.085,
       "eval_steps_per_second": 5.021,
       "step": 750
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 1.9570444822311401,
+      "learning_rate": 6.414690945243768e-05,
+      "loss": 1.6109,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 1.7327255010604858,
+      "eval_runtime": 4.9795,
+      "eval_samples_per_second": 20.082,
+      "eval_steps_per_second": 5.021,
+      "step": 800
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 1.9022583961486816,
+      "learning_rate": 5.9955696203559285e-05,
+      "loss": 1.615,
+      "step": 850
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_loss": 1.7244207859039307,
+      "eval_runtime": 4.9869,
+      "eval_samples_per_second": 20.052,
+      "eval_steps_per_second": 5.013,
+      "step": 850
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 1.445749044418335,
+      "learning_rate": 5.5690206112115884e-05,
+      "loss": 1.6122,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 1.689263939857483,
+      "eval_runtime": 4.9757,
+      "eval_samples_per_second": 20.098,
+      "eval_steps_per_second": 5.024,
+      "step": 900
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 2.5496785640716553,
+      "learning_rate": 5.1382262882799395e-05,
+      "loss": 1.6248,
+      "step": 950
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 1.6721502542495728,
+      "eval_runtime": 4.9817,
+      "eval_samples_per_second": 20.073,
+      "eval_steps_per_second": 5.018,
+      "step": 950
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.7256929874420166,
+      "learning_rate": 4.706400695204749e-05,
+      "loss": 1.5938,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.698430061340332,
+      "eval_runtime": 4.9786,
+      "eval_samples_per_second": 20.086,
+      "eval_steps_per_second": 5.021,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.5704331516064563e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null