Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe1268771560fe4054985ba533e0d8e1265cb68e494e6838eb647fc9edb702fe
 size 109086416

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ba78013670a5e8754e3e538080ba8af3888f00be0641ecd712b9a49e93870c1
 size 109086416

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:528c8e3d78412132b11bbbba1ab1ff9a9185cd6b58e563de0069b7b6eb0374bc
 size 218260730

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b192ffa3c570887b69f25ba42412c7594e70565f65b802562fded9f8bbdb794
 size 218260730

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54d1167478c538418dde090909f0f0a092d6eae3b53af5e2553aef643b517032
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d72ed5d4a41f5335cd07414271c9444686910c8d74653e496881abb75037bae2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52173b10baaccdab50345561c45a5209e7b1946a31fefd1529f3955468effd15
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d5e804c4c0039d75698286d90173db37204c5c7e59b000f6920a7c9798abfca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.6987907886505127,
-  "best_model_checkpoint": "Pricer-FineTune-OpenSource-2024-10-23_08.48.15/checkpoint-500",
-  "epoch": 0.8,
   "eval_steps": 50,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,81 @@
       "eval_samples_per_second": 20.063,
       "eval_steps_per_second": 5.016,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -176,7 +251,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2852129603531571e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6910121440887451,
+  "best_model_checkpoint": "Pricer-FineTune-OpenSource-2024-10-23_08.48.15/checkpoint-750",
+  "epoch": 1.2,
   "eval_steps": 50,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.063,
       "eval_steps_per_second": 5.016,
       "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.2332689762115479,
+      "learning_rate": 8.292667103996738e-05,
+      "loss": 1.7313,
+      "step": 550
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.7032952308654785,
+      "eval_runtime": 4.9781,
+      "eval_samples_per_second": 20.088,
+      "eval_steps_per_second": 5.022,
+      "step": 550
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.2375348806381226,
+      "learning_rate": 7.955677188099235e-05,
+      "loss": 1.6986,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.6838198900222778,
+      "eval_runtime": 4.9789,
+      "eval_samples_per_second": 20.085,
+      "eval_steps_per_second": 5.021,
+      "step": 600
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 1.6269843578338623,
+      "learning_rate": 7.59663573861888e-05,
+      "loss": 1.6478,
+      "step": 650
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 1.717869520187378,
+      "eval_runtime": 4.9837,
+      "eval_samples_per_second": 20.065,
+      "eval_steps_per_second": 5.016,
+      "step": 650
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 1.6488033533096313,
+      "learning_rate": 7.218221469798465e-05,
+      "loss": 1.6154,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 1.671476125717163,
+      "eval_runtime": 5.0061,
+      "eval_samples_per_second": 19.976,
+      "eval_steps_per_second": 4.994,
+      "step": 700
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.118487596511841,
+      "learning_rate": 6.823257631413276e-05,
+      "loss": 1.5951,
+      "step": 750
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.6910121440887451,
+      "eval_runtime": 4.9788,
+      "eval_samples_per_second": 20.085,
+      "eval_steps_per_second": 5.021,
+      "step": 750
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.927851979580375e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null