Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:710ccb049fdaffaf8fce1380862bdac948ded73a52ed5ed9054c95634fde3e3a
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9ecb935822deefa465591ce47b7057fe71ccd90a32293e3b0275d3517110f64
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f171b131291604025ad57072b26d135af815ce58bbb9f25a807601e0e928a7d
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9887b56fbfafc91c0755c86a8c4decf8cff31d3d6504b0da4ebccc2d1bfe5ca
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:828a7e6e11ce6fb1a2356180954a5b20df0e28e99bfb6b79a96217eb20a3be28
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeda752780d4d1e2c8cc72596036685baf31024a594da9ff5aea8a1a54a0f80c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24213075060532688,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 3.1599,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.36319612590799033,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 3.1599,
       "step": 50
+    },
+    {
+      "epoch": 0.2469733656174334,
+      "grad_norm": 1.263146996498108,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 2.975,
+      "step": 51
+    },
+    {
+      "epoch": 0.25181598062953997,
+      "grad_norm": 3.4207539558410645,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 3.4015,
+      "step": 52
+    },
+    {
+      "epoch": 0.2566585956416465,
+      "grad_norm": 1.5546566247940063,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.9378,
+      "step": 53
+    },
+    {
+      "epoch": 0.26150121065375304,
+      "grad_norm": 2.120374917984009,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.9896,
+      "step": 54
+    },
+    {
+      "epoch": 0.26150121065375304,
+      "eval_loss": 3.084446668624878,
+      "eval_runtime": 18.926,
+      "eval_samples_per_second": 9.194,
+      "eval_steps_per_second": 1.162,
+      "step": 54
+    },
+    {
+      "epoch": 0.26634382566585957,
+      "grad_norm": 1.9824186563491821,
+      "learning_rate": 5e-05,
+      "loss": 3.0358,
+      "step": 55
+    },
+    {
+      "epoch": 0.2711864406779661,
+      "grad_norm": 1.7688870429992676,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 3.1711,
+      "step": 56
+    },
+    {
+      "epoch": 0.27602905569007263,
+      "grad_norm": 2.102198839187622,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 3.4714,
+      "step": 57
+    },
+    {
+      "epoch": 0.28087167070217917,
+      "grad_norm": 1.664321780204773,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.0841,
+      "step": 58
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 2.4341115951538086,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 3.2948,
+      "step": 59
+    },
+    {
+      "epoch": 0.29055690072639223,
+      "grad_norm": 0.9612340927124023,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.9165,
+      "step": 60
+    },
+    {
+      "epoch": 0.29539951573849876,
+      "grad_norm": 1.2795825004577637,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 3.1389,
+      "step": 61
+    },
+    {
+      "epoch": 0.30024213075060535,
+      "grad_norm": 0.9679549932479858,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.9197,
+      "step": 62
+    },
+    {
+      "epoch": 0.3050847457627119,
+      "grad_norm": 1.515199899673462,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.0526,
+      "step": 63
+    },
+    {
+      "epoch": 0.3050847457627119,
+      "eval_loss": 3.055881977081299,
+      "eval_runtime": 18.9316,
+      "eval_samples_per_second": 9.191,
+      "eval_steps_per_second": 1.162,
+      "step": 63
+    },
+    {
+      "epoch": 0.3099273607748184,
+      "grad_norm": 1.8831665515899658,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 3.1823,
+      "step": 64
+    },
+    {
+      "epoch": 0.31476997578692495,
+      "grad_norm": 1.6448265314102173,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 2.922,
+      "step": 65
+    },
+    {
+      "epoch": 0.3196125907990315,
+      "grad_norm": 1.7221674919128418,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 3.2304,
+      "step": 66
+    },
+    {
+      "epoch": 0.324455205811138,
+      "grad_norm": 1.9639180898666382,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 3.296,
+      "step": 67
+    },
+    {
+      "epoch": 0.32929782082324455,
+      "grad_norm": 1.215235710144043,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.6854,
+      "step": 68
+    },
+    {
+      "epoch": 0.3341404358353511,
+      "grad_norm": 2.490431785583496,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 3.0375,
+      "step": 69
+    },
+    {
+      "epoch": 0.3389830508474576,
+      "grad_norm": 1.9049839973449707,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 3.2666,
+      "step": 70
+    },
+    {
+      "epoch": 0.34382566585956414,
+      "grad_norm": 1.5522865056991577,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.8866,
+      "step": 71
+    },
+    {
+      "epoch": 0.3486682808716707,
+      "grad_norm": 1.4543166160583496,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 3.0314,
+      "step": 72
+    },
+    {
+      "epoch": 0.3486682808716707,
+      "eval_loss": 3.0360867977142334,
+      "eval_runtime": 18.9447,
+      "eval_samples_per_second": 9.185,
+      "eval_steps_per_second": 1.161,
+      "step": 72
+    },
+    {
+      "epoch": 0.35351089588377727,
+      "grad_norm": 3.4857094287872314,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.3805,
+      "step": 73
+    },
+    {
+      "epoch": 0.3583535108958838,
+      "grad_norm": 1.6463013887405396,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 3.0626,
+      "step": 74
+    },
+    {
+      "epoch": 0.36319612590799033,
+      "grad_norm": 1.6041393280029297,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 2.9819,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.56415462670336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null