Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f891f40fb2ba4dba662155e9c209757afe0eb39317ecf39d167268a0aeeaf1a1
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:c39fa09a1ac8a25c9195401febe4b753e2d5df9eea7d17f49468f3b8927e6f3d
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4cbdd139eb1fa366f73a75fb6647460975c181a7eb365e830a7670990d5ffde
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:4689598c0939540f71b8857f12e0ac0b32e1d6014c5e393050aaadecf395fd30
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39105069e92a6105e3c069a59e15763733583ddda0c4970506efe84e28835d39
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f136c199f5a732675f6a9f736544ebc5602c94619f3b8e1d710d38a48909063
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0030475726084173956,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.0,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.081927892389069e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.004571358912626093,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.0,
       "step": 50
+    },
+    {
+      "epoch": 0.0031085240605857435,
+      "grad_norm": 0.00022381207963917404,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.0031694755127540915,
+      "grad_norm": 0.0013293400406837463,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.0032304269649224395,
+      "grad_norm": 0.00028961049974896014,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.003291378417090787,
+      "grad_norm": 0.00037395075196400285,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.003291378417090787,
+      "eval_loss": 0.0012881968868896365,
+      "eval_runtime": 2103.4377,
+      "eval_samples_per_second": 6.568,
+      "eval_steps_per_second": 0.821,
+      "step": 54
+    },
+    {
+      "epoch": 0.003352329869259135,
+      "grad_norm": 0.000291243166429922,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.003413281321427483,
+      "grad_norm": 0.00040752225322648883,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.003474232773595831,
+      "grad_norm": 0.0002688828099053353,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.003535184225764179,
+      "grad_norm": 0.0007541452068835497,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.003596135677932527,
+      "grad_norm": 0.0003042304306291044,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.003657087130100875,
+      "grad_norm": 0.0003237078490201384,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.0037180385822692228,
+      "grad_norm": 0.0005371847655624151,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.0037789900344375703,
+      "grad_norm": 0.000351637921994552,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.0038399414866059182,
+      "grad_norm": 0.00044268937199376523,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.0038399414866059182,
+      "eval_loss": 0.0018626422388479114,
+      "eval_runtime": 2102.9059,
+      "eval_samples_per_second": 6.57,
+      "eval_steps_per_second": 0.821,
+      "step": 63
+    },
+    {
+      "epoch": 0.003900892938774266,
+      "grad_norm": 0.0018635762389749289,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.003961844390942614,
+      "grad_norm": 0.000782185175921768,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.004022795843110962,
+      "grad_norm": 0.001013163710013032,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.00408374729527931,
+      "grad_norm": 0.0011713090352714062,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.004144698747447658,
+      "grad_norm": 0.0005544234882108867,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.004205650199616006,
+      "grad_norm": 0.0009957266738638282,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.004266601651784354,
+      "grad_norm": 0.0022838555742055178,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.004327553103952702,
+      "grad_norm": 0.0009302516118623316,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.00438850455612105,
+      "grad_norm": 0.0004281099245417863,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.00438850455612105,
+      "eval_loss": 0.002097652992233634,
+      "eval_runtime": 2107.927,
+      "eval_samples_per_second": 6.554,
+      "eval_steps_per_second": 0.819,
+      "step": 72
+    },
+    {
+      "epoch": 0.004449456008289398,
+      "grad_norm": 0.012079447507858276,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.004510407460457745,
+      "grad_norm": 0.0004687201580964029,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.004571358912626093,
+      "grad_norm": 0.0004222751595079899,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.789816477384704e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null