Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fff8279bb77132e2833de832f67906a775baee54ab10ec80f0dbb96e101ccb4
 size 456206152

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb6db351f0c80f8f82126e07adec731102fc61e107e0db157830cc3e77db69ac
 size 456206152

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bfa606bc966bfaf7f3c092c9ff27462b000fb5145045688827ae6c497159863
 size 912734562

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f24b79bf2809715b8773cf6e04c9baf68598d11c562d0e0fadfae7a887ecf05
 size 912734562

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56b9ac8742ad03a2d0efe0713eae99ad843290d613b15cd894aa7eb465e130b8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:870f2af524f9d33454f27f9eb4baba89643cbc2f7ebdb207a809e8885c929f6c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daa57dde97277e3ea991e32bd89d96081667572958c56d89a2fb6b0a6f8e1923
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fe7f1bf39a2a21ec6453d647a430741165accfbd545b7df5e312cd5fa0c7360
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.205906942486763,
   "best_model_checkpoint": "./output/checkpoint-4200",
-  "epoch": 1.1155008133860098,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 3.216,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2083289535600128e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.205906942486763,
   "best_model_checkpoint": "./output/checkpoint-4200",
+  "epoch": 1.1503602138043225,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 3.216,
       "step": 4800
+    },
+    {
+      "epoch": 1.1178247734138973,
+      "grad_norm": 2.346583127975464,
+      "learning_rate": 2.0378882491921159e-07,
+      "loss": 0.1859,
+      "step": 4810
+    },
+    {
+      "epoch": 1.1201487334417848,
+      "grad_norm": 1.2572951316833496,
+      "learning_rate": 1.8292507030715362e-07,
+      "loss": 0.1126,
+      "step": 4820
+    },
+    {
+      "epoch": 1.1224726934696723,
+      "grad_norm": 1.0438388586044312,
+      "learning_rate": 1.6318421365179055e-07,
+      "loss": 0.0975,
+      "step": 4830
+    },
+    {
+      "epoch": 1.1247966534975598,
+      "grad_norm": 0.8852001428604126,
+      "learning_rate": 1.4456706642242134e-07,
+      "loss": 0.0787,
+      "step": 4840
+    },
+    {
+      "epoch": 1.1271206135254475,
+      "grad_norm": 1.1605136394500732,
+      "learning_rate": 1.2707439389704867e-07,
+      "loss": 0.1461,
+      "step": 4850
+    },
+    {
+      "epoch": 1.129444573553335,
+      "grad_norm": 1.1466178894042969,
+      "learning_rate": 1.1070691513092563e-07,
+      "loss": 0.1473,
+      "step": 4860
+    },
+    {
+      "epoch": 1.1317685335812224,
+      "grad_norm": 1.5982699394226074,
+      "learning_rate": 9.546530292699863e-08,
+      "loss": 0.1059,
+      "step": 4870
+    },
+    {
+      "epoch": 1.13409249360911,
+      "grad_norm": 1.383434772491455,
+      "learning_rate": 8.135018380824921e-08,
+      "loss": 0.1232,
+      "step": 4880
+    },
+    {
+      "epoch": 1.1364164536369974,
+      "grad_norm": 1.9004546403884888,
+      "learning_rate": 6.836213799193497e-08,
+      "loss": 0.1246,
+      "step": 4890
+    },
+    {
+      "epoch": 1.1387404136648849,
+      "grad_norm": 1.5978798866271973,
+      "learning_rate": 5.6501699365750784e-08,
+      "loss": 0.1655,
+      "step": 4900
+    },
+    {
+      "epoch": 1.1410643736927724,
+      "grad_norm": 1.7356940507888794,
+      "learning_rate": 4.5769355465876964e-08,
+      "loss": 0.1046,
+      "step": 4910
+    },
+    {
+      "epoch": 1.14338833372066,
+      "grad_norm": 2.204031229019165,
+      "learning_rate": 3.616554745692946e-08,
+      "loss": 0.1255,
+      "step": 4920
+    },
+    {
+      "epoch": 1.1457122937485476,
+      "grad_norm": 1.2853163480758667,
+      "learning_rate": 2.7690670113848792e-08,
+      "loss": 0.1228,
+      "step": 4930
+    },
+    {
+      "epoch": 1.148036253776435,
+      "grad_norm": 2.2035746574401855,
+      "learning_rate": 2.034507180563916e-08,
+      "loss": 0.157,
+      "step": 4940
+    },
+    {
+      "epoch": 1.1503602138043225,
+      "grad_norm": 1.397234559059143,
+      "learning_rate": 1.4129054481082926e-08,
+      "loss": 0.1089,
+      "step": 4950
+    },
+    {
+      "epoch": 1.1503602138043225,
+      "eval_loss": 0.21408326923847198,
+      "eval_runtime": 155.5046,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 3.215,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2462147632641536e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null