Uploaded checkpoint-3000

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +153 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:529afbfd214e67f0cd6ed38c46a882f69bf7229384ab1df0ce60cb1f5e4f2965
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8153c1ec03df5594efef9482f36db85ac0366821320fba1ba8aae357d7d7188
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0cf9aa45dd205493bc09191810b39b693ad29080f038d14b0cea034dec265cb
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:48f7a51201319a8a132484b82cfc2452f1693df833826e55a13467cec23fc927
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6953db975b289c1d4893316fe618b5891abd5920bad079a04f9bc032f0d6a4f
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:89a6ecb1fb2aa6a3c4d8bd6fdae6076f15725b87d99a6f3bffd86e06ab5951a4
+size 14180

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78180a777fabc8bdc6e37d70a05529fbfe5bbeb093c49dd0124cc2bdeb32db78
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6266154930680661,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,156 @@
       "eval_samples_per_second": 5.199,
       "eval_steps_per_second": 5.199,
       "step": 2000
     }
   ],
   "logging_steps": 100,
@@ -314,7 +464,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 3.2204251987968e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9399232396020991,
   "eval_steps": 100,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.199,
       "eval_steps_per_second": 5.199,
       "step": 2000
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.1315308809280396,
+      "learning_rate": 1.288888888888889e-05,
+      "loss": 0.0523,
+      "step": 2100
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.019370460882782936,
+      "eval_runtime": 192.4625,
+      "eval_samples_per_second": 5.196,
+      "eval_steps_per_second": 5.196,
+      "step": 2100
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.0026583941653370857,
+      "learning_rate": 1.2444444444444446e-05,
+      "loss": 0.0553,
+      "step": 2200
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.01725778914988041,
+      "eval_runtime": 192.3261,
+      "eval_samples_per_second": 5.2,
+      "eval_steps_per_second": 5.2,
+      "step": 2200
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.004530389327555895,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0538,
+      "step": 2300
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.022032534703612328,
+      "eval_runtime": 192.3926,
+      "eval_samples_per_second": 5.198,
+      "eval_steps_per_second": 5.198,
+      "step": 2300
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.0024464745074510574,
+      "learning_rate": 1.1555555555555556e-05,
+      "loss": 0.0456,
+      "step": 2400
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.030184298753738403,
+      "eval_runtime": 192.2035,
+      "eval_samples_per_second": 5.203,
+      "eval_steps_per_second": 5.203,
+      "step": 2400
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.0019896693993359804,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 0.0499,
+      "step": 2500
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.01628696359694004,
+      "eval_runtime": 192.4383,
+      "eval_samples_per_second": 5.196,
+      "eval_steps_per_second": 5.196,
+      "step": 2500
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.001884658238850534,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.0493,
+      "step": 2600
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.025292817503213882,
+      "eval_runtime": 192.2059,
+      "eval_samples_per_second": 5.203,
+      "eval_steps_per_second": 5.203,
+      "step": 2600
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.04386008903384209,
+      "learning_rate": 1.0222222222222223e-05,
+      "loss": 0.0452,
+      "step": 2700
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.022591974586248398,
+      "eval_runtime": 192.8163,
+      "eval_samples_per_second": 5.186,
+      "eval_steps_per_second": 5.186,
+      "step": 2700
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.0019288246985524893,
+      "learning_rate": 9.777777777777779e-06,
+      "loss": 0.0438,
+      "step": 2800
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.0226399265229702,
+      "eval_runtime": 192.6394,
+      "eval_samples_per_second": 5.191,
+      "eval_steps_per_second": 5.191,
+      "step": 2800
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.056311335414648056,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0579,
+      "step": 2900
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.02137078531086445,
+      "eval_runtime": 192.3652,
+      "eval_samples_per_second": 5.198,
+      "eval_steps_per_second": 5.198,
+      "step": 2900
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.003287563333287835,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.036,
+      "step": 3000
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.015787875279784203,
+      "eval_runtime": 192.7182,
+      "eval_samples_per_second": 5.189,
+      "eval_steps_per_second": 5.189,
+      "step": 3000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 4.8306377981952e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null