Uploaded checkpoint-30000

Files changed (5) hide show

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:897f70228feeb62b32fd6533e7ba27607cf9944dc36bd6809ba46a0584a0ed7c
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:69e556f93d429e40e699d986989b577cb8c22804f241827fcd7d0cce4c58fb33
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04781c011cca7ba2948408c4dd3d586cf703ca8e7a287bcf6828082753eb7cd9
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd9579d4caf7f2a052e069804a5114ee1cfb406fc8c83bf59d9dd95fdab911ed
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f9a8fc7a3f9973ab500342b710266356bc15e460d8239c7ecffdd7f7b55c419
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8b0827c468c23f41a6083f7fc3e6f3ebf585bd2815b57f652696125baed11e8
+size 14180

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21d9826db2123e1159316c413f79587be4d18b11fad0191a070a36625b9fe97e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:89a8f997004f1eea51654cbeb6b0eb881175b2d1ad913ffc6dcbce16821f7297
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6875,
   "eval_steps": 2500,
-  "global_step": 27500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -284,6 +284,35 @@
       "eval_samples_per_second": 4.959,
       "eval_steps_per_second": 4.959,
       "step": 27500
     }
   ],
   "logging_steps": 1000,
@@ -291,7 +320,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 4.4280846483456e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.75,
   "eval_steps": 2500,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.959,
       "eval_steps_per_second": 4.959,
       "step": 27500
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 14.545968055725098,
+      "learning_rate": 4.06376811594203e-06,
+      "loss": 1.3143,
+      "step": 28000
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 9.552095413208008,
+      "learning_rate": 3.4840579710144927e-06,
+      "loss": 1.3042,
+      "step": 29000
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.7875924110412598,
+      "learning_rate": 2.905507246376812e-06,
+      "loss": 1.2942,
+      "step": 30000
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 1.272377848625183,
+      "eval_runtime": 201.643,
+      "eval_samples_per_second": 4.959,
+      "eval_steps_per_second": 4.959,
+      "step": 30000
     }
   ],
   "logging_steps": 1000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 4.8306377981952e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null