Uploaded checkpoint-27500

Files changed (5) hide show

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04775532bd2e07bf11ebd2051856f8ff3cd14a3b1602476c8cd878dc55108be6
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:897f70228feeb62b32fd6533e7ba27607cf9944dc36bd6809ba46a0584a0ed7c
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:945240ab0506a0e4e3b0b5cf5c427a1d717779a803ea92962e3be770f3863ecd
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:04781c011cca7ba2948408c4dd3d586cf703ca8e7a287bcf6828082753eb7cd9
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cc6d246693c4c7085670610c3cb24611d2a43f9c316a1c2833732f83270fcef
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f9a8fc7a3f9973ab500342b710266356bc15e460d8239c7ecffdd7f7b55c419
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05c0c42e10d78b34ca2f7aaf9f72ec3bcc915774ed80b66aaaec9d2cfc880dd7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:21d9826db2123e1159316c413f79587be4d18b11fad0191a070a36625b9fe97e
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.625,
   "eval_steps": 2500,
-  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -262,6 +262,28 @@
       "eval_samples_per_second": 4.969,
       "eval_steps_per_second": 4.969,
       "step": 25000
     }
   ],
   "logging_steps": 1000,
@@ -269,7 +291,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 4.025531498496e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6875,
   "eval_steps": 2500,
+  "global_step": 27500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.969,
       "eval_steps_per_second": 4.969,
       "step": 25000
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.6946563720703125,
+      "learning_rate": 5.222608695652175e-06,
+      "loss": 1.3161,
+      "step": 26000
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 10.966987609863281,
+      "learning_rate": 4.643478260869566e-06,
+      "loss": 1.3253,
+      "step": 27000
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 1.3072532415390015,
+      "eval_runtime": 201.6414,
+      "eval_samples_per_second": 4.959,
+      "eval_steps_per_second": 4.959,
+      "step": 27500
     }
   ],
   "logging_steps": 1000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 4.4280846483456e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null