Uploaded checkpoint-25000

Files changed (5) hide show

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1728956bca0b9356ae29462b37ac34654e1484ea8ef2b11bb5247ae5eda898c8
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:04775532bd2e07bf11ebd2051856f8ff3cd14a3b1602476c8cd878dc55108be6
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e40cd6ba11d9a0ceaea16d7c58dce9d059685099ee9172ed66890d5851cdfc45
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:945240ab0506a0e4e3b0b5cf5c427a1d717779a803ea92962e3be770f3863ecd
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2411394ac968a82b73f6de27417329addc7551a6595e6f8e40c25c5f9f504b1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cc6d246693c4c7085670610c3cb24611d2a43f9c316a1c2833732f83270fcef
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:767cf16b1af6a1442d6e9081070ae709d5786da93d28d3f0bf69c41bc72162ac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:05c0c42e10d78b34ca2f7aaf9f72ec3bcc915774ed80b66aaaec9d2cfc880dd7
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5625,
   "eval_steps": 2500,
-  "global_step": 22500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -233,6 +233,35 @@
       "eval_samples_per_second": 4.959,
       "eval_steps_per_second": 4.959,
       "step": 22500
     }
   ],
   "logging_steps": 1000,
@@ -240,7 +269,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 3.6229783486464e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.625,
   "eval_steps": 2500,
+  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.959,
       "eval_steps_per_second": 4.959,
       "step": 22500
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 6.0290374755859375,
+      "learning_rate": 6.961739130434784e-06,
+      "loss": 1.3187,
+      "step": 23000
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.862253189086914,
+      "learning_rate": 6.382028985507247e-06,
+      "loss": 1.321,
+      "step": 24000
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.9182982444763184,
+      "learning_rate": 5.80231884057971e-06,
+      "loss": 1.3157,
+      "step": 25000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.2969852685928345,
+      "eval_runtime": 201.2648,
+      "eval_samples_per_second": 4.969,
+      "eval_steps_per_second": 4.969,
+      "step": 25000
     }
   ],
   "logging_steps": 1000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 4.025531498496e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null