Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e66a2dd8d3d2bbed1d876000dda0651212a54ba174dc9b3cd15e946adefaca8f
 size 36220072

 version https://git-lfs.github.com/spec/v1
+oid sha256:18a589fe75b1cb7c48c9d24426648033f29494dfeaa9e2884404f5c3059edb01
 size 36220072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75a9067022dd03df96d0f89703e9bc525a8489b35c83eb6ec203a92f4ee520a9
 size 18764180

 version https://git-lfs.github.com/spec/v1
+oid sha256:e142e7fb9925ec38c4eee3e4a83949d871daca0a27c1ac15384b7d7cd6729851
 size 18764180

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:652624241b697f848aa0b96d2618afbd1e071c5dbd47f895da652fcde2a22b64
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:717a07704aabb807e176e75648bbf4a543d5155658d3dcaafd5bdf835c1026a2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43da0688aca60835f4e18fa7e0f3cc099504828f82fd5dd994118be26b760a0f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:705cabf5cbc3a6ab0feb67c77b9b453d59efcc939ce90d310af96e621810f990
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04891370806668569,
   "eval_steps": 100,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -459,6 +459,154 @@
       "eval_samples_per_second": 25.29,
       "eval_steps_per_second": 12.65,
       "step": 300
     }
   ],
   "logging_steps": 5,
@@ -473,12 +621,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.808394390752461e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06521827742224759,
   "eval_steps": 100,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.29,
       "eval_steps_per_second": 12.65,
       "step": 300
+    },
+    {
+      "epoch": 0.04972893653446378,
+      "grad_norm": 0.19537951052188873,
+      "learning_rate": 1.3939877632809278e-05,
+      "loss": 0.7115,
+      "step": 305
+    },
+    {
+      "epoch": 0.050544165002241875,
+      "grad_norm": 0.19865351915359497,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 0.7565,
+      "step": 310
+    },
+    {
+      "epoch": 0.05135939347001997,
+      "grad_norm": 0.15447907149791718,
+      "learning_rate": 1.1269751908617277e-05,
+      "loss": 0.6733,
+      "step": 315
+    },
+    {
+      "epoch": 0.052174621937798066,
+      "grad_norm": 0.2033657431602478,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 0.7061,
+      "step": 320
+    },
+    {
+      "epoch": 0.05298985040557616,
+      "grad_norm": 0.16816996037960052,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 0.6847,
+      "step": 325
+    },
+    {
+      "epoch": 0.053805078873354256,
+      "grad_norm": 0.2432698756456375,
+      "learning_rate": 7.740495722810271e-06,
+      "loss": 0.7002,
+      "step": 330
+    },
+    {
+      "epoch": 0.05462030734113235,
+      "grad_norm": 0.24160774052143097,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.6765,
+      "step": 335
+    },
+    {
+      "epoch": 0.05543553580891045,
+      "grad_norm": 0.200673907995224,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 0.7059,
+      "step": 340
+    },
+    {
+      "epoch": 0.05625076427668854,
+      "grad_norm": 0.19187721610069275,
+      "learning_rate": 4.827478269480895e-06,
+      "loss": 0.6578,
+      "step": 345
+    },
+    {
+      "epoch": 0.05706599274446664,
+      "grad_norm": 0.23926900327205658,
+      "learning_rate": 4.001027817058789e-06,
+      "loss": 0.7351,
+      "step": 350
+    },
+    {
+      "epoch": 0.05788122121224473,
+      "grad_norm": 0.23108696937561035,
+      "learning_rate": 3.249187865729264e-06,
+      "loss": 0.6804,
+      "step": 355
+    },
+    {
+      "epoch": 0.05869644968002283,
+      "grad_norm": 0.20840156078338623,
+      "learning_rate": 2.573177902642726e-06,
+      "loss": 0.7588,
+      "step": 360
+    },
+    {
+      "epoch": 0.05951167814780092,
+      "grad_norm": 0.1447313278913498,
+      "learning_rate": 1.974094418431388e-06,
+      "loss": 0.6967,
+      "step": 365
+    },
+    {
+      "epoch": 0.06032690661557902,
+      "grad_norm": 0.22718173265457153,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 0.703,
+      "step": 370
+    },
+    {
+      "epoch": 0.06114213508335711,
+      "grad_norm": 0.19592629373073578,
+      "learning_rate": 1.0104673978866164e-06,
+      "loss": 0.73,
+      "step": 375
+    },
+    {
+      "epoch": 0.06195736355113521,
+      "grad_norm": 0.174259752035141,
+      "learning_rate": 6.474868681043578e-07,
+      "loss": 0.7086,
+      "step": 380
+    },
+    {
+      "epoch": 0.0627725920189133,
+      "grad_norm": 0.17397546768188477,
+      "learning_rate": 3.6455629509730136e-07,
+      "loss": 0.7023,
+      "step": 385
+    },
+    {
+      "epoch": 0.0635878204866914,
+      "grad_norm": 0.19760173559188843,
+      "learning_rate": 1.6213459328950352e-07,
+      "loss": 0.7668,
+      "step": 390
+    },
+    {
+      "epoch": 0.0644030489544695,
+      "grad_norm": 0.24907608330249786,
+      "learning_rate": 4.055009142152067e-08,
+      "loss": 0.7054,
+      "step": 395
+    },
+    {
+      "epoch": 0.06521827742224759,
+      "grad_norm": 0.35565948486328125,
+      "learning_rate": 0.0,
+      "loss": 0.701,
+      "step": 400
+    },
+    {
+      "epoch": 0.06521827742224759,
+      "eval_loss": 0.7286320924758911,
+      "eval_runtime": 101.9776,
+      "eval_samples_per_second": 25.329,
+      "eval_steps_per_second": 12.669,
+      "step": 400
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.729929899553587e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null