Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04005d178946f4ff7d0214869f7814488803d0ffc850cbdd7db6851475ab4ed5
 size 27153960

 version https://git-lfs.github.com/spec/v1
+oid sha256:297ab82b836fa5b55c201d0a7ca06f1dffbc291ba047df044561205ab95b1c84
 size 27153960

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5a710017fa862aa99e7577e938b739399b05322bf73a380d604d130b0fa9077
 size 54405050

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c080a26c7f30520ba9ef6fe9779cfdce6184f9994c96e007dc5076a7f935753
 size 54405050

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8adb3fc4b70728f018172d8175fb3238d39295c4ddc6efe18759accf385369a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b0f9c7671c970b26ba6f98ea514b797425b5d51a0dfc38fad6ee6693f15f973
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49ca3a04832e5fec622917c9a2efc2615ce4089a84654b9c27bfd3b14a4bc8c7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:be1548c96df54e881e0699c9d10c41ca21de42d962722257f4ba48a6d70e209e
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fe0c2057d8b2fa4d21620e598a4aab1134e38af64674aafdf3bb205696dc099
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:177a0994b4eccdb1cf483b8c23a889a710c12a39ac0dd7df4f9bd0761e2d7f65
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3ada3bbd52a9e563a15f614a6a129461e63f5fd02b4310d62c568ca3eca4e3f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:361b7ef2e0761a7100666fc608924d55ae444769f93910455de6c1390507a46a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.012242149721491093,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 175.947,
       "eval_steps_per_second": 45.746,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -212,12 +395,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5688639321276416.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.024484299442982187,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.947,
       "eval_steps_per_second": 45.746,
       "step": 25
+    },
+    {
+      "epoch": 0.012731835710350737,
+      "grad_norm": 0.7631580233573914,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 2.1083,
+      "step": 26
+    },
+    {
+      "epoch": 0.01322152169921038,
+      "grad_norm": 0.5331470966339111,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 2.1472,
+      "step": 27
+    },
+    {
+      "epoch": 0.013711207688070026,
+      "grad_norm": 0.35138264298439026,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 2.2704,
+      "step": 28
+    },
+    {
+      "epoch": 0.01420089367692967,
+      "grad_norm": 0.3977912962436676,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 2.3569,
+      "step": 29
+    },
+    {
+      "epoch": 0.014690579665789313,
+      "grad_norm": 0.3736828863620758,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 2.2964,
+      "step": 30
+    },
+    {
+      "epoch": 0.015180265654648957,
+      "grad_norm": 0.43734219670295715,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 2.3422,
+      "step": 31
+    },
+    {
+      "epoch": 0.0156699516435086,
+      "grad_norm": 0.44669973850250244,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 2.4332,
+      "step": 32
+    },
+    {
+      "epoch": 0.016159637632368246,
+      "grad_norm": 0.537625789642334,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 2.3066,
+      "step": 33
+    },
+    {
+      "epoch": 0.01664932362122789,
+      "grad_norm": 0.5136464238166809,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 2.355,
+      "step": 34
+    },
+    {
+      "epoch": 0.017139009610087533,
+      "grad_norm": 0.5538141131401062,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 2.3112,
+      "step": 35
+    },
+    {
+      "epoch": 0.017628695598947176,
+      "grad_norm": 0.6463606357574463,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 2.4078,
+      "step": 36
+    },
+    {
+      "epoch": 0.01811838158780682,
+      "grad_norm": 0.7594169974327087,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 2.3715,
+      "step": 37
+    },
+    {
+      "epoch": 0.018608067576666464,
+      "grad_norm": 0.6575441956520081,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 2.1358,
+      "step": 38
+    },
+    {
+      "epoch": 0.019097753565526107,
+      "grad_norm": 0.5268840789794922,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 2.0396,
+      "step": 39
+    },
+    {
+      "epoch": 0.01958743955438575,
+      "grad_norm": 0.4376309812068939,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 2.2036,
+      "step": 40
+    },
+    {
+      "epoch": 0.020077125543245394,
+      "grad_norm": 0.36531275510787964,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 2.2019,
+      "step": 41
+    },
+    {
+      "epoch": 0.020566811532105038,
+      "grad_norm": 0.3618994355201721,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 2.258,
+      "step": 42
+    },
+    {
+      "epoch": 0.02105649752096468,
+      "grad_norm": 0.40304815769195557,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 2.238,
+      "step": 43
+    },
+    {
+      "epoch": 0.021546183509824325,
+      "grad_norm": 0.42903730273246765,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 2.26,
+      "step": 44
+    },
+    {
+      "epoch": 0.02203586949868397,
+      "grad_norm": 0.4184610843658447,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 2.2523,
+      "step": 45
+    },
+    {
+      "epoch": 0.022525555487543612,
+      "grad_norm": 0.4531133472919464,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 2.3025,
+      "step": 46
+    },
+    {
+      "epoch": 0.023015241476403256,
+      "grad_norm": 0.4802965819835663,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 2.2356,
+      "step": 47
+    },
+    {
+      "epoch": 0.0235049274652629,
+      "grad_norm": 0.585109531879425,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 2.1812,
+      "step": 48
+    },
+    {
+      "epoch": 0.023994613454122543,
+      "grad_norm": 0.6771403551101685,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 2.3029,
+      "step": 49
+    },
+    {
+      "epoch": 0.024484299442982187,
+      "grad_norm": 1.08399498462677,
+      "learning_rate": 1e-05,
+      "loss": 2.6077,
+      "step": 50
+    },
+    {
+      "epoch": 0.024484299442982187,
+      "eval_loss": 2.2547683715820312,
+      "eval_runtime": 0.2852,
+      "eval_samples_per_second": 175.287,
+      "eval_steps_per_second": 45.575,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.1375501499170816e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null