Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93f3e6d381396d10d25b625d4074de5606db1718e6e8ce900b19478aaf78c7fc
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:030ebcbd6190510369fd14a6d2351d7cd06044cd760c6ce450faa4e8d5a2db48
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f99f3351ed4e172e51cfe3edc65001ed9087ae469905d87933ebf30840914844
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:44fd4c042a55442a8cd965d17957859c2a312af2384688bd66aa806701f022a5
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2075263e47fc7121e9f865303301b70835565aaeea2dc85c979279efb19f637e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa4a0d7641bc0d24963b889a4857db84e1bd9e2f14fc9e25d1185eedd76aa996
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88f32e4ddc73ba76317afcd8733f572d77d79ea270cc0c9b8a7564df32c08cce
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e72fb5f579004359e2a23ac6a3f0ab07c3d36199441111b9f436d8c5c4630f24
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f3e2fbd77240abf280d45d2271f4de3e6be885df175d4b3a462a7ec83703fe0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:37ac61841b843b8e1619b6432ce0dba4c2becbc80022333f2c6bac97423d8451
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8874a9c1c0a2844a79d6767b9927f3e6bfd5eb47640c1107318ca0893701300d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:feaaa84c177af04a27e2e7b6accb5a1305cadc938a25c5f18cab334c98356949
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.18441678192715538,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 10.614,
       "eval_steps_per_second": 2.76,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -212,12 +395,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.829010669142016e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.36883356385431076,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.614,
       "eval_steps_per_second": 2.76,
       "step": 25
+    },
+    {
+      "epoch": 0.1917934532042416,
+      "grad_norm": 105.9937515258789,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 60.4911,
+      "step": 26
+    },
+    {
+      "epoch": 0.1991701244813278,
+      "grad_norm": 97.24896240234375,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 64.2063,
+      "step": 27
+    },
+    {
+      "epoch": 0.206546795758414,
+      "grad_norm": 87.00945281982422,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 59.044,
+      "step": 28
+    },
+    {
+      "epoch": 0.21392346703550022,
+      "grad_norm": 68.81822204589844,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 54.7829,
+      "step": 29
+    },
+    {
+      "epoch": 0.22130013831258644,
+      "grad_norm": 66.47765350341797,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 57.293,
+      "step": 30
+    },
+    {
+      "epoch": 0.22867680958967265,
+      "grad_norm": 61.59925842285156,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 59.3897,
+      "step": 31
+    },
+    {
+      "epoch": 0.23605348086675887,
+      "grad_norm": 63.04508590698242,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 57.4565,
+      "step": 32
+    },
+    {
+      "epoch": 0.24343015214384509,
+      "grad_norm": 67.6324462890625,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 62.637,
+      "step": 33
+    },
+    {
+      "epoch": 0.2508068234209313,
+      "grad_norm": 70.709228515625,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 55.7258,
+      "step": 34
+    },
+    {
+      "epoch": 0.25818349469801755,
+      "grad_norm": 70.97118377685547,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 58.9086,
+      "step": 35
+    },
+    {
+      "epoch": 0.26556016597510373,
+      "grad_norm": 78.88076782226562,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 59.4616,
+      "step": 36
+    },
+    {
+      "epoch": 0.2729368372521899,
+      "grad_norm": 83.21874237060547,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 60.5497,
+      "step": 37
+    },
+    {
+      "epoch": 0.28031350852927617,
+      "grad_norm": 85.22425842285156,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 61.8729,
+      "step": 38
+    },
+    {
+      "epoch": 0.28769017980636236,
+      "grad_norm": 64.6729736328125,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 54.9777,
+      "step": 39
+    },
+    {
+      "epoch": 0.2950668510834486,
+      "grad_norm": 70.6922836303711,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 57.0679,
+      "step": 40
+    },
+    {
+      "epoch": 0.3024435223605348,
+      "grad_norm": 65.0792465209961,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 51.6961,
+      "step": 41
+    },
+    {
+      "epoch": 0.30982019363762103,
+      "grad_norm": 72.32954406738281,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 54.3178,
+      "step": 42
+    },
+    {
+      "epoch": 0.3171968649147072,
+      "grad_norm": 56.84644317626953,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 52.3778,
+      "step": 43
+    },
+    {
+      "epoch": 0.32457353619179347,
+      "grad_norm": 56.280426025390625,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 53.9694,
+      "step": 44
+    },
+    {
+      "epoch": 0.33195020746887965,
+      "grad_norm": 58.49018859863281,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 54.7155,
+      "step": 45
+    },
+    {
+      "epoch": 0.3393268787459659,
+      "grad_norm": 56.72845458984375,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 53.9432,
+      "step": 46
+    },
+    {
+      "epoch": 0.3467035500230521,
+      "grad_norm": 70.70610809326172,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 53.7918,
+      "step": 47
+    },
+    {
+      "epoch": 0.35408022130013833,
+      "grad_norm": 77.556884765625,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 54.0723,
+      "step": 48
+    },
+    {
+      "epoch": 0.3614568925772245,
+      "grad_norm": 77.79217529296875,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 59.7133,
+      "step": 49
+    },
+    {
+      "epoch": 0.36883356385431076,
+      "grad_norm": 116.21781921386719,
+      "learning_rate": 1e-05,
+      "loss": 58.3305,
+      "step": 50
+    },
+    {
+      "epoch": 0.36883356385431076,
+      "eval_loss": 1.7189912796020508,
+      "eval_runtime": 4.7421,
+      "eval_samples_per_second": 10.544,
+      "eval_steps_per_second": 2.741,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.658021338284032e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null