ToastyPigeon commited on Jan 9

Commit

9ee62ee

verified ·

1 Parent(s): 0431096

Training in progress, step 273, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step273/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step273/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +284 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1990c2d68f0e2e44d28f9a5ee2378d9cee7f403a3934fca2a1cb4385e8f66fc6
 size 550593856

 version https://git-lfs.github.com/spec/v1
+oid sha256:a53baa7fb5e46eac3e86e83348e470e62e4cdc1131a11ff07d700e96aad64796
 size 550593856

last-checkpoint/global_step273/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93a239c8f5eeffc87a3b8e84887a8e05754968385fd63a5d952453946899e284
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd156f4f78904d80425ea079796a91220c0b68adb7c6e56666df77f5e7f8b0de
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34f55e9e2f19392698a61fe9dab747c965188add3ca8fec5c6dceab18965c9c1
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ed25b7b5f856c355e47d3ef5260dbe1eea9cd39bf20021965f1afdc484fa415
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cb8d8735dd5765734ff469a79c7e07d58d7fa443834ecf1894859683a69e988
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bea816c3f2a08032ef80be20f31cbe8d5da66d4d6f61409b08fedf474ef878b
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a3e5bbecc6e372d25f4f43f2a7df3c06ad9c581bd6f4fae1bf283e553e6c724
+size 243591168

last-checkpoint/global_step273/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:307d63839128477e9f83d4c253d822d531bd8b174e46071c70f491619a38a8d6
+size 243591168

last-checkpoint/global_step273/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72123919b4ca6ac83b03bad1a1a6a6f896c387dbb5c8e566d9b98a18293024a8
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed9e7ba5ee59bbce7b1d7a8369741b614c14992dc1f12810792d6fe8248cad3f
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:943702d997113425be1f61993218522594c7d4297944a57a576aed739483a681
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:febb76d47320eb49ed6bcaa76d04f022e91034f9d1abf3336cc1fe70cd1c8d34
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6884ccf280ecc14775a811ad4b58c64cda56b638b1380f3ede0ae967c22dd065
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0955da2b84b95532c43e619af600459d2cce507a9d146c6e1d2cfc12696c3550
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:715cc62fb431d81ab58761b15cb5630539e18a58a338cc4d1e7cebf7023bd47d
+size 211435686

last-checkpoint/global_step273/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e573d32f57b269bdeb3b3d8e102ab36d5da34a30c184b2e90e1a4da387671078
+size 211435686

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step234~~


1	+ global_step273

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:134a1f059f52a9bdf9df082d6896f7d8b5760d4d52176fa82dfbe01a23fb87c9
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa5a01ac495960a4bdf4e8e3d767478ddeae6f6e48a0785c78a39b02d9f03944
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92a620eacd8f4cd828cfb1aebe552d5e8dae8821e0f453da23766cd3cb0fc809
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:94a997267e4e5e22741250c431d4119f75a51dd8d32f691af3d6ddfcdd72fb96
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a162c9df7047160908baee7101046d35e92bb1a1356ac6f65730b0b0abb6d169
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:99e4fe0ad3a692bdc4f5dd7af7febcbaf52826f91569d816d162d70c3d5aae57
 size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f9712a619d6aa46296d8a883ec08e9d1c3e69b8f47bb56e4a362c61af346d5c
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5efce2552c4a4695a29bf25d9f63b6643d4a8ee75838c6e78f968cfeb77ced6
 size 15920

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c3be75b246d7517b2ce93c5ea356d84fa1126631a1aa584e4174a6a45fb01f8
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:82a6db6f4ce94d4baff585d4bf8aaabf2351a80d5b9ea39e0f01f54a07f8cc7d
 size 15920

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2cd295e7ee2a480367b2e688de7637a1d212d602ed9ac1e83ce463138ef7d19
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:098920af0acbca97e22a72d86dd88a3b5fb1ee4a312e7aa98369fc3e28978653
 size 15920

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:393dcff3659995d822f8e1744b724bc57b6986bec073c96de798eb021d6f55e4
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e14f5793871a938571a938379ee73acad2b8bbc41260bdbfeeef799929af076
 size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f042c259ed788084e3425e22e2364144fa3d72b73d1f475b32393e7b99cb156c
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:c70ca795c779e38cba23bef63d56eb87a6d53fdb68031316ac8452b61a60aa3b
 size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:366054962264279f0b5e5302d033c378e5387597c8a92a96d8dbf2d43d872448
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f96a436204d535377b5df836584c2a61915d36dc9059dc3240944efd6133bb4f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.609375,
   "eval_steps": 39,
-  "global_step": 234,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1701,6 +1701,287 @@
       "eval_samples_per_second": 1.225,
       "eval_steps_per_second": 0.153,
       "step": 234
     }
   ],
   "logging_steps": 1,
@@ -1720,7 +2001,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 77355313790976.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7109375,
   "eval_steps": 39,
+  "global_step": 273,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.225,
       "eval_steps_per_second": 0.153,
       "step": 234
+    },
+    {
+      "epoch": 0.6119791666666666,
+      "grad_norm": 0.15343655698839206,
+      "learning_rate": 4.235591624451763e-05,
+      "loss": 2.5605,
+      "step": 235
+    },
+    {
+      "epoch": 0.6145833333333334,
+      "grad_norm": 0.14304569592672528,
+      "learning_rate": 4.198365462085446e-05,
+      "loss": 2.5812,
+      "step": 236
+    },
+    {
+      "epoch": 0.6171875,
+      "grad_norm": 0.15320835548074707,
+      "learning_rate": 4.161236257651587e-05,
+      "loss": 2.5275,
+      "step": 237
+    },
+    {
+      "epoch": 0.6197916666666666,
+      "grad_norm": 0.15452569712518102,
+      "learning_rate": 4.1242067768811134e-05,
+      "loss": 2.4707,
+      "step": 238
+    },
+    {
+      "epoch": 0.6223958333333334,
+      "grad_norm": 0.16320750887974791,
+      "learning_rate": 4.0872797780765946e-05,
+      "loss": 2.3996,
+      "step": 239
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 0.14194397858802227,
+      "learning_rate": 4.0504580119067933e-05,
+      "loss": 2.2431,
+      "step": 240
+    },
+    {
+      "epoch": 0.6276041666666666,
+      "grad_norm": 0.1437781011206105,
+      "learning_rate": 4.01374422120175e-05,
+      "loss": 2.3929,
+      "step": 241
+    },
+    {
+      "epoch": 0.6302083333333334,
+      "grad_norm": 0.14383943780586664,
+      "learning_rate": 3.977141140748484e-05,
+      "loss": 2.3989,
+      "step": 242
+    },
+    {
+      "epoch": 0.6328125,
+      "grad_norm": 0.16948819133813695,
+      "learning_rate": 3.94065149708728e-05,
+      "loss": 2.4256,
+      "step": 243
+    },
+    {
+      "epoch": 0.6354166666666666,
+      "grad_norm": 0.14755837584042042,
+      "learning_rate": 3.904278008308589e-05,
+      "loss": 2.2711,
+      "step": 244
+    },
+    {
+      "epoch": 0.6380208333333334,
+      "grad_norm": 0.15519908616035058,
+      "learning_rate": 3.868023383850556e-05,
+      "loss": 2.4623,
+      "step": 245
+    },
+    {
+      "epoch": 0.640625,
+      "grad_norm": 0.16021538951276384,
+      "learning_rate": 3.831890324297197e-05,
+      "loss": 2.3857,
+      "step": 246
+    },
+    {
+      "epoch": 0.6432291666666666,
+      "grad_norm": 0.15886505001684953,
+      "learning_rate": 3.795881521177236e-05,
+      "loss": 2.5196,
+      "step": 247
+    },
+    {
+      "epoch": 0.6458333333333334,
+      "grad_norm": 0.16005244689800305,
+      "learning_rate": 3.7599996567636156e-05,
+      "loss": 2.406,
+      "step": 248
+    },
+    {
+      "epoch": 0.6484375,
+      "grad_norm": 0.1470078515999776,
+      "learning_rate": 3.724247403873694e-05,
+      "loss": 2.4975,
+      "step": 249
+    },
+    {
+      "epoch": 0.6510416666666666,
+      "grad_norm": 0.1560311928142992,
+      "learning_rate": 3.688627425670147e-05,
+      "loss": 2.374,
+      "step": 250
+    },
+    {
+      "epoch": 0.6536458333333334,
+      "grad_norm": 0.15349615074542047,
+      "learning_rate": 3.653142375462596e-05,
+      "loss": 2.4155,
+      "step": 251
+    },
+    {
+      "epoch": 0.65625,
+      "grad_norm": 0.20641136824203335,
+      "learning_rate": 3.6177948965099585e-05,
+      "loss": 2.4358,
+      "step": 252
+    },
+    {
+      "epoch": 0.6588541666666666,
+      "grad_norm": 0.14326347914064022,
+      "learning_rate": 3.582587621823558e-05,
+      "loss": 2.4528,
+      "step": 253
+    },
+    {
+      "epoch": 0.6614583333333334,
+      "grad_norm": 0.13097442902507145,
+      "learning_rate": 3.547523173970989e-05,
+      "loss": 2.3682,
+      "step": 254
+    },
+    {
+      "epoch": 0.6640625,
+      "grad_norm": 0.14938841182330287,
+      "learning_rate": 3.51260416488077e-05,
+      "loss": 2.5273,
+      "step": 255
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.1532472206020292,
+      "learning_rate": 3.477833195647773e-05,
+      "loss": 2.5301,
+      "step": 256
+    },
+    {
+      "epoch": 0.6692708333333334,
+      "grad_norm": 0.12783586158700921,
+      "learning_rate": 3.443212856339481e-05,
+      "loss": 2.3279,
+      "step": 257
+    },
+    {
+      "epoch": 0.671875,
+      "grad_norm": 0.15547617846106007,
+      "learning_rate": 3.408745725803042e-05,
+      "loss": 2.4209,
+      "step": 258
+    },
+    {
+      "epoch": 0.6744791666666666,
+      "grad_norm": 0.13531260542176757,
+      "learning_rate": 3.3744343714731835e-05,
+      "loss": 2.3595,
+      "step": 259
+    },
+    {
+      "epoch": 0.6770833333333334,
+      "grad_norm": 0.1488109854224464,
+      "learning_rate": 3.3402813491809623e-05,
+      "loss": 2.2631,
+      "step": 260
+    },
+    {
+      "epoch": 0.6796875,
+      "grad_norm": 0.1753652780376821,
+      "learning_rate": 3.3062892029633817e-05,
+      "loss": 2.4748,
+      "step": 261
+    },
+    {
+      "epoch": 0.6822916666666666,
+      "grad_norm": 0.1593205802273226,
+      "learning_rate": 3.272460464873884e-05,
+      "loss": 2.4484,
+      "step": 262
+    },
+    {
+      "epoch": 0.6848958333333334,
+      "grad_norm": 0.1401885264986934,
+      "learning_rate": 3.238797654793752e-05,
+      "loss": 2.4234,
+      "step": 263
+    },
+    {
+      "epoch": 0.6875,
+      "grad_norm": 0.15910838717602993,
+      "learning_rate": 3.205303280244389e-05,
+      "loss": 2.4679,
+      "step": 264
+    },
+    {
+      "epoch": 0.6901041666666666,
+      "grad_norm": 0.16179488061734165,
+      "learning_rate": 3.1719798362005444e-05,
+      "loss": 2.4883,
+      "step": 265
+    },
+    {
+      "epoch": 0.6927083333333334,
+      "grad_norm": 0.15848452909780508,
+      "learning_rate": 3.138829804904464e-05,
+      "loss": 2.4583,
+      "step": 266
+    },
+    {
+      "epoch": 0.6953125,
+      "grad_norm": 0.16307212504652477,
+      "learning_rate": 3.105855655680986e-05,
+      "loss": 2.3327,
+      "step": 267
+    },
+    {
+      "epoch": 0.6979166666666666,
+      "grad_norm": 0.1467535420565889,
+      "learning_rate": 3.073059844753604e-05,
+      "loss": 2.4382,
+      "step": 268
+    },
+    {
+      "epoch": 0.7005208333333334,
+      "grad_norm": 0.14201414432531673,
+      "learning_rate": 3.0404448150615063e-05,
+      "loss": 2.3501,
+      "step": 269
+    },
+    {
+      "epoch": 0.703125,
+      "grad_norm": 0.1549923554458448,
+      "learning_rate": 3.0080129960776017e-05,
+      "loss": 2.396,
+      "step": 270
+    },
+    {
+      "epoch": 0.7057291666666666,
+      "grad_norm": 0.1524034184779795,
+      "learning_rate": 2.9757668036275477e-05,
+      "loss": 2.2784,
+      "step": 271
+    },
+    {
+      "epoch": 0.7083333333333334,
+      "grad_norm": 0.16256677012412982,
+      "learning_rate": 2.9437086397097995e-05,
+      "loss": 2.3027,
+      "step": 272
+    },
+    {
+      "epoch": 0.7109375,
+      "grad_norm": 0.15633557288864075,
+      "learning_rate": 2.9118408923166875e-05,
+      "loss": 2.5473,
+      "step": 273
+    },
+    {
+      "epoch": 0.7109375,
+      "eval_loss": 2.3996334075927734,
+      "eval_runtime": 65.6177,
+      "eval_samples_per_second": 1.219,
+      "eval_steps_per_second": 0.152,
+      "step": 273
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 90247866089472.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null