Training in progress, step 11700, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11700/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11700/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11700/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11700/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:571e80588f8cd6752186a69103bb988fd53e5a9da6532e4c08ae6f01c4edd4fc
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:881aa3a04a05cc0ad7b4570e3a1809bc29a84224f8ed16048589deba3ee0865a
 size 29034840

last-checkpoint/global_step11700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:804853d323e099bcf1e75c95ffb29d6e0fd9a2002501f156ea256f63bf1dae07
+size 43429616

last-checkpoint/global_step11700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c947adbb62d2c1d8ea2696af5bf2c80b695ffb2832d8cbc71b6dcd8512eeafe
+size 43429616

last-checkpoint/global_step11700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4ea298c49f4d12e30c80e6b2d39be234ff5c51e05d61af40e9e880862d8395f
+size 43429616

last-checkpoint/global_step11700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e7dd8d6d20f853fecb814ebb020db5703fee02fb4ff88f14de55b0b5ff9e66d
+size 43429616

last-checkpoint/global_step11700/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2e29aee8e069a86e1259e89a2f0e200d762b8596185881166d137625eb03a6b
+size 637299

last-checkpoint/global_step11700/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b91be24d12b3a0df29602e6f76c4ce4f617efa1c84ae064e9241db52333242a1
+size 637171

last-checkpoint/global_step11700/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebee66cf4b9213b2d3e759939f0cb59240847dccae99a242320af4e987b06a85
+size 637171

last-checkpoint/global_step11700/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0033b4c7e5847c449d7ea637c9a42a263fa722b419d1e5e9f1efa5b20e094974
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11650~~


1	+ global_step11700

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:140dcfa0ccc3e7e4e75a20ea5574fb88aaa6f66403d175a54cdb44ba5a484202
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b33ed948779fdfaec4f9870e0e1167984f874cea68b1eb884873410fd2b029bd
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51df7ea8967ee21aaf5ecebba23dea00d0f4e9d07c0ee4b09665074da06c4271
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8298e05040cc732f2284b41bafae6e2295235210263596b37cd2e15920d9d84d
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:703ce5f91b22ed45270a54df2495ee6ed74c9f8706cd08d9901cf4e4b2776ec9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4e1232c69bc02f65d9f715d7088f2e691753736c7334d63d9c7da8dca90c15b
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e5302c66fc2f45ec32af6d0bdf0705fc6e7006f56e1c4176aa2683dd8a44a17
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4754c13130c2dbce34778d458b13b231b49de6ee3fd1f26cae887bb164bef7e4
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73873c5dc0739a1c9b404225926fb3c60340455b686793a1155923d4d88f997b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa8a45d0237bf6d8d467d6e2a41e9e7fc47e745a5380b1403902ab45d8c41098
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.4273069737527182,
   "eval_steps": 50,
-  "global_step": 11650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20744,11 +20744,100 @@
       "eval_steps_per_second": 0.754,
       "num_input_tokens_seen": 77884056,
       "step": 11650
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 77884056,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20763,7 +20852,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4885167416672256.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.4334323604177515,
   "eval_steps": 50,
+  "global_step": 11700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.754,
       "num_input_tokens_seen": 77884056,
       "step": 11650
+    },
+    {
+      "epoch": 1.4279195124192214,
+      "grad_norm": 1.385767865109891,
+      "learning_rate": 2.0749405119111086e-05,
+      "loss": 0.2166,
+      "num_input_tokens_seen": 77917736,
+      "step": 11655
+    },
+    {
+      "epoch": 1.4285320510857247,
+      "grad_norm": 1.181715061093167,
+      "learning_rate": 2.0708343372955417e-05,
+      "loss": 0.29,
+      "num_input_tokens_seen": 77951440,
+      "step": 11660
+    },
+    {
+      "epoch": 1.4291445897522281,
+      "grad_norm": 1.2509637127020838,
+      "learning_rate": 2.0667311682584927e-05,
+      "loss": 0.2354,
+      "num_input_tokens_seen": 77984592,
+      "step": 11665
+    },
+    {
+      "epoch": 1.4297571284187314,
+      "grad_norm": 1.1952630070074588,
+      "learning_rate": 2.0626310090101646e-05,
+      "loss": 0.199,
+      "num_input_tokens_seen": 78018336,
+      "step": 11670
+    },
+    {
+      "epoch": 1.4303696670852348,
+      "grad_norm": 1.289421137659356,
+      "learning_rate": 2.0585338637576802e-05,
+      "loss": 0.2172,
+      "num_input_tokens_seen": 78051872,
+      "step": 11675
+    },
+    {
+      "epoch": 1.430982205751738,
+      "grad_norm": 1.0855263584051233,
+      "learning_rate": 2.0544397367050673e-05,
+      "loss": 0.2054,
+      "num_input_tokens_seen": 78085520,
+      "step": 11680
+    },
+    {
+      "epoch": 1.4315947444182413,
+      "grad_norm": 1.2468690985988058,
+      "learning_rate": 2.0503486320532523e-05,
+      "loss": 0.2326,
+      "num_input_tokens_seen": 78118664,
+      "step": 11685
+    },
+    {
+      "epoch": 1.4322072830847448,
+      "grad_norm": 1.5679238415062051,
+      "learning_rate": 2.0462605540000668e-05,
+      "loss": 0.2424,
+      "num_input_tokens_seen": 78151408,
+      "step": 11690
+    },
+    {
+      "epoch": 1.432819821751248,
+      "grad_norm": 1.1426900959643231,
+      "learning_rate": 2.042175506740233e-05,
+      "loss": 0.2131,
+      "num_input_tokens_seen": 78184680,
+      "step": 11695
+    },
+    {
+      "epoch": 1.4334323604177515,
+      "grad_norm": 1.5320385814658846,
+      "learning_rate": 2.038093494465368e-05,
+      "loss": 0.2303,
+      "num_input_tokens_seen": 78217776,
+      "step": 11700
+    },
+    {
+      "epoch": 1.4334323604177515,
+      "eval_loss": 0.1379169523715973,
+      "eval_runtime": 19.8386,
+      "eval_samples_per_second": 3.024,
+      "eval_steps_per_second": 0.756,
+      "num_input_tokens_seen": 78217776,
+      "step": 11700
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 78217776,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4906098901385216.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null