Training in progress, step 11750, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11750/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11750/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11750/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11750/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:881aa3a04a05cc0ad7b4570e3a1809bc29a84224f8ed16048589deba3ee0865a
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:9254c5fd1e36a2001d6f3de3a14c6e1552a474dc98156451c9dd1fa5e83c4ecb
 size 29034840

last-checkpoint/global_step11750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:213cde885872d87e18c7f9ca589aa569cb0ab4cc3e20d97a4246757632bf1cfe
+size 43429616

last-checkpoint/global_step11750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:703dfd4939ab17e193c13d55cfd512f1584459e10d62c527b6d436b15b757f0b
+size 43429616

last-checkpoint/global_step11750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70a1cd17642a2b3ae225bbf515a92df5e8ec096b336f79814e25ce3bcfd83961
+size 43429616

last-checkpoint/global_step11750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebe71dbc175d1acb55716114263bc7d3174a2109d41a5885918b04878d6022f2
+size 43429616

last-checkpoint/global_step11750/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92aadb1c39535538e0836a7bc8285e18cefc590b3a998c1cba594000c6cabcd7
+size 637299

last-checkpoint/global_step11750/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb3893ed371f88c27063051ce9b588102e838eabb53f34cd862728458290e548
+size 637171

last-checkpoint/global_step11750/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99922c33ea6f0709dfd29f3818249c4af91c5a2f455aa4f418a61bccf3330c29
+size 637171

last-checkpoint/global_step11750/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0ef362bf31d0dfb1abcc1e313f03deb2d25865db31e2a0b3b89b830fd270b3a
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11700~~


1	+ global_step11750

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b33ed948779fdfaec4f9870e0e1167984f874cea68b1eb884873410fd2b029bd
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c2239de6b0a8a7c38ea9b14c315c93c56698b7a6a63b466eda0ccae102ad7d
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8298e05040cc732f2284b41bafae6e2295235210263596b37cd2e15920d9d84d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8c8a5c5e52a11119fb852fcd71f5af7ac70a5953317669655785000f83240fe
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4e1232c69bc02f65d9f715d7088f2e691753736c7334d63d9c7da8dca90c15b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e027846b2398ff2037e24a79062e341501a3bb99a90812daf6474f54c1faccce
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4754c13130c2dbce34778d458b13b231b49de6ee3fd1f26cae887bb164bef7e4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:58f5d5f12209364154cff8e64dd3365589f1a45b55abcd416143e7501212069f
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa8a45d0237bf6d8d467d6e2a41e9e7fc47e745a5380b1403902ab45d8c41098
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fc63ad6a415b118874ca08eae048720f7c0233d5ddd2f00bc26edb0db229ace
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.4334323604177515,
   "eval_steps": 50,
-  "global_step": 11700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20833,11 +20833,100 @@
       "eval_steps_per_second": 0.756,
       "num_input_tokens_seen": 78217776,
       "step": 11700
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 78217776,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20852,7 +20941,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4906098901385216.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.4395577470827847,
   "eval_steps": 50,
+  "global_step": 11750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.756,
       "num_input_tokens_seen": 78217776,
       "step": 11700
+    },
+    {
+      "epoch": 1.4340448990842547,
+      "grad_norm": 1.4326590047864796,
+      "learning_rate": 2.0340145213639655e-05,
+      "loss": 0.2127,
+      "num_input_tokens_seen": 78251376,
+      "step": 11705
+    },
+    {
+      "epoch": 1.434657437750758,
+      "grad_norm": 1.551965243090594,
+      "learning_rate": 2.0299385916214116e-05,
+      "loss": 0.2821,
+      "num_input_tokens_seen": 78284456,
+      "step": 11710
+    },
+    {
+      "epoch": 1.4352699764172614,
+      "grad_norm": 1.4266904783817593,
+      "learning_rate": 2.0258657094199597e-05,
+      "loss": 0.2111,
+      "num_input_tokens_seen": 78318256,
+      "step": 11715
+    },
+    {
+      "epoch": 1.4358825150837646,
+      "grad_norm": 1.4622832329237696,
+      "learning_rate": 2.0217958789387446e-05,
+      "loss": 0.1973,
+      "num_input_tokens_seen": 78351968,
+      "step": 11720
+    },
+    {
+      "epoch": 1.436495053750268,
+      "grad_norm": 1.2767914245182206,
+      "learning_rate": 2.017729104353763e-05,
+      "loss": 0.2047,
+      "num_input_tokens_seen": 78385944,
+      "step": 11725
+    },
+    {
+      "epoch": 1.4371075924167713,
+      "grad_norm": 1.0109017464140821,
+      "learning_rate": 2.0136653898378805e-05,
+      "loss": 0.2477,
+      "num_input_tokens_seen": 78418960,
+      "step": 11730
+    },
+    {
+      "epoch": 1.4377201310832746,
+      "grad_norm": 1.4595388451625722,
+      "learning_rate": 2.009604739560823e-05,
+      "loss": 0.215,
+      "num_input_tokens_seen": 78452624,
+      "step": 11735
+    },
+    {
+      "epoch": 1.438332669749778,
+      "grad_norm": 1.6265969189605476,
+      "learning_rate": 2.0055471576891672e-05,
+      "loss": 0.2267,
+      "num_input_tokens_seen": 78485592,
+      "step": 11740
+    },
+    {
+      "epoch": 1.4389452084162813,
+      "grad_norm": 1.6223135458613367,
+      "learning_rate": 2.0014926483863466e-05,
+      "loss": 0.2245,
+      "num_input_tokens_seen": 78519176,
+      "step": 11745
+    },
+    {
+      "epoch": 1.4395577470827847,
+      "grad_norm": 1.4066738070341533,
+      "learning_rate": 1.99744121581264e-05,
+      "loss": 0.2207,
+      "num_input_tokens_seen": 78552600,
+      "step": 11750
+    },
+    {
+      "epoch": 1.4395577470827847,
+      "eval_loss": 0.07964655011892319,
+      "eval_runtime": 19.3924,
+      "eval_samples_per_second": 3.094,
+      "eval_steps_per_second": 0.773,
+      "num_input_tokens_seen": 78552600,
+      "step": 11750
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 78552600,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4927092224294912.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null