Training in progress, step 10950, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10950/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10950/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10950/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10950/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10950/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10950/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10950/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10950/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ff0736f0881487b8244d2133fef7cb88a6ac691a37848cb82a476493d6efeee
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:98c036d65163318c461386add3e9a6b55936c9a9141b7e5a1e65f6def18c2199
 size 29034840

last-checkpoint/global_step10950/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87fd1c41ae097254550e929ca23527bdc8d2fe3073be20f2de7b1f59318a9c96
+size 43429616

last-checkpoint/global_step10950/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8cae2538967d347079863afb5a69647232abbcf4e31739b09681699fa45b1a9
+size 43429616

last-checkpoint/global_step10950/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09b3f0d978a51a7550c19cd04d98d31279de7625c20045fde35d12d5e9d7db8d
+size 43429616

last-checkpoint/global_step10950/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48d89c85a3cc1699bdd64b25d5b44a50be07c0673fe290836d1565d1b076c7f1
+size 43429616

last-checkpoint/global_step10950/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a558d2a4d35b47b9bb670d55948d70cb7033b95909e01f44215a89d756da85bd
+size 637299

last-checkpoint/global_step10950/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3366832819c6f1ed7ca05f32ba04fbaac85eb03706683436c0969fa3505aee2
+size 637171

last-checkpoint/global_step10950/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db868ac7d105bf7b12c826e45297df4cba8aa7f75d4da07f56b9973c984b8c3b
+size 637171

last-checkpoint/global_step10950/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccbf98124b46d9924a152fc3a99394bbcfdedadbfe5d15b47aff6f2a36a68b13
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10900~~


1	+ global_step10950

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9d3a6160d0905edda4f5d6565a1e909b7492e9250558ddb952664b28cf76f6f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1d9cae1611b2d8771a62a3be454537a0b72fbb4bf4ca6fea33e0c56b6859ab6
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58e47c675ebf1b1688491bf8baefbb380531c820f51050fe07d1c2836f640595
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e3c589c6ac8a418b8315f1184a361f94d4f49b42155a7ecec4863756dfc8f7f
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:126cc2b8ba359be76c7c08b8c5b404d8759c46dce0b0fe23b4ab7fa6565d3ddb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:74ff9439ece28b5e9595dddf4b3df7e89d5ad92e520d5dcda0e80a87255988d7
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a0801e4fd6f4317ec8793f2b6303686ab6868ed680c95a065417ff9ee1ac54a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:27bdd2ec35c42c65c6e26dc3745183ee55697e5294c7dca877a032e64b43096c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:151dcdc36f0c528cf744fa0ce59d21db50650332df291ef322548af3dd56274c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fec3130c6df89734c8097f34b9622380c84a5271448cf66167ee69b0346a2cb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.3354261737772197,
   "eval_steps": 50,
-  "global_step": 10900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19409,11 +19409,100 @@
       "eval_steps_per_second": 0.765,
       "num_input_tokens_seen": 72850512,
       "step": 10900
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 72850512,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -19428,7 +19517,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4569494991798272.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.341551560442253,
   "eval_steps": 50,
+  "global_step": 10950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.765,
       "num_input_tokens_seen": 72850512,
       "step": 10900
+    },
+    {
+      "epoch": 1.336038712443723,
+      "grad_norm": 1.3265511756999933,
+      "learning_rate": 2.7224242537782056e-05,
+      "loss": 0.1994,
+      "num_input_tokens_seen": 72884432,
+      "step": 10905
+    },
+    {
+      "epoch": 1.3366512511102262,
+      "grad_norm": 1.2264412034005454,
+      "learning_rate": 2.7179165982475924e-05,
+      "loss": 0.2839,
+      "num_input_tokens_seen": 72917608,
+      "step": 10910
+    },
+    {
+      "epoch": 1.3372637897767297,
+      "grad_norm": 1.5094223269822984,
+      "learning_rate": 2.713411284332863e-05,
+      "loss": 0.186,
+      "num_input_tokens_seen": 72952000,
+      "step": 10915
+    },
+    {
+      "epoch": 1.337876328443233,
+      "grad_norm": 0.8664736323227381,
+      "learning_rate": 2.708908316656863e-05,
+      "loss": 0.2018,
+      "num_input_tokens_seen": 72985840,
+      "step": 10920
+    },
+    {
+      "epoch": 1.3384888671097364,
+      "grad_norm": 1.317958833725117,
+      "learning_rate": 2.7044076998400247e-05,
+      "loss": 0.2494,
+      "num_input_tokens_seen": 73019136,
+      "step": 10925
+    },
+    {
+      "epoch": 1.3391014057762396,
+      "grad_norm": 1.6578104286015414,
+      "learning_rate": 2.6999094385003743e-05,
+      "loss": 0.199,
+      "num_input_tokens_seen": 73053088,
+      "step": 10930
+    },
+    {
+      "epoch": 1.3397139444427428,
+      "grad_norm": 0.8606284496425388,
+      "learning_rate": 2.69541353725352e-05,
+      "loss": 0.288,
+      "num_input_tokens_seen": 73086296,
+      "step": 10935
+    },
+    {
+      "epoch": 1.3403264831092463,
+      "grad_norm": 0.9567441511611826,
+      "learning_rate": 2.690920000712644e-05,
+      "loss": 0.1766,
+      "num_input_tokens_seen": 73120432,
+      "step": 10940
+    },
+    {
+      "epoch": 1.3409390217757495,
+      "grad_norm": 1.3031676970273844,
+      "learning_rate": 2.6864288334885067e-05,
+      "loss": 0.2227,
+      "num_input_tokens_seen": 73153912,
+      "step": 10945
+    },
+    {
+      "epoch": 1.341551560442253,
+      "grad_norm": 1.1674568949705564,
+      "learning_rate": 2.6819400401894385e-05,
+      "loss": 0.2192,
+      "num_input_tokens_seen": 73187184,
+      "step": 10950
+    },
+    {
+      "epoch": 1.341551560442253,
+      "eval_loss": 0.21316958963871002,
+      "eval_runtime": 19.8522,
+      "eval_samples_per_second": 3.022,
+      "eval_steps_per_second": 0.756,
+      "num_input_tokens_seen": 73187184,
+      "step": 10950
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 73187184,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4590614816751616.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null