Training in progress, step 10300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10300/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10300/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10300/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10300/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fc5774c9df6adb72d705f6357d315d1cb1f8a764462f2261c3bb6c216301f7e
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c1907f05fc0b8c01b36cbedf199619bd14eb6d4cd5c2990d045fd2cb3d3409
 size 29034840

last-checkpoint/global_step10300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11ef07e358207e27e1d1954eebc6af831ab63dce318d5de1b541e42ece690f81
+size 43429616

last-checkpoint/global_step10300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b258ec8066b1370cf577f7d6d0604e182aea07a60bae3fa21e4fc63afa018b94
+size 43429616

last-checkpoint/global_step10300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4250fcd8b0b1a0d8f64bba04574aa2b16450c9d529f18f689ee28988bb17f65c
+size 43429616

last-checkpoint/global_step10300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a48a301374b65e1b896c91591ed0c9b7d3605a2881f7877519f9974d8dbfe8e
+size 43429616

last-checkpoint/global_step10300/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4215005fe1a3796482296033d0a6c38e8658d6e335c79a9b00f561d815fb332f
+size 637299

last-checkpoint/global_step10300/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed3ed73ce87d6b848d4e44dc55787fde04cc382e8322e33c93deeab9032425a
+size 637171

last-checkpoint/global_step10300/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2540aab80fd811e62e04abd40a4a7684bf6a5c6b7987273cc8a84e43342e0aac
+size 637171

last-checkpoint/global_step10300/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a02fece188bac11c87517eaa459834f44105bc8444a477ffd8a1cf2a3276b8b
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10250~~


1	+ global_step10300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f056a53812532c8eea64720388ddeec4af0eb9b78a0ed96303c86ce2ee596b3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:80df60feff0acd4f14f797bf07109d6e26bd33d7850b304e4e8cef824c9108c6
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94c8e73ab3bb491da899e642f6405ca797bb6c902d4320bda989f042a1918d60
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bee3071b78f92ab4f49bcb4c72f4f14b59b05a36ead63461c5e6dae16ae35ec
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ec8327d99b8c9a858ccd02458ffc83b73f95e377f63f0b5f4c74dde75dc3f63
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ee022c06201a478aedb709f3708d8030c1b3fb5811eac43139b44c8c2a8ef92
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9b2ce77f073808db654467abc3de83271e9005b2c29729f678fae36d45ed253
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c270f4af9e6cbad65ece8938b424235f5542e516f3d4b9a98d8797c69ddfba5d
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60c8c4283b06b2e2d011931ad83e31fe12e1f667844dbc02550185988a55f5fe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fb32c56163830cfeafa65a155993bf08d0bd9b86f98eac86494ff604a54cadb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.2557961471317878,
   "eval_steps": 50,
-  "global_step": 10250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -18252,11 +18252,100 @@
       "eval_steps_per_second": 0.783,
       "num_input_tokens_seen": 68479264,
       "step": 10250
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 68479264,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -18271,7 +18360,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4295385059295232.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.261921533796821,
   "eval_steps": 50,
+  "global_step": 10300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.783,
       "num_input_tokens_seen": 68479264,
       "step": 10250
+    },
+    {
+      "epoch": 1.256408685798291,
+      "grad_norm": 1.0352761658466105,
+      "learning_rate": 3.326597947513025e-05,
+      "loss": 0.1938,
+      "num_input_tokens_seen": 68513176,
+      "step": 10255
+    },
+    {
+      "epoch": 1.2570212244647943,
+      "grad_norm": 1.0777283789352847,
+      "learning_rate": 3.321826087554129e-05,
+      "loss": 0.2257,
+      "num_input_tokens_seen": 68547256,
+      "step": 10260
+    },
+    {
+      "epoch": 1.2576337631312977,
+      "grad_norm": 1.3423245290250527,
+      "learning_rate": 3.317055949547503e-05,
+      "loss": 0.2599,
+      "num_input_tokens_seen": 68580448,
+      "step": 10265
+    },
+    {
+      "epoch": 1.258246301797801,
+      "grad_norm": 1.4455392387346562,
+      "learning_rate": 3.3122875383877194e-05,
+      "loss": 0.2444,
+      "num_input_tokens_seen": 68614144,
+      "step": 10270
+    },
+    {
+      "epoch": 1.2588588404643044,
+      "grad_norm": 1.1766802710720077,
+      "learning_rate": 3.307520858967586e-05,
+      "loss": 0.2425,
+      "num_input_tokens_seen": 68647664,
+      "step": 10275
+    },
+    {
+      "epoch": 1.2594713791308076,
+      "grad_norm": 0.8034532858902004,
+      "learning_rate": 3.302755916178128e-05,
+      "loss": 0.2108,
+      "num_input_tokens_seen": 68681192,
+      "step": 10280
+    },
+    {
+      "epoch": 1.2600839177973109,
+      "grad_norm": 1.187551767143693,
+      "learning_rate": 3.297992714908589e-05,
+      "loss": 0.2493,
+      "num_input_tokens_seen": 68714600,
+      "step": 10285
+    },
+    {
+      "epoch": 1.2606964564638143,
+      "grad_norm": 1.2626992038766227,
+      "learning_rate": 3.293231260046431e-05,
+      "loss": 0.2286,
+      "num_input_tokens_seen": 68748432,
+      "step": 10290
+    },
+    {
+      "epoch": 1.2613089951303176,
+      "grad_norm": 0.9648518095639778,
+      "learning_rate": 3.288471556477317e-05,
+      "loss": 0.2285,
+      "num_input_tokens_seen": 68781728,
+      "step": 10295
+    },
+    {
+      "epoch": 1.261921533796821,
+      "grad_norm": 1.4967036865983903,
+      "learning_rate": 3.2837136090851205e-05,
+      "loss": 0.2253,
+      "num_input_tokens_seen": 68815336,
+      "step": 10300
+    },
+    {
+      "epoch": 1.261921533796821,
+      "eval_loss": 0.2143474966287613,
+      "eval_runtime": 19.5855,
+      "eval_samples_per_second": 3.063,
+      "eval_steps_per_second": 0.766,
+      "num_input_tokens_seen": 68815336,
+      "step": 10300
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 68815336,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4316442486636544.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null