Training in progress, step 11350, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11350/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11350/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11350/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11350/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11350/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11350/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11350/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11350/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13efb40e4419c7d85f3627cf4be90e793b7c958c288dd93caa0f9742cf099b52
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:edc014425a512bfb24ea4891c4aef3f48c141f1f00d1f7453681365e76633268
 size 29034840

last-checkpoint/global_step11350/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d2947716e2a3cd8e39d2e76d32b534d90a81f6c83a14945ee976472d80de4a1
+size 43429616

last-checkpoint/global_step11350/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df1da6b792edcf70549e10834a4cdbde37daf6a9923e6c5b5e6ceed3ca00488b
+size 43429616

last-checkpoint/global_step11350/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9ba8dfc1c45990f6894acda0e9e8db03126e7284e937f1fd690df36f6f1622a
+size 43429616

last-checkpoint/global_step11350/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a62a7d488449956dd721a000e5908b54083da6e5b2bd4245e5cd34493db79f4
+size 43429616

last-checkpoint/global_step11350/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a52c93770a0e5454edd3ddb7135e4abf58c57e41cf99aabfdea88c1b2b0b07b0
+size 637299

last-checkpoint/global_step11350/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:156ed4f6bcb776fd13d543b44fba0c3e2a128c91542f1b31d9465f9a73093c5a
+size 637171

last-checkpoint/global_step11350/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71f73472d6af07878bce0e988a637fcc524d50fd6103e17d6df8c1f33f589b98
+size 637171

last-checkpoint/global_step11350/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9718b4569c71a0ec0a00876f7db9ff32d23ddba0def4ba29e20abd07f2204904
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11300~~


1	+ global_step11350

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:858ef8d7925623c0290dd48d3c1775956d2df1380248fe1e7339f8a0b415d547
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:09ff6441ff368f6bad27e48a0362b77b338163b2ee1b15751fc3233cf1145ecc
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab44a085ef8790893a6f0df127f223489bfbeac213c9397164eddee9bc6c25eb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ebb93e7cba7126cd62f47fae229b37829e1e1fad42bc204362afc892225cc21
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c469fffe8e3187c4d889f94a989ff4da7c85bf387c16e6fe1df6bccdda364757
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:89185906b69c940650b80ba4e630ae4cb9dd704b264f6b06e7d3bfff2d267319
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee1750daf75d7819cbd209b848de90eebc52fd951d1456db1e437c3e2e58a878
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1056a5c3a428500192d5b8a2afe77cbae2afe446f795137aa2e6595314783a5c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f966d63b3b12fcd2b927c440da7d42e743950f341fa7654264fd2798d3e54a64
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac8cd11960cc9e792f50280ed9e43f35e6a2f509ff57d9f6ebd92e0d5757652e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.3844292670974856,
   "eval_steps": 50,
-  "global_step": 11300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20121,11 +20121,100 @@
       "eval_steps_per_second": 0.758,
       "num_input_tokens_seen": 75535760,
       "step": 11300
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 75535760,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20140,7 +20229,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4737864310456320.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.3905546537625186,
   "eval_steps": 50,
+  "global_step": 11350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.758,
       "num_input_tokens_seen": 75535760,
       "step": 11300
+    },
+    {
+      "epoch": 1.3850418057639888,
+      "grad_norm": 1.6232949150301446,
+      "learning_rate": 2.369587209571217e-05,
+      "loss": 0.236,
+      "num_input_tokens_seen": 75568840,
+      "step": 11305
+    },
+    {
+      "epoch": 1.3856543444304923,
+      "grad_norm": 1.5155958228674475,
+      "learning_rate": 2.3652812862641265e-05,
+      "loss": 0.261,
+      "num_input_tokens_seen": 75601944,
+      "step": 11310
+    },
+    {
+      "epoch": 1.3862668830969955,
+      "grad_norm": 0.870646720736669,
+      "learning_rate": 2.3609780664073923e-05,
+      "loss": 0.2013,
+      "num_input_tokens_seen": 75635768,
+      "step": 11315
+    },
+    {
+      "epoch": 1.3868794217634988,
+      "grad_norm": 1.1925450250695349,
+      "learning_rate": 2.3566775544164937e-05,
+      "loss": 0.218,
+      "num_input_tokens_seen": 75669384,
+      "step": 11320
+    },
+    {
+      "epoch": 1.3874919604300022,
+      "grad_norm": 1.8228325292060459,
+      "learning_rate": 2.3523797547041316e-05,
+      "loss": 0.1893,
+      "num_input_tokens_seen": 75703016,
+      "step": 11325
+    },
+    {
+      "epoch": 1.3881044990965055,
+      "grad_norm": 1.4306894391386675,
+      "learning_rate": 2.3480846716802184e-05,
+      "loss": 0.2366,
+      "num_input_tokens_seen": 75736336,
+      "step": 11330
+    },
+    {
+      "epoch": 1.388717037763009,
+      "grad_norm": 1.19916009774191,
+      "learning_rate": 2.3437923097518843e-05,
+      "loss": 0.1948,
+      "num_input_tokens_seen": 75770120,
+      "step": 11335
+    },
+    {
+      "epoch": 1.3893295764295122,
+      "grad_norm": 1.2947975130523453,
+      "learning_rate": 2.3395026733234653e-05,
+      "loss": 0.2454,
+      "num_input_tokens_seen": 75803520,
+      "step": 11340
+    },
+    {
+      "epoch": 1.3899421150960154,
+      "grad_norm": 1.4486076958155687,
+      "learning_rate": 2.3352157667965034e-05,
+      "loss": 0.1971,
+      "num_input_tokens_seen": 75837704,
+      "step": 11345
+    },
+    {
+      "epoch": 1.3905546537625186,
+      "grad_norm": 1.490900454933061,
+      "learning_rate": 2.3309315945697335e-05,
+      "loss": 0.2302,
+      "num_input_tokens_seen": 75870800,
+      "step": 11350
+    },
+    {
+      "epoch": 1.3905546537625186,
+      "eval_loss": 0.1493845283985138,
+      "eval_runtime": 19.6828,
+      "eval_samples_per_second": 3.048,
+      "eval_steps_per_second": 0.762,
+      "num_input_tokens_seen": 75870800,
+      "step": 11350
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 75870800,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4758866066145280.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null