Training in progress, step 10150, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10150/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10150/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10150/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10150/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10150/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10150/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e79db939395753141bfe875b738ef82cca9d45d7bcfdfddd95fe7c15504a2484
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b709a208926d21714cd1bb86f591d64cce47911809ec3f7e8a5c123f64f95d0
 size 29034840

last-checkpoint/global_step10150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fac37dd6abf79a2f0324725d6f7414177d6074dfacbdd908516704f1ed69689c
+size 43429616

last-checkpoint/global_step10150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90348832ecb7b6d9294d2ce288e06326ae27439f1529ff51623f1748a3b6cb5b
+size 43429616

last-checkpoint/global_step10150/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90d36a74b353f006716370d198ee586c79fb750682469f7d587d6d95e4bda162
+size 43429616

last-checkpoint/global_step10150/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2052dff2a3b68572858349151b284a0504a50667dde6203e9802e8db3ac56acc
+size 43429616

last-checkpoint/global_step10150/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9afe9bc7c27ae02f7a964f519d985993f5875299cd612b6e1a81c18eee91cdf7
+size 637299

last-checkpoint/global_step10150/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13091fa5907acdb036f7846e4ad3e04ed399bec126b6d70c50d9e15abaa7f4fc
+size 637171

last-checkpoint/global_step10150/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:605c5433808ef9f672facc9f274a27d0cef22b882af585270679cf151baf28ad
+size 637171

last-checkpoint/global_step10150/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edd210b7f580f5ed51f872dbb5ff18ae56331a89b93d1732a0eb9aba5fdda3ad
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10100~~


1	+ global_step10150

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a0a5c8c7d25a319fd50aab320820c49b23d25eda1fb3bf644952fdcb35df10c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8b60a1e55577dcd4ed4fa019490c4c8eb9f112f4cd49750bf0dad84e03964d8
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d05960ea8920915bac2c24df21232e8d63ea0962959ab1bded77448f7c82743a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:03594dad0b7bcdfd713e254e6b4b6361abf9101ccb4145def4e53b637fbf29f0
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db279daa0fca9102a6ff0177599f2c335a51d72a070de4249cc06ee79b379358
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:06754065173301b0389466b461ad8c15f2df51ba57930e6118cfef8791c58d11
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0038ab880e16b83b70c8c8f774126e510d3953b05bcb4f1c08d33cdc03f1d99
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:27ab01cfdaef4a38e122402159bb7f3067802714906a79c8bb2d7b9185cfd311
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:605c43263e93e15eea18711fe7654abd11378f9d72f92eb1ebe17e1ac6d71f02
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7a5914a992a4a403b02982cd5ff7e2aa6de814df9df91f0b8f16811eec8d7c1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.237419987136688,
   "eval_steps": 50,
-  "global_step": 10100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17985,11 +17985,100 @@
       "eval_steps_per_second": 0.773,
       "num_input_tokens_seen": 67471000,
       "step": 10100
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 67471000,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -18004,7 +18093,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4232111462940672.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.2435453738017213,
   "eval_steps": 50,
+  "global_step": 10150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.773,
       "num_input_tokens_seen": 67471000,
       "step": 10100
+    },
+    {
+      "epoch": 1.2380325258031912,
+      "grad_norm": 61.68793183843857,
+      "learning_rate": 3.47053010588085e-05,
+      "loss": 0.2594,
+      "num_input_tokens_seen": 67504136,
+      "step": 10105
+    },
+    {
+      "epoch": 1.2386450644696947,
+      "grad_norm": 0.9460767854553899,
+      "learning_rate": 3.465708871914475e-05,
+      "loss": 0.2491,
+      "num_input_tokens_seen": 67537536,
+      "step": 10110
+    },
+    {
+      "epoch": 1.239257603136198,
+      "grad_norm": 1.2005295422829294,
+      "learning_rate": 3.4608892122641295e-05,
+      "loss": 0.2029,
+      "num_input_tokens_seen": 67571048,
+      "step": 10115
+    },
+    {
+      "epoch": 1.2398701418027014,
+      "grad_norm": 0.9752561237968562,
+      "learning_rate": 3.4560711318752016e-05,
+      "loss": 0.2015,
+      "num_input_tokens_seen": 67604768,
+      "step": 10120
+    },
+    {
+      "epoch": 1.2404826804692046,
+      "grad_norm": 1.1644311130139964,
+      "learning_rate": 3.451254635691458e-05,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 67638424,
+      "step": 10125
+    },
+    {
+      "epoch": 1.2410952191357079,
+      "grad_norm": 1.4435187736881145,
+      "learning_rate": 3.446439728655047e-05,
+      "loss": 0.2452,
+      "num_input_tokens_seen": 67671792,
+      "step": 10130
+    },
+    {
+      "epoch": 1.2417077578022113,
+      "grad_norm": 1.0148079567428998,
+      "learning_rate": 3.441626415706477e-05,
+      "loss": 0.2498,
+      "num_input_tokens_seen": 67705816,
+      "step": 10135
+    },
+    {
+      "epoch": 1.2423202964687146,
+      "grad_norm": 1.0027085224671495,
+      "learning_rate": 3.4368147017846295e-05,
+      "loss": 0.1976,
+      "num_input_tokens_seen": 67740120,
+      "step": 10140
+    },
+    {
+      "epoch": 1.242932835135218,
+      "grad_norm": 1.4330460305461843,
+      "learning_rate": 3.432004591826739e-05,
+      "loss": 0.2408,
+      "num_input_tokens_seen": 67773216,
+      "step": 10145
+    },
+    {
+      "epoch": 1.2435453738017213,
+      "grad_norm": 1.307307643275231,
+      "learning_rate": 3.427196090768395e-05,
+      "loss": 0.2124,
+      "num_input_tokens_seen": 67807536,
+      "step": 10150
+    },
+    {
+      "epoch": 1.2435453738017213,
+      "eval_loss": 0.1516389101743698,
+      "eval_runtime": 19.1372,
+      "eval_samples_per_second": 3.135,
+      "eval_steps_per_second": 0.784,
+      "num_input_tokens_seen": 67807536,
+      "step": 10150
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 67807536,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4253231174647808.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null