Training in progress, step 11800, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11800/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11800/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11800/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11800/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9254c5fd1e36a2001d6f3de3a14c6e1552a474dc98156451c9dd1fa5e83c4ecb
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:4df1ca79bb62c7f7d57b94371ba1cc9b738491547dea27c6864a9fd89888effd
 size 29034840

last-checkpoint/global_step11800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80b7db288302cd18d86f82561c1c82d2666cf9f18a545ab0eeb6437eac57ff84
+size 43429616

last-checkpoint/global_step11800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd967a0005a729b4902f2806ee960180d4a748adebe2604c84331abb1e10c68d
+size 43429616

last-checkpoint/global_step11800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54ed02a8d16452a2419ce55ce7c30e80606f09b87f0631b360f2dc0bc2f26242
+size 43429616

last-checkpoint/global_step11800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e40bda84c0c5538dfc2813b3e9812cdd4dff5ceb4ef92229253fe5a4037f333
+size 43429616

last-checkpoint/global_step11800/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63e6c17001a6d56adbf9bc11f98715a551ea96e063902bb0adc8a236ba8f9105
+size 637299

last-checkpoint/global_step11800/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efb004680c56454cf63676ade01c65878f55f3eb0fef882b648ff1c45664c8bb
+size 637171

last-checkpoint/global_step11800/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1e3f150ad2b9da3ef6e2d2805b60efc49f4f639febaf4da554d6b41170c544e
+size 637171

last-checkpoint/global_step11800/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:735e5df1ccbcba602f88a9e6a3566bfcb2e6de433aa41864e2a6c02b35e23936
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11750~~


1	+ global_step11800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4c2239de6b0a8a7c38ea9b14c315c93c56698b7a6a63b466eda0ccae102ad7d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:118f345115d6406635644f29c252b4422b2506be11f6910493602e614f210606
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8c8a5c5e52a11119fb852fcd71f5af7ac70a5953317669655785000f83240fe
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:968a0a7348ad7f60ad1f94d7c846f90180289399e2238fc980328d18bb7e20ff
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e027846b2398ff2037e24a79062e341501a3bb99a90812daf6474f54c1faccce
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf971b3af95ba9d3c3db41ad222741289b13536a4c39c0846264486be063cbcf
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58f5d5f12209364154cff8e64dd3365589f1a45b55abcd416143e7501212069f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6022093a77b75def8d86a848770d7abaa395b93fff48c134444d67b354e880a1
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fc63ad6a415b118874ca08eae048720f7c0233d5ddd2f00bc26edb0db229ace
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1df23140c05dc12c71fa438e150f78ac78bc5e93e523b7d28196fbe6d878dda5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.4395577470827847,
   "eval_steps": 50,
-  "global_step": 11750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20922,11 +20922,100 @@
       "eval_steps_per_second": 0.773,
       "num_input_tokens_seen": 78552600,
       "step": 11750
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 78552600,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20941,7 +21030,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4927092224294912.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.4456831337478178,
   "eval_steps": 50,
+  "global_step": 11800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.773,
       "num_input_tokens_seen": 78552600,
       "step": 11750
+    },
+    {
+      "epoch": 1.440170285749288,
+      "grad_norm": 1.3268858294030856,
+      "learning_rate": 1.9933928641251702e-05,
+      "loss": 0.2158,
+      "num_input_tokens_seen": 78586312,
+      "step": 11755
+    },
+    {
+      "epoch": 1.4407828244157912,
+      "grad_norm": 1.2359824350049413,
+      "learning_rate": 1.9893475974778957e-05,
+      "loss": 0.1939,
+      "num_input_tokens_seen": 78620064,
+      "step": 11760
+    },
+    {
+      "epoch": 1.4413953630822944,
+      "grad_norm": 1.1683024300087932,
+      "learning_rate": 1.9853054200216124e-05,
+      "loss": 0.212,
+      "num_input_tokens_seen": 78653936,
+      "step": 11765
+    },
+    {
+      "epoch": 1.442007901748798,
+      "grad_norm": 1.1805090414134891,
+      "learning_rate": 1.9812663359039485e-05,
+      "loss": 0.2009,
+      "num_input_tokens_seen": 78687776,
+      "step": 11770
+    },
+    {
+      "epoch": 1.4426204404153014,
+      "grad_norm": 1.7542936987483482,
+      "learning_rate": 1.97723034926935e-05,
+      "loss": 0.2234,
+      "num_input_tokens_seen": 78721528,
+      "step": 11775
+    },
+    {
+      "epoch": 1.4432329790818046,
+      "grad_norm": 1.1636937431093823,
+      "learning_rate": 1.9731974642590933e-05,
+      "loss": 0.2094,
+      "num_input_tokens_seen": 78755520,
+      "step": 11780
+    },
+    {
+      "epoch": 1.4438455177483078,
+      "grad_norm": 1.4721779800528187,
+      "learning_rate": 1.96916768501127e-05,
+      "loss": 0.2597,
+      "num_input_tokens_seen": 78788352,
+      "step": 11785
+    },
+    {
+      "epoch": 1.444458056414811,
+      "grad_norm": 1.3899142619840883,
+      "learning_rate": 1.9651410156607803e-05,
+      "loss": 0.1969,
+      "num_input_tokens_seen": 78821984,
+      "step": 11790
+    },
+    {
+      "epoch": 1.4450705950813145,
+      "grad_norm": 0.9965825392569478,
+      "learning_rate": 1.9611174603393402e-05,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 78855176,
+      "step": 11795
+    },
+    {
+      "epoch": 1.4456831337478178,
+      "grad_norm": 1.3906640428951949,
+      "learning_rate": 1.9570970231754636e-05,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 78888720,
+      "step": 11800
+    },
+    {
+      "epoch": 1.4456831337478178,
+      "eval_loss": 0.07458024471998215,
+      "eval_runtime": 19.6385,
+      "eval_samples_per_second": 3.055,
+      "eval_steps_per_second": 0.764,
+      "num_input_tokens_seen": 78888720,
+      "step": 11800
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 78888720,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4948194971746304.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null