Training in progress, step 11300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11300/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11300/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11300/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11300/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90d81778cc2ef2c0aaa7e9d5a71c766e915039a5b82802bed36df17267327dab
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:13efb40e4419c7d85f3627cf4be90e793b7c958c288dd93caa0f9742cf099b52
 size 29034840

last-checkpoint/global_step11300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb802d8b86235178665864fbb8ac0a2d8cc103f64e9d72caf23fb6e3b30bc173
+size 43429616

last-checkpoint/global_step11300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d59663bafaeadc76928159ee71b811e9501b3da4277d8cdaee213beabf2b9da
+size 43429616

last-checkpoint/global_step11300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da9971a5df55a8e75ba053ab35e571ac89307b948c81e7a459ad4aa7166413a9
+size 43429616

last-checkpoint/global_step11300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c931493e3d1843ce7136cc5454793b356933d0859834a642a3af1f1f57ab815d
+size 43429616

last-checkpoint/global_step11300/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d27a356619bf2aeb319d6d4b36b16a211f3a00d7a8ad3d979ab97bca0449c25
+size 637299

last-checkpoint/global_step11300/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f06f9ad45b985bd13fd66edcf8c3140a7e5152c4e23ca926082bba24d7b4ae58
+size 637171

last-checkpoint/global_step11300/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03d1a707bf667b2d3b242904ce05774deae98948c837620280dc3f5caa5763cd
+size 637171

last-checkpoint/global_step11300/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db77e63a3d2d066be9e5b032ea872110bfdda0f062186f69470d70f45fd00b4a
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11250~~


1	+ global_step11300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9391df12420771e7a23f32c8c5b113ad4ba3e3b50a3af0ebc693d5897bac878c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:858ef8d7925623c0290dd48d3c1775956d2df1380248fe1e7339f8a0b415d547
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b40ebbcfd0ebca5d6541a1ff18ce4792f88fde2908fabcabe69adab7e824a131
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab44a085ef8790893a6f0df127f223489bfbeac213c9397164eddee9bc6c25eb
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f69c0d167e1a2d884bd8d50f1c2aab03354407d35f58d8f1af272c5a22f54a6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c469fffe8e3187c4d889f94a989ff4da7c85bf387c16e6fe1df6bccdda364757
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38b96cd40243779805fff577c7aff03639ba272fbec3e396db7be9f3c4eeb72a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee1750daf75d7819cbd209b848de90eebc52fd951d1456db1e437c3e2e58a878
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc6d4bc5d8885e14143685c986f72b4c0e5389631fdc959ac8dbb2e59c4e74f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f966d63b3b12fcd2b927c440da7d42e743950f341fa7654264fd2798d3e54a64
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.3783038804324523,
   "eval_steps": 50,
-  "global_step": 11250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20032,11 +20032,100 @@
       "eval_steps_per_second": 0.738,
       "num_input_tokens_seen": 75199264,
       "step": 11250
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 75199264,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20051,7 +20140,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4716812931301376.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.3844292670974856,
   "eval_steps": 50,
+  "global_step": 11300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.738,
       "num_input_tokens_seen": 75199264,
       "step": 11250
+    },
+    {
+      "epoch": 1.3789164190989556,
+      "grad_norm": 2.338623943755047,
+      "learning_rate": 2.4127941590292225e-05,
+      "loss": 0.2058,
+      "num_input_tokens_seen": 75232800,
+      "step": 11255
+    },
+    {
+      "epoch": 1.379528957765459,
+      "grad_norm": 1.2367938341116378,
+      "learning_rate": 2.408461444677841e-05,
+      "loss": 0.2428,
+      "num_input_tokens_seen": 75266240,
+      "step": 11260
+    },
+    {
+      "epoch": 1.3801414964319623,
+      "grad_norm": 1.2910846803839258,
+      "learning_rate": 2.404131389470223e-05,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 75300144,
+      "step": 11265
+    },
+    {
+      "epoch": 1.3807540350984655,
+      "grad_norm": 30.973267810423224,
+      "learning_rate": 2.399803997849381e-05,
+      "loss": 0.2426,
+      "num_input_tokens_seen": 75333520,
+      "step": 11270
+    },
+    {
+      "epoch": 1.381366573764969,
+      "grad_norm": 1.8951469707567008,
+      "learning_rate": 2.3954792742555964e-05,
+      "loss": 0.2372,
+      "num_input_tokens_seen": 75367128,
+      "step": 11275
+    },
+    {
+      "epoch": 1.3819791124314722,
+      "grad_norm": 0.9192799991547025,
+      "learning_rate": 2.391157223126409e-05,
+      "loss": 0.1993,
+      "num_input_tokens_seen": 75400848,
+      "step": 11280
+    },
+    {
+      "epoch": 1.3825916510979757,
+      "grad_norm": 1.2457276675807318,
+      "learning_rate": 2.386837848896619e-05,
+      "loss": 0.2131,
+      "num_input_tokens_seen": 75433880,
+      "step": 11285
+    },
+    {
+      "epoch": 1.383204189764479,
+      "grad_norm": 1.3290748045560505,
+      "learning_rate": 2.382521155998283e-05,
+      "loss": 0.1944,
+      "num_input_tokens_seen": 75467816,
+      "step": 11290
+    },
+    {
+      "epoch": 1.3838167284309821,
+      "grad_norm": 1.4277851260847876,
+      "learning_rate": 2.378207148860699e-05,
+      "loss": 0.2091,
+      "num_input_tokens_seen": 75501792,
+      "step": 11295
+    },
+    {
+      "epoch": 1.3844292670974856,
+      "grad_norm": 1.0730262567819877,
+      "learning_rate": 2.3738958319104145e-05,
+      "loss": 0.1914,
+      "num_input_tokens_seen": 75535760,
+      "step": 11300
+    },
+    {
+      "epoch": 1.3844292670974856,
+      "eval_loss": 0.12553976476192474,
+      "eval_runtime": 19.7973,
+      "eval_samples_per_second": 3.031,
+      "eval_steps_per_second": 0.758,
+      "num_input_tokens_seen": 75535760,
+      "step": 11300
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 75535760,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4737864310456320.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null