Training in progress, step 11550, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11550/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11550/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11550/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11550/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11550/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11550/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11550/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11550/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96f4be8b5414724649632d19c3aee71659aba6767d726068b454891f52d3e43e
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae3dba71cea82a584554baed057ef094a4a0c81e9d6ef8aa7cd0b7236e1db1c1
 size 29034840

last-checkpoint/global_step11550/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f6f8d26d4803e154978ffc0ad9329e13d748fb90c2b01949e5601aa7d3d7f75
+size 43429616

last-checkpoint/global_step11550/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8925be9e1eb9cc71b3fd7218b01dfcd6e9a5dec3c1ac4b469a9b9269ad6a797
+size 43429616

last-checkpoint/global_step11550/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea99df20ac5a646e735c351a7bb0859b35893fd1e67214b44a37168cb804a51f
+size 43429616

last-checkpoint/global_step11550/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b538162e2368499119146bd683a4249328468b5519e13f930b2aa4544e18afc9
+size 43429616

last-checkpoint/global_step11550/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a7afd712c05bdae33641390ba9250cc3896e22737dd0b6d8b186f70f51a7534
+size 637299

last-checkpoint/global_step11550/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c71da68a4033276f1cedba39da5ccad002229c19ee1019021b5f511073c967e5
+size 637171

last-checkpoint/global_step11550/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d9d3de3e18198eadde56b4608a4231aeb1788c377d49b7302d16bf8fb50aa09
+size 637171

last-checkpoint/global_step11550/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f93ea92ad36b68577557993beae89aac2ee6194908244499a399fef1acc03dce
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11500~~


1	+ global_step11550

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8624d7dbea6b0bfbee612f374f3ca1479d58940a3f7f81e0f255b5acf00a98f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:78499bb2ea148823b7ab171c76eb915f9b4158c659a14c00b9e84ea5435d9cad
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:033b3cecd2abc755b65afde94a0bfa4ab3d5e9ce350e6259d1335531f6b15ead
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:99fce99abc20eefca679982890ea61d2ccdf9eee0cda977258a51a9304bf23ad
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4a659d96606470c68743db7a44e95915e6de25517838964670dd2a15ff16264
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:daaaee2368ce6f4ddaa847a6a36f132ea0ce34cdf12bf9b7eac5575e8743efd9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1dc4e4e8414a28fda061c3e335783b4e88dd0e581f6ca10cc704305b81f4eb5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e37b120cfd3886c6a8c324f0d433c2c4559046d72ce821cae05d8193c7218bd
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b63a541347f55fb360937d1ccc2d6065f98b6903cd246a4581a0a7eb1ffe6611
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:28dcc470b84c7d0033a14ee408e549a0b0e725782552f4d7cadd6cdebf0f14cf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.4089308137576184,
   "eval_steps": 50,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20477,11 +20477,100 @@
       "eval_steps_per_second": 0.763,
       "num_input_tokens_seen": 76876640,
       "step": 11500
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 76876640,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20496,7 +20585,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4822004093026304.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.4150562004226517,
   "eval_steps": 50,
+  "global_step": 11550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.763,
       "num_input_tokens_seen": 76876640,
       "step": 11500
+    },
+    {
+      "epoch": 1.4095433524241217,
+      "grad_norm": 1.9377460735178373,
+      "learning_rate": 2.199502336588885e-05,
+      "loss": 0.2269,
+      "num_input_tokens_seen": 76910112,
+      "step": 11505
+    },
+    {
+      "epoch": 1.4101558910906251,
+      "grad_norm": 1.2074376841787913,
+      "learning_rate": 2.1953079675050498e-05,
+      "loss": 0.2547,
+      "num_input_tokens_seen": 76943248,
+      "step": 11510
+    },
+    {
+      "epoch": 1.4107684297571284,
+      "grad_norm": 1.6673139338465959,
+      "learning_rate": 2.1911164762789682e-05,
+      "loss": 0.2192,
+      "num_input_tokens_seen": 76976416,
+      "step": 11515
+    },
+    {
+      "epoch": 1.4113809684236318,
+      "grad_norm": 1.0347317776135743,
+      "learning_rate": 2.1869278672114762e-05,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 77010144,
+      "step": 11520
+    },
+    {
+      "epoch": 1.411993507090135,
+      "grad_norm": 1.0706084397278428,
+      "learning_rate": 2.182742144600448e-05,
+      "loss": 0.1968,
+      "num_input_tokens_seen": 77044016,
+      "step": 11525
+    },
+    {
+      "epoch": 1.4126060457566383,
+      "grad_norm": 1.3935001170007235,
+      "learning_rate": 2.1785593127407993e-05,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 77077688,
+      "step": 11530
+    },
+    {
+      "epoch": 1.4132185844231417,
+      "grad_norm": 1.0019449876645863,
+      "learning_rate": 2.1743793759244807e-05,
+      "loss": 0.2303,
+      "num_input_tokens_seen": 77111176,
+      "step": 11535
+    },
+    {
+      "epoch": 1.413831123089645,
+      "grad_norm": 1.522429135029562,
+      "learning_rate": 2.1702023384404706e-05,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 77144408,
+      "step": 11540
+    },
+    {
+      "epoch": 1.4144436617561484,
+      "grad_norm": 1.1253675763175544,
+      "learning_rate": 2.1660282045747698e-05,
+      "loss": 0.2047,
+      "num_input_tokens_seen": 77177960,
+      "step": 11545
+    },
+    {
+      "epoch": 1.4150562004226517,
+      "grad_norm": 1.163967526127202,
+      "learning_rate": 2.1618569786104063e-05,
+      "loss": 0.2299,
+      "num_input_tokens_seen": 77211216,
+      "step": 11550
+    },
+    {
+      "epoch": 1.4150562004226517,
+      "eval_loss": 0.18886250257492065,
+      "eval_runtime": 19.3477,
+      "eval_samples_per_second": 3.101,
+      "eval_steps_per_second": 0.775,
+      "num_input_tokens_seen": 77211216,
+      "step": 11550
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 77211216,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4842978796765184.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null