Training in progress, step 50, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/adapter_config.json +1 -1
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step50/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step50/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step50/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step50/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +51 -585
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   "r": 8,
   "rank_pattern": {},
   "revision": null,
-  "target_modules": "^(?!.*patch_embed).*(?:fc2|q_proj|up_proj|v_proj|gate_proj|k_proj|qkv|down_proj|fc1|o_proj|proj).*",
   "task_type": "CAUSAL_LM",
   "use_dora": false,
   "use_rslora": false

   "r": 8,
   "rank_pattern": {},
   "revision": null,
+  "target_modules": "^(?!.*patch_embed).*(?:k_proj|gate_proj|up_proj|fc2|v_proj|down_proj|proj|fc1|qkv|q_proj|o_proj).*",
   "task_type": "CAUSAL_LM",
   "use_dora": false,
   "use_rslora": false

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30c7ee3fff01ccc34d52689d6b0a0f69c7bba11fef8f035de5c213e712b0aa8c
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:72a1dc75a4969cd4402c49224cdbeb8259d9c8645a8db3aac5f2374a463b3078
 size 29034840

last-checkpoint/global_step50/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b2c56e7d91776c788318ba1e3b4016e2c73a01c7eccc74e51c263c488772df8
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7c505d6abf258ee9c48764b56a1b54a9b537c8f7f6620c954d636e30695ebf3
 size 43429616

last-checkpoint/global_step50/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4549aa2e4e283d76baddab756d68e8bfc02b90868be4144af49f348c3e65b3cd
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e429059273aae561b31750be91a7e0b5527171d6cd29798def53c3a20a71ad9
 size 43429616

last-checkpoint/global_step50/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef092d3f2bcaca1e1fc6d77a5185ee9d6fccf6a0af053e70a9aaa421aab376ed
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:633189312a6d347dd04c28f96f91ca6de9203641fb44b01657e3fffafb5d6511
 size 43429616

last-checkpoint/global_step50/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c85f4e66f1f6e2702a641255c370d870b9241283a1714fcbcfa1f337918d2822
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c3fafe9c1cf642ec6773405177d559dc9380e81a5ab08e42d2baefebc08e60d
 size 43429616

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step350~~


1	+ global_step50

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee97cd82dba4d425fdd8dfdb88d4a43d0d4b1979b5c81ab4a24914fb00d4f332
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbe0d720c4c75a6a04213fa3b64bacbe794718a53e2b56ebb67a1a795014dfad
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91dad95440fb85dc4a31745642117165c1a72173b2e389679ea8c0b2b6fcd7e2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:72452d3138d0ca2ff89429e3294a834ae7a68e8596fc757735ca56ae52509d57
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98698326b023c2af02c94f18726ce52c7f7a6fe290734dd7edbe99bc807fcfa0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f36e306fb8ebcf53a167bfd6c9af74db410a269ada1e619e3e816f5269543b9d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:708e7c6b5bf8a327e688779ebc08830ce249928bcb1ff5c82b1b1d0bf6d2660b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb47ce0c6f815a6f8302b0e3819b4c2315ca71dae3138d97fdceb765cdd0a039
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d599041d87ad45b8804f766f89f2a165a0fb27c19b2b7170a0970b76e6a885f5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e54bce6b4aaf0a5592cd43962528d57d1fed20da37bdb85e37a6f6789f8da9f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,640 +1,106 @@
 {
-  "best_metric": 0.830344021320343,
-  "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily/lora/sft/checkpoint-350",
-  "epoch": 0.9722222222222222,
   "eval_steps": 50,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.013888888888888888,
-      "grad_norm": 20.155857548048633,
       "learning_rate": 6.944444444444445e-06,
-      "loss": 2.8851,
       "num_input_tokens_seen": 77944,
       "step": 5
     },
     {
-      "epoch": 0.027777777777777776,
-      "grad_norm": 21.665571432342183,
       "learning_rate": 1.388888888888889e-05,
-      "loss": 2.8741,
-      "num_input_tokens_seen": 155872,
       "step": 10
     },
     {
-      "epoch": 0.041666666666666664,
-      "grad_norm": 17.590222014530585,
       "learning_rate": 2.0833333333333336e-05,
-      "loss": 2.3696,
       "num_input_tokens_seen": 233896,
       "step": 15
     },
     {
-      "epoch": 0.05555555555555555,
-      "grad_norm": 6.32118188455302,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 1.383,
-      "num_input_tokens_seen": 311912,
       "step": 20
     },
     {
-      "epoch": 0.06944444444444445,
-      "grad_norm": 4.561362427555974,
       "learning_rate": 3.472222222222222e-05,
-      "loss": 0.948,
-      "num_input_tokens_seen": 389912,
       "step": 25
     },
     {
-      "epoch": 0.08333333333333333,
-      "grad_norm": 2.1863542292953797,
       "learning_rate": 4.166666666666667e-05,
-      "loss": 0.9201,
-      "num_input_tokens_seen": 467848,
       "step": 30
     },
     {
-      "epoch": 0.09722222222222222,
-      "grad_norm": 1.3024950703221743,
       "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.9244,
-      "num_input_tokens_seen": 545864,
       "step": 35
     },
     {
-      "epoch": 0.1111111111111111,
-      "grad_norm": 0.8165033262251763,
       "learning_rate": 5.555555555555556e-05,
-      "loss": 0.9158,
-      "num_input_tokens_seen": 623832,
       "step": 40
     },
     {
-      "epoch": 0.125,
-      "grad_norm": 0.8426328521707785,
       "learning_rate": 6.25e-05,
-      "loss": 0.9065,
-      "num_input_tokens_seen": 701864,
       "step": 45
     },
     {
-      "epoch": 0.1388888888888889,
-      "grad_norm": 0.7883178352462868,
       "learning_rate": 6.944444444444444e-05,
-      "loss": 0.9013,
-      "num_input_tokens_seen": 779840,
       "step": 50
     },
     {
-      "epoch": 0.1388888888888889,
-      "eval_loss": 0.9147798418998718,
-      "eval_runtime": 77.1567,
-      "eval_samples_per_second": 1.892,
-      "eval_steps_per_second": 0.48,
-      "num_input_tokens_seen": 779840,
       "step": 50
-    },
-    {
-      "epoch": 0.1527777777777778,
-      "grad_norm": 0.679315264214148,
-      "learning_rate": 7.638888888888889e-05,
-      "loss": 0.9113,
-      "num_input_tokens_seen": 857840,
-      "step": 55
-    },
-    {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.6447084432724877,
-      "learning_rate": 8.333333333333334e-05,
-      "loss": 0.8999,
-      "num_input_tokens_seen": 935880,
-      "step": 60
-    },
-    {
-      "epoch": 0.18055555555555555,
-      "grad_norm": 0.4717419386009716,
-      "learning_rate": 9.027777777777779e-05,
-      "loss": 0.9027,
-      "num_input_tokens_seen": 1013824,
-      "step": 65
-    },
-    {
-      "epoch": 0.19444444444444445,
-      "grad_norm": 0.21169543073461422,
-      "learning_rate": 9.722222222222223e-05,
-      "loss": 0.8994,
-      "num_input_tokens_seen": 1091808,
-      "step": 70
-    },
-    {
-      "epoch": 0.20833333333333334,
-      "grad_norm": 0.40266651181937524,
-      "learning_rate": 9.999471159635539e-05,
-      "loss": 0.9049,
-      "num_input_tokens_seen": 1169744,
-      "step": 75
-    },
-    {
-      "epoch": 0.2222222222222222,
-      "grad_norm": 0.5050973334018934,
-      "learning_rate": 9.996239762521151e-05,
-      "loss": 0.9054,
-      "num_input_tokens_seen": 1247784,
-      "step": 80
-    },
-    {
-      "epoch": 0.2361111111111111,
-      "grad_norm": 0.5873934366128214,
-      "learning_rate": 9.990072664903717e-05,
-      "loss": 0.8997,
-      "num_input_tokens_seen": 1325712,
-      "step": 85
-    },
-    {
-      "epoch": 0.25,
-      "grad_norm": 0.4823533866978058,
-      "learning_rate": 9.980973490458728e-05,
-      "loss": 0.9019,
-      "num_input_tokens_seen": 1403680,
-      "step": 90
-    },
-    {
-      "epoch": 0.2638888888888889,
-      "grad_norm": 0.36744550192138214,
-      "learning_rate": 9.968947585697214e-05,
-      "loss": 0.9014,
-      "num_input_tokens_seen": 1481584,
-      "step": 95
-    },
-    {
-      "epoch": 0.2777777777777778,
-      "grad_norm": 0.5064142218129948,
-      "learning_rate": 9.954002016824227e-05,
-      "loss": 0.9068,
-      "num_input_tokens_seen": 1559560,
-      "step": 100
-    },
-    {
-      "epoch": 0.2777777777777778,
-      "eval_loss": 0.8995540738105774,
-      "eval_runtime": 47.1233,
-      "eval_samples_per_second": 3.098,
-      "eval_steps_per_second": 0.785,
-      "num_input_tokens_seen": 1559560,
-      "step": 100
-    },
-    {
-      "epoch": 0.2916666666666667,
-      "grad_norm": 0.7063850677986605,
-      "learning_rate": 9.936145565586871e-05,
-      "loss": 0.9044,
-      "num_input_tokens_seen": 1637512,
-      "step": 105
-    },
-    {
-      "epoch": 0.3055555555555556,
-      "grad_norm": 0.4612572104309768,
-      "learning_rate": 9.915388724114301e-05,
-      "loss": 0.8938,
-      "num_input_tokens_seen": 1715496,
-      "step": 110
-    },
-    {
-      "epoch": 0.3194444444444444,
-      "grad_norm": 0.28644492571570335,
-      "learning_rate": 9.891743688752738e-05,
-      "loss": 0.8986,
-      "num_input_tokens_seen": 1793520,
-      "step": 115
-    },
-    {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.40522057279685425,
-      "learning_rate": 9.865224352899119e-05,
-      "loss": 0.8954,
-      "num_input_tokens_seen": 1871496,
-      "step": 120
-    },
-    {
-      "epoch": 0.3472222222222222,
-      "grad_norm": 0.36152742532038146,
-      "learning_rate": 9.835846298837584e-05,
-      "loss": 0.9014,
-      "num_input_tokens_seen": 1949496,
-      "step": 125
-    },
-    {
-      "epoch": 0.3611111111111111,
-      "grad_norm": 0.4355502300592313,
-      "learning_rate": 9.803626788583603e-05,
-      "loss": 0.9069,
-      "num_input_tokens_seen": 2027472,
-      "step": 130
-    },
-    {
-      "epoch": 0.375,
-      "grad_norm": 0.26465732155670246,
-      "learning_rate": 9.768584753741134e-05,
-      "loss": 0.9036,
-      "num_input_tokens_seen": 2105488,
-      "step": 135
-    },
-    {
-      "epoch": 0.3888888888888889,
-      "grad_norm": 0.4321544586407889,
-      "learning_rate": 9.730740784378753e-05,
-      "loss": 0.8974,
-      "num_input_tokens_seen": 2183488,
-      "step": 140
-    },
-    {
-      "epoch": 0.4027777777777778,
-      "grad_norm": 0.34548611738400625,
-      "learning_rate": 9.69011711693129e-05,
-      "loss": 0.8999,
-      "num_input_tokens_seen": 2261472,
-      "step": 145
-    },
-    {
-      "epoch": 0.4166666666666667,
-      "grad_norm": 0.39871875335322654,
-      "learning_rate": 9.646737621134112e-05,
-      "loss": 0.908,
-      "num_input_tokens_seen": 2339512,
-      "step": 150
-    },
-    {
-      "epoch": 0.4166666666666667,
-      "eval_loss": 0.8949049115180969,
-      "eval_runtime": 46.7248,
-      "eval_samples_per_second": 3.125,
-      "eval_steps_per_second": 0.792,
-      "num_input_tokens_seen": 2339512,
-      "step": 150
-    },
-    {
-      "epoch": 0.4305555555555556,
-      "grad_norm": 0.4541004672886896,
-      "learning_rate": 9.600627785997696e-05,
-      "loss": 0.8971,
-      "num_input_tokens_seen": 2417488,
-      "step": 155
-    },
-    {
-      "epoch": 0.4444444444444444,
-      "grad_norm": 0.4613539033606643,
-      "learning_rate": 9.551814704830734e-05,
-      "loss": 0.8952,
-      "num_input_tokens_seen": 2495464,
-      "step": 160
-    },
-    {
-      "epoch": 0.4583333333333333,
-      "grad_norm": 0.37123415305068785,
-      "learning_rate": 9.500327059320606e-05,
-      "loss": 0.8972,
-      "num_input_tokens_seen": 2573408,
-      "step": 165
-    },
-    {
-      "epoch": 0.4722222222222222,
-      "grad_norm": 0.38977847466547694,
-      "learning_rate": 9.446195102680531e-05,
-      "loss": 0.8979,
-      "num_input_tokens_seen": 2651368,
-      "step": 170
-    },
-    {
-      "epoch": 0.4861111111111111,
-      "grad_norm": 0.30747699940882145,
-      "learning_rate": 9.389450641873323e-05,
-      "loss": 0.8908,
-      "num_input_tokens_seen": 2729352,
-      "step": 175
-    },
-    {
-      "epoch": 0.5,
-      "grad_norm": 0.33529998689248586,
-      "learning_rate": 9.330127018922194e-05,
-      "loss": 0.8997,
-      "num_input_tokens_seen": 2807320,
-      "step": 180
-    },
-    {
-      "epoch": 0.5138888888888888,
-      "grad_norm": 0.5426765737063947,
-      "learning_rate": 9.268259091319582e-05,
-      "loss": 0.9024,
-      "num_input_tokens_seen": 2885368,
-      "step": 185
-    },
-    {
-      "epoch": 0.5277777777777778,
-      "grad_norm": 0.4593898499279331,
-      "learning_rate": 9.203883211545517e-05,
-      "loss": 0.9002,
-      "num_input_tokens_seen": 2963376,
-      "step": 190
-    },
-    {
-      "epoch": 0.5416666666666666,
-      "grad_norm": 0.27583660078148825,
-      "learning_rate": 9.137037205707552e-05,
-      "loss": 0.9,
-      "num_input_tokens_seen": 3041376,
-      "step": 195
-    },
-    {
-      "epoch": 0.5555555555555556,
-      "grad_norm": 0.26593205655845514,
-      "learning_rate": 9.067760351314838e-05,
-      "loss": 0.8989,
-      "num_input_tokens_seen": 3119304,
-      "step": 200
-    },
-    {
-      "epoch": 0.5555555555555556,
-      "eval_loss": 0.8992709517478943,
-      "eval_runtime": 46.6014,
-      "eval_samples_per_second": 3.133,
-      "eval_steps_per_second": 0.794,
-      "num_input_tokens_seen": 3119304,
-      "step": 200
-    },
-    {
-      "epoch": 0.5694444444444444,
-      "grad_norm": 0.5150976787458876,
-      "learning_rate": 8.996093354199349e-05,
-      "loss": 0.8994,
-      "num_input_tokens_seen": 3197320,
-      "step": 205
-    },
-    {
-      "epoch": 0.5833333333333334,
-      "grad_norm": 0.5612526379811666,
-      "learning_rate": 8.922078324597879e-05,
-      "loss": 0.9036,
-      "num_input_tokens_seen": 3275288,
-      "step": 210
-    },
-    {
-      "epoch": 0.5972222222222222,
-      "grad_norm": 0.6484992865693107,
-      "learning_rate": 8.845758752408826e-05,
-      "loss": 0.8988,
-      "num_input_tokens_seen": 3353240,
-      "step": 215
-    },
-    {
-      "epoch": 0.6111111111111112,
-      "grad_norm": 0.4709224015616086,
-      "learning_rate": 8.767179481638303e-05,
-      "loss": 0.9015,
-      "num_input_tokens_seen": 3431248,
-      "step": 220
-    },
-    {
-      "epoch": 0.625,
-      "grad_norm": 0.6046638090352222,
-      "learning_rate": 8.68638668405062e-05,
-      "loss": 0.9047,
-      "num_input_tokens_seen": 3509192,
-      "step": 225
-    },
-    {
-      "epoch": 0.6388888888888888,
-      "grad_norm": 0.4688289739018474,
-      "learning_rate": 8.603427832038574e-05,
-      "loss": 0.901,
-      "num_input_tokens_seen": 3587152,
-      "step": 230
-    },
-    {
-      "epoch": 0.6527777777777778,
-      "grad_norm": 0.5904442121458054,
-      "learning_rate": 8.518351670729529e-05,
-      "loss": 0.8898,
-      "num_input_tokens_seen": 3665128,
-      "step": 235
-    },
-    {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.6120652373129304,
-      "learning_rate": 8.43120818934367e-05,
-      "loss": 0.8896,
-      "num_input_tokens_seen": 3743128,
-      "step": 240
-    },
-    {
-      "epoch": 0.6805555555555556,
-      "grad_norm": 1.313292312803758,
-      "learning_rate": 8.342048591821212e-05,
-      "loss": 0.8993,
-      "num_input_tokens_seen": 3821088,
-      "step": 245
-    },
-    {
-      "epoch": 0.6944444444444444,
-      "grad_norm": 0.9735602658006927,
-      "learning_rate": 8.250925266735918e-05,
-      "loss": 0.8907,
-      "num_input_tokens_seen": 3899064,
-      "step": 250
-    },
-    {
-      "epoch": 0.6944444444444444,
-      "eval_loss": 0.8925368785858154,
-      "eval_runtime": 46.6124,
-      "eval_samples_per_second": 3.132,
-      "eval_steps_per_second": 0.794,
-      "num_input_tokens_seen": 3899064,
-      "step": 250
-    },
-    {
-      "epoch": 0.7083333333333334,
-      "grad_norm": 1.2050807227161144,
-      "learning_rate": 8.157891756512488e-05,
-      "loss": 0.878,
-      "num_input_tokens_seen": 3977048,
-      "step": 255
-    },
-    {
-      "epoch": 0.7222222222222222,
-      "grad_norm": 1.9771414914416532,
-      "learning_rate": 8.063002725966015e-05,
-      "loss": 0.8881,
-      "num_input_tokens_seen": 4055080,
-      "step": 260
-    },
-    {
-      "epoch": 0.7361111111111112,
-      "grad_norm": 1.605957774581815,
-      "learning_rate": 7.966313930181912e-05,
-      "loss": 0.8755,
-      "num_input_tokens_seen": 4133008,
-      "step": 265
-    },
-    {
-      "epoch": 0.75,
-      "grad_norm": 9.19186897524454,
-      "learning_rate": 7.86788218175523e-05,
-      "loss": 0.8558,
-      "num_input_tokens_seen": 4210992,
-      "step": 270
-    },
-    {
-      "epoch": 0.7638888888888888,
-      "grad_norm": 4.328337833890427,
-      "learning_rate": 7.767765317408613e-05,
-      "loss": 0.9057,
-      "num_input_tokens_seen": 4288976,
-      "step": 275
-    },
-    {
-      "epoch": 0.7777777777777778,
-      "grad_norm": 3.1206913180819185,
-      "learning_rate": 7.666022164008457e-05,
-      "loss": 0.845,
-      "num_input_tokens_seen": 4366920,
-      "step": 280
-    },
-    {
-      "epoch": 0.7916666666666666,
-      "grad_norm": 3.6462009524262773,
-      "learning_rate": 7.562712503999327e-05,
-      "loss": 0.8524,
-      "num_input_tokens_seen": 4444912,
-      "step": 285
-    },
-    {
-      "epoch": 0.8055555555555556,
-      "grad_norm": 2.1379581270956285,
-      "learning_rate": 7.457897040276853e-05,
-      "loss": 0.8694,
-      "num_input_tokens_seen": 4522912,
-      "step": 290
-    },
-    {
-      "epoch": 0.8194444444444444,
-      "grad_norm": 3.553029913178992,
-      "learning_rate": 7.351637360519813e-05,
-      "loss": 0.8605,
-      "num_input_tokens_seen": 4600848,
-      "step": 295
-    },
-    {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 3.332905153564647,
-      "learning_rate": 7.243995901002312e-05,
-      "loss": 0.8739,
-      "num_input_tokens_seen": 4678776,
-      "step": 300
-    },
-    {
-      "epoch": 0.8333333333333334,
-      "eval_loss": 0.8601770997047424,
-      "eval_runtime": 46.9817,
-      "eval_samples_per_second": 3.108,
-      "eval_steps_per_second": 0.788,
-      "num_input_tokens_seen": 4678776,
-      "step": 300
-    },
-    {
-      "epoch": 0.8472222222222222,
-      "grad_norm": 3.824074793385472,
-      "learning_rate": 7.135035909907358e-05,
-      "loss": 0.8838,
-      "num_input_tokens_seen": 4756744,
-      "step": 305
-    },
-    {
-      "epoch": 0.8611111111111112,
-      "grad_norm": 1.8566349178683659,
-      "learning_rate": 7.024821410163368e-05,
-      "loss": 0.8843,
-      "num_input_tokens_seen": 4834648,
-      "step": 310
-    },
-    {
-      "epoch": 0.875,
-      "grad_norm": 1.8800583465943999,
-      "learning_rate": 6.91341716182545e-05,
-      "loss": 0.8637,
-      "num_input_tokens_seen": 4912632,
-      "step": 315
-    },
-    {
-      "epoch": 0.8888888888888888,
-      "grad_norm": 2.339387141795884,
-      "learning_rate": 6.800888624023553e-05,
-      "loss": 0.8714,
-      "num_input_tokens_seen": 4990632,
-      "step": 320
-    },
-    {
-      "epoch": 0.9027777777777778,
-      "grad_norm": 1.650009361432866,
-      "learning_rate": 6.687301916499871e-05,
-      "loss": 0.8581,
-      "num_input_tokens_seen": 5068632,
-      "step": 325
-    },
-    {
-      "epoch": 0.9166666666666666,
-      "grad_norm": 2.8384085546182294,
-      "learning_rate": 6.572723780758069e-05,
-      "loss": 0.8655,
-      "num_input_tokens_seen": 5146648,
-      "step": 330
-    },
-    {
-      "epoch": 0.9305555555555556,
-      "grad_norm": 6.227674605881871,
-      "learning_rate": 6.457221540847176e-05,
-      "loss": 0.8721,
-      "num_input_tokens_seen": 5224624,
-      "step": 335
-    },
-    {
-      "epoch": 0.9444444444444444,
-      "grad_norm": 3.498647817420285,
-      "learning_rate": 6.340863063803188e-05,
-      "loss": 0.8563,
-      "num_input_tokens_seen": 5302600,
-      "step": 340
-    },
-    {
-      "epoch": 0.9583333333333334,
-      "grad_norm": 4.211929847119524,
-      "learning_rate": 6.22371671977162e-05,
-      "loss": 0.8634,
-      "num_input_tokens_seen": 5380600,
-      "step": 345
-    },
-    {
-      "epoch": 0.9722222222222222,
-      "grad_norm": 3.696407127177043,
-      "learning_rate": 6.105851341834439e-05,
-      "loss": 0.8526,
-      "num_input_tokens_seen": 5458520,
-      "step": 350
-    },
-    {
-      "epoch": 0.9722222222222222,
-      "eval_loss": 0.830344021320343,
-      "eval_runtime": 46.3813,
-      "eval_samples_per_second": 3.148,
-      "eval_steps_per_second": 0.798,
-      "num_input_tokens_seen": 5458520,
-      "step": 350
     }
   ],
   "logging_steps": 5,
-  "max_steps": 720,
-  "num_input_tokens_seen": 5458520,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -649,7 +115,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 369059492790272.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9039102792739868,
+  "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily/lora/sft/checkpoint-50",
+  "epoch": 0.13961605584642234,
   "eval_steps": 50,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.013961605584642234,
+      "grad_norm": 21.25276507868793,
       "learning_rate": 6.944444444444445e-06,
+      "loss": 2.9908,
       "num_input_tokens_seen": 77944,
       "step": 5
     },
     {
+      "epoch": 0.027923211169284468,
+      "grad_norm": 21.89043285054519,
       "learning_rate": 1.388888888888889e-05,
+      "loss": 3.0071,
+      "num_input_tokens_seen": 155896,
       "step": 10
     },
     {
+      "epoch": 0.041884816753926704,
+      "grad_norm": 16.65776874449816,
       "learning_rate": 2.0833333333333336e-05,
+      "loss": 2.354,
       "num_input_tokens_seen": 233896,
       "step": 15
     },
     {
+      "epoch": 0.055846422338568937,
+      "grad_norm": 3.772799389266845,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 1.2959,
+      "num_input_tokens_seen": 311840,
       "step": 20
     },
     {
+      "epoch": 0.06980802792321117,
+      "grad_norm": 2.5936011954385334,
       "learning_rate": 3.472222222222222e-05,
+      "loss": 1.0206,
+      "num_input_tokens_seen": 389816,
       "step": 25
     },
     {
+      "epoch": 0.08376963350785341,
+      "grad_norm": 1.380523901017673,
       "learning_rate": 4.166666666666667e-05,
+      "loss": 0.9285,
+      "num_input_tokens_seen": 467808,
       "step": 30
     },
     {
+      "epoch": 0.09773123909249563,
+      "grad_norm": 0.9535971270874376,
       "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.9052,
+      "num_input_tokens_seen": 545776,
       "step": 35
     },
     {
+      "epoch": 0.11169284467713787,
+      "grad_norm": 0.7487685762175865,
       "learning_rate": 5.555555555555556e-05,
+      "loss": 0.929,
+      "num_input_tokens_seen": 623744,
       "step": 40
     },
     {
+      "epoch": 0.1256544502617801,
+      "grad_norm": 0.9517829869317949,
       "learning_rate": 6.25e-05,
+      "loss": 0.9076,
+      "num_input_tokens_seen": 701720,
       "step": 45
     },
     {
+      "epoch": 0.13961605584642234,
+      "grad_norm": 0.5105376471286923,
       "learning_rate": 6.944444444444444e-05,
+      "loss": 0.9039,
+      "num_input_tokens_seen": 779728,
       "step": 50
     },
     {
+      "epoch": 0.13961605584642234,
+      "eval_loss": 0.9039102792739868,
+      "eval_runtime": 74.9579,
+      "eval_samples_per_second": 1.948,
+      "eval_steps_per_second": 0.494,
+      "num_input_tokens_seen": 779728,
       "step": 50
     }
   ],
   "logging_steps": 5,
+  "max_steps": 716,
+  "num_input_tokens_seen": 779728,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 52663320313856.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ae1f2f88db7ed48f6bd7b609c8d1a0011f4c2a12f13011280474cb269b33af9
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b0af6075e02b8e93a59ce938db15a9c8a754a7d6b6c53d6278e322b07db3808
 size 7352