End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
train_results.json +9 -0
trainer_state.json +560 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_3e-4_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_3e-4_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.6823
 - Accuracy: 0.4917

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_3e-4_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_qa
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.49165079365079367
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_3e-4_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.6823
 - Accuracy: 0.4917

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.49165079365079367,
+    "eval_loss": 3.6823432445526123,
+    "eval_runtime": 6.0658,
+    "eval_samples": 500,
+    "eval_samples_per_second": 82.429,
+    "eval_steps_per_second": 10.386,
+    "perplexity": 39.73940419969244,
+    "total_flos": 1.293538587312128e+17,
+    "train_loss": 0.6841725708007812,
+    "train_runtime": 11846.7386,
+    "train_samples": 8000,
+    "train_samples_per_second": 13.506,
+    "train_steps_per_second": 0.422
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.49165079365079367,
+    "eval_loss": 3.6823432445526123,
+    "eval_runtime": 6.0658,
+    "eval_samples": 500,
+    "eval_samples_per_second": 82.429,
+    "eval_steps_per_second": 10.386,
+    "perplexity": 39.73940419969244
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "total_flos": 1.293538587312128e+17,
+    "train_loss": 0.6841725708007812,
+    "train_runtime": 11846.7386,
+    "train_samples": 8000,
+    "train_samples_per_second": 13.506,
+    "train_steps_per_second": 0.422
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,560 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.46826276183128357,
+      "learning_rate": 0.0003,
+      "loss": 2.3159,
+      "step": 100
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.45000985264778137,
+      "learning_rate": 0.0003,
+      "loss": 2.248,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5172698412698413,
+      "eval_loss": 2.3110275268554688,
+      "eval_runtime": 6.3254,
+      "eval_samples_per_second": 79.047,
+      "eval_steps_per_second": 9.96,
+      "step": 250
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.6657848954200745,
+      "learning_rate": 0.0003,
+      "loss": 2.0829,
+      "step": 300
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.7272578477859497,
+      "learning_rate": 0.0003,
+      "loss": 1.9262,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.6784635186195374,
+      "learning_rate": 0.0003,
+      "loss": 1.9103,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5157142857142857,
+      "eval_loss": 2.373993396759033,
+      "eval_runtime": 6.0749,
+      "eval_samples_per_second": 82.306,
+      "eval_steps_per_second": 10.371,
+      "step": 500
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.8736333250999451,
+      "learning_rate": 0.0003,
+      "loss": 1.4576,
+      "step": 600
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.8340785503387451,
+      "learning_rate": 0.0003,
+      "loss": 1.4896,
+      "step": 700
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5112063492063492,
+      "eval_loss": 2.526599645614624,
+      "eval_runtime": 6.302,
+      "eval_samples_per_second": 79.34,
+      "eval_steps_per_second": 9.997,
+      "step": 750
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.0462632179260254,
+      "learning_rate": 0.0003,
+      "loss": 1.2816,
+      "step": 800
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 1.0726990699768066,
+      "learning_rate": 0.0003,
+      "loss": 1.069,
+      "step": 900
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.2521560192108154,
+      "learning_rate": 0.0003,
+      "loss": 1.109,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5036507936507937,
+      "eval_loss": 2.7829766273498535,
+      "eval_runtime": 5.9324,
+      "eval_samples_per_second": 84.283,
+      "eval_steps_per_second": 10.62,
+      "step": 1000
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.1222484111785889,
+      "learning_rate": 0.0003,
+      "loss": 0.7303,
+      "step": 1100
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.209559679031372,
+      "learning_rate": 0.0003,
+      "loss": 0.7757,
+      "step": 1200
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.49873015873015875,
+      "eval_loss": 3.0311408042907715,
+      "eval_runtime": 6.2342,
+      "eval_samples_per_second": 80.203,
+      "eval_steps_per_second": 10.106,
+      "step": 1250
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.887942373752594,
+      "learning_rate": 0.0003,
+      "loss": 0.6704,
+      "step": 1300
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 1.0530667304992676,
+      "learning_rate": 0.0003,
+      "loss": 0.5699,
+      "step": 1400
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.0920815467834473,
+      "learning_rate": 0.0003,
+      "loss": 0.5994,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.49787301587301586,
+      "eval_loss": 3.2255795001983643,
+      "eval_runtime": 6.1133,
+      "eval_samples_per_second": 81.789,
+      "eval_steps_per_second": 10.305,
+      "step": 1500
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 1.010949969291687,
+      "learning_rate": 0.0003,
+      "loss": 0.4637,
+      "step": 1600
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.9567492604255676,
+      "learning_rate": 0.0003,
+      "loss": 0.4921,
+      "step": 1700
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.49577777777777776,
+      "eval_loss": 3.351687431335449,
+      "eval_runtime": 5.7924,
+      "eval_samples_per_second": 86.32,
+      "eval_steps_per_second": 10.876,
+      "step": 1750
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 1.059217929840088,
+      "learning_rate": 0.0003,
+      "loss": 0.4599,
+      "step": 1800
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.8017446994781494,
+      "learning_rate": 0.0003,
+      "loss": 0.4409,
+      "step": 1900
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.9800388813018799,
+      "learning_rate": 0.0003,
+      "loss": 0.4575,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4946031746031746,
+      "eval_loss": 3.4320859909057617,
+      "eval_runtime": 6.1689,
+      "eval_samples_per_second": 81.051,
+      "eval_steps_per_second": 10.212,
+      "step": 2000
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 0.6948591470718384,
+      "learning_rate": 0.0003,
+      "loss": 0.4023,
+      "step": 2100
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.6963217258453369,
+      "learning_rate": 0.0003,
+      "loss": 0.4233,
+      "step": 2200
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.49612698412698414,
+      "eval_loss": 3.5150551795959473,
+      "eval_runtime": 5.8039,
+      "eval_samples_per_second": 86.148,
+      "eval_steps_per_second": 10.855,
+      "step": 2250
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.7925310730934143,
+      "learning_rate": 0.0003,
+      "loss": 0.4133,
+      "step": 2300
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.680012047290802,
+      "learning_rate": 0.0003,
+      "loss": 0.3997,
+      "step": 2400
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.6718311905860901,
+      "learning_rate": 0.0003,
+      "loss": 0.4178,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.49498412698412697,
+      "eval_loss": 3.5280325412750244,
+      "eval_runtime": 6.0021,
+      "eval_samples_per_second": 83.304,
+      "eval_steps_per_second": 10.496,
+      "step": 2500
+    },
+    {
+      "epoch": 10.4,
+      "grad_norm": 0.5879548192024231,
+      "learning_rate": 0.0003,
+      "loss": 0.3814,
+      "step": 2600
+    },
+    {
+      "epoch": 10.8,
+      "grad_norm": 0.8837707042694092,
+      "learning_rate": 0.0003,
+      "loss": 0.3987,
+      "step": 2700
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.49507936507936506,
+      "eval_loss": 3.5547120571136475,
+      "eval_runtime": 5.9642,
+      "eval_samples_per_second": 83.833,
+      "eval_steps_per_second": 10.563,
+      "step": 2750
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 0.7036486268043518,
+      "learning_rate": 0.0003,
+      "loss": 0.3947,
+      "step": 2800
+    },
+    {
+      "epoch": 11.6,
+      "grad_norm": 0.7022255063056946,
+      "learning_rate": 0.0003,
+      "loss": 0.3886,
+      "step": 2900
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.6789013743400574,
+      "learning_rate": 0.0003,
+      "loss": 0.4033,
+      "step": 3000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.49542857142857144,
+      "eval_loss": 3.560084581375122,
+      "eval_runtime": 6.1898,
+      "eval_samples_per_second": 80.779,
+      "eval_steps_per_second": 10.178,
+      "step": 3000
+    },
+    {
+      "epoch": 12.4,
+      "grad_norm": 0.7532069683074951,
+      "learning_rate": 0.0003,
+      "loss": 0.3719,
+      "step": 3100
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.5012597441673279,
+      "learning_rate": 0.0003,
+      "loss": 0.3932,
+      "step": 3200
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4932063492063492,
+      "eval_loss": 3.585875988006592,
+      "eval_runtime": 6.3897,
+      "eval_samples_per_second": 78.251,
+      "eval_steps_per_second": 9.86,
+      "step": 3250
+    },
+    {
+      "epoch": 13.2,
+      "grad_norm": 0.6146650910377502,
+      "learning_rate": 0.0003,
+      "loss": 0.3876,
+      "step": 3300
+    },
+    {
+      "epoch": 13.6,
+      "grad_norm": 0.6754132509231567,
+      "learning_rate": 0.0003,
+      "loss": 0.382,
+      "step": 3400
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.974744439125061,
+      "learning_rate": 0.0003,
+      "loss": 0.4012,
+      "step": 3500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.49266666666666664,
+      "eval_loss": 3.594428777694702,
+      "eval_runtime": 6.1257,
+      "eval_samples_per_second": 81.623,
+      "eval_steps_per_second": 10.285,
+      "step": 3500
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 0.6026502847671509,
+      "learning_rate": 0.0003,
+      "loss": 0.3754,
+      "step": 3600
+    },
+    {
+      "epoch": 14.8,
+      "grad_norm": 0.8706900477409363,
+      "learning_rate": 0.0003,
+      "loss": 0.3895,
+      "step": 3700
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4939047619047619,
+      "eval_loss": 3.6037862300872803,
+      "eval_runtime": 6.314,
+      "eval_samples_per_second": 79.189,
+      "eval_steps_per_second": 9.978,
+      "step": 3750
+    },
+    {
+      "epoch": 15.2,
+      "grad_norm": 0.7156828045845032,
+      "learning_rate": 0.0003,
+      "loss": 0.385,
+      "step": 3800
+    },
+    {
+      "epoch": 15.6,
+      "grad_norm": 0.8976225256919861,
+      "learning_rate": 0.0003,
+      "loss": 0.3792,
+      "step": 3900
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.765393853187561,
+      "learning_rate": 0.0003,
+      "loss": 0.396,
+      "step": 4000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.49323809523809525,
+      "eval_loss": 3.650381326675415,
+      "eval_runtime": 5.7803,
+      "eval_samples_per_second": 86.501,
+      "eval_steps_per_second": 10.899,
+      "step": 4000
+    },
+    {
+      "epoch": 16.4,
+      "grad_norm": 0.5230117440223694,
+      "learning_rate": 0.0003,
+      "loss": 0.3683,
+      "step": 4100
+    },
+    {
+      "epoch": 16.8,
+      "grad_norm": 0.676298201084137,
+      "learning_rate": 0.0003,
+      "loss": 0.3847,
+      "step": 4200
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.49117460317460315,
+      "eval_loss": 3.66017746925354,
+      "eval_runtime": 6.0862,
+      "eval_samples_per_second": 82.154,
+      "eval_steps_per_second": 10.351,
+      "step": 4250
+    },
+    {
+      "epoch": 17.2,
+      "grad_norm": 0.8566504120826721,
+      "learning_rate": 0.0003,
+      "loss": 0.3836,
+      "step": 4300
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 0.8317088484764099,
+      "learning_rate": 0.0003,
+      "loss": 0.376,
+      "step": 4400
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.5270309448242188,
+      "learning_rate": 0.0003,
+      "loss": 0.3942,
+      "step": 4500
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.49142857142857144,
+      "eval_loss": 3.651546001434326,
+      "eval_runtime": 6.2927,
+      "eval_samples_per_second": 79.458,
+      "eval_steps_per_second": 10.012,
+      "step": 4500
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 0.587833821773529,
+      "learning_rate": 0.0003,
+      "loss": 0.3648,
+      "step": 4600
+    },
+    {
+      "epoch": 18.8,
+      "grad_norm": 0.7488328814506531,
+      "learning_rate": 0.0003,
+      "loss": 0.3809,
+      "step": 4700
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.49228571428571427,
+      "eval_loss": 3.7304036617279053,
+      "eval_runtime": 6.0944,
+      "eval_samples_per_second": 82.043,
+      "eval_steps_per_second": 10.337,
+      "step": 4750
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.4905204176902771,
+      "learning_rate": 0.0003,
+      "loss": 0.3715,
+      "step": 4800
+    },
+    {
+      "epoch": 19.6,
+      "grad_norm": 0.6574224829673767,
+      "learning_rate": 0.0003,
+      "loss": 0.3701,
+      "step": 4900
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.7665922045707703,
+      "learning_rate": 0.0003,
+      "loss": 0.3805,
+      "step": 5000
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.49165079365079367,
+      "eval_loss": 3.6823432445526123,
+      "eval_runtime": 6.2644,
+      "eval_samples_per_second": 79.816,
+      "eval_steps_per_second": 10.057,
+      "step": 5000
+    },
+    {
+      "epoch": 20.0,
+      "step": 5000,
+      "total_flos": 1.293538587312128e+17,
+      "train_loss": 0.6841725708007812,
+      "train_runtime": 11846.7386,
+      "train_samples_per_second": 13.506,
+      "train_steps_per_second": 0.422
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.293538587312128e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}