sophiamini

Browse files

Files changed (10) hide show

README.md +20 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
all_results.json +7 -0
finetuning_args.json +13 -0
train_results.json +7 -0
trainer_log.jsonl +25 -0
trainer_state.json +169 -0
training_args.bin +3 -0
training_loss.png +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.4.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9173400afd5962cc0cd954e4b94b9aa8fb7f58632b5b865776bebea2ee70a2c8
+size 10685229

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.74,
+    "train_loss": 1.9701327433188756,
+    "train_runtime": 86.3764,
+    "train_samples_per_second": 38.691,
+    "train_steps_per_second": 0.278
+}

finetuning_args.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "finetuning_type": "lora",
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.1,
+  "lora_rank": 8,
+  "lora_target": [
+    "q_proj",
+    "v_proj"
+  ],
+  "name_module_trainable": "mlp",
+  "num_hidden_layers": 32,
+  "num_layer_trainable": 3
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.74,
+    "train_loss": 1.9701327433188756,
+    "train_runtime": 86.3764,
+    "train_samples_per_second": 38.691,
+    "train_steps_per_second": 0.278
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,25 @@

+{"current_steps": 1, "total_steps": 24, "loss": 2.06, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9786121534345265e-05, "epoch": 0.11, "percentage": 4.17, "elapsed_time": "0:00:03", "remaining_time": "0:01:26"}
+{"current_steps": 2, "total_steps": 24, "loss": 2.0206, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.914814565722671e-05, "epoch": 0.23, "percentage": 8.33, "elapsed_time": "0:00:07", "remaining_time": "0:01:21"}
+{"current_steps": 3, "total_steps": 24, "loss": 2.0372, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.8096988312782174e-05, "epoch": 0.34, "percentage": 12.5, "elapsed_time": "0:00:10", "remaining_time": "0:01:16"}
+{"current_steps": 4, "total_steps": 24, "loss": 1.9041, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.665063509461097e-05, "epoch": 0.46, "percentage": 16.67, "elapsed_time": "0:00:14", "remaining_time": "0:01:11"}
+{"current_steps": 5, "total_steps": 24, "loss": 2.0016, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.4833833507280884e-05, "epoch": 0.57, "percentage": 20.83, "elapsed_time": "0:00:18", "remaining_time": "0:01:08"}
+{"current_steps": 6, "total_steps": 24, "loss": 1.9804, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.267766952966369e-05, "epoch": 0.69, "percentage": 25.0, "elapsed_time": "0:00:21", "remaining_time": "0:01:04"}
+{"current_steps": 7, "total_steps": 24, "loss": 2.054, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.021903572521802e-05, "epoch": 0.8, "percentage": 29.17, "elapsed_time": "0:00:25", "remaining_time": "0:01:01"}
+{"current_steps": 8, "total_steps": 24, "loss": 1.9366, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7500000000000003e-05, "epoch": 0.91, "percentage": 33.33, "elapsed_time": "0:00:28", "remaining_time": "0:00:57"}
+{"current_steps": 9, "total_steps": 24, "loss": 1.9305, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.456708580912725e-05, "epoch": 1.03, "percentage": 37.5, "elapsed_time": "0:00:32", "remaining_time": "0:00:54"}
+{"current_steps": 10, "total_steps": 24, "loss": 1.9426, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.147047612756302e-05, "epoch": 1.14, "percentage": 41.67, "elapsed_time": "0:00:35", "remaining_time": "0:00:50"}
+{"current_steps": 11, "total_steps": 24, "loss": 1.968, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.8263154805501297e-05, "epoch": 1.26, "percentage": 45.83, "elapsed_time": "0:00:39", "remaining_time": "0:00:46"}
+{"current_steps": 12, "total_steps": 24, "loss": 2.0241, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.5e-05, "epoch": 1.37, "percentage": 50.0, "elapsed_time": "0:00:43", "remaining_time": "0:00:43"}
+{"current_steps": 13, "total_steps": 24, "loss": 1.9506, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.173684519449872e-05, "epoch": 1.49, "percentage": 54.17, "elapsed_time": "0:00:47", "remaining_time": "0:00:39"}
+{"current_steps": 14, "total_steps": 24, "loss": 2.0218, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.852952387243698e-05, "epoch": 1.6, "percentage": 58.33, "elapsed_time": "0:00:50", "remaining_time": "0:00:36"}
+{"current_steps": 15, "total_steps": 24, "loss": 1.896, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.5432914190872757e-05, "epoch": 1.71, "percentage": 62.5, "elapsed_time": "0:00:54", "remaining_time": "0:00:32"}
+{"current_steps": 16, "total_steps": 24, "loss": 1.9558, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2500000000000006e-05, "epoch": 1.83, "percentage": 66.67, "elapsed_time": "0:00:57", "remaining_time": "0:00:28"}
+{"current_steps": 17, "total_steps": 24, "loss": 1.935, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.780964274781984e-06, "epoch": 1.94, "percentage": 70.83, "elapsed_time": "0:01:01", "remaining_time": "0:00:25"}
+{"current_steps": 18, "total_steps": 24, "loss": 1.9452, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.3223304703363135e-06, "epoch": 2.06, "percentage": 75.0, "elapsed_time": "0:01:04", "remaining_time": "0:00:21"}
+{"current_steps": 19, "total_steps": 24, "loss": 1.9464, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.166166492719124e-06, "epoch": 2.17, "percentage": 79.17, "elapsed_time": "0:01:08", "remaining_time": "0:00:18"}
+{"current_steps": 20, "total_steps": 24, "loss": 1.9029, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.3493649053890326e-06, "epoch": 2.29, "percentage": 83.33, "elapsed_time": "0:01:11", "remaining_time": "0:00:14"}
+{"current_steps": 21, "total_steps": 24, "loss": 1.9304, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9030116872178316e-06, "epoch": 2.4, "percentage": 87.5, "elapsed_time": "0:01:15", "remaining_time": "0:00:10"}
+{"current_steps": 22, "total_steps": 24, "loss": 1.9514, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.51854342773295e-07, "epoch": 2.51, "percentage": 91.67, "elapsed_time": "0:01:19", "remaining_time": "0:00:07"}
+{"current_steps": 23, "total_steps": 24, "loss": 1.9894, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.1387846565474045e-07, "epoch": 2.63, "percentage": 95.83, "elapsed_time": "0:01:22", "remaining_time": "0:00:03"}
+{"current_steps": 24, "total_steps": 24, "loss": 1.9986, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0, "epoch": 2.74, "percentage": 100.0, "elapsed_time": "0:01:26", "remaining_time": "0:00:00"}
+{"current_steps": 24, "total_steps": 24, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.74, "percentage": 100.0, "elapsed_time": "0:01:26", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,169 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.742857142857143,
+  "global_step": 24,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.9786121534345265e-05,
+      "loss": 2.06,
+      "step": 1
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.914814565722671e-05,
+      "loss": 2.0206,
+      "step": 2
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.8096988312782174e-05,
+      "loss": 2.0372,
+      "step": 3
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.665063509461097e-05,
+      "loss": 1.9041,
+      "step": 4
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.4833833507280884e-05,
+      "loss": 2.0016,
+      "step": 5
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.267766952966369e-05,
+      "loss": 1.9804,
+      "step": 6
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.021903572521802e-05,
+      "loss": 2.054,
+      "step": 7
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.9366,
+      "step": 8
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 1.9305,
+      "step": 9
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.147047612756302e-05,
+      "loss": 1.9426,
+      "step": 10
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 2.8263154805501297e-05,
+      "loss": 1.968,
+      "step": 11
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 2.5e-05,
+      "loss": 2.0241,
+      "step": 12
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 2.173684519449872e-05,
+      "loss": 1.9506,
+      "step": 13
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.852952387243698e-05,
+      "loss": 2.0218,
+      "step": 14
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.5432914190872757e-05,
+      "loss": 1.896,
+      "step": 15
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 1.9558,
+      "step": 16
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 9.780964274781984e-06,
+      "loss": 1.935,
+      "step": 17
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 7.3223304703363135e-06,
+      "loss": 1.9452,
+      "step": 18
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 5.166166492719124e-06,
+      "loss": 1.9464,
+      "step": 19
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 1.9029,
+      "step": 20
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.9030116872178316e-06,
+      "loss": 1.9304,
+      "step": 21
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 8.51854342773295e-07,
+      "loss": 1.9514,
+      "step": 22
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 2.1387846565474045e-07,
+      "loss": 1.9894,
+      "step": 23
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0,
+      "loss": 1.9986,
+      "step": 24
+    },
+    {
+      "epoch": 2.74,
+      "step": 24,
+      "total_flos": 2.055544282860749e+16,
+      "train_loss": 1.9701327433188756,
+      "train_runtime": 86.3764,
+      "train_samples_per_second": 38.691,
+      "train_steps_per_second": 0.278
+    }
+  ],
+  "max_steps": 24,
+  "num_train_epochs": 3,
+  "total_flos": 2.055544282860749e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbc224bd3da74f5e2074c54d1223c1ce3c2ee433c607ae59a6e61e814bba382e
+size 3311

training_loss.png ADDED Viewed