desarrolloasesoreslocales/legal-mistral-v2

Browse files

Files changed (9) hide show

README.md +21 -5
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701082638.1525e7447fdd.42121.0 +3 -0
runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701084875.1525e7447fdd.42121.1 +3 -0
runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701085039.1525e7447fdd.42121.2 +3 -0
runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701089676.1525e7447fdd.42121.3 +3 -0
trainer_state.json +274 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -4,18 +4,18 @@ base_model: mistralai/Mistral-7B-Instruct-v0.1
 tags:
 - generated_from_trainer
 model-index:
-- name: legal-mistral-v0.1
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# legal-mistral-v0.1
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.8913
 ## Model description
@@ -40,13 +40,29 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.6658        | 1.0   | 60   | 2.8913          |
 ### Framework versions

 tags:
 - generated_from_trainer
 model-index:
+- name: legal-mistral
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# legal-mistral
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3540
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.4243        | 0.17  | 10   | 2.5809          |
+| 2.32          | 0.34  | 20   | 2.5187          |
+| 2.2652        | 0.52  | 30   | 2.4796          |
+| 2.2424        | 0.69  | 40   | 2.4498          |
+| 2.1759        | 0.86  | 50   | 2.4304          |
+| 2.1698        | 1.03  | 60   | 2.4161          |
+| 2.1337        | 1.21  | 70   | 2.4035          |
+| 2.1193        | 1.38  | 80   | 2.3962          |
+| 2.0928        | 1.55  | 90   | 2.3852          |
+| 2.1072        | 1.72  | 100  | 2.3763          |
+| 2.0701        | 1.9   | 110  | 2.3709          |
+| 2.0584        | 2.07  | 120  | 2.3670          |
+| 2.0569        | 2.24  | 130  | 2.3638          |
+| 2.0396        | 2.41  | 140  | 2.3619          |
+| 2.0406        | 2.59  | 150  | 2.3584          |
+| 2.0259        | 2.76  | 160  | 2.3552          |
+| 2.0492        | 2.93  | 170  | 2.3540          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -16,10 +16,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "v_proj",
     "q_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
     "q_proj",
+    "o_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:815ccb1ea1421334dfd279256070f1a9335bcefc6b46a948074095a698d82b14
 size 27297032

 version https://git-lfs.github.com/spec/v1
+oid sha256:79aac1fb92330370ca501799bc5ff5b833c46ab0f8c2b4165b1e74838a6e15c8
 size 27297032

runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701082638.1525e7447fdd.42121.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6a0cf23bc541ad5b991e7ab621dcf911e2561c57dacfc1be12b910e2bf62334
+size 10032

runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701084875.1525e7447fdd.42121.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04a4c301c129b65bffac58990cbc8b484fb8049325750a98af88983b2c6a003b
+size 354

runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701085039.1525e7447fdd.42121.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6306c4c7d639e9241f6a08b297e31ca15c9a54ba4668c3de20553e75cf70e4c6
+size 12179

runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701089676.1525e7447fdd.42121.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:593c19c5868d5d3625b143d50c3707883970743dad00846480aabb78de858d2a
+size 630

trainer_state.json ADDED Viewed

	@@ -0,0 +1,274 @@

+{
+  "best_metric": 2.3539514541625977,
+  "best_model_checkpoint": "desarrolloasesoreslocales/legal-mistral/checkpoint-170",
+  "epoch": 3.0,
+  "eval_steps": 10,
+  "global_step": 174,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.885057471264368e-05,
+      "loss": 2.4243,
+      "step": 10
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.5809202194213867,
+      "eval_runtime": 79.9298,
+      "eval_samples_per_second": 11.623,
+      "eval_steps_per_second": 1.464,
+      "step": 10
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.770114942528736e-05,
+      "loss": 2.32,
+      "step": 20
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 2.5187058448791504,
+      "eval_runtime": 79.9944,
+      "eval_samples_per_second": 11.613,
+      "eval_steps_per_second": 1.463,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.6551724137931037e-05,
+      "loss": 2.2652,
+      "step": 30
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 2.479558229446411,
+      "eval_runtime": 79.9192,
+      "eval_samples_per_second": 11.624,
+      "eval_steps_per_second": 1.464,
+      "step": 30
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.540229885057471e-05,
+      "loss": 2.2424,
+      "step": 40
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 2.449814796447754,
+      "eval_runtime": 80.3275,
+      "eval_samples_per_second": 11.565,
+      "eval_steps_per_second": 1.457,
+      "step": 40
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.4252873563218392e-05,
+      "loss": 2.1759,
+      "step": 50
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 2.430422782897949,
+      "eval_runtime": 80.3296,
+      "eval_samples_per_second": 11.565,
+      "eval_steps_per_second": 1.456,
+      "step": 50
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.310344827586207e-05,
+      "loss": 2.1698,
+      "step": 60
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 2.4160897731781006,
+      "eval_runtime": 79.8167,
+      "eval_samples_per_second": 11.639,
+      "eval_steps_per_second": 1.466,
+      "step": 60
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.1954022988505748e-05,
+      "loss": 2.1337,
+      "step": 70
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 2.40354585647583,
+      "eval_runtime": 79.8387,
+      "eval_samples_per_second": 11.636,
+      "eval_steps_per_second": 1.465,
+      "step": 70
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.0804597701149427e-05,
+      "loss": 2.1193,
+      "step": 80
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 2.3962202072143555,
+      "eval_runtime": 79.8113,
+      "eval_samples_per_second": 11.64,
+      "eval_steps_per_second": 1.466,
+      "step": 80
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 9.655172413793105e-06,
+      "loss": 2.0928,
+      "step": 90
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 2.3851864337921143,
+      "eval_runtime": 79.8078,
+      "eval_samples_per_second": 11.64,
+      "eval_steps_per_second": 1.466,
+      "step": 90
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 8.505747126436782e-06,
+      "loss": 2.1072,
+      "step": 100
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 2.376269817352295,
+      "eval_runtime": 79.9299,
+      "eval_samples_per_second": 11.623,
+      "eval_steps_per_second": 1.464,
+      "step": 100
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 7.35632183908046e-06,
+      "loss": 2.0701,
+      "step": 110
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 2.3708786964416504,
+      "eval_runtime": 79.9941,
+      "eval_samples_per_second": 11.613,
+      "eval_steps_per_second": 1.463,
+      "step": 110
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 6.206896551724138e-06,
+      "loss": 2.0584,
+      "step": 120
+    },
+    {
+      "epoch": 2.07,
+      "eval_loss": 2.3670151233673096,
+      "eval_runtime": 80.0335,
+      "eval_samples_per_second": 11.608,
+      "eval_steps_per_second": 1.462,
+      "step": 120
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 5.057471264367817e-06,
+      "loss": 2.0569,
+      "step": 130
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 2.3638148307800293,
+      "eval_runtime": 80.0359,
+      "eval_samples_per_second": 11.607,
+      "eval_steps_per_second": 1.462,
+      "step": 130
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 3.908045977011495e-06,
+      "loss": 2.0396,
+      "step": 140
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 2.3619213104248047,
+      "eval_runtime": 80.0238,
+      "eval_samples_per_second": 11.609,
+      "eval_steps_per_second": 1.462,
+      "step": 140
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 2.7586206896551725e-06,
+      "loss": 2.0406,
+      "step": 150
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 2.3583548069000244,
+      "eval_runtime": 80.0658,
+      "eval_samples_per_second": 11.603,
+      "eval_steps_per_second": 1.461,
+      "step": 150
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 1.6091954022988506e-06,
+      "loss": 2.0259,
+      "step": 160
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 2.3552348613739014,
+      "eval_runtime": 80.0434,
+      "eval_samples_per_second": 11.606,
+      "eval_steps_per_second": 1.462,
+      "step": 160
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 4.5977011494252875e-07,
+      "loss": 2.0492,
+      "step": 170
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 2.3539514541625977,
+      "eval_runtime": 80.0092,
+      "eval_samples_per_second": 11.611,
+      "eval_steps_per_second": 1.462,
+      "step": 170
+    },
+    {
+      "epoch": 3.0,
+      "step": 174,
+      "total_flos": 7.500749066993664e+16,
+      "train_loss": 2.138888589267073,
+      "train_runtime": 4525.1585,
+      "train_samples_per_second": 3.032,
+      "train_steps_per_second": 0.038
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.3539514541625977,
+      "eval_runtime": 80.117,
+      "eval_samples_per_second": 11.596,
+      "eval_steps_per_second": 1.46,
+      "step": 174
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 174,
+  "num_train_epochs": 3,
+  "save_steps": 10,
+  "total_flos": 7.500749066993664e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:342b6ccdadecbe9a6352620fb41fe4266c70447541ea26bed264fab8d9534f34
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:84acc7450e4d937cd2b7e05c91d789543976e763d2b1cbde1597d35322b38146
 size 4600