Leo1212
/

longformer-base-4096-sentence-transformers-all-nli-stsb-quora-nq

@@ -420,13 +420,19 @@ You can finetune this model on your own dataset.
   ```
 ### Training Hyperparameters
 #### All Hyperparameters
 <details><summary>Click to expand</summary>
-- `overwrite_output_dir`: False
 - `do_predict`: False
-- `eval_strategy`: no
 - `prediction_loss_only`: True
 - `per_device_train_batch_size`: 8
 - `per_device_eval_batch_size`: 8
@@ -441,7 +447,7 @@ You can finetune this model on your own dataset.
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 3.0
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -481,7 +487,7 @@ You can finetune this model on your own dataset.
 - `disable_tqdm`: False
 - `remove_unused_columns`: True
 - `label_names`: None
-- `load_best_model_at_end`: False
 - `ignore_data_skip`: False
 - `fsdp`: []
 - `fsdp_min_num_params`: 0
@@ -540,33 +546,30 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch  | Step  | Training Loss |
-|:------:|:-----:|:-------------:|
-| 0.1217 | 500   | 2.0816        |
-| 0.2433 | 1000  | 1.8989        |
-| 0.3650 | 1500  | 1.7863        |
-| 0.4866 | 2000  | 1.6893        |
-| 0.6083 | 2500  | 1.7278        |
-| 0.7299 | 3000  | 1.6332        |
-| 0.8516 | 3500  | 1.5289        |
-| 0.9732 | 4000  | 1.6122        |
-| 1.0949 | 4500  | 1.5243        |
-| 1.2165 | 5000  | 1.4054        |
-| 1.3382 | 5500  | 1.5066        |
-| 1.4599 | 6000  | 1.2831        |
-| 1.5815 | 6500  | 1.4375        |
-| 1.7032 | 7000  | 1.3062        |
-| 1.8248 | 7500  | 1.3748        |
-| 1.9465 | 8000  | 1.1605        |
-| 2.0681 | 8500  | 1.2467        |
-| 2.1898 | 9000  | 1.1417        |
-| 2.3114 | 9500  | 1.26          |
-| 2.4331 | 10000 | 1.0447        |
-| 2.5547 | 10500 | 1.159         |
-| 2.6764 | 11000 | 0.9982        |
-| 2.7981 | 11500 | 1.0904        |
-| 2.9197 | 12000 | 0.9434        |
 ### Framework Versions
 - Python: 3.11.9

   ```
 ### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `overwrite_output_dir`: True
+- `eval_strategy`: steps
+- `num_train_epochs`: 5
+- `load_best_model_at_end`: True
 #### All Hyperparameters
 <details><summary>Click to expand</summary>
+- `overwrite_output_dir`: True
 - `do_predict`: False
+- `eval_strategy`: steps
 - `prediction_loss_only`: True
 - `per_device_train_batch_size`: 8
 - `per_device_eval_batch_size`: 8
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 5
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 - `disable_tqdm`: False
 - `remove_unused_columns`: True
 - `label_names`: None
+- `load_best_model_at_end`: True
 - `ignore_data_skip`: False
 - `fsdp`: []
 - `fsdp_min_num_params`: 0
 </details>
 ### Training Logs
+| Epoch      | Step     | Training Loss | all-nli-triplet loss | stsb loss  | natural-questions loss | quora loss |
+|:----------:|:--------:|:-------------:|:--------------------:|:----------:|:----------------------:|:----------:|
+| 0.0487     | 200      | 2.0928        | -                    | -          | -                      | -          |
+| 0.0973     | 400      | 2.2013        | -                    | -          | -                      | -          |
+| 0.1460     | 600      | 1.7404        | -                    | -          | -                      | -          |
+| 0.1946     | 800      | 1.9134        | -                    | -          | -                      | -          |
+| **0.2433** | **1000** | **2.043**     | **0.5161**           | **6.2815** | **0.1172**             | **0.0192** |
+| 0.2920     | 1200     | 1.8817        | -                    | -          | -                      | -          |
+| 0.3406     | 1400     | 1.7734        | -                    | -          | -                      | -          |
+| 0.3893     | 1600     | 1.5935        | -                    | -          | -                      | -          |
+| 0.4380     | 1800     | 1.6762        | -                    | -          | -                      | -          |
+| 0.4866     | 2000     | 1.7031        | 0.4555               | 6.3907     | 0.0726                 | 0.0198     |
+| 0.5353     | 2200     | 1.8561        | -                    | -          | -                      | -          |
+| 0.5839     | 2400     | 1.6742        | -                    | -          | -                      | -          |
+| 0.6326     | 2600     | 1.456         | -                    | -          | -                      | -          |
+| 0.6813     | 2800     | 1.6122        | -                    | -          | -                      | -          |
+| 0.7299     | 3000     | 1.8851        | 0.4975               | 6.1758     | 0.0841                 | 0.0208     |
+| 0.7786     | 3200     | 1.5684        | -                    | -          | -                      | -          |
+| 0.8273     | 3400     | 1.6535        | -                    | -          | -                      | -          |
+| 0.8759     | 3600     | 1.5043        | -                    | -          | -                      | -          |
+| 0.9246     | 3800     | 1.4768        | -                    | -          | -                      | -          |
+| 0.9732     | 4000     | 1.686         | 0.4912               | 6.1600     | 0.0795                 | 0.0170     |
+* The bold row denotes the saved checkpoint.
 ### Framework Versions
 - Python: 3.11.9

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d07d8769dae10deca2cf5f0aa5e64c226fd57b086435e42dfcefee4b3bfa43f8
 size 594668880

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbc5e57f3e543b2aa7f15a158a3a5bb351bb99a79235706212199447b9614a3e
 size 594668880