End of training

Browse files

Files changed (9) hide show

README.md +52 -12
model.safetensors +1 -1
runs/Jan05_07-56-15_414819e23027/events.out.tfevents.1704441386.414819e23027.9579.12 +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
trainer_state.json +632 -72
training_args.bin +1 -1
vocab.txt +0 -0

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 4.4993
 ## Model description
@@ -40,22 +40,62 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 10
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 4.2775        | 1.0   | 1    | 4.4072          |
-| 4.0189        | 2.0   | 2    | 4.4238          |
-| 3.7789        | 3.0   | 3    | 4.4360          |
-| 3.6276        | 4.0   | 4    | 4.4511          |
-| 3.4433        | 5.0   | 5    | 4.4713          |
-| 3.3643        | 6.0   | 6    | 4.4851          |
-| 3.2763        | 7.0   | 7    | 4.4929          |
-| 3.1594        | 8.0   | 8    | 4.4962          |
-| 3.1192        | 9.0   | 9    | 4.4983          |
-| 3.0833        | 10.0  | 10   | 4.4993          |
 ### Framework versions

 This model is a fine-tuned version of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4.5134
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 50
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 4.3188        | 1.0   | 1    | 4.3048          |
+| 4.0523        | 2.0   | 2    | 4.3228          |
+| 3.7875        | 3.0   | 3    | 4.3474          |
+| 3.621         | 4.0   | 4    | 4.3642          |
+| 3.463         | 5.0   | 5    | 4.3595          |
+| 3.2716        | 6.0   | 6    | 4.3646          |
+| 3.1239        | 7.0   | 7    | 4.3788          |
+| 2.95          | 8.0   | 8    | 4.3982          |
+| 2.7756        | 9.0   | 9    | 4.4180          |
+| 2.6549        | 10.0  | 10   | 4.4303          |
+| 2.5244        | 11.0  | 11   | 4.4385          |
+| 2.3896        | 12.0  | 12   | 4.4430          |
+| 2.2981        | 13.0  | 13   | 4.4451          |
+| 2.2074        | 14.0  | 14   | 4.4551          |
+| 2.1064        | 15.0  | 15   | 4.4691          |
+| 1.9709        | 16.0  | 16   | 4.4816          |
+| 1.8962        | 17.0  | 17   | 4.4862          |
+| 1.8365        | 18.0  | 18   | 4.4862          |
+| 1.7521        | 19.0  | 19   | 4.4818          |
+| 1.6779        | 20.0  | 20   | 4.4766          |
+| 1.5921        | 21.0  | 21   | 4.4748          |
+| 1.4871        | 22.0  | 22   | 4.4769          |
+| 1.4557        | 23.0  | 23   | 4.4795          |
+| 1.3541        | 24.0  | 24   | 4.4829          |
+| 1.3201        | 25.0  | 25   | 4.4822          |
+| 1.2871        | 26.0  | 26   | 4.4803          |
+| 1.1979        | 27.0  | 27   | 4.4797          |
+| 1.1499        | 28.0  | 28   | 4.4822          |
+| 1.114         | 29.0  | 29   | 4.4855          |
+| 1.0698        | 30.0  | 30   | 4.4885          |
+| 1.0635        | 31.0  | 31   | 4.4903          |
+| 1.0178        | 32.0  | 32   | 4.4908          |
+| 0.976         | 33.0  | 33   | 4.4920          |
+| 0.9467        | 34.0  | 34   | 4.4933          |
+| 0.9269        | 35.0  | 35   | 4.4953          |
+| 0.8948        | 36.0  | 36   | 4.4968          |
+| 0.8524        | 37.0  | 37   | 4.4994          |
+| 0.8592        | 38.0  | 38   | 4.5028          |
+| 0.8301        | 39.0  | 39   | 4.5061          |
+| 0.799         | 40.0  | 40   | 4.5076          |
+| 0.7772        | 41.0  | 41   | 4.5092          |
+| 0.7611        | 42.0  | 42   | 4.5109          |
+| 0.7345        | 43.0  | 43   | 4.5127          |
+| 0.8036        | 44.0  | 44   | 4.5138          |
+| 0.7261        | 45.0  | 45   | 4.5143          |
+| 0.7305        | 46.0  | 46   | 4.5140          |
+| 0.6898        | 47.0  | 47   | 4.5136          |
+| 0.6926        | 48.0  | 48   | 4.5134          |
+| 0.7093        | 49.0  | 49   | 4.5134          |
+| 0.7009        | 50.0  | 50   | 4.5134          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1616f03a313d145cd3d624191b2cc4d24eea8aa5e570cdc0e245523832abdaa1
 size 435820636

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a2d4374956c155ac9bee48ebb63b4df3368b7b92fd6771dd3c084b393a111f
 size 435820636

runs/Jan05_07-56-15_414819e23027/events.out.tfevents.1704441386.414819e23027.9579.12 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1c82d8815f8bf3674f1cf72721f1df697fe10d27e73cc771775941b1f31d805
+size 28725

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json CHANGED Viewed

@@ -1,168 +1,728 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 1,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 4.5e-05,
-      "loss": 4.2775,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "eval_loss": 4.40718936920166,
-      "eval_runtime": 0.0266,
-      "eval_samples_per_second": 75.136,
-      "eval_steps_per_second": 37.568,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "learning_rate": 4e-05,
-      "loss": 4.0189,
       "step": 2
     },
     {
       "epoch": 2.0,
-      "eval_loss": 4.423794269561768,
-      "eval_runtime": 0.0247,
-      "eval_samples_per_second": 80.844,
-      "eval_steps_per_second": 40.422,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "learning_rate": 3.5e-05,
-      "loss": 3.7789,
       "step": 3
     },
     {
       "epoch": 3.0,
-      "eval_loss": 4.435977458953857,
-      "eval_runtime": 0.0252,
-      "eval_samples_per_second": 79.233,
-      "eval_steps_per_second": 39.616,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "learning_rate": 3e-05,
-      "loss": 3.6276,
       "step": 4
     },
     {
       "epoch": 4.0,
-      "eval_loss": 4.451086044311523,
-      "eval_runtime": 0.0269,
-      "eval_samples_per_second": 74.426,
-      "eval_steps_per_second": 37.213,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "learning_rate": 2.5e-05,
-      "loss": 3.4433,
       "step": 5
     },
     {
       "epoch": 5.0,
-      "eval_loss": 4.471280097961426,
-      "eval_runtime": 0.0268,
-      "eval_samples_per_second": 74.615,
-      "eval_steps_per_second": 37.308,
       "step": 5
     },
     {
       "epoch": 6.0,
-      "learning_rate": 2e-05,
-      "loss": 3.3643,
       "step": 6
     },
     {
       "epoch": 6.0,
-      "eval_loss": 4.485055923461914,
-      "eval_runtime": 0.0247,
-      "eval_samples_per_second": 80.912,
-      "eval_steps_per_second": 40.456,
       "step": 6
     },
     {
       "epoch": 7.0,
-      "learning_rate": 1.5e-05,
-      "loss": 3.2763,
       "step": 7
     },
     {
       "epoch": 7.0,
-      "eval_loss": 4.492944240570068,
-      "eval_runtime": 0.0253,
-      "eval_samples_per_second": 79.031,
-      "eval_steps_per_second": 39.516,
       "step": 7
     },
     {
       "epoch": 8.0,
-      "learning_rate": 1e-05,
-      "loss": 3.1594,
       "step": 8
     },
     {
       "epoch": 8.0,
-      "eval_loss": 4.496211528778076,
-      "eval_runtime": 0.0273,
-      "eval_samples_per_second": 73.312,
-      "eval_steps_per_second": 36.656,
       "step": 8
     },
     {
       "epoch": 9.0,
-      "learning_rate": 5e-06,
-      "loss": 3.1192,
       "step": 9
     },
     {
       "epoch": 9.0,
-      "eval_loss": 4.498274326324463,
-      "eval_runtime": 0.0287,
-      "eval_samples_per_second": 69.616,
-      "eval_steps_per_second": 34.808,
       "step": 9
     },
     {
       "epoch": 10.0,
-      "learning_rate": 0.0,
-      "loss": 3.0833,
       "step": 10
     },
     {
       "epoch": 10.0,
-      "eval_loss": 4.4992828369140625,
-      "eval_runtime": 0.026,
-      "eval_samples_per_second": 76.897,
-      "eval_steps_per_second": 38.448,
       "step": 10
     },
     {
-      "epoch": 10.0,
-      "step": 10,
-      "total_flos": 5760493524000.0,
-      "train_loss": 3.514873218536377,
-      "train_runtime": 2.4835,
-      "train_samples_per_second": 32.212,
-      "train_steps_per_second": 4.027
     }
   ],
   "logging_steps": 1,
-  "max_steps": 10,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5760493524000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 50.0,
   "eval_steps": 1,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 4.9e-05,
+      "loss": 4.3188,
       "step": 1
     },
     {
       "epoch": 1.0,
+      "eval_loss": 4.304834842681885,
+      "eval_runtime": 0.0403,
+      "eval_samples_per_second": 49.662,
+      "eval_steps_per_second": 24.831,
       "step": 1
     },
     {
       "epoch": 2.0,
+      "learning_rate": 4.8e-05,
+      "loss": 4.0523,
       "step": 2
     },
     {
       "epoch": 2.0,
+      "eval_loss": 4.322819709777832,
+      "eval_runtime": 0.0337,
+      "eval_samples_per_second": 59.353,
+      "eval_steps_per_second": 29.677,
       "step": 2
     },
     {
       "epoch": 3.0,
+      "learning_rate": 4.7e-05,
+      "loss": 3.7875,
       "step": 3
     },
     {
       "epoch": 3.0,
+      "eval_loss": 4.347378730773926,
+      "eval_runtime": 0.0393,
+      "eval_samples_per_second": 50.859,
+      "eval_steps_per_second": 25.429,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 3.621,
       "step": 4
     },
     {
       "epoch": 4.0,
+      "eval_loss": 4.364194869995117,
+      "eval_runtime": 0.0329,
+      "eval_samples_per_second": 60.728,
+      "eval_steps_per_second": 30.364,
       "step": 4
     },
     {
       "epoch": 5.0,
+      "learning_rate": 4.5e-05,
+      "loss": 3.463,
       "step": 5
     },
     {
       "epoch": 5.0,
+      "eval_loss": 4.35947847366333,
+      "eval_runtime": 0.0331,
+      "eval_samples_per_second": 60.333,
+      "eval_steps_per_second": 30.167,
       "step": 5
     },
     {
       "epoch": 6.0,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 3.2716,
       "step": 6
     },
     {
       "epoch": 6.0,
+      "eval_loss": 4.364583492279053,
+      "eval_runtime": 0.0348,
+      "eval_samples_per_second": 57.43,
+      "eval_steps_per_second": 28.715,
       "step": 6
     },
     {
       "epoch": 7.0,
+      "learning_rate": 4.3e-05,
+      "loss": 3.1239,
       "step": 7
     },
     {
       "epoch": 7.0,
+      "eval_loss": 4.3788161277771,
+      "eval_runtime": 0.0323,
+      "eval_samples_per_second": 61.86,
+      "eval_steps_per_second": 30.93,
       "step": 7
     },
     {
       "epoch": 8.0,
+      "learning_rate": 4.2e-05,
+      "loss": 2.95,
       "step": 8
     },
     {
       "epoch": 8.0,
+      "eval_loss": 4.398151874542236,
+      "eval_runtime": 0.04,
+      "eval_samples_per_second": 49.976,
+      "eval_steps_per_second": 24.988,
       "step": 8
     },
     {
       "epoch": 9.0,
+      "learning_rate": 4.1e-05,
+      "loss": 2.7756,
       "step": 9
     },
     {
       "epoch": 9.0,
+      "eval_loss": 4.418046951293945,
+      "eval_runtime": 0.0418,
+      "eval_samples_per_second": 47.897,
+      "eval_steps_per_second": 23.949,
       "step": 9
     },
     {
       "epoch": 10.0,
+      "learning_rate": 4e-05,
+      "loss": 2.6549,
       "step": 10
     },
     {
       "epoch": 10.0,
+      "eval_loss": 4.430344581604004,
+      "eval_runtime": 0.0286,
+      "eval_samples_per_second": 69.986,
+      "eval_steps_per_second": 34.993,
       "step": 10
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 2.5244,
+      "step": 11
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 4.438453197479248,
+      "eval_runtime": 0.0276,
+      "eval_samples_per_second": 72.47,
+      "eval_steps_per_second": 36.235,
+      "step": 11
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 3.8e-05,
+      "loss": 2.3896,
+      "step": 12
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 4.4430317878723145,
+      "eval_runtime": 0.0287,
+      "eval_samples_per_second": 69.577,
+      "eval_steps_per_second": 34.788,
+      "step": 12
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 3.7e-05,
+      "loss": 2.2981,
+      "step": 13
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 4.445078372955322,
+      "eval_runtime": 0.0283,
+      "eval_samples_per_second": 70.789,
+      "eval_steps_per_second": 35.394,
+      "step": 13
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 3.6e-05,
+      "loss": 2.2074,
+      "step": 14
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 4.455099105834961,
+      "eval_runtime": 0.0298,
+      "eval_samples_per_second": 67.215,
+      "eval_steps_per_second": 33.608,
+      "step": 14
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 3.5e-05,
+      "loss": 2.1064,
+      "step": 15
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 4.469105243682861,
+      "eval_runtime": 0.0268,
+      "eval_samples_per_second": 74.497,
+      "eval_steps_per_second": 37.248,
+      "step": 15
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 1.9709,
+      "step": 16
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 4.4815754890441895,
+      "eval_runtime": 0.0324,
+      "eval_samples_per_second": 61.699,
+      "eval_steps_per_second": 30.85,
+      "step": 16
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 3.3e-05,
+      "loss": 1.8962,
+      "step": 17
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 4.486156940460205,
+      "eval_runtime": 0.028,
+      "eval_samples_per_second": 71.398,
+      "eval_steps_per_second": 35.699,
+      "step": 17
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.8365,
+      "step": 18
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 4.486203670501709,
+      "eval_runtime": 0.0375,
+      "eval_samples_per_second": 53.347,
+      "eval_steps_per_second": 26.674,
+      "step": 18
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 3.1e-05,
+      "loss": 1.7521,
+      "step": 19
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 4.481803894042969,
+      "eval_runtime": 0.0261,
+      "eval_samples_per_second": 76.657,
+      "eval_steps_per_second": 38.329,
+      "step": 19
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 3e-05,
+      "loss": 1.6779,
+      "step": 20
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 4.476602077484131,
+      "eval_runtime": 0.0289,
+      "eval_samples_per_second": 69.157,
+      "eval_steps_per_second": 34.579,
+      "step": 20
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 2.9e-05,
+      "loss": 1.5921,
+      "step": 21
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 4.474806785583496,
+      "eval_runtime": 0.0306,
+      "eval_samples_per_second": 65.323,
+      "eval_steps_per_second": 32.661,
+      "step": 21
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 1.4871,
+      "step": 22
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 4.4769287109375,
+      "eval_runtime": 0.0275,
+      "eval_samples_per_second": 72.678,
+      "eval_steps_per_second": 36.339,
+      "step": 22
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.4557,
+      "step": 23
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 4.479461193084717,
+      "eval_runtime": 0.0288,
+      "eval_samples_per_second": 69.4,
+      "eval_steps_per_second": 34.7,
+      "step": 23
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.3541,
+      "step": 24
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 4.482919216156006,
+      "eval_runtime": 0.0299,
+      "eval_samples_per_second": 66.98,
+      "eval_steps_per_second": 33.49,
+      "step": 24
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2.5e-05,
+      "loss": 1.3201,
+      "step": 25
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 4.482161998748779,
+      "eval_runtime": 0.0318,
+      "eval_samples_per_second": 62.819,
+      "eval_steps_per_second": 31.409,
+      "step": 25
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 2.4e-05,
+      "loss": 1.2871,
+      "step": 26
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 4.480334281921387,
+      "eval_runtime": 0.028,
+      "eval_samples_per_second": 71.489,
+      "eval_steps_per_second": 35.745,
+      "step": 26
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 1.1979,
+      "step": 27
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 4.479716777801514,
+      "eval_runtime": 0.0295,
+      "eval_samples_per_second": 67.699,
+      "eval_steps_per_second": 33.849,
+      "step": 27
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 1.1499,
+      "step": 28
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 4.4821858406066895,
+      "eval_runtime": 0.0339,
+      "eval_samples_per_second": 59.02,
+      "eval_steps_per_second": 29.51,
+      "step": 28
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 2.1e-05,
+      "loss": 1.114,
+      "step": 29
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 4.485532283782959,
+      "eval_runtime": 0.0295,
+      "eval_samples_per_second": 67.701,
+      "eval_steps_per_second": 33.851,
+      "step": 29
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 2e-05,
+      "loss": 1.0698,
+      "step": 30
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 4.4885077476501465,
+      "eval_runtime": 0.0292,
+      "eval_samples_per_second": 68.609,
+      "eval_steps_per_second": 34.305,
+      "step": 30
+    },
+    {
+      "epoch": 31.0,
+      "learning_rate": 1.9e-05,
+      "loss": 1.0635,
+      "step": 31
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 4.490349769592285,
+      "eval_runtime": 0.0278,
+      "eval_samples_per_second": 71.898,
+      "eval_steps_per_second": 35.949,
+      "step": 31
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 1.8e-05,
+      "loss": 1.0178,
+      "step": 32
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 4.4907612800598145,
+      "eval_runtime": 0.0278,
+      "eval_samples_per_second": 71.828,
+      "eval_steps_per_second": 35.914,
+      "step": 32
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.976,
+      "step": 33
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 4.491974830627441,
+      "eval_runtime": 0.0282,
+      "eval_samples_per_second": 71.029,
+      "eval_steps_per_second": 35.515,
+      "step": 33
+    },
+    {
+      "epoch": 34.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.9467,
+      "step": 34
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 4.493342876434326,
+      "eval_runtime": 0.0333,
+      "eval_samples_per_second": 60.02,
+      "eval_steps_per_second": 30.01,
+      "step": 34
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 1.5e-05,
+      "loss": 0.9269,
+      "step": 35
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 4.49529504776001,
+      "eval_runtime": 0.0269,
+      "eval_samples_per_second": 74.297,
+      "eval_steps_per_second": 37.149,
+      "step": 35
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.8948,
+      "step": 36
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 4.496817588806152,
+      "eval_runtime": 0.0305,
+      "eval_samples_per_second": 65.479,
+      "eval_steps_per_second": 32.74,
+      "step": 36
+    },
+    {
+      "epoch": 37.0,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.8524,
+      "step": 37
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 4.499395847320557,
+      "eval_runtime": 0.0281,
+      "eval_samples_per_second": 71.264,
+      "eval_steps_per_second": 35.632,
+      "step": 37
+    },
+    {
+      "epoch": 38.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.8592,
+      "step": 38
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 4.502837657928467,
+      "eval_runtime": 0.0297,
+      "eval_samples_per_second": 67.239,
+      "eval_steps_per_second": 33.62,
+      "step": 38
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.8301,
+      "step": 39
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 4.506129264831543,
+      "eval_runtime": 0.0327,
+      "eval_samples_per_second": 61.108,
+      "eval_steps_per_second": 30.554,
+      "step": 39
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 1e-05,
+      "loss": 0.799,
+      "step": 40
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 4.507645130157471,
+      "eval_runtime": 0.0271,
+      "eval_samples_per_second": 73.666,
+      "eval_steps_per_second": 36.833,
+      "step": 40
+    },
+    {
+      "epoch": 41.0,
+      "learning_rate": 9e-06,
+      "loss": 0.7772,
+      "step": 41
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 4.509157180786133,
+      "eval_runtime": 0.0285,
+      "eval_samples_per_second": 70.159,
+      "eval_steps_per_second": 35.08,
+      "step": 41
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.7611,
+      "step": 42
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 4.510908603668213,
+      "eval_runtime": 0.0285,
+      "eval_samples_per_second": 70.164,
+      "eval_steps_per_second": 35.082,
+      "step": 42
+    },
+    {
+      "epoch": 43.0,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.7345,
+      "step": 43
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 4.512662410736084,
+      "eval_runtime": 0.0295,
+      "eval_samples_per_second": 67.814,
+      "eval_steps_per_second": 33.907,
+      "step": 43
+    },
+    {
+      "epoch": 44.0,
+      "learning_rate": 6e-06,
+      "loss": 0.8036,
+      "step": 44
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 4.51375150680542,
+      "eval_runtime": 0.0295,
+      "eval_samples_per_second": 67.686,
+      "eval_steps_per_second": 33.843,
+      "step": 44
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 5e-06,
+      "loss": 0.7261,
+      "step": 45
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 4.514307022094727,
+      "eval_runtime": 0.0366,
+      "eval_samples_per_second": 54.69,
+      "eval_steps_per_second": 27.345,
+      "step": 45
+    },
+    {
+      "epoch": 46.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7305,
+      "step": 46
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 4.514035701751709,
+      "eval_runtime": 0.0325,
+      "eval_samples_per_second": 61.45,
+      "eval_steps_per_second": 30.725,
+      "step": 46
+    },
+    {
+      "epoch": 47.0,
+      "learning_rate": 3e-06,
+      "loss": 0.6898,
+      "step": 47
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 4.51362419128418,
+      "eval_runtime": 0.0279,
+      "eval_samples_per_second": 71.677,
+      "eval_steps_per_second": 35.838,
+      "step": 47
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6926,
+      "step": 48
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 4.513439178466797,
+      "eval_runtime": 0.0286,
+      "eval_samples_per_second": 69.881,
+      "eval_steps_per_second": 34.94,
+      "step": 48
+    },
+    {
+      "epoch": 49.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.7093,
+      "step": 49
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 4.513415813446045,
+      "eval_runtime": 0.0336,
+      "eval_samples_per_second": 59.457,
+      "eval_steps_per_second": 29.728,
+      "step": 49
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 0.0,
+      "loss": 0.7009,
+      "step": 50
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 4.513373851776123,
+      "eval_runtime": 0.0276,
+      "eval_samples_per_second": 72.415,
+      "eval_steps_per_second": 36.208,
+      "step": 50
+    },
+    {
+      "epoch": 50.0,
+      "step": 50,
+      "total_flos": 28802467620000.0,
+      "train_loss": 1.6839551556110381,
+      "train_runtime": 12.3811,
+      "train_samples_per_second": 32.307,
+      "train_steps_per_second": 4.038
     }
   ],
   "logging_steps": 1,
+  "max_steps": 50,
+  "num_train_epochs": 50,
   "save_steps": 500,
+  "total_flos": 28802467620000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57f7585dd786be8c781109f854276009a7760d09f7b9631f8eb1474d4d2d507d
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:058e290455a7ba56c355ecc012bae0490088b0f15056d1558ffb8bfa78af940f
 size 4600

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff