End of training

Browse files

Files changed (7) hide show

README.md +7 -5
all_results.json +21 -21
eval_results.json +8 -8
generated_predictions.txt +0 -0
predict_results.json +8 -8
train_results.json +5 -5
trainer_state.json +61 -61

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -18,11 +20,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5017
-- Rouge1: 72.8123
-- Rouge2: 65.8699
-- Rougel: 69.8629
-- Rougelsum: 72.0214
-- Gen Len: 102.3445
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5017
+- Rouge1: 73.2585
+- Rouge2: 66.378
+- Rougel: 70.2761
+- Rougelsum: 72.4613
+- Gen Len: 102.6021
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 103.4539385847797,
-    "eval_loss": 0.5315777063369751,
-    "eval_rouge1": 72.4894,
-    "eval_rouge2": 65.4392,
-    "eval_rougeL": 69.5679,
-    "eval_rougeLsum": 71.7185,
-    "eval_runtime": 982.5591,
     "eval_samples": 749,
-    "eval_samples_per_second": 0.762,
     "eval_steps_per_second": 0.024,
-    "predict_gen_len": 102.60738968633706,
-    "predict_loss": 0.5196795463562012,
-    "predict_rouge1": 72.3688,
-    "predict_rouge2": 65.5214,
-    "predict_rougeL": 69.4706,
-    "predict_rougeLsum": 71.5857,
-    "predict_runtime": 4940.3619,
     "predict_samples": 3762,
-    "predict_samples_per_second": 0.761,
     "predict_steps_per_second": 0.024,
-    "total_flos": 4.90272982695936e+16,
-    "train_loss": 0.6274513963092069,
-    "train_runtime": 4828.0728,
     "train_samples": 14263,
-    "train_samples_per_second": 14.771,
-    "train_steps_per_second": 0.924
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 102.60213618157543,
+    "eval_loss": 0.5016939043998718,
+    "eval_rouge1": 73.2585,
+    "eval_rouge2": 66.378,
+    "eval_rougeL": 70.2761,
+    "eval_rougeLsum": 72.4613,
+    "eval_runtime": 988.0128,
     "eval_samples": 749,
+    "eval_samples_per_second": 0.758,
     "eval_steps_per_second": 0.024,
+    "predict_gen_len": 101.92397660818713,
+    "predict_loss": 0.49197307229042053,
+    "predict_rouge1": 72.9546,
+    "predict_rouge2": 66.1949,
+    "predict_rougeL": 70.0225,
+    "predict_rougeLsum": 72.1431,
+    "predict_runtime": 4951.3173,
     "predict_samples": 3762,
+    "predict_samples_per_second": 0.76,
     "predict_steps_per_second": 0.024,
+    "total_flos": 4.922112594935808e+16,
+    "train_loss": 0.5942361463880325,
+    "train_runtime": 4874.2596,
     "train_samples": 14263,
+    "train_samples_per_second": 14.631,
+    "train_steps_per_second": 0.915
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 103.4539385847797,
-    "eval_loss": 0.5315777063369751,
-    "eval_rouge1": 72.4894,
-    "eval_rouge2": 65.4392,
-    "eval_rougeL": 69.5679,
-    "eval_rougeLsum": 71.7185,
-    "eval_runtime": 982.5591,
     "eval_samples": 749,
-    "eval_samples_per_second": 0.762,
     "eval_steps_per_second": 0.024
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 102.60213618157543,
+    "eval_loss": 0.5016939043998718,
+    "eval_rouge1": 73.2585,
+    "eval_rouge2": 66.378,
+    "eval_rougeL": 70.2761,
+    "eval_rougeLsum": 72.4613,
+    "eval_runtime": 988.0128,
     "eval_samples": 749,
+    "eval_samples_per_second": 0.758,
     "eval_steps_per_second": 0.024
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 102.60738968633706,
-    "predict_loss": 0.5196795463562012,
-    "predict_rouge1": 72.3688,
-    "predict_rouge2": 65.5214,
-    "predict_rougeL": 69.4706,
-    "predict_rougeLsum": 71.5857,
-    "predict_runtime": 4940.3619,
     "predict_samples": 3762,
-    "predict_samples_per_second": 0.761,
     "predict_steps_per_second": 0.024
 }

 {
+    "predict_gen_len": 101.92397660818713,
+    "predict_loss": 0.49197307229042053,
+    "predict_rouge1": 72.9546,
+    "predict_rouge2": 66.1949,
+    "predict_rougeL": 70.0225,
+    "predict_rougeLsum": 72.1431,
+    "predict_runtime": 4951.3173,
     "predict_samples": 3762,
+    "predict_samples_per_second": 0.76,
     "predict_steps_per_second": 0.024
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
-    "total_flos": 4.90272982695936e+16,
-    "train_loss": 0.6274513963092069,
-    "train_runtime": 4828.0728,
     "train_samples": 14263,
-    "train_samples_per_second": 14.771,
-    "train_steps_per_second": 0.924
 }

 {
     "epoch": 5.0,
+    "total_flos": 4.922112594935808e+16,
+    "train_loss": 0.5942361463880325,
+    "train_runtime": 4874.2596,
     "train_samples": 14263,
+    "train_samples_per_second": 14.631,
+    "train_steps_per_second": 0.915
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 72.5836,
-  "best_model_checkpoint": "bin/indosum-lora-1/checkpoint-2676",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 4460,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.8521901369094849,
       "learning_rate": 0.0008,
-      "loss": 0.8284,
       "step": 892
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 103.92656875834446,
-      "eval_loss": 0.5653803944587708,
-      "eval_rouge1": 69.049,
-      "eval_rouge2": 61.4592,
-      "eval_rougeL": 65.911,
-      "eval_rougeLsum": 68.1282,
-      "eval_runtime": 217.8265,
-      "eval_samples_per_second": 3.439,
-      "eval_steps_per_second": 0.11,
       "step": 892
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.7248573303222656,
       "learning_rate": 0.0006,
-      "loss": 0.6258,
       "step": 1784
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 100.14819759679573,
-      "eval_loss": 0.564172089099884,
-      "eval_rouge1": 70.9515,
-      "eval_rouge2": 63.7019,
-      "eval_rougeL": 67.8649,
-      "eval_rougeLsum": 70.1412,
-      "eval_runtime": 218.3362,
-      "eval_samples_per_second": 3.43,
-      "eval_steps_per_second": 0.11,
       "step": 1784
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.6117345690727234,
       "learning_rate": 0.0004,
-      "loss": 0.5833,
       "step": 2676
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 103.02803738317758,
-      "eval_loss": 0.5315777063369751,
-      "eval_rouge1": 72.5836,
-      "eval_rouge2": 65.5267,
-      "eval_rougeL": 69.5676,
-      "eval_rougeLsum": 71.788,
-      "eval_runtime": 219.1965,
-      "eval_samples_per_second": 3.417,
       "eval_steps_per_second": 0.109,
       "step": 2676
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.5995155572891235,
       "learning_rate": 0.0002,
-      "loss": 0.5589,
       "step": 3568
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 104.12817089452604,
-      "eval_loss": 0.519862174987793,
-      "eval_rouge1": 72.1782,
-      "eval_rouge2": 65.1594,
-      "eval_rougeL": 69.2161,
-      "eval_rougeLsum": 71.3916,
-      "eval_runtime": 217.5291,
-      "eval_samples_per_second": 3.443,
-      "eval_steps_per_second": 0.11,
       "step": 3568
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.6459794044494629,
       "learning_rate": 0.0,
-      "loss": 0.5409,
       "step": 4460
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 102.81308411214954,
-      "eval_loss": 0.5157368779182434,
-      "eval_rouge1": 72.5683,
-      "eval_rouge2": 65.5815,
-      "eval_rougeL": 69.6312,
-      "eval_rougeLsum": 71.7918,
-      "eval_runtime": 220.2635,
-      "eval_samples_per_second": 3.4,
       "eval_steps_per_second": 0.109,
       "step": 4460
     },
     {
       "epoch": 5.0,
       "step": 4460,
-      "total_flos": 4.90272982695936e+16,
-      "train_loss": 0.6274513963092069,
-      "train_runtime": 4828.0728,
-      "train_samples_per_second": 14.771,
-      "train_steps_per_second": 0.924
     }
   ],
   "logging_steps": 500,
@@ -123,7 +123,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 4.90272982695936e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 72.8123,
+  "best_model_checkpoint": "bin/indosum-lora-1/checkpoint-4460",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 4460,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8408432602882385,
       "learning_rate": 0.0008,
+      "loss": 0.7824,
       "step": 892
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 103.85714285714286,
+      "eval_loss": 0.5557069778442383,
+      "eval_rouge1": 70.0617,
+      "eval_rouge2": 62.6298,
+      "eval_rougeL": 66.9506,
+      "eval_rougeLsum": 69.2215,
+      "eval_runtime": 221.4642,
+      "eval_samples_per_second": 3.382,
+      "eval_steps_per_second": 0.108,
       "step": 892
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.6862529516220093,
       "learning_rate": 0.0006,
+      "loss": 0.6003,
       "step": 1784
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 102.4539385847797,
+      "eval_loss": 0.5394394993782043,
+      "eval_rouge1": 70.7684,
+      "eval_rouge2": 63.445,
+      "eval_rougeL": 67.6025,
+      "eval_rougeLsum": 69.9195,
+      "eval_runtime": 223.0451,
+      "eval_samples_per_second": 3.358,
+      "eval_steps_per_second": 0.108,
       "step": 1784
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.6473332643508911,
       "learning_rate": 0.0004,
+      "loss": 0.5559,
       "step": 2676
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 102.06008010680908,
+      "eval_loss": 0.5172904133796692,
+      "eval_rouge1": 72.718,
+      "eval_rouge2": 65.7162,
+      "eval_rougeL": 69.7084,
+      "eval_rougeLsum": 71.9054,
+      "eval_runtime": 220.8421,
+      "eval_samples_per_second": 3.392,
       "eval_steps_per_second": 0.109,
       "step": 2676
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.6854956150054932,
       "learning_rate": 0.0002,
+      "loss": 0.5274,
       "step": 3568
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 103.53004005340453,
+      "eval_loss": 0.5043622851371765,
+      "eval_rouge1": 72.4621,
+      "eval_rouge2": 65.4284,
+      "eval_rougeL": 69.4763,
+      "eval_rougeLsum": 71.685,
+      "eval_runtime": 220.584,
+      "eval_samples_per_second": 3.396,
+      "eval_steps_per_second": 0.109,
       "step": 3568
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.7930441498756409,
       "learning_rate": 0.0,
+      "loss": 0.5052,
       "step": 4460
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 102.34445927903872,
+      "eval_loss": 0.5016939043998718,
+      "eval_rouge1": 72.8123,
+      "eval_rouge2": 65.8699,
+      "eval_rougeL": 69.8629,
+      "eval_rougeLsum": 72.0214,
+      "eval_runtime": 220.9331,
+      "eval_samples_per_second": 3.39,
       "eval_steps_per_second": 0.109,
       "step": 4460
     },
     {
       "epoch": 5.0,
       "step": 4460,
+      "total_flos": 4.922112594935808e+16,
+      "train_loss": 0.5942361463880325,
+      "train_runtime": 4874.2596,
+      "train_samples_per_second": 14.631,
+      "train_steps_per_second": 0.915
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 4.922112594935808e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null