End of training

Browse files

Files changed (7) hide show

README.md +5 -5
all_results.json +9 -9
egy_training_log.txt +2 -0
eval_results.json +4 -4
train_results.json +6 -6
train_vs_val_loss.png +0 -0
trainer_state.json +105 -10

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [riotu-lab/ArabianGPT-01B](https://huggingface.co/riotu-lab/ArabianGPT-01B) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7139
-- Bleu: 0.2809
-- Rouge1: 0.6216
-- Rouge2: 0.3804
-- Rougel: 0.6197
 ## Model description

 This model is a fine-tuned version of [riotu-lab/ArabianGPT-01B](https://huggingface.co/riotu-lab/ArabianGPT-01B) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6266
+- Bleu: 0.2679
+- Rouge1: 0.5977
+- Rouge2: 0.3443
+- Rougel: 0.5959
 ## Model description

all_results.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
-    "epoch": 10.0,
     "eval_bleu": 0.2678870499231116,
     "eval_loss": 0.6265950798988342,
     "eval_rouge1": 0.5977012354572853,
     "eval_rouge2": 0.34430833134800065,
     "eval_rougeL": 0.5958973349618409,
-    "eval_runtime": 58.6194,
     "eval_samples": 5405,
-    "eval_samples_per_second": 92.205,
-    "eval_steps_per_second": 11.532,
     "perplexity": 1.8712283369394682,
-    "total_flos": 1.412414078976e+16,
-    "train_loss": 0.26264210826945755,
-    "train_runtime": 7304.9287,
     "train_samples": 21622,
-    "train_samples_per_second": 59.198,
-    "train_steps_per_second": 7.4
 }

 {
+    "epoch": 15.0,
     "eval_bleu": 0.2678870499231116,
     "eval_loss": 0.6265950798988342,
     "eval_rouge1": 0.5977012354572853,
     "eval_rouge2": 0.34430833134800065,
     "eval_rougeL": 0.5958973349618409,
+    "eval_runtime": 17.8984,
     "eval_samples": 5405,
+    "eval_samples_per_second": 301.982,
+    "eval_steps_per_second": 37.769,
     "perplexity": 1.8712283369394682,
+    "total_flos": 2.118621118464e+16,
+    "train_loss": 0.058961041791913305,
+    "train_runtime": 1668.9384,
     "train_samples": 21622,
+    "train_samples_per_second": 259.111,
+    "train_steps_per_second": 32.392
 }

egy_training_log.txt CHANGED Viewed

@@ -614,3 +614,5 @@ INFO:root:Epoch 14.0: Train Loss = 0.1733, Eval Loss = 0.696670651435852
 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 15.0: Train Loss = 0.1593, Eval Loss = 0.7063180208206177
 INFO:absl:Using default tokenizer.

 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 15.0: Train Loss = 0.1593, Eval Loss = 0.7063180208206177
 INFO:absl:Using default tokenizer.
+INFO:__main__:*** Evaluate ***
+INFO:absl:Using default tokenizer.

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 10.0,
     "eval_bleu": 0.2678870499231116,
     "eval_loss": 0.6265950798988342,
     "eval_rouge1": 0.5977012354572853,
     "eval_rouge2": 0.34430833134800065,
     "eval_rougeL": 0.5958973349618409,
-    "eval_runtime": 58.6194,
     "eval_samples": 5405,
-    "eval_samples_per_second": 92.205,
-    "eval_steps_per_second": 11.532,
     "perplexity": 1.8712283369394682
 }

 {
+    "epoch": 15.0,
     "eval_bleu": 0.2678870499231116,
     "eval_loss": 0.6265950798988342,
     "eval_rouge1": 0.5977012354572853,
     "eval_rouge2": 0.34430833134800065,
     "eval_rougeL": 0.5958973349618409,
+    "eval_runtime": 17.8984,
     "eval_samples": 5405,
+    "eval_samples_per_second": 301.982,
+    "eval_steps_per_second": 37.769,
     "perplexity": 1.8712283369394682
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "total_flos": 1.412414078976e+16,
-    "train_loss": 0.26264210826945755,
-    "train_runtime": 7304.9287,
     "train_samples": 21622,
-    "train_samples_per_second": 59.198,
-    "train_steps_per_second": 7.4
 }

 {
+    "epoch": 15.0,
+    "total_flos": 2.118621118464e+16,
+    "train_loss": 0.058961041791913305,
+    "train_runtime": 1668.9384,
     "train_samples": 21622,
+    "train_samples_per_second": 259.111,
+    "train_steps_per_second": 32.392
 }

train_vs_val_loss.png CHANGED Viewed

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.6265950798988342,
   "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_dj/checkpoint-13515",
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 27030,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -199,13 +199,108 @@
       "step": 27030
     },
     {
-      "epoch": 10.0,
-      "step": 27030,
-      "total_flos": 1.412414078976e+16,
-      "train_loss": 0.26264210826945755,
-      "train_runtime": 7304.9287,
-      "train_samples_per_second": 59.198,
-      "train_steps_per_second": 7.4
     }
   ],
   "logging_steps": 500,
@@ -234,7 +329,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.412414078976e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.6265950798988342,
   "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_dj/checkpoint-13515",
+  "epoch": 15.0,
   "eval_steps": 500,
+  "global_step": 40545,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 27030
     },
     {
+      "epoch": 11.0,
+      "grad_norm": 1.3458495140075684,
+      "learning_rate": 2.2710044809559374e-05,
+      "loss": 0.2129,
+      "step": 29733
+    },
+    {
+      "epoch": 11.0,
+      "eval_bleu": 0.27843197191410246,
+      "eval_loss": 0.6767598390579224,
+      "eval_rouge1": 0.6188286228800556,
+      "eval_rouge2": 0.3762109244532287,
+      "eval_rougeL": 0.617052574223907,
+      "eval_runtime": 24.0534,
+      "eval_samples_per_second": 224.709,
+      "eval_steps_per_second": 28.104,
+      "step": 29733
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.636675477027893,
+      "learning_rate": 2.018670649738611e-05,
+      "loss": 0.191,
+      "step": 32436
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 0.2780108798800892,
+      "eval_loss": 0.6870447993278503,
+      "eval_rouge1": 0.6208121821010748,
+      "eval_rouge2": 0.37810190638421814,
+      "eval_rougeL": 0.6189436880506437,
+      "eval_runtime": 42.9158,
+      "eval_samples_per_second": 125.944,
+      "eval_steps_per_second": 15.752,
+      "step": 32436
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 1.3978990316390991,
+      "learning_rate": 1.7663368185212848e-05,
+      "loss": 0.1733,
+      "step": 35139
+    },
+    {
+      "epoch": 13.0,
+      "eval_bleu": 0.2799527424248887,
+      "eval_loss": 0.696670651435852,
+      "eval_rouge1": 0.6213835516562576,
+      "eval_rouge2": 0.3799254363900967,
+      "eval_rougeL": 0.6195026516671875,
+      "eval_runtime": 17.6056,
+      "eval_samples_per_second": 307.005,
+      "eval_steps_per_second": 38.397,
+      "step": 35139
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.386664628982544,
+      "learning_rate": 1.5140029873039583e-05,
+      "loss": 0.1593,
+      "step": 37842
+    },
+    {
+      "epoch": 14.0,
+      "eval_bleu": 0.2790160057234741,
+      "eval_loss": 0.7063180208206177,
+      "eval_rouge1": 0.6214879203521921,
+      "eval_rouge2": 0.379862056883408,
+      "eval_rougeL": 0.6194802915698101,
+      "eval_runtime": 17.8263,
+      "eval_samples_per_second": 303.204,
+      "eval_steps_per_second": 37.921,
+      "step": 37842
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 1.5141432285308838,
+      "learning_rate": 1.261669156086632e-05,
+      "loss": 0.1478,
+      "step": 40545
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 0.2808668290315019,
+      "eval_loss": 0.7138631939888,
+      "eval_rouge1": 0.6216459883291815,
+      "eval_rouge2": 0.3804311054098596,
+      "eval_rougeL": 0.6196983257570402,
+      "eval_runtime": 17.6502,
+      "eval_samples_per_second": 306.229,
+      "eval_steps_per_second": 38.3,
+      "step": 40545
+    },
+    {
+      "epoch": 15.0,
+      "step": 40545,
+      "total_flos": 2.118621118464e+16,
+      "train_loss": 0.058961041791913305,
+      "train_runtime": 1668.9384,
+      "train_samples_per_second": 259.111,
+      "train_steps_per_second": 32.392
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.118621118464e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null