Upload 12 files

Browse files

Files changed (7) hide show

README.md +9 -10
all_results.json +13 -13
eval_results.json +9 -9
pytorch_model.bin +1 -1
train_results.json +4 -4
trainer_state.json +25 -25
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ datasets:
 metrics:
 - rouge
 model-index:
-- name: base-4-6-t
   results:
   - task:
       name: Summarization
@@ -20,22 +20,22 @@ model-index:
     metrics:
     - name: Rouge1
       type: rouge
-      value: 15.4891
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# base-4-6-t
 This model is a fine-tuned version of [models/base-4-6/](https://huggingface.co/models/base-4-6/) on the xsum dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
-- Rouge1: 15.4891
-- Rouge2: 2.013
-- Rougel: 12.1091
-- Rougelsum: 12.1037
-- Gen Len: 38.7373
 ## Model description
@@ -63,7 +63,6 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - num_epochs: 3.0
-- mixed_precision_training: Native AMP
 ### Training results

 metrics:
 - rouge
 model-index:
+- name: base-4-6-t-nofp16
   results:
   - task:
       name: Summarization
     metrics:
     - name: Rouge1
       type: rouge
+      value: 37.0529
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# base-4-6-t-nofp16
 This model is a fine-tuned version of [models/base-4-6/](https://huggingface.co/models/base-4-6/) on the xsum dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.7703
+- Rouge1: 37.0529
+- Rouge2: 14.1041
+- Rougel: 29.3039
+- Rougelsum: 29.2914
+- Gen Len: 27.6846
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - num_epochs: 3.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 38.73726494217357,
-    "eval_loss": NaN,
-    "eval_rouge1": 15.4891,
-    "eval_rouge2": 2.013,
-    "eval_rougeL": 12.1091,
-    "eval_rougeLsum": 12.1037,
-    "eval_runtime": 2059.6073,
     "eval_samples": 11327,
-    "eval_samples_per_second": 5.5,
-    "eval_steps_per_second": 0.344,
-    "train_loss": 0.0,
-    "train_runtime": 28427.4002,
     "train_samples": 204017,
-    "train_samples_per_second": 21.53,
-    "train_steps_per_second": 0.336
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 27.684647302904565,
+    "eval_loss": 1.7702678442001343,
+    "eval_rouge1": 37.0529,
+    "eval_rouge2": 14.1041,
+    "eval_rougeL": 29.3039,
+    "eval_rougeLsum": 29.2914,
+    "eval_runtime": 1252.8362,
     "eval_samples": 11327,
+    "eval_samples_per_second": 9.041,
+    "eval_steps_per_second": 0.565,
+    "train_loss": 2.007772041234647,
+    "train_runtime": 34797.0582,
     "train_samples": 204017,
+    "train_samples_per_second": 17.589,
+    "train_steps_per_second": 0.275
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 38.73726494217357,
-    "eval_loss": NaN,
-    "eval_rouge1": 15.4891,
-    "eval_rouge2": 2.013,
-    "eval_rougeL": 12.1091,
-    "eval_rougeLsum": 12.1037,
-    "eval_runtime": 2059.6073,
     "eval_samples": 11327,
-    "eval_samples_per_second": 5.5,
-    "eval_steps_per_second": 0.344
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 27.684647302904565,
+    "eval_loss": 1.7702678442001343,
+    "eval_rouge1": 37.0529,
+    "eval_rouge2": 14.1041,
+    "eval_rougeL": 29.3039,
+    "eval_rougeLsum": 29.2914,
+    "eval_runtime": 1252.8362,
     "eval_samples": 11327,
+    "eval_samples_per_second": 9.041,
+    "eval_steps_per_second": 0.565
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a8b5cb7f982b7ce60bbdbe58d1e3d8bdce30f733ac76f2201e801eb582e417e
 size 877123541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f919d367772a2248f757d7656bb8cc034039f844a2403c97b064310015724f7
 size 877123541

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.0,
-    "train_runtime": 28427.4002,
     "train_samples": 204017,
-    "train_samples_per_second": 21.53,
-    "train_steps_per_second": 0.336
 }

 {
     "epoch": 3.0,
+    "train_loss": 2.007772041234647,
+    "train_runtime": 34797.0582,
     "train_samples": 204017,
+    "train_samples_per_second": 17.589,
+    "train_steps_per_second": 0.275
 }

trainer_state.json CHANGED Viewed

@@ -10,130 +10,130 @@
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 500
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 1000
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 1500
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 2000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 2500
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 3000
     },
     {
       "epoch": 1.1,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 3500
     },
     {
       "epoch": 1.25,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 4000
     },
     {
       "epoch": 1.41,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 4500
     },
     {
       "epoch": 1.57,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 5000
     },
     {
       "epoch": 1.73,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 5500
     },
     {
       "epoch": 1.88,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 6000
     },
     {
       "epoch": 2.04,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 6500
     },
     {
       "epoch": 2.2,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 7000
     },
     {
       "epoch": 2.35,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 7500
     },
     {
       "epoch": 2.51,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 8000
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 8500
     },
     {
       "epoch": 2.82,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 9000
     },
     {
       "epoch": 2.98,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 9500
     },
     {
       "epoch": 3.0,
       "step": 9564,
-      "total_flos": 7.163880932735631e+17,
-      "train_loss": 0.0,
-      "train_runtime": 28427.4002,
-      "train_samples_per_second": 21.53,
-      "train_steps_per_second": 0.336
     }
   ],
   "max_steps": 9564,
   "num_train_epochs": 3,
-  "total_flos": 7.163880932735631e+17,
   "trial_name": null,
   "trial_params": null
 }

     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
+      "loss": 2.2922,
       "step": 500
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
+      "loss": 2.1835,
       "step": 1000
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
+      "loss": 2.1451,
       "step": 1500
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
+      "loss": 2.1083,
       "step": 2000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.0944,
       "step": 2500
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
+      "loss": 2.0719,
       "step": 3000
     },
     {
       "epoch": 1.1,
       "learning_rate": 0.0001,
+      "loss": 2.0304,
       "step": 3500
     },
     {
       "epoch": 1.25,
       "learning_rate": 0.0001,
+      "loss": 1.9961,
       "step": 4000
     },
     {
       "epoch": 1.41,
       "learning_rate": 0.0001,
+      "loss": 1.9908,
       "step": 4500
     },
     {
       "epoch": 1.57,
       "learning_rate": 0.0001,
+      "loss": 1.9804,
       "step": 5000
     },
     {
       "epoch": 1.73,
       "learning_rate": 0.0001,
+      "loss": 1.9774,
       "step": 5500
     },
     {
       "epoch": 1.88,
       "learning_rate": 0.0001,
+      "loss": 1.9687,
       "step": 6000
     },
     {
       "epoch": 2.04,
       "learning_rate": 0.0001,
+      "loss": 1.9451,
       "step": 6500
     },
     {
       "epoch": 2.2,
       "learning_rate": 0.0001,
+      "loss": 1.902,
       "step": 7000
     },
     {
       "epoch": 2.35,
       "learning_rate": 0.0001,
+      "loss": 1.9051,
       "step": 7500
     },
     {
       "epoch": 2.51,
       "learning_rate": 0.0001,
+      "loss": 1.8918,
       "step": 8000
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
+      "loss": 1.8936,
       "step": 8500
     },
     {
       "epoch": 2.82,
       "learning_rate": 0.0001,
+      "loss": 1.8971,
       "step": 9000
     },
     {
       "epoch": 2.98,
       "learning_rate": 0.0001,
+      "loss": 1.8882,
       "step": 9500
     },
     {
       "epoch": 3.0,
       "step": 9564,
+      "total_flos": 7.159992935875707e+17,
+      "train_loss": 2.007772041234647,
+      "train_runtime": 34797.0582,
+      "train_samples_per_second": 17.589,
+      "train_steps_per_second": 0.275
     }
   ],
   "max_steps": 9564,
   "num_train_epochs": 3,
+  "total_flos": 7.159992935875707e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14725c345879585a5d95fa900a4ffb414136a99a2ce25a31e67eb1f16423d676
 size 3695

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2f45172d1bd808600117bc7483613f24a077c744be70ab37eddd749281a08c8
 size 3695