End of training

Browse files

Files changed (6) hide show

README.md +9 -7
all_results.json +12 -12
eval_results.json +8 -8
logs/events.out.tfevents.1686053745.serv-3317.3374904.20 +3 -0
train_results.json +5 -5
trainer_state.json +100 -66

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -12,7 +14,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: stsb
       split: validation
@@ -20,7 +22,7 @@ model-index:
     metrics:
     - name: Spearmanr
       type: spearmanr
-      value: 0.3601190242350477
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,12 +30,12 @@ should probably proofread and complete it, then remove this comment. -->
 # hBERTv1_new_pretrain_stsb
-This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.6668
-- Pearson: 0.3626
-- Spearmanr: 0.3601
-- Combined Score: 0.3614
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE STSB
       type: glue
       config: stsb
       split: validation
     metrics:
     - name: Spearmanr
       type: spearmanr
+      value: 0.24765283238401
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # hBERTv1_new_pretrain_stsb
+This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the GLUE STSB dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.2275
+- Pearson: 0.2386
+- Spearmanr: 0.2477
+- Combined Score: 0.2431
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 6.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 11480.3916015625,
-    "eval_pearson": NaN,
-    "eval_runtime": 2.7241,
     "eval_samples": 1500,
-    "eval_samples_per_second": 550.648,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 4.405,
-    "train_loss": 11868.655555555555,
-    "train_runtime": 224.1308,
     "train_samples": 5749,
-    "train_samples_per_second": 1282.51,
-    "train_steps_per_second": 10.039
 }

 {
+    "epoch": 8.0,
+    "eval_combined_score": 0.24310344093921177,
+    "eval_loss": 2.2274508476257324,
+    "eval_pearson": 0.23855404949441353,
+    "eval_runtime": 2.6919,
     "eval_samples": 1500,
+    "eval_samples_per_second": 557.219,
+    "eval_spearmanr": 0.24765283238401,
+    "eval_steps_per_second": 4.458,
+    "train_loss": 1.3248735851711697,
+    "train_runtime": 320.0657,
     "train_samples": 5749,
+    "train_samples_per_second": 898.097,
+    "train_steps_per_second": 7.03
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 6.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 11480.3916015625,
-    "eval_pearson": NaN,
-    "eval_runtime": 2.7241,
     "eval_samples": 1500,
-    "eval_samples_per_second": 550.648,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 4.405
 }

 {
+    "epoch": 8.0,
+    "eval_combined_score": 0.24310344093921177,
+    "eval_loss": 2.2274508476257324,
+    "eval_pearson": 0.23855404949441353,
+    "eval_runtime": 2.6919,
     "eval_samples": 1500,
+    "eval_samples_per_second": 557.219,
+    "eval_spearmanr": 0.24765283238401,
+    "eval_steps_per_second": 4.458
 }

logs/events.out.tfevents.1686053745.serv-3317.3374904.20 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e049e76d5e24f3e09ab1007a8c1e6beed8cc75c205163ca25147b73ead80b04
+size 473

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 6.0,
-    "train_loss": 11868.655555555555,
-    "train_runtime": 224.1308,
     "train_samples": 5749,
-    "train_samples_per_second": 1282.51,
-    "train_steps_per_second": 10.039
 }

 {
+    "epoch": 8.0,
+    "train_loss": 1.3248735851711697,
+    "train_runtime": 320.0657,
     "train_samples": 5749,
+    "train_samples_per_second": 898.097,
+    "train_steps_per_second": 7.03
 }

trainer_state.json CHANGED Viewed

@@ -1,127 +1,161 @@
 {
-  "best_metric": 11480.3916015625,
-  "best_model_checkpoint": "hBERTv1_new_pretrain_stsb/checkpoint-45",
-  "epoch": 6.0,
-  "global_step": 270,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.00049,
-      "loss": 11870.5542,
       "step": 45
     },
     {
       "epoch": 1.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 11480.3916015625,
-      "eval_pearson": NaN,
-      "eval_runtime": 2.719,
-      "eval_samples_per_second": 551.676,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 4.413,
       "step": 45
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.00048,
-      "loss": 11864.3806,
       "step": 90
     },
     {
       "epoch": 2.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 11480.3916015625,
-      "eval_pearson": NaN,
-      "eval_runtime": 2.7234,
-      "eval_samples_per_second": 550.777,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 4.406,
       "step": 90
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.00047,
-      "loss": 11929.5181,
       "step": 135
     },
     {
       "epoch": 3.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 11480.3916015625,
-      "eval_pearson": NaN,
-      "eval_runtime": 2.7075,
-      "eval_samples_per_second": 554.009,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 4.432,
       "step": 135
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.00046,
-      "loss": 11830.7097,
       "step": 180
     },
     {
       "epoch": 4.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 11480.3916015625,
-      "eval_pearson": NaN,
-      "eval_runtime": 2.7221,
-      "eval_samples_per_second": 551.036,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 4.408,
       "step": 180
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00045000000000000004,
-      "loss": 11918.4542,
       "step": 225
     },
     {
       "epoch": 5.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 11480.3916015625,
-      "eval_pearson": NaN,
-      "eval_runtime": 2.7222,
-      "eval_samples_per_second": 551.02,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 4.408,
       "step": 225
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.00044,
-      "loss": 11798.3167,
       "step": 270
     },
     {
       "epoch": 6.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 11480.3916015625,
-      "eval_pearson": NaN,
-      "eval_runtime": 2.7212,
-      "eval_samples_per_second": 551.221,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 4.41,
       "step": 270
     },
     {
-      "epoch": 6.0,
-      "step": 270,
-      "total_flos": 5108409405800448.0,
-      "train_loss": 11868.655555555555,
-      "train_runtime": 224.1308,
-      "train_samples_per_second": 1282.51,
-      "train_steps_per_second": 10.039
     }
   ],
   "max_steps": 2250,
   "num_train_epochs": 50,
-  "total_flos": 5108409405800448.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.2274508476257324,
+  "best_model_checkpoint": "hBERTv1_new_pretrain_stsb/checkpoint-135",
+  "epoch": 8.0,
+  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 2.2918,
       "step": 45
     },
     {
       "epoch": 1.0,
+      "eval_combined_score": 0.11812996457891167,
+      "eval_loss": 2.6097545623779297,
+      "eval_pearson": 0.12332725477431153,
+      "eval_runtime": 2.7002,
+      "eval_samples_per_second": 555.522,
+      "eval_spearmanr": 0.11293267438351182,
+      "eval_steps_per_second": 4.444,
       "step": 45
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 1.9907,
       "step": 90
     },
     {
       "epoch": 2.0,
+      "eval_combined_score": 0.19369108880141805,
+      "eval_loss": 2.4074137210845947,
+      "eval_pearson": 0.19999936651335962,
+      "eval_runtime": 2.7026,
+      "eval_samples_per_second": 555.012,
+      "eval_spearmanr": 0.18738281108947652,
+      "eval_steps_per_second": 4.44,
       "step": 90
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 1.6996,
       "step": 135
     },
     {
       "epoch": 3.0,
+      "eval_combined_score": 0.24310344093921177,
+      "eval_loss": 2.2274508476257324,
+      "eval_pearson": 0.23855404949441353,
+      "eval_runtime": 2.7053,
+      "eval_samples_per_second": 554.459,
+      "eval_spearmanr": 0.24765283238401,
+      "eval_steps_per_second": 4.436,
       "step": 135
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 1.4403,
       "step": 180
     },
     {
       "epoch": 4.0,
+      "eval_combined_score": 0.3061298935004072,
+      "eval_loss": 2.577528953552246,
+      "eval_pearson": 0.306014631205648,
+      "eval_runtime": 2.7288,
+      "eval_samples_per_second": 549.687,
+      "eval_spearmanr": 0.3062451557951665,
+      "eval_steps_per_second": 4.397,
       "step": 180
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 1.1707,
       "step": 225
     },
     {
       "epoch": 5.0,
+      "eval_combined_score": 0.3428137496127132,
+      "eval_loss": 2.321990966796875,
+      "eval_pearson": 0.35001401132140714,
+      "eval_runtime": 2.7071,
+      "eval_samples_per_second": 554.103,
+      "eval_spearmanr": 0.3356134879040193,
+      "eval_steps_per_second": 4.433,
       "step": 225
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 0.8313,
       "step": 270
     },
     {
       "epoch": 6.0,
+      "eval_combined_score": 0.3904766259914194,
+      "eval_loss": 2.421797513961792,
+      "eval_pearson": 0.3880847929008212,
+      "eval_runtime": 2.7029,
+      "eval_samples_per_second": 554.958,
+      "eval_spearmanr": 0.3928684590820176,
+      "eval_steps_per_second": 4.44,
       "step": 270
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 3.44e-05,
+      "loss": 0.6374,
+      "step": 315
+    },
+    {
+      "epoch": 7.0,
+      "eval_combined_score": 0.39674703957638435,
+      "eval_loss": 2.260120153427124,
+      "eval_pearson": 0.3979561118619206,
+      "eval_runtime": 2.7019,
+      "eval_samples_per_second": 555.155,
+      "eval_spearmanr": 0.39553796729084817,
+      "eval_steps_per_second": 4.441,
+      "step": 315
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 0.5371,
+      "step": 360
+    },
+    {
+      "epoch": 8.0,
+      "eval_combined_score": 0.3613778968152906,
+      "eval_loss": 2.6668217182159424,
+      "eval_pearson": 0.36263676939553346,
+      "eval_runtime": 2.7013,
+      "eval_samples_per_second": 555.286,
+      "eval_spearmanr": 0.3601190242350477,
+      "eval_steps_per_second": 4.442,
+      "step": 360
+    },
+    {
+      "epoch": 8.0,
+      "step": 360,
+      "total_flos": 6811212541067264.0,
+      "train_loss": 1.3248735851711697,
+      "train_runtime": 320.0657,
+      "train_samples_per_second": 898.097,
+      "train_steps_per_second": 7.03
     }
   ],
   "max_steps": 2250,
   "num_train_epochs": 50,
+  "total_flos": 6811212541067264.0,
   "trial_name": null,
   "trial_params": null
 }