End of training

Browse files

Files changed (6) hide show

README.md +10 -8
all_results.json +9 -9
eval_results.json +5 -5
logs/events.out.tfevents.1686034118.serv-3317.3374904.8 +3 -0
train_results.json +5 -5
trainer_state.json +80 -148

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -13,7 +15,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: mrpc
       split: validation
@@ -21,10 +23,10 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.6593137254901961
     - name: F1
       type: f1
-      value: 0.7495495495495494
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,12 +34,12 @@ should probably proofread and complete it, then remove this comment. -->
 # hBERTv1_new_pretrain_mrpc
-This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0809
-- Accuracy: 0.6593
-- F1: 0.7495
-- Combined Score: 0.7044
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE MRPC
       type: glue
       config: mrpc
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.6838235294117647
     - name: F1
       type: f1
+      value: 0.8122270742358079
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # hBERTv1_new_pretrain_mrpc
+This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the GLUE MRPC dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6018
+- Accuracy: 0.6838
+- F1: 0.8122
+- Combined Score: 0.7480
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 13.0,
     "eval_accuracy": 0.6838235294117647,
     "eval_combined_score": 0.7480253018237863,
     "eval_f1": 0.8122270742358079,
-    "eval_loss": 16.946691513061523,
-    "eval_runtime": 0.7508,
     "eval_samples": 408,
-    "eval_samples_per_second": 543.443,
-    "eval_steps_per_second": 5.328,
-    "train_loss": 18.96294307961704,
-    "train_runtime": 317.3548,
     "train_samples": 3668,
-    "train_samples_per_second": 577.902,
-    "train_steps_per_second": 4.569
 }

 {
+    "epoch": 9.0,
     "eval_accuracy": 0.6838235294117647,
     "eval_combined_score": 0.7480253018237863,
     "eval_f1": 0.8122270742358079,
+    "eval_loss": 0.601811408996582,
+    "eval_runtime": 0.744,
     "eval_samples": 408,
+    "eval_samples_per_second": 548.415,
+    "eval_steps_per_second": 5.377,
+    "train_loss": 0.4543412891841026,
+    "train_runtime": 215.8989,
     "train_samples": 3668,
+    "train_samples_per_second": 849.472,
+    "train_steps_per_second": 6.716
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 13.0,
     "eval_accuracy": 0.6838235294117647,
     "eval_combined_score": 0.7480253018237863,
     "eval_f1": 0.8122270742358079,
-    "eval_loss": 16.946691513061523,
-    "eval_runtime": 0.7508,
     "eval_samples": 408,
-    "eval_samples_per_second": 543.443,
-    "eval_steps_per_second": 5.328
 }

 {
+    "epoch": 9.0,
     "eval_accuracy": 0.6838235294117647,
     "eval_combined_score": 0.7480253018237863,
     "eval_f1": 0.8122270742358079,
+    "eval_loss": 0.601811408996582,
+    "eval_runtime": 0.744,
     "eval_samples": 408,
+    "eval_samples_per_second": 548.415,
+    "eval_steps_per_second": 5.377
 }

logs/events.out.tfevents.1686034118.serv-3317.3374904.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:858ccc565bc00890880d582231bbd8c5fbec31078c3f55e2280e8bbdc612ca0a
+size 467

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 13.0,
-    "train_loss": 18.96294307961704,
-    "train_runtime": 317.3548,
     "train_samples": 3668,
-    "train_samples_per_second": 577.902,
-    "train_steps_per_second": 4.569
 }

 {
+    "epoch": 9.0,
+    "train_loss": 0.4543412891841026,
+    "train_runtime": 215.8989,
     "train_samples": 3668,
+    "train_samples_per_second": 849.472,
+    "train_steps_per_second": 6.716
 }

trainer_state.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-  "best_metric": 16.946691513061523,
-  "best_model_checkpoint": "hBERTv1_new_pretrain_mrpc/checkpoint-232",
-  "epoch": 13.0,
-  "global_step": 377,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.00049,
-      "loss": 19.6767,
       "step": 29
     },
     {
@@ -18,16 +18,16 @@
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.958946228027344,
-      "eval_runtime": 0.7573,
-      "eval_samples_per_second": 538.74,
-      "eval_steps_per_second": 5.282,
       "step": 29
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.00048,
-      "loss": 19.3493,
       "step": 58
     },
     {
@@ -35,16 +35,16 @@
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.958946228027344,
-      "eval_runtime": 0.7497,
-      "eval_samples_per_second": 544.244,
-      "eval_steps_per_second": 5.336,
       "step": 58
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.00047,
-      "loss": 19.2027,
       "step": 87
     },
     {
@@ -52,16 +52,16 @@
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.960784912109375,
-      "eval_runtime": 0.751,
-      "eval_samples_per_second": 543.309,
-      "eval_steps_per_second": 5.327,
       "step": 87
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.00046,
-      "loss": 18.331,
       "step": 116
     },
     {
@@ -69,178 +69,110 @@
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.952205657958984,
-      "eval_runtime": 0.7511,
-      "eval_samples_per_second": 543.213,
-      "eval_steps_per_second": 5.326,
       "step": 116
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00045000000000000004,
-      "loss": 18.7621,
       "step": 145
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.96017074584961,
-      "eval_runtime": 0.7546,
-      "eval_samples_per_second": 540.675,
-      "eval_steps_per_second": 5.301,
       "step": 145
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.00044,
-      "loss": 18.947,
       "step": 174
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.95649528503418,
-      "eval_runtime": 0.7509,
-      "eval_samples_per_second": 543.351,
-      "eval_steps_per_second": 5.327,
       "step": 174
     },
     {
       "epoch": 7.0,
-      "learning_rate": 0.00043,
-      "loss": 18.9881,
       "step": 203
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.957107543945312,
-      "eval_runtime": 0.7504,
-      "eval_samples_per_second": 543.682,
-      "eval_steps_per_second": 5.33,
       "step": 203
     },
     {
       "epoch": 8.0,
-      "learning_rate": 0.00042,
-      "loss": 19.398,
       "step": 232
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.946691513061523,
-      "eval_runtime": 0.7513,
-      "eval_samples_per_second": 543.058,
-      "eval_steps_per_second": 5.324,
       "step": 232
     },
     {
       "epoch": 9.0,
-      "learning_rate": 0.00041,
-      "loss": 18.4123,
       "step": 261
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.950366973876953,
-      "eval_runtime": 0.7508,
-      "eval_samples_per_second": 543.454,
-      "eval_steps_per_second": 5.328,
       "step": 261
     },
     {
-      "epoch": 10.0,
-      "learning_rate": 0.0004,
-      "loss": 18.3449,
-      "step": 290
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.953432083129883,
-      "eval_runtime": 0.7521,
-      "eval_samples_per_second": 542.492,
-      "eval_steps_per_second": 5.319,
-      "step": 290
-    },
-    {
-      "epoch": 11.0,
-      "learning_rate": 0.00039000000000000005,
-      "loss": 18.9622,
-      "step": 319
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.95159339904785,
-      "eval_runtime": 0.7537,
-      "eval_samples_per_second": 541.334,
-      "eval_steps_per_second": 5.307,
-      "step": 319
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 0.00038,
-      "loss": 19.1266,
-      "step": 348
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.95159339904785,
-      "eval_runtime": 0.7515,
-      "eval_samples_per_second": 542.931,
-      "eval_steps_per_second": 5.323,
-      "step": 348
-    },
-    {
-      "epoch": 13.0,
-      "learning_rate": 0.00037,
-      "loss": 19.0174,
-      "step": 377
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 16.95098114013672,
-      "eval_runtime": 0.7516,
-      "eval_samples_per_second": 542.838,
-      "eval_steps_per_second": 5.322,
-      "step": 377
-    },
-    {
-      "epoch": 13.0,
-      "step": 377,
-      "total_flos": 7061846666248192.0,
-      "train_loss": 18.96294307961704,
-      "train_runtime": 317.3548,
-      "train_samples_per_second": 577.902,
-      "train_steps_per_second": 4.569
     }
   ],
   "max_steps": 1450,
   "num_train_epochs": 50,
-  "total_flos": 7061846666248192.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.601811408996582,
+  "best_model_checkpoint": "hBERTv1_new_pretrain_mrpc/checkpoint-116",
+  "epoch": 9.0,
+  "global_step": 261,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 0.6855,
       "step": 29
     },
     {
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
+      "eval_loss": 0.6254739165306091,
+      "eval_runtime": 0.7416,
+      "eval_samples_per_second": 550.143,
+      "eval_steps_per_second": 5.394,
       "step": 29
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 0.647,
       "step": 58
     },
     {
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
+      "eval_loss": 0.6535907983779907,
+      "eval_runtime": 0.7427,
+      "eval_samples_per_second": 549.37,
+      "eval_steps_per_second": 5.386,
       "step": 58
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 0.6336,
       "step": 87
     },
     {
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
+      "eval_loss": 0.6536518335342407,
+      "eval_runtime": 0.7412,
+      "eval_samples_per_second": 550.49,
+      "eval_steps_per_second": 5.397,
       "step": 87
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 0.6007,
       "step": 116
     },
     {
       "eval_accuracy": 0.6838235294117647,
       "eval_combined_score": 0.7480253018237863,
       "eval_f1": 0.8122270742358079,
+      "eval_loss": 0.601811408996582,
+      "eval_runtime": 0.7403,
+      "eval_samples_per_second": 551.095,
+      "eval_steps_per_second": 5.403,
       "step": 116
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 0.5196,
       "step": 145
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6544117647058824,
+      "eval_combined_score": 0.6908422459893049,
+      "eval_f1": 0.7272727272727273,
+      "eval_loss": 0.6852147579193115,
+      "eval_runtime": 0.7429,
+      "eval_samples_per_second": 549.188,
+      "eval_steps_per_second": 5.384,
       "step": 145
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 0.3703,
       "step": 174
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.6838235294117647,
+      "eval_combined_score": 0.7273469334447811,
+      "eval_f1": 0.7708703374777975,
+      "eval_loss": 0.716745138168335,
+      "eval_runtime": 0.7419,
+      "eval_samples_per_second": 549.958,
+      "eval_steps_per_second": 5.392,
       "step": 174
     },
     {
       "epoch": 7.0,
+      "learning_rate": 3.44e-05,
+      "loss": 0.2697,
       "step": 203
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7009803921568627,
+      "eval_combined_score": 0.7481412027898408,
+      "eval_f1": 0.7953020134228188,
+      "eval_loss": 0.9072341918945312,
+      "eval_runtime": 0.7436,
+      "eval_samples_per_second": 548.694,
+      "eval_steps_per_second": 5.379,
       "step": 203
     },
     {
       "epoch": 8.0,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 0.1997,
       "step": 232
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6764705882352942,
+      "eval_combined_score": 0.7207975716977182,
+      "eval_f1": 0.7651245551601423,
+      "eval_loss": 1.046744465827942,
+      "eval_runtime": 0.7418,
+      "eval_samples_per_second": 550.012,
+      "eval_steps_per_second": 5.392,
       "step": 232
     },
     {
       "epoch": 9.0,
+      "learning_rate": 3.28e-05,
+      "loss": 0.1629,
       "step": 261
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.6593137254901961,
+      "eval_combined_score": 0.7044316375198727,
+      "eval_f1": 0.7495495495495494,
+      "eval_loss": 1.0808790922164917,
+      "eval_runtime": 0.7458,
+      "eval_samples_per_second": 547.093,
+      "eval_steps_per_second": 5.364,
       "step": 261
     },
     {
+      "epoch": 9.0,
+      "step": 261,
+      "total_flos": 4888970768941056.0,
+      "train_loss": 0.4543412891841026,
+      "train_runtime": 215.8989,
+      "train_samples_per_second": 849.472,
+      "train_steps_per_second": 6.716
     }
   ],
   "max_steps": 1450,
   "num_train_epochs": 50,
+  "total_flos": 4888970768941056.0,
   "trial_name": null,
   "trial_params": null
 }