End of training

Browse files

Files changed (6) hide show

README.md +7 -5
all_results.json +10 -10
eval_results.json +6 -6
logs/events.out.tfevents.1686827911.garda.2667877.9 +3 -0
train_results.json +5 -5
trainer_state.json +67 -82

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -12,7 +14,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: sst2
       split: validation
@@ -20,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8004587155963303
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # hBERTv1_no_pretrain_sst2
-This model is a fine-tuned version of [](https://huggingface.co/) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5317
-- Accuracy: 0.8005
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE SST2
       type: glue
       config: sst2
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8107798165137615
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # hBERTv1_no_pretrain_sst2
+This model is a fine-tuned version of [](https://huggingface.co/) on the GLUE SST2 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4434
+- Accuracy: 0.8108
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 7.0,
-    "eval_accuracy": 0.5091743119266054,
-    "eval_loss": 0.6953763365745544,
-    "eval_runtime": 1.5195,
     "eval_samples": 872,
-    "eval_samples_per_second": 573.888,
-    "eval_steps_per_second": 4.607,
-    "train_loss": 0.6925539640787011,
-    "train_runtime": 2513.0909,
     "train_samples": 67349,
-    "train_samples_per_second": 1339.963,
-    "train_steps_per_second": 10.485
 }

 {
+    "epoch": 6.0,
+    "eval_accuracy": 0.8107798165137615,
+    "eval_loss": 0.44338709115982056,
+    "eval_runtime": 4.0336,
     "eval_samples": 872,
+    "eval_samples_per_second": 216.182,
+    "eval_steps_per_second": 2.479,
+    "train_loss": 0.26820123931508005,
+    "train_runtime": 5787.7575,
     "train_samples": 67349,
+    "train_samples_per_second": 581.823,
+    "train_steps_per_second": 6.065
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.0,
-    "eval_accuracy": 0.5091743119266054,
-    "eval_loss": 0.6953763365745544,
-    "eval_runtime": 1.5195,
     "eval_samples": 872,
-    "eval_samples_per_second": 573.888,
-    "eval_steps_per_second": 4.607
 }

 {
+    "epoch": 6.0,
+    "eval_accuracy": 0.8107798165137615,
+    "eval_loss": 0.44338709115982056,
+    "eval_runtime": 4.0336,
     "eval_samples": 872,
+    "eval_samples_per_second": 216.182,
+    "eval_steps_per_second": 2.479
 }

logs/events.out.tfevents.1686827911.garda.2667877.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6af58848c0b855d121ed758d81d5927c7dc323586f421b4fb0a2bb9cb368273
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.0,
-    "train_loss": 0.6925539640787011,
-    "train_runtime": 2513.0909,
     "train_samples": 67349,
-    "train_samples_per_second": 1339.963,
-    "train_steps_per_second": 10.485
 }

 {
+    "epoch": 6.0,
+    "train_loss": 0.26820123931508005,
+    "train_runtime": 5787.7575,
     "train_samples": 67349,
+    "train_samples_per_second": 581.823,
+    "train_steps_per_second": 6.065
 }

trainer_state.json CHANGED Viewed

@@ -1,130 +1,115 @@
 {
-  "best_metric": 0.6953763365745544,
-  "best_model_checkpoint": "hBERTv1_no_pretrain_sst2/checkpoint-1054",
-  "epoch": 7.0,
-  "global_step": 3689,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.0004900379506641366,
-      "loss": 0.7262,
-      "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.6957851052284241,
-      "eval_runtime": 1.5307,
-      "eval_samples_per_second": 569.664,
-      "eval_steps_per_second": 4.573,
-      "step": 527
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.00048003795066413666,
-      "loss": 0.6878,
-      "step": 1054
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.6953763365745544,
-      "eval_runtime": 1.5334,
-      "eval_samples_per_second": 568.671,
-      "eval_steps_per_second": 4.565,
-      "step": 1054
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.00047003795066413663,
-      "loss": 0.687,
-      "step": 1581
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.7005088925361633,
-      "eval_runtime": 1.5295,
-      "eval_samples_per_second": 570.132,
-      "eval_steps_per_second": 4.577,
-      "step": 1581
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.0004600379506641366,
-      "loss": 0.6868,
-      "step": 2108
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.6974157094955444,
-      "eval_runtime": 1.531,
-      "eval_samples_per_second": 569.563,
-      "eval_steps_per_second": 4.572,
-      "step": 2108
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00045003795066413663,
-      "loss": 0.6868,
-      "step": 2635
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.6966003775596619,
-      "eval_runtime": 1.5282,
-      "eval_samples_per_second": 570.611,
-      "eval_steps_per_second": 4.581,
-      "step": 2635
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.00044003795066413666,
-      "loss": 0.6868,
-      "step": 3162
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.6974246501922607,
-      "eval_runtime": 1.5339,
-      "eval_samples_per_second": 568.489,
-      "eval_steps_per_second": 4.564,
-      "step": 3162
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 0.00043003795066413663,
-      "loss": 0.6865,
-      "step": 3689
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 0.6969632506370544,
-      "eval_runtime": 1.532,
-      "eval_samples_per_second": 569.18,
-      "eval_steps_per_second": 4.569,
-      "step": 3689
-    },
-    {
-      "epoch": 7.0,
-      "step": 3689,
-      "total_flos": 6.981918485852979e+16,
-      "train_loss": 0.6925539640787011,
-      "train_runtime": 2513.0909,
-      "train_samples_per_second": 1339.963,
-      "train_steps_per_second": 10.485
     }
   ],
-  "max_steps": 26350,
   "num_train_epochs": 50,
-  "total_flos": 6.981918485852979e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.44338709115982056,
+  "best_model_checkpoint": "hBERTv1_no_pretrain_sst2/checkpoint-702",
+  "epoch": 6.0,
+  "global_step": 4212,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 0.4323,
+      "step": 702
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8107798165137615,
+      "eval_loss": 0.44338709115982056,
+      "eval_runtime": 4.0911,
+      "eval_samples_per_second": 213.147,
+      "eval_steps_per_second": 2.444,
+      "step": 702
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 0.2664,
+      "step": 1404
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.801605504587156,
+      "eval_loss": 0.5413224697113037,
+      "eval_runtime": 4.0747,
+      "eval_samples_per_second": 214.002,
+      "eval_steps_per_second": 2.454,
+      "step": 1404
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 0.2222,
+      "step": 2106
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8130733944954128,
+      "eval_loss": 0.5243069529533386,
+      "eval_runtime": 4.0727,
+      "eval_samples_per_second": 214.11,
+      "eval_steps_per_second": 2.455,
+      "step": 2106
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 0.2092,
+      "step": 2808
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8004587155963303,
+      "eval_loss": 0.6012656688690186,
+      "eval_runtime": 4.0943,
+      "eval_samples_per_second": 212.979,
+      "eval_steps_per_second": 2.442,
+      "step": 2808
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 0.2346,
+      "step": 3510
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8027522935779816,
+      "eval_loss": 0.4991849958896637,
+      "eval_runtime": 4.0513,
+      "eval_samples_per_second": 215.238,
+      "eval_steps_per_second": 2.468,
+      "step": 3510
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 0.2444,
+      "step": 4212
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8004587155963303,
+      "eval_loss": 0.5316653251647949,
+      "eval_runtime": 4.0478,
+      "eval_samples_per_second": 215.428,
+      "eval_steps_per_second": 2.471,
+      "step": 4212
     },
     {
+      "epoch": 6.0,
+      "step": 4212,
+      "total_flos": 5.984501559302554e+16,
+      "train_loss": 0.26820123931508005,
+      "train_runtime": 5787.7575,
+      "train_samples_per_second": 581.823,
+      "train_steps_per_second": 6.065
     }
   ],
+  "max_steps": 35100,
   "num_train_epochs": 50,
+  "total_flos": 5.984501559302554e+16,
   "trial_name": null,
   "trial_params": null
 }