End of training

Files changed (5) hide show

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 30.0,
-    "eval_accuracy": 0.7397590361445783,
-    "eval_loss": 1.1226757764816284,
-    "eval_runtime": 0.9717,
     "eval_samples": 6,
-    "eval_samples_per_second": 6.175,
-    "eval_steps_per_second": 2.058,
-    "perplexity": 3.073066049722984,
-    "train_loss": 1.552490357146866,
-    "train_runtime": 2803.476,
     "train_samples": 229,
-    "train_samples_per_second": 2.451,
-    "train_steps_per_second": 0.621
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.6788321167883211,
+    "eval_loss": 1.5589643716812134,
+    "eval_runtime": 0.4914,
     "eval_samples": 6,
+    "eval_samples_per_second": 12.209,
+    "eval_steps_per_second": 4.07,
+    "perplexity": 4.753895426191399,
+    "train_loss": 2.016565941120016,
+    "train_runtime": 632.1099,
     "train_samples": 229,
+    "train_samples_per_second": 3.623,
+    "train_steps_per_second": 0.918
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 30.0,
-    "eval_accuracy": 0.7397590361445783,
-    "eval_loss": 1.1226757764816284,
-    "eval_runtime": 0.9717,
     "eval_samples": 6,
-    "eval_samples_per_second": 6.175,
-    "eval_steps_per_second": 2.058,
-    "perplexity": 3.073066049722984
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.6788321167883211,
+    "eval_loss": 1.5589643716812134,
+    "eval_runtime": 0.4914,
     "eval_samples": 6,
+    "eval_samples_per_second": 12.209,
+    "eval_steps_per_second": 4.07,
+    "perplexity": 4.753895426191399
 }

runs/Apr23_10-00-54_496995bf93a4/events.out.tfevents.1682245221.496995bf93a4.66939.2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:10c727174bee202ba6211a25e37e968d1352ca9510705309e234cf4de9f84b34
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 30.0,
-    "train_loss": 1.552490357146866,
-    "train_runtime": 2803.476,
     "train_samples": 229,
-    "train_samples_per_second": 2.451,
-    "train_steps_per_second": 0.621
 }

 {
+    "epoch": 10.0,
+    "train_loss": 2.016565941120016,
+    "train_runtime": 632.1099,
     "train_samples": 229,
+    "train_samples_per_second": 3.623,
+    "train_steps_per_second": 0.918
 }

trainer_state.json CHANGED Viewed

@@ -1,43 +1,31 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
-  "global_step": 1740,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 8.62,
-      "learning_rate": 3.563218390804598e-05,
-      "loss": 2.043,
-      "step": 500
-    },
-    {
-      "epoch": 17.24,
-      "learning_rate": 2.1264367816091954e-05,
-      "loss": 1.539,
-      "step": 1000
-    },
-    {
-      "epoch": 25.86,
       "learning_rate": 6.896551724137932e-06,
-      "loss": 1.2681,
-      "step": 1500
     },
     {
-      "epoch": 30.0,
-      "step": 1740,
-      "total_flos": 6403012579676160.0,
-      "train_loss": 1.552490357146866,
-      "train_runtime": 2803.476,
-      "train_samples_per_second": 2.451,
-      "train_steps_per_second": 0.621
     }
   ],
-  "max_steps": 1740,
-  "num_train_epochs": 30,
-  "total_flos": 6403012579676160.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "global_step": 580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 8.62,
       "learning_rate": 6.896551724137932e-06,
+      "loss": 2.0521,
+      "step": 500
     },
     {
+      "epoch": 10.0,
+      "step": 580,
+      "total_flos": 2134337526558720.0,
+      "train_loss": 2.016565941120016,
+      "train_runtime": 632.1099,
+      "train_samples_per_second": 3.623,
+      "train_steps_per_second": 0.918
     }
   ],
+  "max_steps": 580,
+  "num_train_epochs": 10,
+  "total_flos": 2134337526558720.0,
   "trial_name": null,
   "trial_params": null
 }