End of training

Files changed (5) hide show

all_results.json +13 -0
eval_results.json +8 -0
runs/Dec25_02-59-05_3c03b7532490/events.out.tfevents.1703473225.3c03b7532490.2403.1 +3 -0
train_results.json +8 -0
trainer_state.json +75 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.88,
+    "eval_accuracy": 0.6404494382022472,
+    "eval_loss": 0.580851674079895,
+    "eval_runtime": 1.5636,
+    "eval_samples_per_second": 113.843,
+    "eval_steps_per_second": 3.837,
+    "total_flos": 2.086337325249331e+16,
+    "train_loss": 0.6542094416088529,
+    "train_runtime": 72.0498,
+    "train_samples_per_second": 66.329,
+    "train_steps_per_second": 0.5
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.88,
+    "eval_accuracy": 0.6404494382022472,
+    "eval_loss": 0.580851674079895,
+    "eval_runtime": 1.5636,
+    "eval_samples_per_second": 113.843,
+    "eval_steps_per_second": 3.837
+}

runs/Dec25_02-59-05_3c03b7532490/events.out.tfevents.1703473225.3c03b7532490.2403.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:177abb03a626be56960deb0d589a20c1bcbdeedcb0c9428a9dad80846fa03dbd
+size 405

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.88,
+    "total_flos": 2.086337325249331e+16,
+    "train_loss": 0.6542094416088529,
+    "train_runtime": 72.0498,
+    "train_samples_per_second": 66.329,
+    "train_steps_per_second": 0.5
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "best_metric": 0.6404494382022472,
+  "best_model_checkpoint": "teacher-status-van-tiny-256/checkpoint-36",
+  "epoch": 2.88,
+  "eval_steps": 500,
+  "global_step": 36,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.0625000000000005e-05,
+      "loss": 0.6898,
+      "step": 10
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.5955056179775281,
+      "eval_loss": 0.6677632331848145,
+      "eval_runtime": 1.2893,
+      "eval_samples_per_second": 138.058,
+      "eval_steps_per_second": 4.654,
+      "step": 12
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.5e-05,
+      "loss": 0.6661,
+      "step": 20
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6235955056179775,
+      "eval_loss": 0.6087228059768677,
+      "eval_runtime": 0.9989,
+      "eval_samples_per_second": 178.194,
+      "eval_steps_per_second": 6.007,
+      "step": 25
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.6328,
+      "step": 30
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.6404494382022472,
+      "eval_loss": 0.580851674079895,
+      "eval_runtime": 1.2968,
+      "eval_samples_per_second": 137.257,
+      "eval_steps_per_second": 4.627,
+      "step": 36
+    },
+    {
+      "epoch": 2.88,
+      "step": 36,
+      "total_flos": 2.086337325249331e+16,
+      "train_loss": 0.6542094416088529,
+      "train_runtime": 72.0498,
+      "train_samples_per_second": 66.329,
+      "train_steps_per_second": 0.5
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 36,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 2.086337325249331e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}