End of training

Browse files

Files changed (4) hide show

all_results.json +8 -0
train_results.json +8 -0
train_results.txt +6 -0
trainer_state.json +223 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 2.0527755599007507,
+    "train_runtime": 3751.6871,
+    "train_samples": 42367,
+    "train_samples_per_second": 56.464,
+    "train_steps_per_second": 0.882
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 2.0527755599007507,
+    "train_runtime": 3751.6871,
+    "train_samples": 42367,
+    "train_samples_per_second": 56.464,
+    "train_steps_per_second": 0.882
+}

train_results.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+epoch = 5.0
+train_loss = 2.0527755599007507
+train_runtime = 3751.6871
+train_samples = 42367
+train_samples_per_second = 56.464
+train_steps_per_second = 0.882

trainer_state.json ADDED Viewed

	@@ -0,0 +1,223 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 3310,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.5105740181268882e-05,
+      "loss": 5.0514,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.0211480362537764e-05,
+      "loss": 2.6625,
+      "step": 200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.5317220543806646e-05,
+      "loss": 2.454,
+      "step": 300
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.884189325276939e-05,
+      "loss": 2.3849,
+      "step": 400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.7163477677072846e-05,
+      "loss": 2.322,
+      "step": 500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.5485062101376303e-05,
+      "loss": 2.2943,
+      "step": 600
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.380664652567976e-05,
+      "loss": 2.1795,
+      "step": 700
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 4.212823094998322e-05,
+      "loss": 2.1046,
+      "step": 800
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.0449815374286676e-05,
+      "loss": 2.0928,
+      "step": 900
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.877139979859013e-05,
+      "loss": 2.0994,
+      "step": 1000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.709298422289359e-05,
+      "loss": 2.0772,
+      "step": 1100
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 3.541456864719705e-05,
+      "loss": 2.0609,
+      "step": 1200
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3.3736153071500506e-05,
+      "loss": 2.0526,
+      "step": 1300
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 3.2057737495803964e-05,
+      "loss": 1.9463,
+      "step": 1400
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 3.0379321920107418e-05,
+      "loss": 1.906,
+      "step": 1500
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 2.870090634441088e-05,
+      "loss": 1.8914,
+      "step": 1600
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 2.7022490768714336e-05,
+      "loss": 1.9058,
+      "step": 1700
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.534407519301779e-05,
+      "loss": 1.9173,
+      "step": 1800
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 2.366565961732125e-05,
+      "loss": 1.9018,
+      "step": 1900
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 2.198724404162471e-05,
+      "loss": 1.8706,
+      "step": 2000
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 2.0308828465928163e-05,
+      "loss": 1.767,
+      "step": 2100
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 1.863041289023162e-05,
+      "loss": 1.7729,
+      "step": 2200
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 1.6951997314535078e-05,
+      "loss": 1.7836,
+      "step": 2300
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 1.527358173883854e-05,
+      "loss": 1.7858,
+      "step": 2400
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 1.3595166163141995e-05,
+      "loss": 1.7817,
+      "step": 2500
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 1.1916750587445452e-05,
+      "loss": 1.7874,
+      "step": 2600
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.0238335011748908e-05,
+      "loss": 1.7385,
+      "step": 2700
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 8.559919436052368e-06,
+      "loss": 1.6889,
+      "step": 2800
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 6.881503860355824e-06,
+      "loss": 1.6939,
+      "step": 2900
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 5.203088284659282e-06,
+      "loss": 1.6974,
+      "step": 3000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 3.5246727089627398e-06,
+      "loss": 1.7041,
+      "step": 3100
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 1.8462571332661969e-06,
+      "loss": 1.7036,
+      "step": 3200
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 1.6784155756965426e-07,
+      "loss": 1.6982,
+      "step": 3300
+    },
+    {
+      "epoch": 5.0,
+      "step": 3310,
+      "total_flos": 5.435050739908608e+16,
+      "train_loss": 2.0527755599007507,
+      "train_runtime": 3751.6871,
+      "train_samples_per_second": 56.464,
+      "train_steps_per_second": 0.882
+    }
+  ],
+  "max_steps": 3310,
+  "num_train_epochs": 5,
+  "total_flos": 5.435050739908608e+16,
+  "trial_name": null,
+  "trial_params": null
+}