Training in progress, step 1500

Browse files

Files changed (7) hide show

checkpoint-1500/optimizer.pt +1 -1
checkpoint-1500/pytorch_model.bin +1 -1
checkpoint-1500/scaler.pt +1 -1
checkpoint-1500/scheduler.pt +1 -1
checkpoint-1500/trainer_state.json +46 -46
checkpoint-1500/training_args.bin +1 -1
pytorch_model.bin +1 -1

checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a2927b1e7a6af7703304a15b14ed79cddd8a561ab70c3f1630c008c3debc0ac
 size 2490362385

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cd9c62ff94cc2f259c8cbeff5c28cee1c8ef11d0981156e0eae5ca0fddb63a1
 size 2490362385

checkpoint-1500/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c146bd2ad9f313033c049f506c561ba8fa40b130d16254cb640b46a8117068a2
 size 1262075377

 version https://git-lfs.github.com/spec/v1
+oid sha256:acd89b40b183844d2d1cf17d26aeb8e928fe510a53c8c087c715468330a4fb98
 size 1262075377

checkpoint-1500/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75859b6f10fc5cb61ebf19c5b9211484a9a37deea8e552cb0ba6fc98b090d7ff
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b1d791ba720c03cca9f2004a2681a7daf7371671890a4f96b90878506ee97e6
 size 559

checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4efdd67f0b22b26bc682e2f487b713df4629fa5b02c99d86373db7c1edd7d2a
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:033501fd55355c135dbf9f384ee2274d0c8246e49cc5023499a0046a5993e207
 size 623

checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -9,124 +9,124 @@
   "log_history": [
     {
       "epoch": 0.29,
-      "learning_rate": 7.151470588235293e-05,
-      "loss": 5.1135,
       "step": 100
     },
     {
       "epoch": 0.58,
-      "learning_rate": 6.710294117647058e-05,
-      "loss": 3.0957,
       "step": 200
     },
     {
       "epoch": 0.87,
-      "learning_rate": 6.269117647058824e-05,
-      "loss": 3.0078,
       "step": 300
     },
     {
       "epoch": 1.16,
-      "learning_rate": 5.827941176470588e-05,
-      "loss": 2.9785,
       "step": 400
     },
     {
       "epoch": 1.45,
-      "learning_rate": 5.3867647058823525e-05,
-      "loss": 2.9069,
       "step": 500
     },
     {
       "epoch": 1.45,
-      "eval_loss": 2.9046826362609863,
-      "eval_runtime": 128.7688,
-      "eval_samples_per_second": 35.878,
-      "eval_steps_per_second": 4.489,
       "eval_wer": 1.0,
       "step": 500
     },
     {
       "epoch": 1.74,
-      "learning_rate": 4.945588235294117e-05,
-      "loss": 2.8537,
       "step": 600
     },
     {
       "epoch": 2.03,
-      "learning_rate": 4.504411764705882e-05,
-      "loss": 2.7928,
       "step": 700
     },
     {
       "epoch": 2.32,
-      "learning_rate": 4.063235294117647e-05,
-      "loss": 2.6988,
       "step": 800
     },
     {
       "epoch": 2.61,
-      "learning_rate": 3.6220588235294115e-05,
-      "loss": 2.6342,
       "step": 900
     },
     {
       "epoch": 2.91,
-      "learning_rate": 3.180882352941176e-05,
-      "loss": 2.5875,
       "step": 1000
     },
     {
       "epoch": 2.91,
-      "eval_loss": 2.415876865386963,
-      "eval_runtime": 164.5912,
-      "eval_samples_per_second": 28.07,
-      "eval_steps_per_second": 3.512,
-      "eval_wer": 1.199687939790736,
       "step": 1000
     },
     {
       "epoch": 3.2,
-      "learning_rate": 2.739705882352941e-05,
-      "loss": 2.5214,
       "step": 1100
     },
     {
       "epoch": 3.49,
-      "learning_rate": 2.2985294117647057e-05,
-      "loss": 2.4174,
       "step": 1200
     },
     {
       "epoch": 3.78,
-      "learning_rate": 1.8573529411764705e-05,
-      "loss": 2.3271,
       "step": 1300
     },
     {
       "epoch": 4.07,
-      "learning_rate": 1.416176470588235e-05,
-      "loss": 2.2784,
       "step": 1400
     },
     {
       "epoch": 4.36,
-      "learning_rate": 9.75e-06,
-      "loss": 2.2043,
       "step": 1500
     },
     {
       "epoch": 4.36,
-      "eval_loss": 1.6191935539245605,
-      "eval_runtime": 127.3244,
-      "eval_samples_per_second": 36.285,
-      "eval_steps_per_second": 4.54,
-      "eval_wer": 0.9597993024536499,
       "step": 1500
     }
   ],
-  "max_steps": 1720,
-  "num_train_epochs": 5,
   "total_flos": 4.445118706030802e+18,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.29,
+      "learning_rate": 3.7125e-06,
+      "loss": 12.2713,
       "step": 100
     },
     {
       "epoch": 0.58,
+      "learning_rate": 7.4625e-06,
+      "loss": 6.2026,
       "step": 200
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.1212499999999998e-05,
+      "loss": 4.1374,
       "step": 300
     },
     {
       "epoch": 1.16,
+      "learning_rate": 1.49625e-05,
+      "loss": 3.6755,
       "step": 400
     },
     {
       "epoch": 1.45,
+      "learning_rate": 1.8712499999999997e-05,
+      "loss": 3.3332,
       "step": 500
     },
     {
       "epoch": 1.45,
+      "eval_loss": 3.292029857635498,
+      "eval_runtime": 137.2974,
+      "eval_samples_per_second": 33.65,
+      "eval_steps_per_second": 4.21,
       "eval_wer": 1.0,
       "step": 500
     },
     {
       "epoch": 1.74,
+      "learning_rate": 2.2462499999999997e-05,
+      "loss": 3.1418,
       "step": 600
     },
     {
       "epoch": 2.03,
+      "learning_rate": 2.6212499999999997e-05,
+      "loss": 3.0879,
       "step": 700
     },
     {
       "epoch": 2.32,
+      "learning_rate": 2.99625e-05,
+      "loss": 3.0216,
       "step": 800
     },
     {
       "epoch": 2.61,
+      "learning_rate": 3.37125e-05,
+      "loss": 2.9595,
       "step": 900
     },
     {
       "epoch": 2.91,
+      "learning_rate": 3.7462499999999996e-05,
+      "loss": 2.9269,
       "step": 1000
     },
     {
       "epoch": 2.91,
+      "eval_loss": 2.941540241241455,
+      "eval_runtime": 178.4388,
+      "eval_samples_per_second": 25.891,
+      "eval_steps_per_second": 3.239,
+      "eval_wer": 0.9966346448020559,
       "step": 1000
     },
     {
       "epoch": 3.2,
+      "learning_rate": 4.12125e-05,
+      "loss": 2.914,
       "step": 1100
     },
     {
       "epoch": 3.49,
+      "learning_rate": 4.4962499999999995e-05,
+      "loss": 2.8432,
       "step": 1200
     },
     {
       "epoch": 3.78,
+      "learning_rate": 4.871249999999999e-05,
+      "loss": 2.6828,
       "step": 1300
     },
     {
       "epoch": 4.07,
+      "learning_rate": 5.2462499999999994e-05,
+      "loss": 2.355,
       "step": 1400
     },
     {
       "epoch": 4.36,
+      "learning_rate": 5.62125e-05,
+      "loss": 2.0719,
       "step": 1500
     },
     {
       "epoch": 4.36,
+      "eval_loss": 1.164096713066101,
+      "eval_runtime": 134.2981,
+      "eval_samples_per_second": 34.401,
+      "eval_steps_per_second": 4.304,
+      "eval_wer": 0.8507923881784251,
       "step": 1500
     }
   ],
+  "max_steps": 17200,
+  "num_train_epochs": 50,
   "total_flos": 4.445118706030802e+18,
   "trial_name": null,
   "trial_params": null

checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1208f22bb7e06e1e9a51692db0520fbddfc3640941d51dfe45ba3188ada2ecbf
 size 2991

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a168f126d02648193e16ba893c3e1ef9f2c2de91803928caf5e25532aff1325
 size 2991

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5413d438578028bae2ac5a1c47311442081ff0b4a1db9b89c2080d69df74655b
 size 1262075377

 version https://git-lfs.github.com/spec/v1
+oid sha256:acd89b40b183844d2d1cf17d26aeb8e928fe510a53c8c087c715468330a4fb98
 size 1262075377