Training in progress, step 210000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aeed81ff957b2db542c361adc3c37054999526f67b2fdd08124045a7a9910110
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:20fdb368922f36248fd6b214b7b78335fe829358b5b671adc377a7586ad5707d
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a1e1eb146f1c0d6bafed7b37d2555b3cf3a9a1cec24e6e7b6230f23f01cccd4
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb8ed6173253524a7574f7166f4857b303d1b69af9c36814e1d9440f006d9566
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb751814ba6ecdcd5c1c820cf948dc125ec28136a0f7891aedc4ea8d19c01bac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf717114abf74d765a1dd76652ea701e4d472d694acc3289369476dcf9946f2
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e461416c63c82734faef19b4949af829ad430bff342d30400b1c1da0cafb58f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:de6aa60c12b8dbcda06c27a65ac30e45d66753f2960bee09a7c0ea364ae7e103
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.659940818751602,
-  "global_step": 200000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4006,11 +4006,211 @@
       "eval_samples_per_second": 1544.399,
       "eval_steps_per_second": 24.592,
       "step": 200000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 6.389732787526373e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.892937859689182,
+  "global_step": 210000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1544.399,
       "eval_steps_per_second": 24.592,
       "step": 200000
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 0.000212806399860385,
+      "loss": 0.2797,
+      "step": 200500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.00021236633098456196,
+      "loss": 0.2796,
+      "step": 201000
+    },
+    {
+      "epoch": 4.68,
+      "eval_loss": 0.26055699586868286,
+      "eval_runtime": 1.4119,
+      "eval_samples_per_second": 1556.768,
+      "eval_steps_per_second": 24.789,
+      "step": 201000
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 0.0002119256347597342,
+      "loss": 0.2795,
+      "step": 201500
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 0.000211484316005285,
+      "loss": 0.2796,
+      "step": 202000
+    },
+    {
+      "epoch": 4.71,
+      "eval_loss": 0.264119952917099,
+      "eval_runtime": 1.437,
+      "eval_samples_per_second": 1529.564,
+      "eval_steps_per_second": 24.356,
+      "step": 202000
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 0.00021104237954740554,
+      "loss": 0.2796,
+      "step": 202500
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.00021059983021904215,
+      "loss": 0.2795,
+      "step": 203000
+    },
+    {
+      "epoch": 4.73,
+      "eval_loss": 0.2626611590385437,
+      "eval_runtime": 1.4477,
+      "eval_samples_per_second": 1518.231,
+      "eval_steps_per_second": 24.176,
+      "step": 203000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 0.00021015667285984336,
+      "loss": 0.2803,
+      "step": 203500
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.00020971291231610707,
+      "loss": 0.2793,
+      "step": 204000
+    },
+    {
+      "epoch": 4.75,
+      "eval_loss": 0.2611912786960602,
+      "eval_runtime": 1.4639,
+      "eval_samples_per_second": 1501.46,
+      "eval_steps_per_second": 23.909,
+      "step": 204000
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 0.0002092685534407274,
+      "loss": 0.2792,
+      "step": 204500
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 0.00020882360109314197,
+      "loss": 0.2789,
+      "step": 205000
+    },
+    {
+      "epoch": 4.78,
+      "eval_loss": 0.2591469883918762,
+      "eval_runtime": 1.4679,
+      "eval_samples_per_second": 1497.345,
+      "eval_steps_per_second": 23.843,
+      "step": 205000
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 0.0002083780601392783,
+      "loss": 0.2788,
+      "step": 205500
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.0002079319354515008,
+      "loss": 0.2789,
+      "step": 206000
+    },
+    {
+      "epoch": 4.8,
+      "eval_loss": 0.26023101806640625,
+      "eval_runtime": 1.4041,
+      "eval_samples_per_second": 1565.36,
+      "eval_steps_per_second": 24.926,
+      "step": 206000
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 0.00020748523190855772,
+      "loss": 0.2788,
+      "step": 206500
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 0.0002070379543955273,
+      "loss": 0.2789,
+      "step": 207000
+    },
+    {
+      "epoch": 4.82,
+      "eval_loss": 0.2611112892627716,
+      "eval_runtime": 1.4444,
+      "eval_samples_per_second": 1521.751,
+      "eval_steps_per_second": 24.232,
+      "step": 207000
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 0.00020659010780376487,
+      "loss": 0.2785,
+      "step": 207500
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 0.00020614169703084896,
+      "loss": 0.2787,
+      "step": 208000
+    },
+    {
+      "epoch": 4.85,
+      "eval_loss": 0.2649895250797272,
+      "eval_runtime": 1.4305,
+      "eval_samples_per_second": 1536.472,
+      "eval_steps_per_second": 24.466,
+      "step": 208000
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 0.0002056927269805279,
+      "loss": 0.2782,
+      "step": 208500
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 0.00020524320256266635,
+      "loss": 0.2784,
+      "step": 209000
+    },
+    {
+      "epoch": 4.87,
+      "eval_loss": 0.2615431845188141,
+      "eval_runtime": 1.4232,
+      "eval_samples_per_second": 1544.408,
+      "eval_steps_per_second": 24.592,
+      "step": 209000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 0.0002047931286931912,
+      "loss": 0.2785,
+      "step": 209500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 0.00020434251029403824,
+      "loss": 0.2782,
+      "step": 210000
+    },
+    {
+      "epoch": 4.89,
+      "eval_loss": 0.26237037777900696,
+      "eval_runtime": 1.4051,
+      "eval_samples_per_second": 1564.263,
+      "eval_steps_per_second": 24.909,
+      "step": 210000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 6.709219926300873e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a1e1eb146f1c0d6bafed7b37d2555b3cf3a9a1cec24e6e7b6230f23f01cccd4
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb8ed6173253524a7574f7166f4857b303d1b69af9c36814e1d9440f006d9566
 size 102501541