Training in progress, step 20800

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +123 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c63330816ccaa7eda09a98c9f07e097f09338926db600d22dfaf980f1921ac8
 size 2226478553

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7d8c9fb8208aa0e0d90ff9e6faa30e64692a370a85f4d8998eee25bca138e50
 size 2226478553

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee04f652a51b6c537c44aaf1d5335a4bcc6258243d5986c3fc233b10ae259e3b
 size 1113252715

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff61a403b3cfb6a54ffab03f89d73788332a1bacb81b51101f34eaa479906cb3
 size 1113252715

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c53ab751c6683e09e4ff06934dec2839797c82ceb12efc2867a08c6e46ccfcd7
 size 17563

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddb58e7fd295f3218fc9dda421b48419dac1c35f9f62dd226cd79272ce3149c8
 size 17563

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fb737367e050016a9bfddb6625be031dccf493be9f0d3fe354594d4e3265367
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:766c4f37fdc6039a73178318ed142079f6cd59c61c3481cd6269f2a7cfa68325
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:331e919fbbba265e0172bc959c2bfb37858003f990a9378fe6a9697a94ef9ffd
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5fd6c830f4df967d9f2291b54c56401f3e6ffddab3b4f1fcd21a88c860c00bf
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6875492796215326,
-  "global_step": 20600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12366,11 +12366,131 @@
       "learning_rate": 1.631075424959426e-05,
       "loss": 1.1047,
       "step": 20600
     }
   ],
   "max_steps": 24414,
   "num_train_epochs": 2,
-  "total_flos": 2.783189658636933e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7039331537933788,
+  "global_step": 20800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.631075424959426e-05,
       "loss": 1.1047,
       "step": 20600
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.626804475954557e-05,
+      "loss": 1.0996,
+      "step": 20610
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6225335269496882e-05,
+      "loss": 1.108,
+      "step": 20620
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6182625779448193e-05,
+      "loss": 1.1041,
+      "step": 20630
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6139916289399508e-05,
+      "loss": 1.096,
+      "step": 20640
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6097206799350815e-05,
+      "loss": 1.0904,
+      "step": 20650
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6054497309302126e-05,
+      "loss": 1.1021,
+      "step": 20660
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6011787819253437e-05,
+      "loss": 1.1042,
+      "step": 20670
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.596907832920475e-05,
+      "loss": 1.107,
+      "step": 20680
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.5926368839156062e-05,
+      "loss": 1.0975,
+      "step": 20690
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5883659349107373e-05,
+      "loss": 1.1032,
+      "step": 20700
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5840949859058684e-05,
+      "loss": 1.1146,
+      "step": 20710
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5798240369009995e-05,
+      "loss": 1.0973,
+      "step": 20720
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5755530878961306e-05,
+      "loss": 1.105,
+      "step": 20730
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5712821388912617e-05,
+      "loss": 1.1082,
+      "step": 20740
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5670111898863928e-05,
+      "loss": 1.1024,
+      "step": 20750
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.562740240881524e-05,
+      "loss": 1.103,
+      "step": 20760
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.558469291876655e-05,
+      "loss": 1.097,
+      "step": 20770
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5541983428717864e-05,
+      "loss": 1.0996,
+      "step": 20780
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5499273938669175e-05,
+      "loss": 1.1077,
+      "step": 20790
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5456564448620482e-05,
+      "loss": 1.1033,
+      "step": 20800
     }
   ],
   "max_steps": 24414,
   "num_train_epochs": 2,
+  "total_flos": 2.810210873905797e+18,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee04f652a51b6c537c44aaf1d5335a4bcc6258243d5986c3fc233b10ae259e3b
 size 1113252715

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff61a403b3cfb6a54ffab03f89d73788332a1bacb81b51101f34eaa479906cb3
 size 1113252715