add ckpt-10500 / epoch-0

Browse files

Files changed (4) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
scheduler.pt +1 -1
trainer_state.json +153 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7815c1c0189300400f56cd52928f5ff13a0a149601801a11869e3da9aec1c8c7
 size 1057712183

 version https://git-lfs.github.com/spec/v1
+oid sha256:7700fcec392ea121226bbc3e9b325a706b1fee3fc0d121b37876c3782fd10133
 size 1057712183

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:366526d56f212d3b35c55cb08198a66a22edb85a2b36266515e46ea56eb57fec
 size 528910843

 version https://git-lfs.github.com/spec/v1
+oid sha256:12327197ea2594c4ffecc831bad5c1ede4a1b8cabecb84430e06b24108e2cd14
 size 528910843

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05340714cd922e69aa91d58d9e8df1033830fac0f368cbdfb60b74a91044a3b1
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:112b6ad0d91eba88b0a5c6b34586dddeefe7213a047a2f6f299e9b87aa672c89
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9755401161130675,
-  "global_step": 10250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6156,11 +6156,161 @@
       "learning_rate": 6.769676331116133e-05,
       "loss": 1.4452,
       "step": 10250
     }
   ],
   "max_steps": 31521,
   "num_train_epochs": 3,
-  "total_flos": 9.71805765981438e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9993337774816788,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.769676331116133e-05,
       "loss": 1.4452,
       "step": 10250
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.766493746220682e-05,
+      "loss": 1.4993,
+      "step": 10260
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.763311161325229e-05,
+      "loss": 1.4982,
+      "step": 10270
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.760128576429776e-05,
+      "loss": 1.651,
+      "step": 10280
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.756945991534325e-05,
+      "loss": 1.6332,
+      "step": 10290
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.753763406638872e-05,
+      "loss": 1.4433,
+      "step": 10300
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.75058082174342e-05,
+      "loss": 1.485,
+      "step": 10310
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.747398236847968e-05,
+      "loss": 1.6712,
+      "step": 10320
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.744215651952516e-05,
+      "loss": 1.5196,
+      "step": 10330
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.741033067057064e-05,
+      "loss": 1.586,
+      "step": 10340
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.737850482161611e-05,
+      "loss": 1.4815,
+      "step": 10350
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.73466789726616e-05,
+      "loss": 1.7372,
+      "step": 10360
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.731485312370708e-05,
+      "loss": 1.2242,
+      "step": 10370
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.728302727475255e-05,
+      "loss": 1.8329,
+      "step": 10380
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.725120142579803e-05,
+      "loss": 1.6306,
+      "step": 10390
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.721937557684352e-05,
+      "loss": 1.6169,
+      "step": 10400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.7187549727889e-05,
+      "loss": 1.8023,
+      "step": 10410
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.715572387893447e-05,
+      "loss": 1.4764,
+      "step": 10420
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.712389802997994e-05,
+      "loss": 1.718,
+      "step": 10430
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.709207218102544e-05,
+      "loss": 1.6362,
+      "step": 10440
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.706024633207091e-05,
+      "loss": 1.4818,
+      "step": 10450
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.70284204831164e-05,
+      "loss": 1.8302,
+      "step": 10460
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.699659463416186e-05,
+      "loss": 1.4897,
+      "step": 10470
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.696476878520735e-05,
+      "loss": 1.3032,
+      "step": 10480
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.693294293625283e-05,
+      "loss": 1.4236,
+      "step": 10490
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.69011170872983e-05,
+      "loss": 1.5428,
+      "step": 10500
     }
   ],
   "max_steps": 31521,
   "num_train_epochs": 3,
+  "total_flos": 9.955030912708116e+17,
   "trial_name": null,
   "trial_params": null
 }