Training in progress, step 420

Browse files

Files changed (6) hide show

all_results.json +7 -7
eval_results.json +3 -3
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +76 -146
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -3,12 +3,12 @@
     "eval_accuracy": 0.09523809523809523,
     "eval_f1": 0.016563146997929608,
     "eval_loss": NaN,
-    "eval_runtime": 2.8277,
-    "eval_samples_per_second": 37.133,
-    "eval_steps_per_second": 4.951,
     "total_flos": 5.130291560557363e+17,
-    "train_loss": 1.0611230804806664,
-    "train_runtime": 556.247,
-    "train_samples_per_second": 11.901,
-    "train_steps_per_second": 0.755
 }

     "eval_accuracy": 0.09523809523809523,
     "eval_f1": 0.016563146997929608,
     "eval_loss": NaN,
+    "eval_runtime": 3.2578,
+    "eval_samples_per_second": 32.231,
+    "eval_steps_per_second": 2.149,
     "total_flos": 5.130291560557363e+17,
+    "train_loss": 0.0,
+    "train_runtime": 523.0916,
+    "train_samples_per_second": 12.656,
+    "train_steps_per_second": 0.803
 }

eval_results.json CHANGED Viewed

@@ -3,7 +3,7 @@
     "eval_accuracy": 0.09523809523809523,
     "eval_f1": 0.016563146997929608,
     "eval_loss": NaN,
-    "eval_runtime": 2.8277,
-    "eval_samples_per_second": 37.133,
-    "eval_steps_per_second": 4.951
 }

     "eval_accuracy": 0.09523809523809523,
     "eval_f1": 0.016563146997929608,
     "eval_loss": NaN,
+    "eval_runtime": 3.2578,
+    "eval_samples_per_second": 32.231,
+    "eval_steps_per_second": 2.149
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faea4fd9bce54a0a8ac21d7a2f02bfb00b0583239a931c498b5f6a552ec027ec
 size 343245508

 version https://git-lfs.github.com/spec/v1
+oid sha256:5baf8e84a842228091905a149230e11e5bfef12404cdaa7929684ce205580301
 size 343245508

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
     "total_flos": 5.130291560557363e+17,
-    "train_loss": 1.0611230804806664,
-    "train_runtime": 556.247,
-    "train_samples_per_second": 11.901,
-    "train_steps_per_second": 0.755
 }

 {
     "epoch": 10.0,
     "total_flos": 5.130291560557363e+17,
+    "train_loss": 0.0,
+    "train_runtime": 523.0916,
+    "train_samples_per_second": 12.656,
+    "train_steps_per_second": 0.803
 }

trainer_state.json CHANGED Viewed

@@ -3,263 +3,193 @@
   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 830,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.4939759036144578,
       "grad_norm": NaN,
-      "learning_rate": 1.9012048192771087e-05,
       "loss": 0.0,
       "step": 41
     },
-    {
-      "epoch": 0.9879518072289156,
-      "grad_norm": NaN,
-      "learning_rate": 1.802409638554217e-05,
-      "loss": 0.0,
-      "step": 82
-    },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8332,
-      "eval_samples_per_second": 37.061,
-      "eval_steps_per_second": 4.941,
-      "step": 83
     },
     {
-      "epoch": 1.4819277108433735,
       "grad_norm": NaN,
-      "learning_rate": 1.7036144578313254e-05,
       "loss": 0.0,
-      "step": 123
-    },
-    {
-      "epoch": 1.9759036144578315,
-      "grad_norm": NaN,
-      "learning_rate": 1.604819277108434e-05,
-      "loss": 0.0,
-      "step": 164
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8629,
-      "eval_samples_per_second": 36.676,
-      "eval_steps_per_second": 4.89,
-      "step": 166
     },
     {
-      "epoch": 2.4698795180722892,
       "grad_norm": NaN,
-      "learning_rate": 1.5060240963855424e-05,
       "loss": 0.0,
-      "step": 205
-    },
-    {
-      "epoch": 2.963855421686747,
-      "grad_norm": NaN,
-      "learning_rate": 1.4072289156626506e-05,
-      "loss": 0.0,
-      "step": 246
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8905,
-      "eval_samples_per_second": 36.326,
-      "eval_steps_per_second": 4.843,
-      "step": 249
-    },
-    {
-      "epoch": 3.4578313253012047,
-      "grad_norm": NaN,
-      "learning_rate": 1.3084337349397591e-05,
-      "loss": 0.0,
-      "step": 287
     },
     {
-      "epoch": 3.9518072289156625,
       "grad_norm": NaN,
-      "learning_rate": 1.2096385542168677e-05,
       "loss": 0.0,
-      "step": 328
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8626,
-      "eval_samples_per_second": 36.68,
-      "eval_steps_per_second": 4.891,
-      "step": 332
-    },
-    {
-      "epoch": 4.445783132530121,
-      "grad_norm": NaN,
-      "learning_rate": 1.110843373493976e-05,
-      "loss": 0.0,
-      "step": 369
     },
     {
-      "epoch": 4.9397590361445785,
       "grad_norm": NaN,
-      "learning_rate": 1.0120481927710844e-05,
       "loss": 0.0,
-      "step": 410
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8494,
-      "eval_samples_per_second": 36.849,
-      "eval_steps_per_second": 4.913,
-      "step": 415
-    },
-    {
-      "epoch": 5.433734939759036,
-      "grad_norm": NaN,
-      "learning_rate": 9.132530120481929e-06,
-      "loss": 0.0,
-      "step": 451
     },
     {
-      "epoch": 5.927710843373494,
       "grad_norm": NaN,
-      "learning_rate": 8.144578313253012e-06,
       "loss": 0.0,
-      "step": 492
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8675,
-      "eval_samples_per_second": 36.617,
-      "eval_steps_per_second": 4.882,
-      "step": 498
     },
     {
-      "epoch": 6.421686746987952,
       "grad_norm": NaN,
-      "learning_rate": 7.156626506024097e-06,
       "loss": 0.0,
-      "step": 533
-    },
-    {
-      "epoch": 6.9156626506024095,
-      "grad_norm": NaN,
-      "learning_rate": 6.168674698795182e-06,
-      "loss": 0.0,
-      "step": 574
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8441,
-      "eval_samples_per_second": 36.919,
-      "eval_steps_per_second": 4.922,
-      "step": 581
     },
     {
-      "epoch": 7.409638554216867,
       "grad_norm": NaN,
-      "learning_rate": 5.180722891566266e-06,
       "loss": 0.0,
-      "step": 615
-    },
-    {
-      "epoch": 7.903614457831325,
-      "grad_norm": NaN,
-      "learning_rate": 4.19277108433735e-06,
-      "loss": 0.0,
-      "step": 656
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8258,
-      "eval_samples_per_second": 37.157,
-      "eval_steps_per_second": 4.954,
-      "step": 664
-    },
-    {
-      "epoch": 8.397590361445783,
-      "grad_norm": NaN,
-      "learning_rate": 3.204819277108434e-06,
-      "loss": 0.0,
-      "step": 697
     },
     {
-      "epoch": 8.891566265060241,
       "grad_norm": NaN,
-      "learning_rate": 2.2168674698795183e-06,
       "loss": 0.0,
-      "step": 738
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8829,
-      "eval_samples_per_second": 36.422,
-      "eval_steps_per_second": 4.856,
-      "step": 747
     },
     {
-      "epoch": 9.385542168674698,
       "grad_norm": NaN,
-      "learning_rate": 1.2289156626506025e-06,
       "loss": 0.0,
-      "step": 779
-    },
-    {
-      "epoch": 9.879518072289157,
-      "grad_norm": NaN,
-      "learning_rate": 2.409638554216868e-07,
-      "loss": 0.0,
-      "step": 820
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
-      "eval_runtime": 2.8484,
-      "eval_samples_per_second": 36.863,
-      "eval_steps_per_second": 4.915,
-      "step": 830
     },
     {
       "epoch": 10.0,
-      "step": 830,
       "total_flos": 5.130291560557363e+17,
       "train_loss": 0.0,
-      "train_runtime": 548.693,
-      "train_samples_per_second": 12.065,
-      "train_steps_per_second": 1.513
     }
   ],
   "logging_steps": 41,
-  "max_steps": 830,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -276,7 +206,7 @@
     }
   },
   "total_flos": 5.130291560557363e+17,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.9761904761904762,
       "grad_norm": NaN,
+      "learning_rate": 1.804761904761905e-05,
       "loss": 0.0,
       "step": 41
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2679,
+      "eval_samples_per_second": 32.131,
+      "eval_steps_per_second": 2.142,
+      "step": 42
     },
     {
+      "epoch": 1.9523809523809523,
       "grad_norm": NaN,
+      "learning_rate": 1.6095238095238096e-05,
       "loss": 0.0,
+      "step": 82
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2909,
+      "eval_samples_per_second": 31.906,
+      "eval_steps_per_second": 2.127,
+      "step": 84
     },
     {
+      "epoch": 2.928571428571429,
       "grad_norm": NaN,
+      "learning_rate": 1.4142857142857145e-05,
       "loss": 0.0,
+      "step": 123
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2747,
+      "eval_samples_per_second": 32.064,
+      "eval_steps_per_second": 2.138,
+      "step": 126
     },
     {
+      "epoch": 3.9047619047619047,
       "grad_norm": NaN,
+      "learning_rate": 1.2190476190476192e-05,
       "loss": 0.0,
+      "step": 164
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2807,
+      "eval_samples_per_second": 32.006,
+      "eval_steps_per_second": 2.134,
+      "step": 168
     },
     {
+      "epoch": 4.880952380952381,
       "grad_norm": NaN,
+      "learning_rate": 1.0238095238095238e-05,
       "loss": 0.0,
+      "step": 205
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2895,
+      "eval_samples_per_second": 31.919,
+      "eval_steps_per_second": 2.128,
+      "step": 210
     },
     {
+      "epoch": 5.857142857142857,
       "grad_norm": NaN,
+      "learning_rate": 8.285714285714287e-06,
       "loss": 0.0,
+      "step": 246
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2926,
+      "eval_samples_per_second": 31.89,
+      "eval_steps_per_second": 2.126,
+      "step": 252
     },
     {
+      "epoch": 6.833333333333333,
       "grad_norm": NaN,
+      "learning_rate": 6.333333333333333e-06,
       "loss": 0.0,
+      "step": 287
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.3043,
+      "eval_samples_per_second": 31.777,
+      "eval_steps_per_second": 2.118,
+      "step": 294
     },
     {
+      "epoch": 7.809523809523809,
       "grad_norm": NaN,
+      "learning_rate": 4.3809523809523815e-06,
       "loss": 0.0,
+      "step": 328
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2955,
+      "eval_samples_per_second": 31.862,
+      "eval_steps_per_second": 2.124,
+      "step": 336
     },
     {
+      "epoch": 8.785714285714286,
       "grad_norm": NaN,
+      "learning_rate": 2.428571428571429e-06,
       "loss": 0.0,
+      "step": 369
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.3393,
+      "eval_samples_per_second": 31.444,
+      "eval_steps_per_second": 2.096,
+      "step": 378
     },
     {
+      "epoch": 9.761904761904763,
       "grad_norm": NaN,
+      "learning_rate": 4.7619047619047623e-07,
       "loss": 0.0,
+      "step": 410
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.09523809523809523,
       "eval_f1": 0.016563146997929608,
       "eval_loss": NaN,
+      "eval_runtime": 3.2936,
+      "eval_samples_per_second": 31.88,
+      "eval_steps_per_second": 2.125,
+      "step": 420
     },
     {
       "epoch": 10.0,
+      "step": 420,
       "total_flos": 5.130291560557363e+17,
       "train_loss": 0.0,
+      "train_runtime": 523.0916,
+      "train_samples_per_second": 12.656,
+      "train_steps_per_second": 0.803
     }
   ],
   "logging_steps": 41,
+  "max_steps": 420,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
     }
   },
   "total_flos": 5.130291560557363e+17,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0700128b977dcfbe9aadb63bb0ff124cbe09812beff12427b460eda1058c382a
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b70fa78c33b8a562ff97b75b265095a179391c9993acd8b4fa6900d706aa695
 size 5240