Training in progress, step 500

Browse files

Files changed (13) hide show

model.safetensors +1 -1
run-0/checkpoint-2500/model.safetensors +1 -1
run-0/checkpoint-2500/optimizer.pt +1 -1
run-0/checkpoint-2500/scheduler.pt +1 -1
run-0/checkpoint-2500/training_args.bin +1 -1
run-1/checkpoint-1000/trainer_state.json +24 -24
run-1/checkpoint-1500/trainer_state.json +31 -31
run-1/checkpoint-500/model.safetensors +1 -1
run-1/checkpoint-500/optimizer.pt +1 -1
run-1/checkpoint-500/scheduler.pt +1 -1
run-1/checkpoint-500/trainer_state.json +12 -12
run-1/checkpoint-500/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:156ea8881e640a983d137bf9a2f1b9c9831f3dfa43621563d93e76d3f69fdeaf
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd3bf3d49936dfd8baa9582c8eaba7717d92d7d1f8d94038d4151e4c2d4f278
 size 268290900

run-0/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c5480e86a14c3a5a2ed23ef1a3c50cc4071345c9709d7ff4fa42a75714fb2d4
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b19c0ce2f5e0f7b94bb48ab83ea28dc1398fadf382621a268cfed8eaba49b3c
 size 268290900

run-0/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6267e7147c56b42a2babf11bb31d0773d90f6a6cf848cd12b413e7b310c7e524
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4b906831cff1b0088ec50f8b463e517cb334962b03119b28ae671410ba27e2b
 size 536643898

run-0/checkpoint-2500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d116f7be47ce88249a782ce7aafaf5b673a05bfa0ebdf9f14ab4c327c94c6b04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b997ea9328158f28ff50e49c476931e703b821360bc8325e0c4d100e032c865
 size 1064

run-0/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1a32d8cd0db56d157e9d132d07845e4b644e6f4a2e7846f84de34c5644e4295
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:128e3e531e1f78b4508e424d6b0320b2ccd0b6f2b6fb1f09e3f886f07d5e86ea
 size 4728

run-1/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,55 +10,55 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6412903225806451,
-      "eval_loss": 0.230123370885849,
-      "eval_runtime": 1.3595,
-      "eval_samples_per_second": 2280.291,
-      "eval_steps_per_second": 47.813,
       "step": 318
     },
     {
       "epoch": 1.57,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3693,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8358064516129032,
-      "eval_loss": 0.10448037087917328,
-      "eval_runtime": 1.3653,
-      "eval_samples_per_second": 2270.569,
-      "eval_steps_per_second": 47.609,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8851612903225806,
-      "eval_loss": 0.06413500756025314,
-      "eval_runtime": 1.3667,
-      "eval_samples_per_second": 2268.292,
-      "eval_steps_per_second": 47.561,
       "step": 954
     },
     {
       "epoch": 3.14,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1204,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "total_flos": 259991364709020.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7207200745295966,
-    "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5896774193548387,
+      "eval_loss": 0.21174675226211548,
+      "eval_runtime": 1.3562,
+      "eval_samples_per_second": 2285.793,
+      "eval_steps_per_second": 47.928,
       "step": 318
     },
     {
       "epoch": 1.57,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.3315,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8035483870967742,
+      "eval_loss": 0.10993191599845886,
+      "eval_runtime": 1.3614,
+      "eval_samples_per_second": 2277.03,
+      "eval_steps_per_second": 47.744,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8616129032258064,
+      "eval_loss": 0.07778050750494003,
+      "eval_runtime": 1.3633,
+      "eval_samples_per_second": 2273.815,
+      "eval_steps_per_second": 47.677,
       "step": 954
     },
     {
       "epoch": 3.14,
+      "learning_rate": 7.421383647798742e-06,
+      "loss": 0.1256,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1590,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 259991364709020.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8444910353259852,
+    "num_train_epochs": 5,
+    "temperature": 10
   }
 }

run-1/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,70 +10,70 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6412903225806451,
-      "eval_loss": 0.230123370885849,
-      "eval_runtime": 1.3595,
-      "eval_samples_per_second": 2280.291,
-      "eval_steps_per_second": 47.813,
       "step": 318
     },
     {
       "epoch": 1.57,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3693,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8358064516129032,
-      "eval_loss": 0.10448037087917328,
-      "eval_runtime": 1.3653,
-      "eval_samples_per_second": 2270.569,
-      "eval_steps_per_second": 47.609,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8851612903225806,
-      "eval_loss": 0.06413500756025314,
-      "eval_runtime": 1.3667,
-      "eval_samples_per_second": 2268.292,
-      "eval_steps_per_second": 47.561,
       "step": 954
     },
     {
       "epoch": 3.14,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1204,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9041935483870968,
-      "eval_loss": 0.04693836718797684,
-      "eval_runtime": 1.3284,
-      "eval_samples_per_second": 2333.641,
-      "eval_steps_per_second": 48.931,
       "step": 1272
     },
     {
       "epoch": 4.72,
-      "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0726,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "total_flos": 390310534917408.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7207200745295966,
-    "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5896774193548387,
+      "eval_loss": 0.21174675226211548,
+      "eval_runtime": 1.3562,
+      "eval_samples_per_second": 2285.793,
+      "eval_steps_per_second": 47.928,
       "step": 318
     },
     {
       "epoch": 1.57,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.3315,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8035483870967742,
+      "eval_loss": 0.10993191599845886,
+      "eval_runtime": 1.3614,
+      "eval_samples_per_second": 2277.03,
+      "eval_steps_per_second": 47.744,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8616129032258064,
+      "eval_loss": 0.07778050750494003,
+      "eval_runtime": 1.3633,
+      "eval_samples_per_second": 2273.815,
+      "eval_steps_per_second": 47.677,
       "step": 954
     },
     {
       "epoch": 3.14,
+      "learning_rate": 7.421383647798742e-06,
+      "loss": 0.1256,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8783870967741936,
+      "eval_loss": 0.06527664512395859,
+      "eval_runtime": 1.3774,
+      "eval_samples_per_second": 2250.621,
+      "eval_steps_per_second": 47.19,
       "step": 1272
     },
     {
       "epoch": 4.72,
+      "learning_rate": 1.1320754716981133e-06,
+      "loss": 0.0903,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1590,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 390310534917408.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8444910353259852,
+    "num_train_epochs": 5,
+    "temperature": 10
   }
 }

run-1/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecc1f11e1ef54a1b58f7693d099fea3bedfbfea3641ac16e05bffb49d95fa7f2
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd3bf3d49936dfd8baa9582c8eaba7717d92d7d1f8d94038d4151e4c2d4f278
 size 268290900

run-1/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d266ed532c816f7e3c324cd8af36c1d30b9a7dc7a458634269df939061528b01
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4a7b2cb6089e0574b3e01b3ab3738f4f73b1a92359ec8127a9ce373bb97a274
 size 536643898

run-1/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04366f62f8f88f5a8265df59adb051b320463277845db80e7fa43f13110c18c9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e1264523e958cf7990dc5f42d876cc12129475c4603804cf66868aaf25c2c24
 size 1064

run-1/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -10,31 +10,31 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6412903225806451,
-      "eval_loss": 0.230123370885849,
-      "eval_runtime": 1.3595,
-      "eval_samples_per_second": 2280.291,
-      "eval_steps_per_second": 47.813,
       "step": 318
     },
     {
       "epoch": 1.57,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3693,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "total_flos": 129219778448376.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7207200745295966,
-    "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5896774193548387,
+      "eval_loss": 0.21174675226211548,
+      "eval_runtime": 1.3562,
+      "eval_samples_per_second": 2285.793,
+      "eval_steps_per_second": 47.928,
       "step": 318
     },
     {
       "epoch": 1.57,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.3315,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1590,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 129219778448376.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8444910353259852,
+    "num_train_epochs": 5,
+    "temperature": 10
   }
 }

run-1/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9edb169c95045dfb3d8473928c594ea0196c02cbd8544dc5bc903ed7216c71b
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:440b33c1d4af396a1f83c40460d843946c313509afa8ac95fbf678728a7e05c7
 size 4728

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:128e3e531e1f78b4508e424d6b0320b2ccd0b6f2b6fb1f09e3f886f07d5e86ea
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:440b33c1d4af396a1f83c40460d843946c313509afa8ac95fbf678728a7e05c7
 size 4728