Training in progress, step 2500

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-2/checkpoint-2000/model.safetensors +1 -1
run-2/checkpoint-2000/optimizer.pt +1 -1
run-2/checkpoint-2000/trainer_state.json +40 -40
run-2/checkpoint-2000/training_args.bin +1 -1
run-2/checkpoint-2500/model.safetensors +1 -1
run-2/checkpoint-2500/optimizer.pt +1 -1
run-2/checkpoint-2500/trainer_state.json +47 -47
run-2/checkpoint-2500/training_args.bin +1 -1
runs/Aug28_01-37-39_61274092231a/events.out.tfevents.1724811208.61274092231a.346.2 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44a8934746ca4730991ad664b1e5b257eeedbf4cdb1b0b7236a263059dae6b2e
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee889f64a3803bc7e93cca2dfec2e9dd8409e8881683d53e650bd0b988a67ebd
 size 268290900

run-2/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62bf159f5dba41ee9512cd0ba4df844f0327f305bb54850661dde29bab84062
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:828c5f883c6abb24df76c48ec692de7a5b53e001b7bf1e61b60b5c02b641ebfd
 size 268290900

run-2/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26853c8849f771c5e4e2cfc5f5395a93d0db9efbd1542821073bc16e3bcc608a
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bd182f20f6b3ec49934f2c7059178d19ec372d746d42a1b0ce0be887239d97a
 size 536643898

run-2/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,84 +10,84 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6309677419354839,
-      "eval_loss": 0.2469712644815445,
-      "eval_runtime": 5.4589,
-      "eval_samples_per_second": 567.879,
-      "eval_steps_per_second": 11.907,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5992535352706909,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3971,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8422580645161291,
-      "eval_loss": 0.10715335607528687,
-      "eval_runtime": 5.8957,
-      "eval_samples_per_second": 525.809,
-      "eval_steps_per_second": 11.025,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8893548387096775,
-      "eval_loss": 0.06534729152917862,
-      "eval_runtime": 5.5645,
-      "eval_samples_per_second": 557.106,
-      "eval_steps_per_second": 11.681,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5163053870201111,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1257,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9077419354838709,
-      "eval_loss": 0.04786108061671257,
-      "eval_runtime": 5.7341,
-      "eval_samples_per_second": 540.622,
-      "eval_steps_per_second": 11.336,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3360358476638794,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0738,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9161290322580645,
-      "eval_loss": 0.038218673318624496,
-      "eval_runtime": 5.7603,
-      "eval_samples_per_second": 538.164,
-      "eval_steps_per_second": 11.284,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9258064516129032,
-      "eval_loss": 0.03327132761478424,
-      "eval_runtime": 5.565,
-      "eval_samples_per_second": 557.05,
-      "eval_steps_per_second": 11.68,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.2815706431865692,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.056,
       "step": 2000
     }
   ],
@@ -112,8 +112,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1299955797744864,
     "num_train_epochs": 10,
-    "temperature": 4
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.594516129032258,
+      "eval_loss": 0.20276567339897156,
+      "eval_runtime": 5.4162,
+      "eval_samples_per_second": 572.36,
+      "eval_steps_per_second": 12.001,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.535661518573761,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3272,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8270967741935484,
+      "eval_loss": 0.09640489518642426,
+      "eval_runtime": 6.1013,
+      "eval_samples_per_second": 508.09,
+      "eval_steps_per_second": 10.653,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8841935483870967,
+      "eval_loss": 0.06340694427490234,
+      "eval_runtime": 5.5585,
+      "eval_samples_per_second": 557.704,
+      "eval_steps_per_second": 11.694,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4495888650417328,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1121,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9006451612903226,
+      "eval_loss": 0.048330824822187424,
+      "eval_runtime": 5.5377,
+      "eval_samples_per_second": 559.795,
+      "eval_steps_per_second": 11.738,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.30502042174339294,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0703,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9106451612903226,
+      "eval_loss": 0.03915739059448242,
+      "eval_runtime": 5.8885,
+      "eval_samples_per_second": 526.453,
+      "eval_steps_per_second": 11.039,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9151612903225806,
+      "eval_loss": 0.03403216972947121,
+      "eval_runtime": 5.6759,
+      "eval_samples_per_second": 546.164,
+      "eval_steps_per_second": 11.452,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.2584752142429352,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.0544,
       "step": 2000
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.07863039618542955,
     "num_train_epochs": 10,
+    "temperature": 9
   }
 }

run-2/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db3eb2a11611660ee273d6a93bf3ff6660f9d8c52045607a37deef8e769ebd6
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7737d5811dfd235fa6fa8c193709de926af9e7ef31f18c3db6f31576650c6630
 size 5176

run-2/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b3fb90c12883beb4e859d4cd7efe10db9199511ae406b0eafdc230c0b584ee3
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee889f64a3803bc7e93cca2dfec2e9dd8409e8881683d53e650bd0b988a67ebd
 size 268290900

run-2/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a46ddc7cbc6dfd30fc1367bed39faba4e2a9db19e3cde07abe3d78aa457280c
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a1047c5067bc7bb3dedb356e3003b40204f97568d490e357f4eff48e0739def
 size 536643898

run-2/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -10,100 +10,100 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6309677419354839,
-      "eval_loss": 0.2469712644815445,
-      "eval_runtime": 5.4589,
-      "eval_samples_per_second": 567.879,
-      "eval_steps_per_second": 11.907,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5992535352706909,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3971,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8422580645161291,
-      "eval_loss": 0.10715335607528687,
-      "eval_runtime": 5.8957,
-      "eval_samples_per_second": 525.809,
-      "eval_steps_per_second": 11.025,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8893548387096775,
-      "eval_loss": 0.06534729152917862,
-      "eval_runtime": 5.5645,
-      "eval_samples_per_second": 557.106,
-      "eval_steps_per_second": 11.681,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5163053870201111,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1257,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9077419354838709,
-      "eval_loss": 0.04786108061671257,
-      "eval_runtime": 5.7341,
-      "eval_samples_per_second": 540.622,
-      "eval_steps_per_second": 11.336,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3360358476638794,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0738,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9161290322580645,
-      "eval_loss": 0.038218673318624496,
-      "eval_runtime": 5.7603,
-      "eval_samples_per_second": 538.164,
-      "eval_steps_per_second": 11.284,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9258064516129032,
-      "eval_loss": 0.03327132761478424,
-      "eval_runtime": 5.565,
-      "eval_samples_per_second": 557.05,
-      "eval_steps_per_second": 11.68,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.2815706431865692,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.056,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9296774193548387,
-      "eval_loss": 0.03050699457526207,
-      "eval_runtime": 5.8127,
-      "eval_samples_per_second": 533.313,
-      "eval_steps_per_second": 11.182,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
-      "grad_norm": 0.3059941530227661,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0481,
       "step": 2500
     }
   ],
@@ -128,8 +128,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1299955797744864,
     "num_train_epochs": 10,
-    "temperature": 4
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.594516129032258,
+      "eval_loss": 0.20276567339897156,
+      "eval_runtime": 5.4162,
+      "eval_samples_per_second": 572.36,
+      "eval_steps_per_second": 12.001,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.535661518573761,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3272,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8270967741935484,
+      "eval_loss": 0.09640489518642426,
+      "eval_runtime": 6.1013,
+      "eval_samples_per_second": 508.09,
+      "eval_steps_per_second": 10.653,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8841935483870967,
+      "eval_loss": 0.06340694427490234,
+      "eval_runtime": 5.5585,
+      "eval_samples_per_second": 557.704,
+      "eval_steps_per_second": 11.694,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4495888650417328,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1121,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9006451612903226,
+      "eval_loss": 0.048330824822187424,
+      "eval_runtime": 5.5377,
+      "eval_samples_per_second": 559.795,
+      "eval_steps_per_second": 11.738,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.30502042174339294,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0703,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9106451612903226,
+      "eval_loss": 0.03915739059448242,
+      "eval_runtime": 5.8885,
+      "eval_samples_per_second": 526.453,
+      "eval_steps_per_second": 11.039,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9151612903225806,
+      "eval_loss": 0.03403216972947121,
+      "eval_runtime": 5.6759,
+      "eval_samples_per_second": 546.164,
+      "eval_steps_per_second": 11.452,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.2584752142429352,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.0544,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9245161290322581,
+      "eval_loss": 0.03124151937663555,
+      "eval_runtime": 5.5585,
+      "eval_samples_per_second": 557.7,
+      "eval_steps_per_second": 11.694,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
+      "grad_norm": 0.2786354124546051,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.047,
       "step": 2500
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.07863039618542955,
     "num_train_epochs": 10,
+    "temperature": 9
   }
 }

run-2/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db3eb2a11611660ee273d6a93bf3ff6660f9d8c52045607a37deef8e769ebd6
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7737d5811dfd235fa6fa8c193709de926af9e7ef31f18c3db6f31576650c6630
 size 5176

runs/Aug28_01-37-39_61274092231a/events.out.tfevents.1724811208.61274092231a.346.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1cea2f8256d68d2abf2aa506badc4ce36a2dfcc35c96982669d89db0bd9976a
-size 15157

 version https://git-lfs.github.com/spec/v1
+oid sha256:a719914dbc28d496fc36a14850fbfe4e5ee6026f2efade9402f7effe379c4f15
+size 16548