Training in progress, step 500

Browse files

Files changed (16) hide show

model.safetensors +1 -1
run-0/checkpoint-1000/config.json +1 -1
run-0/checkpoint-1000/tokenizer.json +1 -6
run-0/checkpoint-1000/trainer_state.json +41 -27
run-0/checkpoint-1500/config.json +1 -1
run-0/checkpoint-1500/tokenizer.json +1 -6
run-0/checkpoint-1500/trainer_state.json +50 -35
run-0/checkpoint-500/config.json +1 -1
run-0/checkpoint-500/model.safetensors +1 -1
run-0/checkpoint-500/optimizer.pt +1 -1
run-0/checkpoint-500/rng_state.pth +1 -1
run-0/checkpoint-500/scheduler.pt +1 -1
run-0/checkpoint-500/tokenizer.json +1 -6
run-0/checkpoint-500/trainer_state.json +27 -14
run-0/checkpoint-500/training_args.bin +2 -2
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bd8a2f3d3b78a273316722aa1b2f3f93bfa9a4935b4aae13a5055dd3a5dea73
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:b64fce98847974a1fbc15a5211620e911f29d0a6fa5bc6a5bf2e0acabc13c361
 size 268290900

run-0/checkpoint-1000/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.37.2",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
   "vocab_size": 30522
 }

run-0/checkpoint-1000/tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

run-0/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,55 +10,69 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5958064516129032,
-      "eval_loss": 0.1949465274810791,
-      "eval_runtime": 1.357,
-      "eval_samples_per_second": 2284.501,
-      "eval_steps_per_second": 47.901,
       "step": 318
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 1.606918238993711e-05,
-      "loss": 0.3113,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8164516129032258,
-      "eval_loss": 0.09700000286102295,
-      "eval_runtime": 1.3602,
-      "eval_samples_per_second": 2279.158,
-      "eval_steps_per_second": 47.789,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8754838709677419,
-      "eval_loss": 0.0647290050983429,
-      "eval_runtime": 1.3748,
-      "eval_samples_per_second": 2254.826,
-      "eval_steps_per_second": 47.279,
       "step": 954
     },
     {
-      "epoch": 3.14,
-      "learning_rate": 1.2138364779874214e-05,
-      "loss": 0.1105,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2544,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 259991364709020.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.05314446157998587,
-    "num_train_epochs": 8,
-    "temperature": 17
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6674193548387096,
+      "eval_loss": 0.416048139333725,
+      "eval_runtime": 1.3187,
+      "eval_samples_per_second": 2350.748,
+      "eval_steps_per_second": 49.29,
       "step": 318
     },
     {
+      "epoch": 1.5723270440251573,
+      "grad_norm": 0.9905994534492493,
+      "learning_rate": 1.550763701707098e-05,
+      "loss": 0.6477,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8332258064516129,
+      "eval_loss": 0.15088918805122375,
+      "eval_runtime": 1.3272,
+      "eval_samples_per_second": 2335.773,
+      "eval_steps_per_second": 48.976,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.886774193548387,
+      "eval_loss": 0.07951628416776657,
+      "eval_runtime": 1.3591,
+      "eval_samples_per_second": 2280.965,
+      "eval_steps_per_second": 47.827,
       "step": 954
     },
     {
+      "epoch": 3.1446540880503147,
+      "grad_norm": 0.7344270348548889,
+      "learning_rate": 1.101527403414196e-05,
+      "loss": 0.1749,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2226,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 260941334653608.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5999229797501479,
+    "num_train_epochs": 7,
+    "temperature": 2
   }
 }

run-0/checkpoint-1500/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.37.2",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
   "vocab_size": 30522
 }

run-0/checkpoint-1500/tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

run-0/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,70 +10,85 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5958064516129032,
-      "eval_loss": 0.1949465274810791,
-      "eval_runtime": 1.357,
-      "eval_samples_per_second": 2284.501,
-      "eval_steps_per_second": 47.901,
       "step": 318
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 1.606918238993711e-05,
-      "loss": 0.3113,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8164516129032258,
-      "eval_loss": 0.09700000286102295,
-      "eval_runtime": 1.3602,
-      "eval_samples_per_second": 2279.158,
-      "eval_steps_per_second": 47.789,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8754838709677419,
-      "eval_loss": 0.0647290050983429,
-      "eval_runtime": 1.3748,
-      "eval_samples_per_second": 2254.826,
-      "eval_steps_per_second": 47.279,
       "step": 954
     },
     {
-      "epoch": 3.14,
-      "learning_rate": 1.2138364779874214e-05,
-      "loss": 0.1105,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8951612903225806,
-      "eval_loss": 0.05031874030828476,
-      "eval_runtime": 1.3686,
-      "eval_samples_per_second": 2265.046,
-      "eval_steps_per_second": 47.493,
       "step": 1272
     },
     {
-      "epoch": 4.72,
-      "learning_rate": 8.207547169811321e-06,
-      "loss": 0.0722,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2544,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 390310534917408.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.05314446157998587,
-    "num_train_epochs": 8,
-    "temperature": 17
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6674193548387096,
+      "eval_loss": 0.416048139333725,
+      "eval_runtime": 1.3187,
+      "eval_samples_per_second": 2350.748,
+      "eval_steps_per_second": 49.29,
       "step": 318
     },
     {
+      "epoch": 1.5723270440251573,
+      "grad_norm": 0.9905994534492493,
+      "learning_rate": 1.550763701707098e-05,
+      "loss": 0.6477,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8332258064516129,
+      "eval_loss": 0.15088918805122375,
+      "eval_runtime": 1.3272,
+      "eval_samples_per_second": 2335.773,
+      "eval_steps_per_second": 48.976,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.886774193548387,
+      "eval_loss": 0.07951628416776657,
+      "eval_runtime": 1.3591,
+      "eval_samples_per_second": 2280.965,
+      "eval_steps_per_second": 47.827,
       "step": 954
     },
     {
+      "epoch": 3.1446540880503147,
+      "grad_norm": 0.7344270348548889,
+      "learning_rate": 1.101527403414196e-05,
+      "loss": 0.1749,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9090322580645162,
+      "eval_loss": 0.05769029259681702,
+      "eval_runtime": 1.3435,
+      "eval_samples_per_second": 2307.35,
+      "eval_steps_per_second": 48.38,
       "step": 1272
     },
     {
+      "epoch": 4.716981132075472,
+      "grad_norm": 0.4701627790927887,
+      "learning_rate": 6.522911051212939e-06,
+      "loss": 0.0902,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2226,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 391368939443328.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5999229797501479,
+    "num_train_epochs": 7,
+    "temperature": 2
   }
 }

run-0/checkpoint-500/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.37.2",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
   "vocab_size": 30522
 }

run-0/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02892266441aea1d8c6015a1aa8f42f52896dc6a7d4c94ee4456d61840826de9
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:b64fce98847974a1fbc15a5211620e911f29d0a6fa5bc6a5bf2e0acabc13c361
 size 268290900

run-0/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88991dd767245c671b09ac05356c4a34c293e243214a97ee9fcf460f8ad6b548
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b58f2178d777caeda6638dad5deb905c5d807ad067e89066f0357dbd988962e
 size 536643898

run-0/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8174c1d6ac2627de77161655e4e20ef37d9f2235e2e7c4adc0da0d4e0e14b6d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9fb2a0dfb1b0ccef3590fe01e9bd16b6db86f247cc9c7e77290c217a53bac20
 size 14244

run-0/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90dc4637e972cc69c745eebddd8a7560dca27d2318df3e23f8e145abbf236536
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:11e744277c61f87520794334442fae36c5f9ff6e10cb79d4bfee5176ca7eafe2
 size 1064

run-0/checkpoint-500/tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

run-0/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -10,31 +10,44 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5958064516129032,
-      "eval_loss": 0.1949465274810791,
-      "eval_runtime": 1.357,
-      "eval_samples_per_second": 2284.501,
-      "eval_steps_per_second": 47.901,
       "step": 318
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 1.606918238993711e-05,
-      "loss": 0.3113,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2544,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 129219778448376.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.05314446157998587,
-    "num_train_epochs": 8,
-    "temperature": 17
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6674193548387096,
+      "eval_loss": 0.416048139333725,
+      "eval_runtime": 1.3187,
+      "eval_samples_per_second": 2350.748,
+      "eval_steps_per_second": 49.29,
       "step": 318
     },
     {
+      "epoch": 1.5723270440251573,
+      "grad_norm": 0.9905994534492493,
+      "learning_rate": 1.550763701707098e-05,
+      "loss": 0.6477,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2226,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 130072209152340.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5999229797501479,
+    "num_train_epochs": 7,
+    "temperature": 2
   }
 }

run-0/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:128e3e531e1f78b4508e424d6b0320b2ccd0b6f2b6fb1f09e3f886f07d5e86ea
-size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:3995b387f2d0291be709cdbf61f96ec0665c9f1f556146e986cb9b22d69b84bd
+size 5176

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66f849306af77ca3cfc7f8025881a2385ebcd0bc81cdd8e3ab072446806891ae
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:3995b387f2d0291be709cdbf61f96ec0665c9f1f556146e986cb9b22d69b84bd
 size 5176