saqidr commited on Sep 4, 2024

Commit

e5c6038

verified ·

1 Parent(s): b9a3361

Training in progress, step 2000

Browse files

Files changed (19) hide show

model.safetensors +1 -1
run-19/checkpoint-1000/model.safetensors +1 -1
run-19/checkpoint-1000/optimizer.pt +1 -1
run-19/checkpoint-1000/scheduler.pt +1 -1
run-19/checkpoint-1000/training_args.bin +1 -1
run-19/checkpoint-1500/model.safetensors +1 -1
run-19/checkpoint-1500/optimizer.pt +1 -1
run-19/checkpoint-1500/scheduler.pt +1 -1
run-19/checkpoint-1500/trainer_state.json +34 -34
run-19/checkpoint-1500/training_args.bin +1 -1
run-19/checkpoint-2000/model.safetensors +1 -1
run-19/checkpoint-2000/optimizer.pt +1 -1
run-19/checkpoint-2000/scheduler.pt +1 -1
run-19/checkpoint-2000/trainer_state.json +47 -47
run-19/checkpoint-2000/training_args.bin +1 -1
run-19/checkpoint-500/model.safetensors +1 -1
run-19/checkpoint-500/optimizer.pt +1 -1
run-19/checkpoint-500/scheduler.pt +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b64fce98847974a1fbc15a5211620e911f29d0a6fa5bc6a5bf2e0acabc13c361
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:94dd719ae3e79ab6db163a2c0423be61fef278b4f047585040f2170742065552
 size 268290900

run-19/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3887df0e32383a82f3b0357fdcf7cac716fe58c3bca0cb51a05145c01acb312e
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b03a1ebe26778ef7584f3b5ce91a82d5e0801ce12ac307b0ba8cfa388c6a7e6
 size 268290900

run-19/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b896ce92b3581b32be5c7e0153413b6337020bc73a2697e90f53af4c15a8f76c
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a75832910e0d6e49b011d70bbfb59a4e505d4daa94e60189c9b25f32a120c8d
 size 536643898

run-19/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c794bc4c67ef18245dd516031ce405ab557e4d551d225d8dd1e1abc0f2be8e33
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:72a4307cca951ef6d42c7f184774e8b1259c78b2bf130b8443ec0b62f6dbf689
 size 1064

run-19/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43ad3e5230508df5eafe3b8cc807f8ce5e9543207331b4b6a4fd8cdd4dbc0b67
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b2e73103b9db907e09d098899dc83e3dbf1869ac8fe958d6aec7beb5cf0db0d
 size 5176

run-19/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c06f4ccbf57c650ccdb1224936e67d8fc278df187f4e6c1f87e0ad04c278aaa8
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c373ab5344044dbcedc500f5f4ed80aa030fd333733b5c8b253cc11ad7a863a1
 size 268290900

run-19/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce355d2fe1d9a3c0fd09dffee8abf0d60c2605e6199ead5d1e08c5bfb4b2a13f
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:651b5537b74b24320558f06d8d9ca5688caf04f8adec3300e852e5928a7a3c40
 size 536643898

run-19/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71453465aad25f4c5a0a948496c64b1f74df850abda497954afe3695c00756ee
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:693ec081eb0fa0af7d13e289edb194450dd19fdada23346e2af4292ea228535f
 size 1064

run-19/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,66 +10,66 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6229032258064516,
-      "eval_loss": 0.2478133589029312,
-      "eval_runtime": 1.3731,
-      "eval_samples_per_second": 2257.605,
-      "eval_steps_per_second": 47.337,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.6151512861251831,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.398,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.844516129032258,
-      "eval_loss": 0.10843393951654434,
-      "eval_runtime": 1.3751,
-      "eval_samples_per_second": 2254.368,
-      "eval_steps_per_second": 47.269,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.89,
-      "eval_loss": 0.06599755585193634,
-      "eval_runtime": 1.3802,
-      "eval_samples_per_second": 2246.112,
-      "eval_steps_per_second": 47.096,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5515937209129333,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1268,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9038709677419355,
-      "eval_loss": 0.048167161643505096,
-      "eval_runtime": 1.3675,
-      "eval_samples_per_second": 2266.877,
-      "eval_steps_per_second": 47.531,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3498728275299072,
-      "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0739,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -83,12 +83,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 450371359983132.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.878459838807545,
-    "num_train_epochs": 10,
     "temperature": 4
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.249518021941185,
+      "eval_runtime": 1.3797,
+      "eval_samples_per_second": 2246.797,
+      "eval_steps_per_second": 47.11,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.6149903535842896,
+      "learning_rate": 1.650593990216632e-05,
+      "loss": 0.3991,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8422580645161291,
+      "eval_loss": 0.11037396639585495,
+      "eval_runtime": 1.3583,
+      "eval_samples_per_second": 2282.186,
+      "eval_steps_per_second": 47.852,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8883870967741936,
+      "eval_loss": 0.0677555724978447,
+      "eval_runtime": 1.3701,
+      "eval_samples_per_second": 2262.648,
+      "eval_steps_per_second": 47.443,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5547620058059692,
+      "learning_rate": 1.3011879804332637e-05,
+      "loss": 0.1288,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.902258064516129,
+      "eval_loss": 0.04977014288306236,
+      "eval_runtime": 1.3689,
+      "eval_samples_per_second": 2264.534,
+      "eval_steps_per_second": 47.482,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3585783839225769,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.076,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2862,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 427228618667844.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8975938459167363,
+    "num_train_epochs": 9,
     "temperature": 4
   }
 }

run-19/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43ad3e5230508df5eafe3b8cc807f8ce5e9543207331b4b6a4fd8cdd4dbc0b67
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b2e73103b9db907e09d098899dc83e3dbf1869ac8fe958d6aec7beb5cf0db0d
 size 5176

run-19/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68e477ef0cac5c502dfc55efabbd37889ae5459f261261350bad1f0a1af2d813
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:94dd719ae3e79ab6db163a2c0423be61fef278b4f047585040f2170742065552
 size 268290900

run-19/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93a68cea6bab40ac40103238390c1c1c318905d57e2e10700933f42e3b73a977
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:5783a258c7988741343c6e90bad6b3a278da69f943ad33c6fcd9b700e55572b0
 size 536643898

run-19/checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43d45918bfeb622ba899798234ec7646c7a90dd3f5771db086f5b7dee1d5a530
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67d1a8a9215f18c672cf798b531337b9e0636922d8c4373e76080f8fec19ceb2
 size 1064

run-19/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,91 +10,91 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6229032258064516,
-      "eval_loss": 0.2478133589029312,
-      "eval_runtime": 1.3731,
-      "eval_samples_per_second": 2257.605,
-      "eval_steps_per_second": 47.337,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.6151512861251831,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.398,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.844516129032258,
-      "eval_loss": 0.10843393951654434,
-      "eval_runtime": 1.3751,
-      "eval_samples_per_second": 2254.368,
-      "eval_steps_per_second": 47.269,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.89,
-      "eval_loss": 0.06599755585193634,
-      "eval_runtime": 1.3802,
-      "eval_samples_per_second": 2246.112,
-      "eval_steps_per_second": 47.096,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5515937209129333,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1268,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9038709677419355,
-      "eval_loss": 0.048167161643505096,
-      "eval_runtime": 1.3675,
-      "eval_samples_per_second": 2266.877,
-      "eval_steps_per_second": 47.531,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3498728275299072,
-      "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0739,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9174193548387096,
-      "eval_loss": 0.03836863115429878,
-      "eval_runtime": 1.3687,
-      "eval_samples_per_second": 2264.915,
-      "eval_steps_per_second": 47.49,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9238709677419354,
-      "eval_loss": 0.03342122584581375,
-      "eval_runtime": 1.369,
-      "eval_samples_per_second": 2264.444,
-      "eval_steps_per_second": 47.48,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.2557421624660492,
-      "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0563,
       "step": 2000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -108,12 +108,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 579993747211956.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.878459838807545,
-    "num_train_epochs": 10,
     "temperature": 4
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.249518021941185,
+      "eval_runtime": 1.3797,
+      "eval_samples_per_second": 2246.797,
+      "eval_steps_per_second": 47.11,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.6149903535842896,
+      "learning_rate": 1.650593990216632e-05,
+      "loss": 0.3991,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8422580645161291,
+      "eval_loss": 0.11037396639585495,
+      "eval_runtime": 1.3583,
+      "eval_samples_per_second": 2282.186,
+      "eval_steps_per_second": 47.852,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8883870967741936,
+      "eval_loss": 0.0677555724978447,
+      "eval_runtime": 1.3701,
+      "eval_samples_per_second": 2262.648,
+      "eval_steps_per_second": 47.443,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5547620058059692,
+      "learning_rate": 1.3011879804332637e-05,
+      "loss": 0.1288,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.902258064516129,
+      "eval_loss": 0.04977014288306236,
+      "eval_runtime": 1.3689,
+      "eval_samples_per_second": 2264.534,
+      "eval_steps_per_second": 47.482,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3585783839225769,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.076,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9167741935483871,
+      "eval_loss": 0.039991483092308044,
+      "eval_runtime": 1.3644,
+      "eval_samples_per_second": 2272.037,
+      "eval_steps_per_second": 47.639,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9232258064516129,
+      "eval_loss": 0.034951966255903244,
+      "eval_runtime": 1.3576,
+      "eval_samples_per_second": 2283.496,
+      "eval_steps_per_second": 47.88,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.27236634492874146,
+      "learning_rate": 6.02375960866527e-06,
+      "loss": 0.0585,
       "step": 2000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2862,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 556851005896668.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8975938459167363,
+    "num_train_epochs": 9,
     "temperature": 4
   }
 }

run-19/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43ad3e5230508df5eafe3b8cc807f8ce5e9543207331b4b6a4fd8cdd4dbc0b67
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b2e73103b9db907e09d098899dc83e3dbf1869ac8fe958d6aec7beb5cf0db0d
 size 5176

run-19/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42c0e227629e2036d030b67c2e4414cd3185c70af8bb3a2e6af908313c2b143d
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c523e1752fda46381be0344a31afc01362450b48bbf8705a2c2bdc36cbf5d0d2
 size 268290900

run-19/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f632c364b0e8bb9c5aaa1a1d92dc11251e021768e8319ab85e38045e3c31cf61
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:d08d8a9628761ec315d94e75629b6b7ab53f4005f41e207ed0e3588ae544ab03
 size 536643898

run-19/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04366f62f8f88f5a8265df59adb051b320463277845db80e7fa43f13110c18c9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:98041bd7cae455426e290a1a0ee683bd5dd30893f7451fec3a464ae8995b17e4
 size 1064

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1255ca729d01717aa414fa6756e0d6f9030540b62191575288bf9e49b890e64b
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b2e73103b9db907e09d098899dc83e3dbf1869ac8fe958d6aec7beb5cf0db0d
 size 5176