Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6202b6729e849f999a2da567e39e209d65ff06acefa48347a5de581d1afa97b8
 size 2460359008

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a87421e3a8f20612521e71c423b544bda9fcc2c6ee20a4d4377f5414bfcee9c
 size 2460359008

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0809e1c7430feef9833b1b5e895140d9aa81eb8e245c809f0c2d14fca2557f16
 size 4921031637

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f6174299f560006cde8a99fa3a1b8ce5a5a9e1e4c9fde7e935c38eca1925783
 size 4921031637

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4603ba4754768852e8e67884f4b3a481d448df5b673b3e45c865854392a1e490
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d10ef6f507f8ebfde960deac8bce9425cf6a51cacda5ba79a18f18b45f0b37e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9cda04b8cffed27e7df023ddfed6b3b6232fbb96b9772b53f605b6e6e25fbbd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cec5952bdc21c397c50099196b21c11fa80846c74cee21ea9ac6f9c9105df231
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 2439,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -45,6 +45,96 @@
       "eval_samples_per_second": 15.763,
       "eval_steps_per_second": 1.971,
       "step": 2439
     }
   ],
   "logging_steps": 500,
@@ -64,7 +154,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0845190328745984e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 7317,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.763,
       "eval_steps_per_second": 1.971,
       "step": 2439
+    },
+    {
+      "epoch": 1.0250102501025011,
+      "grad_norm": 0.6163414716720581,
+      "learning_rate": 3.974989749897499e-05,
+      "loss": 0.515,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2300123001230012,
+      "grad_norm": 0.5940575003623962,
+      "learning_rate": 3.77039770397704e-05,
+      "loss": 0.4555,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4350143501435015,
+      "grad_norm": 0.6619935035705566,
+      "learning_rate": 3.5653956539565396e-05,
+      "loss": 0.4512,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6400164001640016,
+      "grad_norm": 0.5652098655700684,
+      "learning_rate": 3.36039360393604e-05,
+      "loss": 0.4493,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8450184501845017,
+      "grad_norm": 0.7729639410972595,
+      "learning_rate": 3.1553915539155394e-05,
+      "loss": 0.4466,
+      "step": 4500
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu_eng_Latn-swh_Latn": 73.66313556328497,
+      "eval_bleu_swh_Latn-eng_Latn": 60.741238853474165,
+      "eval_loss": 0.46277186274528503,
+      "eval_runtime": 848.8954,
+      "eval_samples_per_second": 16.4,
+      "eval_steps_per_second": 2.051,
+      "step": 4878
+    },
+    {
+      "epoch": 2.0500205002050023,
+      "grad_norm": 0.5829837322235107,
+      "learning_rate": 2.950389503895039e-05,
+      "loss": 0.4288,
+      "step": 5000
+    },
+    {
+      "epoch": 2.2550225502255024,
+      "grad_norm": 0.6862415671348572,
+      "learning_rate": 2.745387453874539e-05,
+      "loss": 0.3921,
+      "step": 5500
+    },
+    {
+      "epoch": 2.4600246002460024,
+      "grad_norm": 0.6407959461212158,
+      "learning_rate": 2.5403854038540385e-05,
+      "loss": 0.3894,
+      "step": 6000
+    },
+    {
+      "epoch": 2.6650266502665025,
+      "grad_norm": 0.685972273349762,
+      "learning_rate": 2.3353833538335385e-05,
+      "loss": 0.386,
+      "step": 6500
+    },
+    {
+      "epoch": 2.870028700287003,
+      "grad_norm": 0.5890597701072693,
+      "learning_rate": 2.1303813038130384e-05,
+      "loss": 0.3875,
+      "step": 7000
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu_eng_Latn-swh_Latn": 74.8639644432928,
+      "eval_bleu_swh_Latn-eng_Latn": 61.05959270054286,
+      "eval_loss": 0.4528512954711914,
+      "eval_runtime": 843.9728,
+      "eval_samples_per_second": 16.496,
+      "eval_steps_per_second": 2.063,
+      "step": 7317
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.253311606305587e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null