Training in progress, step 5392, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +124 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff920e5ccc2d2a405fd728410318b5d77a58a46344ae8542bb3adc83fa0b5aa5
 size 903834408

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fb9521546742e5ab06169707c06cc043bec2d4f930941361e3febca593be593
 size 903834408

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc711544bbc463382370e087fb56a499145af6b3d8d135d3d2ad1e1612e329ff
 size 1807824186

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc632dd60615524ed9d3b3017351f4b7d961867652709cf0787424ce518c75df
 size 1807824186

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efc2f5216a7387c189c9349463d3b40a111802d247e9267a1c2d9b8f7b01f222
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ffe3c35f79e8a24334ee3298aa52cdf049e1eff33cb89177eb46490ca5a3c18
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2cc71334cc40bd202de7bb17936da773f888ad3b66367935ef5b0e0f47c791
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:031a255d4ec60870f505044effca17dbde0758a421a8fda981c50d676e69969a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3475393939393939,
   "eval_steps": 16,
-  "global_step": 5376,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -40663,6 +40663,127 @@
       "eval_samples_per_second": 11.336,
       "eval_steps_per_second": 1.417,
       "step": 5376
     }
   ],
   "logging_steps": 1,
@@ -40682,7 +40803,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0476024382881792e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.34857373737373737,
   "eval_steps": 16,
+  "global_step": 5392,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.336,
       "eval_steps_per_second": 1.417,
       "step": 5376
+    },
+    {
+      "epoch": 0.3476040404040404,
+      "grad_norm": 0.06481784582138062,
+      "learning_rate": 0.00019442224357848402,
+      "loss": 0.0972,
+      "step": 5377
+    },
+    {
+      "epoch": 0.34766868686868685,
+      "grad_norm": 0.06606926023960114,
+      "learning_rate": 0.00019441999134371015,
+      "loss": 0.0868,
+      "step": 5378
+    },
+    {
+      "epoch": 0.34773333333333334,
+      "grad_norm": 0.054367631673812866,
+      "learning_rate": 0.0001944177386673652,
+      "loss": 0.0822,
+      "step": 5379
+    },
+    {
+      "epoch": 0.3477979797979798,
+      "grad_norm": 0.0662309005856514,
+      "learning_rate": 0.00019441548554945972,
+      "loss": 0.0874,
+      "step": 5380
+    },
+    {
+      "epoch": 0.34786262626262626,
+      "grad_norm": 0.06305788457393646,
+      "learning_rate": 0.0001944132319900042,
+      "loss": 0.0818,
+      "step": 5381
+    },
+    {
+      "epoch": 0.34792727272727275,
+      "grad_norm": 0.06198299676179886,
+      "learning_rate": 0.00019441097798900922,
+      "loss": 0.0885,
+      "step": 5382
+    },
+    {
+      "epoch": 0.3479919191919192,
+      "grad_norm": 0.05868459865450859,
+      "learning_rate": 0.00019440872354648529,
+      "loss": 0.0783,
+      "step": 5383
+    },
+    {
+      "epoch": 0.3480565656565657,
+      "grad_norm": 0.0710318386554718,
+      "learning_rate": 0.000194406468662443,
+      "loss": 0.095,
+      "step": 5384
+    },
+    {
+      "epoch": 0.3481212121212121,
+      "grad_norm": 0.07270139455795288,
+      "learning_rate": 0.00019440421333689285,
+      "loss": 0.1007,
+      "step": 5385
+    },
+    {
+      "epoch": 0.3481858585858586,
+      "grad_norm": 0.06582971662282944,
+      "learning_rate": 0.00019440195756984538,
+      "loss": 0.0902,
+      "step": 5386
+    },
+    {
+      "epoch": 0.34825050505050503,
+      "grad_norm": 0.06729482114315033,
+      "learning_rate": 0.0001943997013613112,
+      "loss": 0.0854,
+      "step": 5387
+    },
+    {
+      "epoch": 0.3483151515151515,
+      "grad_norm": 0.06232403591275215,
+      "learning_rate": 0.0001943974447113008,
+      "loss": 0.0749,
+      "step": 5388
+    },
+    {
+      "epoch": 0.34837979797979796,
+      "grad_norm": 0.08777357637882233,
+      "learning_rate": 0.00019439518761982477,
+      "loss": 0.0951,
+      "step": 5389
+    },
+    {
+      "epoch": 0.34844444444444445,
+      "grad_norm": 0.057237379252910614,
+      "learning_rate": 0.00019439293008689364,
+      "loss": 0.0753,
+      "step": 5390
+    },
+    {
+      "epoch": 0.34850909090909094,
+      "grad_norm": 0.06308239698410034,
+      "learning_rate": 0.00019439067211251803,
+      "loss": 0.0908,
+      "step": 5391
+    },
+    {
+      "epoch": 0.34857373737373737,
+      "grad_norm": 0.052329737693071365,
+      "learning_rate": 0.00019438841369670838,
+      "loss": 0.0662,
+      "step": 5392
+    },
+    {
+      "epoch": 0.34857373737373737,
+      "eval_bleu": 13.954759479769704,
+      "eval_loss": 0.09024699032306671,
+      "eval_runtime": 2.8264,
+      "eval_samples_per_second": 11.322,
+      "eval_steps_per_second": 1.415,
+      "step": 5392
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0507203026878464e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10442abf42d09a4ee49c7b9608c99ee976b42cd3eb3b8d38f504fad55e685d91
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a05b39c84dbf67327b54c00b0712aecde2c94f9948f9a446688d5d5d918449e
 size 5240