Training in progress, step 5800, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +67 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49a9af9605c3906a1b6201f31fe2e2fefb03a67c40a338ba51cff95ed8f7b20e
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:057f9570a6cc72688abe71630c100e57d8ed5e79a107a7c1dbf260b46e1fd4da
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2774d795ce38b6d916deba57ca044f1e6fc174438a05dde9c1651a651c9e878
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:36620432df2b5bec3be20dd101be03752eb30e228a15f087605a4b1b3817ad40
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63825d3eaa200eddbf762aeb8547833820295db590b26732e0e85a911b0d5d91
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d7b821883cd1ae362dfa89c4e8eef945c5104a2fd3f8917f33805e64a31688a
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e3f4a2dab0aeb0cd0b06645f79437bf62a24263c82bcbe99dbb49bfb3319ca7
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:29a3b30c167fde20793f59d220cb75d7e62231451f8337cafebba1ca6c36c689
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dfb0d0b3b5a880ecd881c57b956364f90897bc6653e089f1f8e6e7eff0c817d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:72f36e4a30c4e4159533881d5d1202edb3c351c6c5b1afb1031c411b06ae9325
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.2732056409177015,
   "eval_steps": 100,
-  "global_step": 5400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -871,6 +871,70 @@
       "eval_samples_per_second": 25.789,
       "eval_steps_per_second": 3.224,
       "step": 5400
     }
   ],
   "logging_steps": 100,
@@ -878,7 +942,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.92170964075638e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4415912439486425,
   "eval_steps": 100,
+  "global_step": 5800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.789,
       "eval_steps_per_second": 3.224,
       "step": 5400
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 12.008744239807129,
+      "learning_rate": 4.6472084805653715e-05,
+      "loss": 2.3883,
+      "step": 5500
+    },
+    {
+      "epoch": 2.32,
+      "eval_cer": 0.5516771929138478,
+      "eval_loss": 3.582747459411621,
+      "eval_runtime": 376.938,
+      "eval_samples_per_second": 25.145,
+      "eval_steps_per_second": 3.144,
+      "step": 5500
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 2.4807026386260986,
+      "learning_rate": 4.6401413427561844e-05,
+      "loss": 2.1991,
+      "step": 5600
+    },
+    {
+      "epoch": 2.36,
+      "eval_cer": 0.5373152203668218,
+      "eval_loss": 3.5865066051483154,
+      "eval_runtime": 360.1614,
+      "eval_samples_per_second": 26.316,
+      "eval_steps_per_second": 3.29,
+      "step": 5600
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 6.418155670166016,
+      "learning_rate": 4.6330742049469965e-05,
+      "loss": 2.3905,
+      "step": 5700
+    },
+    {
+      "epoch": 2.4,
+      "eval_cer": 0.527748719252278,
+      "eval_loss": 2.6406588554382324,
+      "eval_runtime": 379.816,
+      "eval_samples_per_second": 24.954,
+      "eval_steps_per_second": 3.12,
+      "step": 5700
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 2.4806301593780518,
+      "learning_rate": 4.626007067137809e-05,
+      "loss": 3.3218,
+      "step": 5800
+    },
+    {
+      "epoch": 2.44,
+      "eval_cer": 0.5217727112744907,
+      "eval_loss": 1.8109639883041382,
+      "eval_runtime": 351.8213,
+      "eval_samples_per_second": 26.94,
+      "eval_steps_per_second": 3.368,
+      "step": 5800
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 6.356688358918305e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null