Training in progress, step 38500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a045cd1651964484e35a7ee4cc80f394400bcf32d399ca366f907f0dafb8b29
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d8e43e89b9bebeb74f5a3f59777b202fc9109955aeb97f2af35e0e442d7a452
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47093e48c8dcb6ad57ae3eda9ce7141b8c756fad2f39a70827cbbb9ed49f5649
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fc4122df013355a6969e434d41cc8fcea9f612e4d30ef5a56450eacb41efce6
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b60bdca21a24c4c9f76b11b903c37c4127fc1f54a299af327f2fe260c58ff720
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:e190ed0010bdd235ac8bd29945114b8053051431b822dc222d819209c07d8d07
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0df6fc486b7517363afca4fd7698726ecbf63a16d3ce84e06ce60f5376cd9b7e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbb02a8ec0b72b513f298ee44dab19beae5aff0d3cdf5658defb30f6a23c5a12
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97243af249b903bf91950a8fcb37e9bd58551a34f032c66a6b68e32bc4197313
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ccae9e6b2d4eb2fcfe967592fa19a2d659f2463aeb2c7a929d0ba46b4b319dc
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:541cb6dea9c80e2359e5134078f161ec83a5de3af8e29b3e9b6b880e5dd9058f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:74b6ef3f8e20f0529905c960a3004917dd68d119006b5c8315cb84a5724c015e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 38000,
   "best_metric": 0.98431396484375,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-38000",
-  "epoch": 2.9228520883008997,
   "eval_steps": 250,
-  "global_step": 38000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6544,6 +6544,92 @@
       "eval_samples_per_second": 57.482,
       "eval_steps_per_second": 14.371,
       "step": 38000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 38000,
   "best_metric": 0.98431396484375,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-38000",
+  "epoch": 2.961310668410122,
   "eval_steps": 250,
+  "global_step": 38500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.482,
       "eval_steps_per_second": 14.371,
       "step": 38000
+    },
+    {
+      "epoch": 2.926697946311822,
+      "grad_norm": 0.9615415930747986,
+      "learning_rate": 5.038568423239748e-06,
+      "loss": 0.9715,
+      "step": 38050
+    },
+    {
+      "epoch": 2.9305438043227445,
+      "grad_norm": 0.5959100127220154,
+      "learning_rate": 4.778848401423266e-06,
+      "loss": 0.936,
+      "step": 38100
+    },
+    {
+      "epoch": 2.9343896623336665,
+      "grad_norm": 1.0181951522827148,
+      "learning_rate": 4.519128379606784e-06,
+      "loss": 0.969,
+      "step": 38150
+    },
+    {
+      "epoch": 2.938235520344589,
+      "grad_norm": 0.8716458082199097,
+      "learning_rate": 4.259408357790302e-06,
+      "loss": 1.002,
+      "step": 38200
+    },
+    {
+      "epoch": 2.9420813783555113,
+      "grad_norm": 1.6100435256958008,
+      "learning_rate": 3.99968833597382e-06,
+      "loss": 0.9425,
+      "step": 38250
+    },
+    {
+      "epoch": 2.9420813783555113,
+      "eval_loss": 0.9931854009628296,
+      "eval_runtime": 17.3406,
+      "eval_samples_per_second": 57.668,
+      "eval_steps_per_second": 14.417,
+      "step": 38250
+    },
+    {
+      "epoch": 2.9459272363664333,
+      "grad_norm": 1.1552485227584839,
+      "learning_rate": 3.7399683141573383e-06,
+      "loss": 1.0424,
+      "step": 38300
+    },
+    {
+      "epoch": 2.9497730943773557,
+      "grad_norm": 1.441148042678833,
+      "learning_rate": 3.480248292340857e-06,
+      "loss": 1.0688,
+      "step": 38350
+    },
+    {
+      "epoch": 2.953618952388278,
+      "grad_norm": 0.8127447366714478,
+      "learning_rate": 3.220528270524375e-06,
+      "loss": 0.9497,
+      "step": 38400
+    },
+    {
+      "epoch": 2.9574648103992,
+      "grad_norm": 0.9566346406936646,
+      "learning_rate": 2.9608082487078933e-06,
+      "loss": 0.9628,
+      "step": 38450
+    },
+    {
+      "epoch": 2.961310668410122,
+      "grad_norm": 0.7955614924430847,
+      "learning_rate": 2.7010882268914113e-06,
+      "loss": 1.016,
+      "step": 38500
+    },
+    {
+      "epoch": 2.961310668410122,
+      "eval_loss": 0.9919273257255554,
+      "eval_runtime": 17.3829,
+      "eval_samples_per_second": 57.528,
+      "eval_steps_per_second": 14.382,
+      "step": 38500
     }
   ],
   "logging_steps": 50,