Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +210 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c413f16b24e45d61e3bcf1a3ecff3f953f20feca425869d437bdefe63669abfd
 size 2269195160

 version https://git-lfs.github.com/spec/v1
+oid sha256:da12c466f84c24dff56fbf8dc79868fbc3b3b449ce897493c09f29392c708add
 size 2269195160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9a19859007218a1036d8cf822444130139b61a0b519f83573298eb60569e50
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:926b3a840ac04e94a9c2f845e240d3f199a8eebeb2b05d975ed1ce65114c13fe
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c79f47608aab86948875a4010ce113bb83e408fe46d231faddcd7a34a40a0fa8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec7aa7bd6e7162b5cef71bb965bb9ca48a011a5eed5848e6b7c207b50a0c6a7f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:448fc91b5f8bf077617e9062c085061ded5310a55de0a91b7a3fb1b64abeb36d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dd76e4cfbed647f5393d42b2fd1c0eead588dbf173cae704b7e26883a38f902
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1904761904761905,
   "eval_steps": 6,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -222,6 +222,213 @@
       "learning_rate": 8.150439217908556e-05,
       "loss": 0.0003,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -241,7 +448,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0958327135535104e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.380952380952381,
   "eval_steps": 6,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.150439217908556e-05,
       "loss": 0.0003,
       "step": 25
+    },
+    {
+      "epoch": 1.2380952380952381,
+      "grad_norm": 0.02535114623606205,
+      "learning_rate": 7.91489739557236e-05,
+      "loss": 0.0003,
+      "step": 26
+    },
+    {
+      "epoch": 1.2857142857142856,
+      "grad_norm": 0.08832518011331558,
+      "learning_rate": 7.669116889823955e-05,
+      "loss": 0.0009,
+      "step": 27
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.02784010022878647,
+      "learning_rate": 7.413961013653726e-05,
+      "loss": 0.0004,
+      "step": 28
+    },
+    {
+      "epoch": 1.380952380952381,
+      "grad_norm": 0.024539506062865257,
+      "learning_rate": 7.150326011382604e-05,
+      "loss": 0.0003,
+      "step": 29
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.04319535195827484,
+      "learning_rate": 6.879137910571191e-05,
+      "loss": 0.0004,
+      "step": 30
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "eval_loss": 0.0004903983790427446,
+      "eval_runtime": 2.2497,
+      "eval_samples_per_second": 8.001,
+      "eval_steps_per_second": 1.334,
+      "step": 30
+    },
+    {
+      "epoch": 1.4761904761904763,
+      "grad_norm": 0.014017721638083458,
+      "learning_rate": 6.601349269314188e-05,
+      "loss": 0.0003,
+      "step": 31
+    },
+    {
+      "epoch": 1.5238095238095237,
+      "grad_norm": 0.0841885432600975,
+      "learning_rate": 6.317935830345338e-05,
+      "loss": 0.0006,
+      "step": 32
+    },
+    {
+      "epoch": 1.5714285714285714,
+      "grad_norm": 0.020319445058703423,
+      "learning_rate": 6.029893093705492e-05,
+      "loss": 0.0003,
+      "step": 33
+    },
+    {
+      "epoch": 1.619047619047619,
+      "grad_norm": 1.9485701322555542,
+      "learning_rate": 5.738232820012407e-05,
+      "loss": 0.0164,
+      "step": 34
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.02285480685532093,
+      "learning_rate": 5.4439794766146746e-05,
+      "loss": 0.0003,
+      "step": 35
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.16724388301372528,
+      "learning_rate": 5.148166639112799e-05,
+      "loss": 0.001,
+      "step": 36
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "eval_loss": 0.0006431459914892912,
+      "eval_runtime": 2.2493,
+      "eval_samples_per_second": 8.003,
+      "eval_steps_per_second": 1.334,
+      "step": 36
+    },
+    {
+      "epoch": 1.7619047619047619,
+      "grad_norm": 0.047226764261722565,
+      "learning_rate": 4.851833360887201e-05,
+      "loss": 0.0004,
+      "step": 37
+    },
+    {
+      "epoch": 1.8095238095238095,
+      "grad_norm": 0.1621876060962677,
+      "learning_rate": 4.5560205233853266e-05,
+      "loss": 0.0012,
+      "step": 38
+    },
+    {
+      "epoch": 1.8571428571428572,
+      "grad_norm": 0.0308663472533226,
+      "learning_rate": 4.2617671799875944e-05,
+      "loss": 0.0003,
+      "step": 39
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 0.011845704168081284,
+      "learning_rate": 3.970106906294509e-05,
+      "loss": 0.0002,
+      "step": 40
+    },
+    {
+      "epoch": 1.9523809523809523,
+      "grad_norm": 0.003460651496425271,
+      "learning_rate": 3.682064169654663e-05,
+      "loss": 0.0001,
+      "step": 41
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.012540038675069809,
+      "learning_rate": 3.3986507306858125e-05,
+      "loss": 0.0002,
+      "step": 42
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.0001648629695409909,
+      "eval_runtime": 2.2501,
+      "eval_samples_per_second": 7.999,
+      "eval_steps_per_second": 1.333,
+      "step": 42
+    },
+    {
+      "epoch": 2.0476190476190474,
+      "grad_norm": 0.0032971783075481653,
+      "learning_rate": 3.12086208942881e-05,
+      "loss": 0.0001,
+      "step": 43
+    },
+    {
+      "epoch": 2.0952380952380953,
+      "grad_norm": 0.0028387894853949547,
+      "learning_rate": 2.8496739886173995e-05,
+      "loss": 0.0001,
+      "step": 44
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 0.004313192795962095,
+      "learning_rate": 2.5860389863462765e-05,
+      "loss": 0.0001,
+      "step": 45
+    },
+    {
+      "epoch": 2.1904761904761907,
+      "grad_norm": 0.002875348087400198,
+      "learning_rate": 2.3308831101760486e-05,
+      "loss": 0.0001,
+      "step": 46
+    },
+    {
+      "epoch": 2.238095238095238,
+      "grad_norm": 0.002736931899562478,
+      "learning_rate": 2.0851026044276406e-05,
+      "loss": 0.0001,
+      "step": 47
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.002644361462444067,
+      "learning_rate": 1.849560782091445e-05,
+      "loss": 0.0001,
+      "step": 48
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "eval_loss": 0.00020012857567053288,
+      "eval_runtime": 2.2588,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 1.328,
+      "step": 48
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 0.002743582706898451,
+      "learning_rate": 1.6250849924089484e-05,
+      "loss": 0.0001,
+      "step": 49
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.002709955209866166,
+      "learning_rate": 1.4124637147783432e-05,
+      "loss": 0.0001,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.228759811417702e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null