Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da2d0908d827d73911049b36e4b4e54b834332a60e7bf656045c037af02ba8d9
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1cf1fdc2a44ffde9ffb1fad0353c12e72cfa3d960039cf32f1b043a6955a337
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2f2ee6942d7906ff67c6040abfc8b61ed9c77b613bff537b6b97892e9823078
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:caacfa7e6318d9e29108f079bf6b954554d021f07d9f8c44cae84fcadcad88a3
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ada99bda9eb56b1e17b5e710139270a96fa28f2071366d96bbf58fda1c0e60e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd45af30c5644da013ee4fd7db6af9ee2909747b8472369436591ba162760c75
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.014080540692762602,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.3935,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.305933818016563e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.021120811039143903,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.3935,
       "step": 50
+    },
+    {
+      "epoch": 0.014362151506617854,
+      "grad_norm": 0.2624410092830658,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 1.4003,
+      "step": 51
+    },
+    {
+      "epoch": 0.014643762320473106,
+      "grad_norm": 0.4355788826942444,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.4076,
+      "step": 52
+    },
+    {
+      "epoch": 0.014925373134328358,
+      "grad_norm": 0.3189755380153656,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 1.3951,
+      "step": 53
+    },
+    {
+      "epoch": 0.01520698394818361,
+      "grad_norm": 0.2545646131038666,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.4063,
+      "step": 54
+    },
+    {
+      "epoch": 0.01520698394818361,
+      "eval_loss": 0.705012321472168,
+      "eval_runtime": 518.9348,
+      "eval_samples_per_second": 5.762,
+      "eval_steps_per_second": 0.721,
+      "step": 54
+    },
+    {
+      "epoch": 0.015488594762038862,
+      "grad_norm": 0.4052259922027588,
+      "learning_rate": 5e-05,
+      "loss": 1.4113,
+      "step": 55
+    },
+    {
+      "epoch": 0.015770205575894116,
+      "grad_norm": 0.2603490948677063,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.4027,
+      "step": 56
+    },
+    {
+      "epoch": 0.016051816389749365,
+      "grad_norm": 0.3026479482650757,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.4092,
+      "step": 57
+    },
+    {
+      "epoch": 0.016333427203604617,
+      "grad_norm": 0.25429239869117737,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.4131,
+      "step": 58
+    },
+    {
+      "epoch": 0.01661503801745987,
+      "grad_norm": 0.2743135094642639,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.408,
+      "step": 59
+    },
+    {
+      "epoch": 0.01689664883131512,
+      "grad_norm": 0.8984668254852295,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.3968,
+      "step": 60
+    },
+    {
+      "epoch": 0.017178259645170373,
+      "grad_norm": 0.2367839813232422,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.4044,
+      "step": 61
+    },
+    {
+      "epoch": 0.017459870459025625,
+      "grad_norm": 0.25028061866760254,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.3982,
+      "step": 62
+    },
+    {
+      "epoch": 0.017741481272880878,
+      "grad_norm": 0.2683260142803192,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.408,
+      "step": 63
+    },
+    {
+      "epoch": 0.017741481272880878,
+      "eval_loss": 0.7046836018562317,
+      "eval_runtime": 518.929,
+      "eval_samples_per_second": 5.762,
+      "eval_steps_per_second": 0.721,
+      "step": 63
+    },
+    {
+      "epoch": 0.01802309208673613,
+      "grad_norm": 0.3018679916858673,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.3995,
+      "step": 64
+    },
+    {
+      "epoch": 0.018304702900591382,
+      "grad_norm": 0.29377129673957825,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.3886,
+      "step": 65
+    },
+    {
+      "epoch": 0.018586313714446634,
+      "grad_norm": 0.19938716292381287,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.4021,
+      "step": 66
+    },
+    {
+      "epoch": 0.018867924528301886,
+      "grad_norm": 0.2533423602581024,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.4022,
+      "step": 67
+    },
+    {
+      "epoch": 0.019149535342157138,
+      "grad_norm": 0.20846250653266907,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.4101,
+      "step": 68
+    },
+    {
+      "epoch": 0.01943114615601239,
+      "grad_norm": 0.20643027126789093,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.4013,
+      "step": 69
+    },
+    {
+      "epoch": 0.019712756969867642,
+      "grad_norm": 0.2405877709388733,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.3946,
+      "step": 70
+    },
+    {
+      "epoch": 0.019994367783722895,
+      "grad_norm": 0.2167934626340866,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 1.4087,
+      "step": 71
+    },
+    {
+      "epoch": 0.020275978597578147,
+      "grad_norm": 0.17771920561790466,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.3985,
+      "step": 72
+    },
+    {
+      "epoch": 0.020275978597578147,
+      "eval_loss": 0.7046549320220947,
+      "eval_runtime": 518.9209,
+      "eval_samples_per_second": 5.762,
+      "eval_steps_per_second": 0.721,
+      "step": 72
+    },
+    {
+      "epoch": 0.0205575894114334,
+      "grad_norm": 0.1883406639099121,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.4099,
+      "step": 73
+    },
+    {
+      "epoch": 0.02083920022528865,
+      "grad_norm": 0.2247111201286316,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.4117,
+      "step": 74
+    },
+    {
+      "epoch": 0.021120811039143903,
+      "grad_norm": 0.19664792716503143,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.4106,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.5405838075691e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null