Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a71a756c10378d89178e2eb6ca9b32a3b826606e402bb33b1e9bbe0bdc301807
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:61ba3fe3cb2475b94657ce9e32267038b5e85ee9277ae09c2b3996fb51231f25
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc9ca7cf0c61e7b1b93d373e4ec68bbb6860512dd30f5c4449cb9cfa8e1e8fe9
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:b778c88601b7ad8df5af534988bdfb03314562213289eae19e14ec6ef6377b90
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff117b2b37bde812847adc6eed8bdc759c3c07f5d1cbee1f5506533e03306f92
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:408e56684290fc2d4d62af6818d9eed799690d481ec8a8ead29730102632763f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0012395413696932136,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.0001,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3054705844224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0018593120545398203,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.0001,
       "step": 50
+    },
+    {
+      "epoch": 0.0012643321970870777,
+      "grad_norm": 0.0016621012473478913,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.001289123024480942,
+      "grad_norm": 0.0011065489379689097,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.0013139138518748063,
+      "grad_norm": 0.0038463855162262917,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0001,
+      "step": 53
+    },
+    {
+      "epoch": 0.0013387046792686706,
+      "grad_norm": 0.002665896201506257,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.0013387046792686706,
+      "eval_loss": 0.01291303988546133,
+      "eval_runtime": 3460.672,
+      "eval_samples_per_second": 9.816,
+      "eval_steps_per_second": 1.227,
+      "step": 54
+    },
+    {
+      "epoch": 0.0013634955066625348,
+      "grad_norm": 0.001753911841660738,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.0013882863340563992,
+      "grad_norm": 0.0013742155861109495,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.0014130771614502633,
+      "grad_norm": 0.0016975795151665807,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.0014378679888441277,
+      "grad_norm": 0.004371886607259512,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0001,
+      "step": 58
+    },
+    {
+      "epoch": 0.0014626588162379918,
+      "grad_norm": 0.002545311814174056,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.0014874496436318562,
+      "grad_norm": 0.0012721183011308312,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.0015122404710257206,
+      "grad_norm": 1.5859683752059937,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.0221,
+      "step": 61
+    },
+    {
+      "epoch": 0.0015370312984195847,
+      "grad_norm": 0.001025455305352807,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.001561822125813449,
+      "grad_norm": 0.0023683272302150726,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0001,
+      "step": 63
+    },
+    {
+      "epoch": 0.001561822125813449,
+      "eval_loss": 0.00975963193923235,
+      "eval_runtime": 3462.2141,
+      "eval_samples_per_second": 9.811,
+      "eval_steps_per_second": 1.227,
+      "step": 63
+    },
+    {
+      "epoch": 0.0015866129532073133,
+      "grad_norm": 0.002758202375844121,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.0016114037806011776,
+      "grad_norm": 0.001786602195352316,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.0016361946079950418,
+      "grad_norm": 0.0019201320828869939,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.0016609854353889062,
+      "grad_norm": 0.0011184336617588997,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.0016857762627827703,
+      "grad_norm": 0.0006105133797973394,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.0017105670901766347,
+      "grad_norm": 0.000507171789649874,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.0017353579175704988,
+      "grad_norm": 0.002627558307722211,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0001,
+      "step": 70
+    },
+    {
+      "epoch": 0.0017601487449643632,
+      "grad_norm": 0.0008504163706675172,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.0017849395723582274,
+      "grad_norm": 0.001379123074002564,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.0017849395723582274,
+      "eval_loss": 0.009472197853028774,
+      "eval_runtime": 3463.5975,
+      "eval_samples_per_second": 9.807,
+      "eval_steps_per_second": 1.226,
+      "step": 72
+    },
+    {
+      "epoch": 0.0018097303997520917,
+      "grad_norm": 0.0017566120950505137,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.0018345212271459559,
+      "grad_norm": 0.0016617800574749708,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.0018593120545398203,
+      "grad_norm": 0.0014876762870699167,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.9582058766336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null