Training in progress, step 150, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +56 -169
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6b8ad6dc351cd6e6fb14be1e78d1bc303255df70fb405b36cd906f126d23eda
 size 1047100024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9284611f383403e4bddaaa1bdc9a68ea0e5a23d1df4e5a0c41e31b7eeeec410c
 size 1047100024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:717d7aa626dbf9706f279c1e82ca897875a82bd64edcd7759a8d114e3a506905
 size 2027092538

 version https://git-lfs.github.com/spec/v1
+oid sha256:f18b2877c25c005099ddcb6f1fd6cff53e9e6953825166edb88f31f4cea446b2
 size 2027092538

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05429ce80080b6006aefa7a0cdcf256e6801d1dc314fce88e03a2b2d615970a0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5579fe9e15618b81ef610fec990943b1331a8e0dc73ea65185b209958e17402
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea5caa49db915b45959ce55ffb19f89ee4df15a92a0cf61506d4b5cce9f63612
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c9bb74c7ccc0ce8938928022bb60a0f70baa72e09d1fb547a24fe2599bec65
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,238 +1,125 @@
 {
-  "best_metric": 1.378271222114563,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 0.024168210746797713,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0008056070248932571,
-      "grad_norm": 1.6331578493118286,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 1.674,
       "step": 10
     },
     {
-      "epoch": 0.0016112140497865142,
-      "grad_norm": 1.5799965858459473,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.6139,
       "step": 20
     },
     {
-      "epoch": 0.002416821074679771,
-      "grad_norm": 1.4048924446105957,
       "learning_rate": 2.4e-05,
-      "loss": 1.5637,
       "step": 30
     },
     {
-      "epoch": 0.0032224280995730285,
-      "grad_norm": 1.3288944959640503,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.47,
       "step": 40
     },
     {
-      "epoch": 0.0040280351244662855,
-      "grad_norm": 1.2938439846038818,
       "learning_rate": 4e-05,
-      "loss": 1.5004,
       "step": 50
     },
     {
-      "epoch": 0.004833642149359542,
-      "grad_norm": 1.257751226425171,
       "learning_rate": 4.8e-05,
-      "loss": 1.4306,
       "step": 60
     },
     {
-      "epoch": 0.0056392491742527995,
-      "grad_norm": 1.3014723062515259,
       "learning_rate": 5.6e-05,
-      "loss": 1.4461,
       "step": 70
     },
     {
-      "epoch": 0.006444856199146057,
-      "grad_norm": 1.2876347303390503,
       "learning_rate": 6.400000000000001e-05,
-      "loss": 1.3987,
       "step": 80
     },
     {
-      "epoch": 0.0072504632240393135,
-      "grad_norm": 1.3185112476348877,
       "learning_rate": 7.2e-05,
-      "loss": 1.4719,
       "step": 90
     },
     {
-      "epoch": 0.008056070248932571,
-      "grad_norm": 1.2125263214111328,
       "learning_rate": 8e-05,
-      "loss": 1.4728,
       "step": 100
     },
     {
-      "epoch": 0.008861677273825828,
-      "grad_norm": 1.3386430740356445,
       "learning_rate": 7.999917787833465e-05,
-      "loss": 1.4244,
       "step": 110
     },
     {
-      "epoch": 0.009667284298719084,
-      "grad_norm": 1.2090747356414795,
       "learning_rate": 7.999671154713278e-05,
-      "loss": 1.3962,
       "step": 120
     },
     {
-      "epoch": 0.010472891323612342,
-      "grad_norm": 1.2480571269989014,
       "learning_rate": 7.99926011077756e-05,
-      "loss": 1.4184,
       "step": 130
     },
     {
-      "epoch": 0.011278498348505599,
-      "grad_norm": 1.1953870058059692,
       "learning_rate": 7.99868467292272e-05,
-      "loss": 1.4291,
       "step": 140
     },
     {
-      "epoch": 0.012084105373398856,
-      "grad_norm": 1.2968889474868774,
       "learning_rate": 7.997944864802752e-05,
-      "loss": 1.4176,
       "step": 150
     },
     {
-      "epoch": 0.012084105373398856,
-      "eval_loss": 1.409696340560913,
-      "eval_runtime": 41.1558,
-      "eval_samples_per_second": 12.149,
-      "eval_steps_per_second": 12.149,
       "step": 150
-    },
-    {
-      "epoch": 0.012889712398292114,
-      "grad_norm": 1.2144309282302856,
-      "learning_rate": 7.997040716828271e-05,
-      "loss": 1.4389,
-      "step": 160
-    },
-    {
-      "epoch": 0.01369531942318537,
-      "grad_norm": 1.2486999034881592,
-      "learning_rate": 7.995972266165259e-05,
-      "loss": 1.3656,
-      "step": 170
-    },
-    {
-      "epoch": 0.014500926448078627,
-      "grad_norm": 1.0841563940048218,
-      "learning_rate": 7.994739556733538e-05,
-      "loss": 1.3916,
-      "step": 180
-    },
-    {
-      "epoch": 0.015306533472971885,
-      "grad_norm": 1.1280230283737183,
-      "learning_rate": 7.993342639204965e-05,
-      "loss": 1.4169,
-      "step": 190
-    },
-    {
-      "epoch": 0.016112140497865142,
-      "grad_norm": 1.2391259670257568,
-      "learning_rate": 7.991781571001347e-05,
-      "loss": 1.4259,
-      "step": 200
-    },
-    {
-      "epoch": 0.0169177475227584,
-      "grad_norm": 1.287666916847229,
-      "learning_rate": 7.990056416292084e-05,
-      "loss": 1.387,
-      "step": 210
-    },
-    {
-      "epoch": 0.017723354547651657,
-      "grad_norm": 1.099730134010315,
-      "learning_rate": 7.988167245991528e-05,
-      "loss": 1.3881,
-      "step": 220
-    },
-    {
-      "epoch": 0.018528961572544914,
-      "grad_norm": 1.049587607383728,
-      "learning_rate": 7.986114137756074e-05,
-      "loss": 1.3841,
-      "step": 230
-    },
-    {
-      "epoch": 0.01933456859743817,
-      "grad_norm": 1.247476577758789,
-      "learning_rate": 7.983897175980957e-05,
-      "loss": 1.3705,
-      "step": 240
-    },
-    {
-      "epoch": 0.020140175622331426,
-      "grad_norm": 1.2096580266952515,
-      "learning_rate": 7.981516451796794e-05,
-      "loss": 1.3743,
-      "step": 250
-    },
-    {
-      "epoch": 0.020945782647224683,
-      "grad_norm": 1.1319410800933838,
-      "learning_rate": 7.97897206306583e-05,
-      "loss": 1.3672,
-      "step": 260
-    },
-    {
-      "epoch": 0.02175138967211794,
-      "grad_norm": 1.1657007932662964,
-      "learning_rate": 7.976264114377922e-05,
-      "loss": 1.4038,
-      "step": 270
-    },
-    {
-      "epoch": 0.022556996697011198,
-      "grad_norm": 1.070646047592163,
-      "learning_rate": 7.973392717046233e-05,
-      "loss": 1.3644,
-      "step": 280
-    },
-    {
-      "epoch": 0.023362603721904456,
-      "grad_norm": 1.094254732131958,
-      "learning_rate": 7.97035798910266e-05,
-      "loss": 1.3324,
-      "step": 290
-    },
-    {
-      "epoch": 0.024168210746797713,
-      "grad_norm": 1.0771719217300415,
-      "learning_rate": 7.967160055292984e-05,
-      "loss": 1.3354,
-      "step": 300
-    },
-    {
-      "epoch": 0.024168210746797713,
-      "eval_loss": 1.378271222114563,
-      "eval_runtime": 40.7201,
-      "eval_samples_per_second": 12.279,
-      "eval_steps_per_second": 12.279,
-      "step": 300
     }
   ],
   "logging_steps": 10,
@@ -252,8 +139,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.034100572549939e+16,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.3760384321212769,
+  "best_model_checkpoint": "./output/checkpoint-150",
+  "epoch": 0.006042296072507553,
   "eval_steps": 150,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0004028197381671702,
+      "grad_norm": 1.6403535604476929,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 1.3224,
       "step": 10
     },
     {
+      "epoch": 0.0008056394763343404,
+      "grad_norm": 1.524896502494812,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.4594,
       "step": 20
     },
     {
+      "epoch": 0.0012084592145015106,
+      "grad_norm": 1.6602262258529663,
       "learning_rate": 2.4e-05,
+      "loss": 1.3775,
       "step": 30
     },
     {
+      "epoch": 0.0016112789526686808,
+      "grad_norm": 1.6227095127105713,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.3538,
       "step": 40
     },
     {
+      "epoch": 0.002014098690835851,
+      "grad_norm": 1.4939993619918823,
       "learning_rate": 4e-05,
+      "loss": 1.3195,
       "step": 50
     },
     {
+      "epoch": 0.002416918429003021,
+      "grad_norm": 1.4631342887878418,
       "learning_rate": 4.8e-05,
+      "loss": 1.3531,
       "step": 60
     },
     {
+      "epoch": 0.0028197381671701913,
+      "grad_norm": 1.5572013854980469,
       "learning_rate": 5.6e-05,
+      "loss": 1.3038,
       "step": 70
     },
     {
+      "epoch": 0.0032225579053373615,
+      "grad_norm": 1.4803887605667114,
       "learning_rate": 6.400000000000001e-05,
+      "loss": 1.2703,
       "step": 80
     },
     {
+      "epoch": 0.0036253776435045317,
+      "grad_norm": 1.625388741493225,
       "learning_rate": 7.2e-05,
+      "loss": 1.4105,
       "step": 90
     },
     {
+      "epoch": 0.004028197381671702,
+      "grad_norm": 1.5087355375289917,
       "learning_rate": 8e-05,
+      "loss": 1.3726,
       "step": 100
     },
     {
+      "epoch": 0.004431017119838872,
+      "grad_norm": 1.4768939018249512,
       "learning_rate": 7.999917787833465e-05,
+      "loss": 1.4166,
       "step": 110
     },
     {
+      "epoch": 0.004833836858006042,
+      "grad_norm": 1.5856446027755737,
       "learning_rate": 7.999671154713278e-05,
+      "loss": 1.3702,
       "step": 120
     },
     {
+      "epoch": 0.0052366565961732125,
+      "grad_norm": 1.5647201538085938,
       "learning_rate": 7.99926011077756e-05,
+      "loss": 1.3436,
       "step": 130
     },
     {
+      "epoch": 0.005639476334340383,
+      "grad_norm": 1.5936949253082275,
       "learning_rate": 7.99868467292272e-05,
+      "loss": 1.4691,
       "step": 140
     },
     {
+      "epoch": 0.006042296072507553,
+      "grad_norm": 1.4276344776153564,
       "learning_rate": 7.997944864802752e-05,
+      "loss": 1.3246,
       "step": 150
     },
     {
+      "epoch": 0.006042296072507553,
+      "eval_loss": 1.3760384321212769,
+      "eval_runtime": 41.2678,
+      "eval_samples_per_second": 12.116,
+      "eval_steps_per_second": 12.116,
       "step": 150
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4294793286582272e+16,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66abaed6a1b373e7334cdae7d507a46c867f9e3559096310c36c292f8ae401f3
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:629cd7345246299ec3001e6450fd588adaf1dec8f116c5e1eec7d37b34176eb8
 size 5496