Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12381880b70f85d9f12554a4fe46c4f761d4277f2a41145fcdda7374933f542e
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:76c41cd80ccb78c2dda0283816e1476bc531ac0af1905f3746d3338baa0abef9
 size 323014168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:412b08dd69a4c21ed00fd9a52e01a9e74bd4bc0d4355a79fe127aed76ba3dd29
 size 646253418

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ce50f133972be3040bdfbcc18edec5c417eb189b0b38eac50f5d90a8326bf30
 size 646253418

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3707077484e0c72b42e29456f35a72f03c9e24bfd887f11d06a9415517082ce0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3d2d2c09fbb026b2f24b81f380ba988d6ff2abd15e55c75d11df6ffa23fadb5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3f6891a2dad4098258cacbb534eda6cb23344f32c27a937c7da2508a5fd6662
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef593f391c66ba3ea6e8dea3b2aa8e19ae1f574e3c6a18c96ee14293016120aa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01501726986033939,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 9.634,
       "eval_steps_per_second": 4.824,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.75751810777088e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03003453972067878,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.634,
       "eval_steps_per_second": 4.824,
       "step": 25
+    },
+    {
+      "epoch": 0.015617960654752966,
+      "grad_norm": 4.667582988739014,
+      "learning_rate": 3.84324902086706e-05,
+      "loss": 3.8327,
+      "step": 26
+    },
+    {
+      "epoch": 0.01621865144916654,
+      "grad_norm": 4.277241230010986,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 3.5504,
+      "step": 27
+    },
+    {
+      "epoch": 0.016819342243580115,
+      "grad_norm": 5.093675136566162,
+      "learning_rate": 3.654371533087586e-05,
+      "loss": 3.5189,
+      "step": 28
+    },
+    {
+      "epoch": 0.017420033037993693,
+      "grad_norm": 5.327199459075928,
+      "learning_rate": 3.556545654351749e-05,
+      "loss": 3.3421,
+      "step": 29
+    },
+    {
+      "epoch": 0.018020723832407267,
+      "grad_norm": 5.5413312911987305,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 2.9469,
+      "step": 30
+    },
+    {
+      "epoch": 0.018621414626820845,
+      "grad_norm": 5.443083763122559,
+      "learning_rate": 3.355050358314172e-05,
+      "loss": 2.7866,
+      "step": 31
+    },
+    {
+      "epoch": 0.01922210542123442,
+      "grad_norm": 5.232971668243408,
+      "learning_rate": 3.251764498760683e-05,
+      "loss": 3.3117,
+      "step": 32
+    },
+    {
+      "epoch": 0.019822796215647996,
+      "grad_norm": 6.984073638916016,
+      "learning_rate": 3.147047612756302e-05,
+      "loss": 2.0666,
+      "step": 33
+    },
+    {
+      "epoch": 0.02042348701006157,
+      "grad_norm": 6.457812309265137,
+      "learning_rate": 3.0410990348452573e-05,
+      "loss": 2.2777,
+      "step": 34
+    },
+    {
+      "epoch": 0.021024177804475148,
+      "grad_norm": 6.987249374389648,
+      "learning_rate": 2.9341204441673266e-05,
+      "loss": 1.8346,
+      "step": 35
+    },
+    {
+      "epoch": 0.021624868598888722,
+      "grad_norm": 6.425710201263428,
+      "learning_rate": 2.8263154805501297e-05,
+      "loss": 2.3781,
+      "step": 36
+    },
+    {
+      "epoch": 0.0222255593933023,
+      "grad_norm": 6.388491630554199,
+      "learning_rate": 2.717889356869146e-05,
+      "loss": 1.7357,
+      "step": 37
+    },
+    {
+      "epoch": 0.022826250187715873,
+      "grad_norm": 5.916223526000977,
+      "learning_rate": 2.6090484684133404e-05,
+      "loss": 1.5797,
+      "step": 38
+    },
+    {
+      "epoch": 0.023426940982129447,
+      "grad_norm": 4.217414379119873,
+      "learning_rate": 2.5e-05,
+      "loss": 0.9489,
+      "step": 39
+    },
+    {
+      "epoch": 0.024027631776543025,
+      "grad_norm": 5.929896354675293,
+      "learning_rate": 2.3909515315866605e-05,
+      "loss": 1.4266,
+      "step": 40
+    },
+    {
+      "epoch": 0.0246283225709566,
+      "grad_norm": 6.1376519203186035,
+      "learning_rate": 2.2821106431308544e-05,
+      "loss": 1.6553,
+      "step": 41
+    },
+    {
+      "epoch": 0.025229013365370177,
+      "grad_norm": 6.664175987243652,
+      "learning_rate": 2.173684519449872e-05,
+      "loss": 1.8489,
+      "step": 42
+    },
+    {
+      "epoch": 0.02582970415978375,
+      "grad_norm": 4.3153462409973145,
+      "learning_rate": 2.0658795558326743e-05,
+      "loss": 0.9044,
+      "step": 43
+    },
+    {
+      "epoch": 0.026430394954197328,
+      "grad_norm": 5.153141021728516,
+      "learning_rate": 1.958900965154743e-05,
+      "loss": 1.0555,
+      "step": 44
+    },
+    {
+      "epoch": 0.027031085748610902,
+      "grad_norm": 9.452554702758789,
+      "learning_rate": 1.852952387243698e-05,
+      "loss": 1.2836,
+      "step": 45
+    },
+    {
+      "epoch": 0.02763177654302448,
+      "grad_norm": 4.951740264892578,
+      "learning_rate": 1.7482355012393177e-05,
+      "loss": 0.8965,
+      "step": 46
+    },
+    {
+      "epoch": 0.028232467337438054,
+      "grad_norm": 5.227982997894287,
+      "learning_rate": 1.6449496416858284e-05,
+      "loss": 0.7981,
+      "step": 47
+    },
+    {
+      "epoch": 0.028833158131851628,
+      "grad_norm": 2.884462356567383,
+      "learning_rate": 1.5432914190872757e-05,
+      "loss": 0.3044,
+      "step": 48
+    },
+    {
+      "epoch": 0.029433848926265205,
+      "grad_norm": 6.449427604675293,
+      "learning_rate": 1.443454345648252e-05,
+      "loss": 1.0199,
+      "step": 49
+    },
+    {
+      "epoch": 0.03003453972067878,
+      "grad_norm": 5.113186836242676,
+      "learning_rate": 1.3456284669124158e-05,
+      "loss": 1.0111,
+      "step": 50
+    },
+    {
+      "epoch": 0.03003453972067878,
+      "eval_loss": 0.9303993582725525,
+      "eval_runtime": 72.6835,
+      "eval_samples_per_second": 9.645,
+      "eval_steps_per_second": 4.829,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.51503621554176e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null