Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step100/mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456659bd791b3bb36d56c16ff5af42299adfcfd04be7b51c61f750b987e874fb
 size 42002136

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4b3c8a0c8eec9372a2a20bfefbc493802889647c7f7adc2a6c3c936841dadab
 size 42002136

last-checkpoint/global_step100/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2d62ad5eaea9604a0284ff630db37ab5e519c2d7d854507c9c2524eb0cae9d4
+size 8182935351

last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d68fa488308469d4bcda542506a7d5309c25a14bb3d0f332f6eb972ea706be1d
+size 251710893

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step50~~


1	+ global_step100

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95108ce3daae0de505fcc447f4742cf96275124742d94331b4e3e1cbe5b3334d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:21e76ce417a2453046e6a33726c8f3832834739201b50fea30214604b61d7e69
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0012437810945273632,
   "eval_steps": 1000,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,13 +307,313 @@
       "learning_rate": 0.00011250000000000001,
       "loss": 1.3767,
       "step": 50
     }
   ],
   "logging_steps": 1,
   "max_steps": 101,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 3065802843488256.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0024875621890547263,
   "eval_steps": 1000,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00011250000000000001,
       "loss": 1.3767,
       "step": 50
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00011041666666666668,
+      "loss": 1.7195,
+      "step": 51
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010833333333333333,
+      "loss": 1.6413,
+      "step": 52
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010625000000000001,
+      "loss": 1.6367,
+      "step": 53
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010416666666666667,
+      "loss": 1.4327,
+      "step": 54
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010208333333333333,
+      "loss": 1.631,
+      "step": 55
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0001,
+      "loss": 1.5181,
+      "step": 56
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.791666666666667e-05,
+      "loss": 1.8171,
+      "step": 57
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.583333333333334e-05,
+      "loss": 1.4735,
+      "step": 58
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.375e-05,
+      "loss": 1.5766,
+      "step": 59
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 1.9341,
+      "step": 60
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.958333333333335e-05,
+      "loss": 1.5104,
+      "step": 61
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.75e-05,
+      "loss": 1.714,
+      "step": 62
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.541666666666666e-05,
+      "loss": 1.3207,
+      "step": 63
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 1.7229,
+      "step": 64
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.125000000000001e-05,
+      "loss": 1.6023,
+      "step": 65
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.916666666666666e-05,
+      "loss": 1.3084,
+      "step": 66
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.708333333333334e-05,
+      "loss": 1.5988,
+      "step": 67
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.5514,
+      "step": 68
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.291666666666667e-05,
+      "loss": 1.7091,
+      "step": 69
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.083333333333334e-05,
+      "loss": 1.8106,
+      "step": 70
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.875e-05,
+      "loss": 1.8169,
+      "step": 71
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 1.7487,
+      "step": 72
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.458333333333334e-05,
+      "loss": 1.1579,
+      "step": 73
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.25e-05,
+      "loss": 1.6615,
+      "step": 74
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.041666666666667e-05,
+      "loss": 1.6043,
+      "step": 75
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 1.6514,
+      "step": 76
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.6250000000000005e-05,
+      "loss": 1.6672,
+      "step": 77
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.4166666666666664e-05,
+      "loss": 1.4914,
+      "step": 78
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.208333333333334e-05,
+      "loss": 1.7884,
+      "step": 79
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 1.5897,
+      "step": 80
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 1.7673,
+      "step": 81
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 1.3304,
+      "step": 82
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.375e-05,
+      "loss": 1.7114,
+      "step": 83
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.3571,
+      "step": 84
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 1.1445,
+      "step": 85
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.7399,
+      "step": 86
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.541666666666667e-05,
+      "loss": 1.4818,
+      "step": 87
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.6,
+      "step": 88
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.125e-05,
+      "loss": 1.5971,
+      "step": 89
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 1.8175,
+      "step": 90
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 1.5264,
+      "step": 91
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.5e-05,
+      "loss": 1.3731,
+      "step": 92
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 1.3831,
+      "step": 93
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.6149,
+      "step": 94
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.7824,
+      "step": 95
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.5808,
+      "step": 96
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 1.6656,
+      "step": 97
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.25e-05,
+      "loss": 1.48,
+      "step": 98
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 1.5118,
+      "step": 99
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.8386,
+      "step": 100
     }
   ],
   "logging_steps": 1,
   "max_steps": 101,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 6150946682830848.0,
   "trial_name": null,
   "trial_params": null
 }