Training in progress, step 2136, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +256 -4

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd1eca6c800ef6825e7bf60a3f606c08a3664621930ae86599328032ddfc0a0a
 size 4903351912

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ffed5f8c81d4bcc1c3949f7ae2640c2980c4515a7bf471d7277700e4a42dc62
 size 4903351912

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e4678c8c596ac9adbe11b26a3e6cf61fda2a78b8c8aa1d36e117e0b4b9dd9b8
 size 4947570872

 version https://git-lfs.github.com/spec/v1
+oid sha256:2776b66179020970a8f8df643b6376fa54d907b9a0ab7de3152df871e8519472
 size 4947570872

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be4ffd13d9c3bc7db9d2f6de30ddc485decf506fd2322157d81e0b581d71538a
 size 4962221464

 version https://git-lfs.github.com/spec/v1
+oid sha256:637c9d5ccb29c2571a60e81aba1229d7c57a7860baf764cefb86807c1fd55c51
 size 4962221464

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b620e3f5d53efc08164bcbe9887fa6c2b5101cde21efdb03ca2b3fcf5b3b67ad
 size 3670322200

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6e6a180710afa8be7623704d675a1486d890f8acd593108fd30e06f8faf9d99
 size 3670322200

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f485548cbbc71688a7015971c1a5ece38765abc0497df7c8a97a11895a5364a5
 size 2216

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe0c40a4a813653ed70995efe5d8a8fed35d5d52cf0ca2d406ae22aa69dd62dc
 size 2216

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:459e4f6348b09807a678fef615a08119a6cb3d845b8e137dc15cc9629d38a1d8
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:638959202e00ec8e922c9fefb3271344d643c48007a3ce5c5efbd2a02e4157e6
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9662921348314608,
   "eval_steps": 500,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14707,6 +14707,258 @@
       "learning_rate": 3.106191336121222e-08,
       "loss": 1.1671,
       "step": 2100
     }
   ],
   "logging_steps": 1,
@@ -14721,12 +14973,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.871693999535555e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 2136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.106191336121222e-08,
       "loss": 1.1671,
       "step": 2100
+    },
+    {
+      "epoch": 1.9672284644194757,
+      "grad_norm": 0.0,
+      "learning_rate": 2.936063551628454e-08,
+      "loss": 1.1406,
+      "step": 2101
+    },
+    {
+      "epoch": 1.9681647940074907,
+      "grad_norm": 0.0,
+      "learning_rate": 2.7707234737970325e-08,
+      "loss": 1.155,
+      "step": 2102
+    },
+    {
+      "epoch": 1.9691011235955056,
+      "grad_norm": 0.0,
+      "learning_rate": 2.6101714990083292e-08,
+      "loss": 1.1179,
+      "step": 2103
+    },
+    {
+      "epoch": 1.9700374531835205,
+      "grad_norm": 0.0,
+      "learning_rate": 2.4544080121657877e-08,
+      "loss": 1.1077,
+      "step": 2104
+    },
+    {
+      "epoch": 1.9709737827715355,
+      "grad_norm": 0.0,
+      "learning_rate": 2.3034333866922555e-08,
+      "loss": 1.1038,
+      "step": 2105
+    },
+    {
+      "epoch": 1.9719101123595506,
+      "grad_norm": 0.0,
+      "learning_rate": 2.1572479845299865e-08,
+      "loss": 1.1178,
+      "step": 2106
+    },
+    {
+      "epoch": 1.9728464419475655,
+      "grad_norm": 0.0,
+      "learning_rate": 2.0158521561404188e-08,
+      "loss": 1.1605,
+      "step": 2107
+    },
+    {
+      "epoch": 1.9737827715355807,
+      "grad_norm": 0.0,
+      "learning_rate": 1.879246240501509e-08,
+      "loss": 1.1151,
+      "step": 2108
+    },
+    {
+      "epoch": 1.9747191011235956,
+      "grad_norm": 0.0,
+      "learning_rate": 1.747430565108843e-08,
+      "loss": 1.1017,
+      "step": 2109
+    },
+    {
+      "epoch": 1.9756554307116105,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6204054459736385e-08,
+      "loss": 1.1408,
+      "step": 2110
+    },
+    {
+      "epoch": 1.9765917602996255,
+      "grad_norm": 0.0,
+      "learning_rate": 1.4981711876227435e-08,
+      "loss": 1.1019,
+      "step": 2111
+    },
+    {
+      "epoch": 1.9775280898876404,
+      "grad_norm": 0.0,
+      "learning_rate": 1.3807280830968606e-08,
+      "loss": 1.1559,
+      "step": 2112
+    },
+    {
+      "epoch": 1.9784644194756553,
+      "grad_norm": 0.0,
+      "learning_rate": 1.2680764139509915e-08,
+      "loss": 1.1168,
+      "step": 2113
+    },
+    {
+      "epoch": 1.9794007490636703,
+      "grad_norm": 0.0,
+      "learning_rate": 1.1602164502531043e-08,
+      "loss": 1.1662,
+      "step": 2114
+    },
+    {
+      "epoch": 1.9803370786516854,
+      "grad_norm": 0.0,
+      "learning_rate": 1.0571484505839114e-08,
+      "loss": 1.1558,
+      "step": 2115
+    },
+    {
+      "epoch": 1.9812734082397003,
+      "grad_norm": 0.0,
+      "learning_rate": 9.588726620357591e-09,
+      "loss": 1.1725,
+      "step": 2116
+    },
+    {
+      "epoch": 1.9822097378277155,
+      "grad_norm": 0.0,
+      "learning_rate": 8.653893202124064e-09,
+      "loss": 1.1049,
+      "step": 2117
+    },
+    {
+      "epoch": 1.9831460674157304,
+      "grad_norm": 0.0,
+      "learning_rate": 7.76698649228136e-09,
+      "loss": 1.1635,
+      "step": 2118
+    },
+    {
+      "epoch": 1.9840823970037453,
+      "grad_norm": 0.0,
+      "learning_rate": 6.928008617077542e-09,
+      "loss": 1.1132,
+      "step": 2119
+    },
+    {
+      "epoch": 1.9850187265917603,
+      "grad_norm": 0.0,
+      "learning_rate": 6.136961587852597e-09,
+      "loss": 1.1769,
+      "step": 2120
+    },
+    {
+      "epoch": 1.9859550561797752,
+      "grad_norm": 0.0,
+      "learning_rate": 5.393847301042865e-09,
+      "loss": 1.1298,
+      "step": 2121
+    },
+    {
+      "epoch": 1.9868913857677901,
+      "grad_norm": 0.0,
+      "learning_rate": 4.698667538169943e-09,
+      "loss": 1.1547,
+      "step": 2122
+    },
+    {
+      "epoch": 1.9878277153558053,
+      "grad_norm": 0.0,
+      "learning_rate": 4.051423965838464e-09,
+      "loss": 1.1608,
+      "step": 2123
+    },
+    {
+      "epoch": 1.9887640449438202,
+      "grad_norm": 0.0,
+      "learning_rate": 3.4521181357316523e-09,
+      "loss": 1.1669,
+      "step": 2124
+    },
+    {
+      "epoch": 1.9897003745318353,
+      "grad_norm": 0.0,
+      "learning_rate": 2.9007514846113304e-09,
+      "loss": 1.167,
+      "step": 2125
+    },
+    {
+      "epoch": 1.9906367041198503,
+      "grad_norm": 0.0,
+      "learning_rate": 2.397325334309031e-09,
+      "loss": 1.1729,
+      "step": 2126
+    },
+    {
+      "epoch": 1.9915730337078652,
+      "grad_norm": 0.0,
+      "learning_rate": 1.941840891721558e-09,
+      "loss": 1.1634,
+      "step": 2127
+    },
+    {
+      "epoch": 1.9925093632958801,
+      "grad_norm": 0.0,
+      "learning_rate": 1.53429924881765e-09,
+      "loss": 1.1068,
+      "step": 2128
+    },
+    {
+      "epoch": 1.993445692883895,
+      "grad_norm": 0.0,
+      "learning_rate": 1.174701382626875e-09,
+      "loss": 1.1238,
+      "step": 2129
+    },
+    {
+      "epoch": 1.99438202247191,
+      "grad_norm": 0.0,
+      "learning_rate": 8.63048155235191e-10,
+      "loss": 1.113,
+      "step": 2130
+    },
+    {
+      "epoch": 1.9953183520599251,
+      "grad_norm": 0.0,
+      "learning_rate": 5.99340313798269e-10,
+      "loss": 1.1078,
+      "step": 2131
+    },
+    {
+      "epoch": 1.99625468164794,
+      "grad_norm": 0.0,
+      "learning_rate": 3.8357849051484655e-10,
+      "loss": 1.102,
+      "step": 2132
+    },
+    {
+      "epoch": 1.9971910112359552,
+      "grad_norm": 0.0,
+      "learning_rate": 2.1576320265337403e-10,
+      "loss": 1.0998,
+      "step": 2133
+    },
+    {
+      "epoch": 1.9981273408239701,
+      "grad_norm": 0.0,
+      "learning_rate": 9.58948525253689e-11,
+      "loss": 1.1516,
+      "step": 2134
+    },
+    {
+      "epoch": 1.999063670411985,
+      "grad_norm": 0.0,
+      "learning_rate": 2.3973727498738387e-11,
+      "loss": 1.1345,
+      "step": 2135
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.0,
+      "learning_rate": 0.0,
+      "loss": 1.2175,
+      "step": 2136
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.987483782320226e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null