Training in progress, step 128, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +87 -413
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "up_proj",
     "o_proj",
     "down_proj",
-    "gate_proj",
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "gate_proj",
     "o_proj",
+    "q_proj",
     "down_proj",
+    "up_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3f0f330c5dd30037710dfbf893b79cb29436d7605c331600e080ee1b5bd14a2
 size 30026872

 version https://git-lfs.github.com/spec/v1
+oid sha256:7322ded38f1358b662c50901dee8db86ae07a82ed276f247e3fbb9405b578e8e
 size 30026872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:983fbe2f79308844735f65dc93021a51a40cf90eac2b77c3a25f9f52ddee984f
-size 15611732

 version https://git-lfs.github.com/spec/v1
+oid sha256:1884551d287fac52bc2af7c72494b16eaa64445a199fd9e4ed86867614e2050f
+size 15611412

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fba5f66aab213b0fa00c180e93d69724a4ae021a159f7a32b7dab809d308f684
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a011d66fd370c631e51fd7ddaab9d7f56fbcfd5ad504dcd5d16420e7872fa9a2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:947fde7ad1e89d6c6f4bd00098aa9fd81cc5bfcb34ae5bce9843e205478613e9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:59fc2fc920faa440c3e3d0115925487d3c9ed02c8ad062660ac1db63d6a8c0fe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6365372374283895,
-  "eval_steps": 250,
-  "global_step": 375,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,550 +11,224 @@
     {
       "epoch": 0.001697432633142372,
       "eval_loss": 2.4177019596099854,
-      "eval_runtime": 13.943,
-      "eval_samples_per_second": 17.858,
-      "eval_steps_per_second": 17.858,
       "step": 1
     },
     {
       "epoch": 0.008487163165711862,
-      "grad_norm": 0.5102115273475647,
       "learning_rate": 5e-06,
-      "loss": 2.0834,
       "step": 5
     },
     {
       "epoch": 0.016974326331423723,
-      "grad_norm": 0.5134205222129822,
       "learning_rate": 1e-05,
       "loss": 2.3638,
       "step": 10
     },
     {
       "epoch": 0.025461489497135583,
-      "grad_norm": 0.5788155198097229,
       "learning_rate": 9.99743108100344e-06,
-      "loss": 2.3434,
       "step": 15
     },
     {
       "epoch": 0.033948652662847446,
-      "grad_norm": 0.7257423400878906,
       "learning_rate": 9.989726963751683e-06,
-      "loss": 2.4883,
       "step": 20
     },
     {
       "epoch": 0.042435815828559306,
-      "grad_norm": 0.6675796508789062,
       "learning_rate": 9.976895564745993e-06,
-      "loss": 2.2916,
       "step": 25
     },
     {
       "epoch": 0.050922978994271166,
-      "grad_norm": 0.42739933729171753,
       "learning_rate": 9.95895006911623e-06,
-      "loss": 2.8234,
       "step": 30
     },
     {
       "epoch": 0.059410142159983026,
-      "grad_norm": 0.5156223177909851,
       "learning_rate": 9.935908917072253e-06,
-      "loss": 2.3804,
       "step": 35
     },
     {
       "epoch": 0.06789730532569489,
-      "grad_norm": 0.8240678310394287,
       "learning_rate": 9.907795784955327e-06,
-      "loss": 2.3095,
       "step": 40
     },
     {
       "epoch": 0.07638446849140675,
-      "grad_norm": 0.7630073428153992,
       "learning_rate": 9.874639560909118e-06,
-      "loss": 2.2891,
       "step": 45
     },
     {
       "epoch": 0.08487163165711861,
-      "grad_norm": 0.8923418521881104,
       "learning_rate": 9.836474315195148e-06,
-      "loss": 2.2642,
       "step": 50
     },
     {
       "epoch": 0.09335879482283047,
-      "grad_norm": 0.7908952236175537,
       "learning_rate": 9.793339265183303e-06,
-      "loss": 2.4782,
       "step": 55
     },
     {
       "epoch": 0.10184595798854233,
-      "grad_norm": 0.8752570748329163,
       "learning_rate": 9.745278735053345e-06,
-      "loss": 2.2442,
       "step": 60
     },
     {
       "epoch": 0.11033312115425419,
-      "grad_norm": 0.8446648120880127,
       "learning_rate": 9.692342110248802e-06,
-      "loss": 2.3623,
       "step": 65
     },
     {
       "epoch": 0.11882028431996605,
-      "grad_norm": 0.8395955562591553,
       "learning_rate": 9.63458378673011e-06,
-      "loss": 2.2078,
       "step": 70
     },
     {
       "epoch": 0.1273074474856779,
-      "grad_norm": 0.96536785364151,
       "learning_rate": 9.572063115079063e-06,
-      "loss": 2.3043,
       "step": 75
     },
     {
       "epoch": 0.13579461065138979,
-      "grad_norm": 0.9060677289962769,
       "learning_rate": 9.504844339512096e-06,
-      "loss": 2.4284,
       "step": 80
     },
     {
       "epoch": 0.14428177381710164,
-      "grad_norm": 0.6167080402374268,
       "learning_rate": 9.432996531865001e-06,
-      "loss": 2.2063,
       "step": 85
     },
     {
       "epoch": 0.1527689369828135,
-      "grad_norm": 1.3145157098770142,
       "learning_rate": 9.356593520616948e-06,
-      "loss": 2.4146,
       "step": 90
     },
     {
       "epoch": 0.16125610014852534,
-      "grad_norm": 1.06257164478302,
       "learning_rate": 9.275713815026732e-06,
-      "loss": 2.236,
       "step": 95
     },
     {
       "epoch": 0.16974326331423722,
-      "grad_norm": 0.8050308227539062,
       "learning_rate": 9.190440524459203e-06,
-      "loss": 2.5021,
       "step": 100
     },
     {
       "epoch": 0.17823042647994908,
-      "grad_norm": 0.9117026925086975,
       "learning_rate": 9.10086127298478e-06,
-      "loss": 2.243,
       "step": 105
     },
     {
       "epoch": 0.18671758964566093,
-      "grad_norm": 0.7011638879776001,
       "learning_rate": 9.007068109339783e-06,
-      "loss": 2.2535,
       "step": 110
     },
     {
       "epoch": 0.1952047528113728,
-      "grad_norm": 0.6629008650779724,
       "learning_rate": 8.90915741234015e-06,
-      "loss": 2.0724,
       "step": 115
     },
     {
       "epoch": 0.20369191597708466,
-      "grad_norm": 0.6800772547721863,
       "learning_rate": 8.807229791845673e-06,
-      "loss": 2.3102,
       "step": 120
     },
     {
       "epoch": 0.21217907914279652,
-      "grad_norm": 0.7317128777503967,
       "learning_rate": 8.701389985376578e-06,
-      "loss": 2.2061,
       "step": 125
     },
     {
-      "epoch": 0.22066624230850837,
-      "grad_norm": 0.7562074661254883,
-      "learning_rate": 8.591746750488639e-06,
-      "loss": 2.1027,
-      "step": 130
-    },
-    {
-      "epoch": 0.22915340547422025,
-      "grad_norm": 1.395151972770691,
-      "learning_rate": 8.478412753017433e-06,
-      "loss": 2.2459,
-      "step": 135
-    },
-    {
-      "epoch": 0.2376405686399321,
-      "grad_norm": 1.0409704446792603,
-      "learning_rate": 8.361504451306585e-06,
-      "loss": 2.0757,
-      "step": 140
-    },
-    {
-      "epoch": 0.24612773180564396,
-      "grad_norm": 0.7646152973175049,
-      "learning_rate": 8.241141976538944e-06,
-      "loss": 2.1194,
-      "step": 145
-    },
-    {
-      "epoch": 0.2546148949713558,
-      "grad_norm": 0.6315305829048157,
-      "learning_rate": 8.117449009293668e-06,
-      "loss": 2.029,
-      "step": 150
-    },
-    {
-      "epoch": 0.26310205813706766,
-      "grad_norm": 0.8723805546760559,
-      "learning_rate": 7.99055265245608e-06,
-      "loss": 2.3872,
-      "step": 155
-    },
-    {
-      "epoch": 0.27158922130277957,
-      "grad_norm": 0.912027895450592,
-      "learning_rate": 7.860583300610849e-06,
-      "loss": 2.0692,
-      "step": 160
-    },
-    {
-      "epoch": 0.2800763844684914,
-      "grad_norm": 1.1273324489593506,
-      "learning_rate": 7.727674506052744e-06,
-      "loss": 1.9747,
-      "step": 165
-    },
-    {
-      "epoch": 0.2885635476342033,
-      "grad_norm": 0.8349745869636536,
-      "learning_rate": 7.591962841552627e-06,
-      "loss": 1.9815,
-      "step": 170
-    },
-    {
-      "epoch": 0.29705071079991513,
-      "grad_norm": 0.6559799313545227,
-      "learning_rate": 7.453587760019691e-06,
-      "loss": 2.1225,
-      "step": 175
-    },
-    {
-      "epoch": 0.305537873965627,
-      "grad_norm": 0.935215413570404,
-      "learning_rate": 7.312691451204178e-06,
-      "loss": 2.1128,
-      "step": 180
-    },
-    {
-      "epoch": 0.31402503713133884,
-      "grad_norm": 0.6984186768531799,
-      "learning_rate": 7.169418695587791e-06,
-      "loss": 2.4616,
-      "step": 185
-    },
-    {
-      "epoch": 0.3225122002970507,
-      "grad_norm": 0.8212848901748657,
-      "learning_rate": 7.023916715611969e-06,
-      "loss": 2.132,
-      "step": 190
-    },
-    {
-      "epoch": 0.3309993634627626,
-      "grad_norm": 0.9089066386222839,
-      "learning_rate": 6.876335024396872e-06,
-      "loss": 2.0719,
-      "step": 195
-    },
-    {
-      "epoch": 0.33948652662847445,
-      "grad_norm": 0.7070319056510925,
-      "learning_rate": 6.726825272106539e-06,
-      "loss": 2.245,
-      "step": 200
-    },
-    {
-      "epoch": 0.3479736897941863,
-      "grad_norm": 1.1449453830718994,
-      "learning_rate": 6.575541090118105e-06,
-      "loss": 2.2291,
-      "step": 205
-    },
-    {
-      "epoch": 0.35646085295989816,
-      "grad_norm": 0.7681276798248291,
-      "learning_rate": 6.4226379331551625e-06,
-      "loss": 2.0973,
-      "step": 210
-    },
-    {
-      "epoch": 0.36494801612561,
-      "grad_norm": 1.284940242767334,
-      "learning_rate": 6.268272919547537e-06,
-      "loss": 2.314,
-      "step": 215
-    },
-    {
-      "epoch": 0.37343517929132186,
-      "grad_norm": 1.1216720342636108,
-      "learning_rate": 6.112604669781572e-06,
-      "loss": 2.076,
-      "step": 220
-    },
-    {
-      "epoch": 0.3819223424570337,
-      "grad_norm": 0.9181829690933228,
-      "learning_rate": 5.955793143506863e-06,
-      "loss": 2.2251,
-      "step": 225
-    },
-    {
-      "epoch": 0.3904095056227456,
-      "grad_norm": 0.9240125417709351,
-      "learning_rate": 5.797999475166897e-06,
-      "loss": 2.0162,
-      "step": 230
-    },
-    {
-      "epoch": 0.3988966687884575,
-      "grad_norm": 0.9688006639480591,
-      "learning_rate": 5.6393858084225305e-06,
-      "loss": 1.9567,
-      "step": 235
-    },
-    {
-      "epoch": 0.40738383195416933,
-      "grad_norm": 0.6780016422271729,
-      "learning_rate": 5.480115129538409e-06,
-      "loss": 2.2013,
-      "step": 240
-    },
-    {
-      "epoch": 0.4158709951198812,
-      "grad_norm": 1.0788044929504395,
-      "learning_rate": 5.320351099903565e-06,
-      "loss": 2.0739,
-      "step": 245
-    },
-    {
-      "epoch": 0.42435815828559303,
-      "grad_norm": 1.0367454290390015,
-      "learning_rate": 5.160257887858278e-06,
-      "loss": 1.9629,
-      "step": 250
-    },
-    {
-      "epoch": 0.42435815828559303,
-      "eval_loss": 2.1809167861938477,
-      "eval_runtime": 15.1521,
-      "eval_samples_per_second": 16.433,
-      "eval_steps_per_second": 16.433,
-      "step": 250
-    },
-    {
-      "epoch": 0.4328453214513049,
-      "grad_norm": 0.9742569923400879,
-      "learning_rate": 5e-06,
-      "loss": 2.1209,
-      "step": 255
-    },
-    {
-      "epoch": 0.44133248461701674,
-      "grad_norm": 1.4076533317565918,
-      "learning_rate": 4.839742112141725e-06,
-      "loss": 2.1278,
-      "step": 260
-    },
-    {
-      "epoch": 0.44981964778272865,
-      "grad_norm": 0.9100192785263062,
-      "learning_rate": 4.679648900096436e-06,
-      "loss": 2.2103,
-      "step": 265
-    },
-    {
-      "epoch": 0.4583068109484405,
-      "grad_norm": 1.089735746383667,
-      "learning_rate": 4.5198848704615915e-06,
-      "loss": 2.196,
-      "step": 270
-    },
-    {
-      "epoch": 0.46679397411415235,
-      "grad_norm": 1.1712334156036377,
-      "learning_rate": 4.3606141915774695e-06,
-      "loss": 2.0448,
-      "step": 275
-    },
-    {
-      "epoch": 0.4752811372798642,
-      "grad_norm": 0.9530436992645264,
-      "learning_rate": 4.2020005248331056e-06,
-      "loss": 2.0857,
-      "step": 280
-    },
-    {
-      "epoch": 0.48376830044557606,
-      "grad_norm": 0.9787421226501465,
-      "learning_rate": 4.04420685649314e-06,
-      "loss": 2.1471,
-      "step": 285
-    },
-    {
-      "epoch": 0.4922554636112879,
-      "grad_norm": 1.1793596744537354,
-      "learning_rate": 3.887395330218429e-06,
-      "loss": 2.0992,
-      "step": 290
-    },
-    {
-      "epoch": 0.5007426267769998,
-      "grad_norm": 1.0962886810302734,
-      "learning_rate": 3.731727080452464e-06,
-      "loss": 1.9355,
-      "step": 295
-    },
-    {
-      "epoch": 0.5092297899427116,
-      "grad_norm": 0.9063106179237366,
-      "learning_rate": 3.5773620668448384e-06,
-      "loss": 2.0345,
-      "step": 300
-    },
-    {
-      "epoch": 0.5177169531084235,
-      "grad_norm": 0.955984354019165,
-      "learning_rate": 3.424458909881897e-06,
-      "loss": 2.0773,
-      "step": 305
-    },
-    {
-      "epoch": 0.5262041162741353,
-      "grad_norm": 0.8287053108215332,
-      "learning_rate": 3.273174727893463e-06,
-      "loss": 2.0267,
-      "step": 310
-    },
-    {
-      "epoch": 0.5346912794398472,
-      "grad_norm": 1.228607416152954,
-      "learning_rate": 3.12366497560313e-06,
-      "loss": 2.1409,
-      "step": 315
-    },
-    {
-      "epoch": 0.5431784426055591,
-      "grad_norm": 0.823341965675354,
-      "learning_rate": 2.976083284388031e-06,
-      "loss": 2.4237,
-      "step": 320
-    },
-    {
-      "epoch": 0.551665605771271,
-      "grad_norm": 1.032359004020691,
-      "learning_rate": 2.83058130441221e-06,
-      "loss": 2.2527,
-      "step": 325
-    },
-    {
-      "epoch": 0.5601527689369828,
-      "grad_norm": 1.1261106729507446,
-      "learning_rate": 2.687308548795825e-06,
-      "loss": 2.0518,
-      "step": 330
-    },
-    {
-      "epoch": 0.5686399321026947,
-      "grad_norm": 1.1350051164627075,
-      "learning_rate": 2.5464122399803126e-06,
-      "loss": 2.02,
-      "step": 335
-    },
-    {
-      "epoch": 0.5771270952684066,
-      "grad_norm": 0.5946178436279297,
-      "learning_rate": 2.408037158447375e-06,
-      "loss": 2.3448,
-      "step": 340
-    },
-    {
-      "epoch": 0.5856142584341184,
-      "grad_norm": 0.8627076148986816,
-      "learning_rate": 2.272325493947257e-06,
-      "loss": 2.1151,
-      "step": 345
-    },
-    {
-      "epoch": 0.5941014215998303,
-      "grad_norm": 0.7735455632209778,
-      "learning_rate": 2.139416699389153e-06,
-      "loss": 2.2088,
-      "step": 350
-    },
-    {
-      "epoch": 0.6025885847655421,
-      "grad_norm": 1.1364538669586182,
-      "learning_rate": 2.00944734754392e-06,
-      "loss": 2.2205,
-      "step": 355
-    },
-    {
-      "epoch": 0.611075747931254,
-      "grad_norm": 0.9770228862762451,
-      "learning_rate": 1.8825509907063328e-06,
-      "loss": 2.0885,
-      "step": 360
-    },
-    {
-      "epoch": 0.6195629110969658,
-      "grad_norm": 1.0555680990219116,
-      "learning_rate": 1.7588580234610592e-06,
-      "loss": 1.9825,
-      "step": 365
-    },
-    {
-      "epoch": 0.6280500742626777,
-      "grad_norm": 1.0218920707702637,
-      "learning_rate": 1.6384955486934157e-06,
-      "loss": 2.1847,
-      "step": 370
-    },
-    {
-      "epoch": 0.6365372374283895,
-      "grad_norm": 1.1606744527816772,
-      "learning_rate": 1.5215872469825682e-06,
-      "loss": 2.0574,
-      "step": 375
     }
   ],
   "logging_steps": 5,
   "max_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 125,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -567,7 +241,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.190802534432768e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.21727137704222363,
+  "eval_steps": 32,
+  "global_step": 128,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.001697432633142372,
       "eval_loss": 2.4177019596099854,
+      "eval_runtime": 13.7299,
+      "eval_samples_per_second": 18.136,
+      "eval_steps_per_second": 18.136,
       "step": 1
     },
     {
       "epoch": 0.008487163165711862,
+      "grad_norm": 0.5580189228057861,
       "learning_rate": 5e-06,
+      "loss": 2.0835,
       "step": 5
     },
     {
       "epoch": 0.016974326331423723,
+      "grad_norm": 0.5617932081222534,
       "learning_rate": 1e-05,
       "loss": 2.3638,
       "step": 10
     },
     {
       "epoch": 0.025461489497135583,
+      "grad_norm": 0.637174129486084,
       "learning_rate": 9.99743108100344e-06,
+      "loss": 2.3443,
       "step": 15
     },
     {
       "epoch": 0.033948652662847446,
+      "grad_norm": 0.7906777858734131,
       "learning_rate": 9.989726963751683e-06,
+      "loss": 2.4875,
       "step": 20
     },
     {
       "epoch": 0.042435815828559306,
+      "grad_norm": 0.7220119833946228,
       "learning_rate": 9.976895564745993e-06,
+      "loss": 2.2905,
       "step": 25
     },
     {
       "epoch": 0.050922978994271166,
+      "grad_norm": 0.4569860100746155,
       "learning_rate": 9.95895006911623e-06,
+      "loss": 2.8207,
       "step": 30
     },
+    {
+      "epoch": 0.05431784426055591,
+      "eval_loss": 2.396263599395752,
+      "eval_runtime": 13.7534,
+      "eval_samples_per_second": 18.105,
+      "eval_steps_per_second": 18.105,
+      "step": 32
+    },
     {
       "epoch": 0.059410142159983026,
+      "grad_norm": 0.5562223196029663,
       "learning_rate": 9.935908917072253e-06,
+      "loss": 2.3774,
       "step": 35
     },
     {
       "epoch": 0.06789730532569489,
+      "grad_norm": 0.8851813077926636,
       "learning_rate": 9.907795784955327e-06,
+      "loss": 2.3059,
       "step": 40
     },
     {
       "epoch": 0.07638446849140675,
+      "grad_norm": 0.8263425827026367,
       "learning_rate": 9.874639560909118e-06,
+      "loss": 2.2858,
       "step": 45
     },
     {
       "epoch": 0.08487163165711861,
+      "grad_norm": 0.9496198296546936,
       "learning_rate": 9.836474315195148e-06,
+      "loss": 2.2606,
       "step": 50
     },
     {
       "epoch": 0.09335879482283047,
+      "grad_norm": 0.8389888405799866,
       "learning_rate": 9.793339265183303e-06,
+      "loss": 2.4757,
       "step": 55
     },
     {
       "epoch": 0.10184595798854233,
+      "grad_norm": 0.9090803861618042,
       "learning_rate": 9.745278735053345e-06,
+      "loss": 2.2428,
       "step": 60
     },
+    {
+      "epoch": 0.10863568852111181,
+      "eval_loss": 2.3315982818603516,
+      "eval_runtime": 13.995,
+      "eval_samples_per_second": 17.792,
+      "eval_steps_per_second": 17.792,
+      "step": 64
+    },
     {
       "epoch": 0.11033312115425419,
+      "grad_norm": 0.8944710493087769,
       "learning_rate": 9.692342110248802e-06,
+      "loss": 2.361,
       "step": 65
     },
     {
       "epoch": 0.11882028431996605,
+      "grad_norm": 0.8705277442932129,
       "learning_rate": 9.63458378673011e-06,
+      "loss": 2.2061,
       "step": 70
     },
     {
       "epoch": 0.1273074474856779,
+      "grad_norm": 1.0183981657028198,
       "learning_rate": 9.572063115079063e-06,
+      "loss": 2.3014,
       "step": 75
     },
     {
       "epoch": 0.13579461065138979,
+      "grad_norm": 0.9694010615348816,
       "learning_rate": 9.504844339512096e-06,
+      "loss": 2.4273,
       "step": 80
     },
     {
       "epoch": 0.14428177381710164,
+      "grad_norm": 0.6600094437599182,
       "learning_rate": 9.432996531865001e-06,
+      "loss": 2.2039,
       "step": 85
     },
     {
       "epoch": 0.1527689369828135,
+      "grad_norm": 1.437016487121582,
       "learning_rate": 9.356593520616948e-06,
+      "loss": 2.4129,
       "step": 90
     },
     {
       "epoch": 0.16125610014852534,
+      "grad_norm": 1.1358604431152344,
       "learning_rate": 9.275713815026732e-06,
+      "loss": 2.2346,
       "step": 95
     },
+    {
+      "epoch": 0.16295353278166771,
+      "eval_loss": 2.2801592350006104,
+      "eval_runtime": 14.3531,
+      "eval_samples_per_second": 17.348,
+      "eval_steps_per_second": 17.348,
+      "step": 96
+    },
     {
       "epoch": 0.16974326331423722,
+      "grad_norm": 0.8347494006156921,
       "learning_rate": 9.190440524459203e-06,
+      "loss": 2.5003,
       "step": 100
     },
     {
       "epoch": 0.17823042647994908,
+      "grad_norm": 0.9528422355651855,
       "learning_rate": 9.10086127298478e-06,
+      "loss": 2.2398,
       "step": 105
     },
     {
       "epoch": 0.18671758964566093,
+      "grad_norm": 0.7451781630516052,
       "learning_rate": 9.007068109339783e-06,
+      "loss": 2.253,
       "step": 110
     },
     {
       "epoch": 0.1952047528113728,
+      "grad_norm": 0.6891763210296631,
       "learning_rate": 8.90915741234015e-06,
+      "loss": 2.0703,
       "step": 115
     },
     {
       "epoch": 0.20369191597708466,
+      "grad_norm": 0.7363041639328003,
       "learning_rate": 8.807229791845673e-06,
+      "loss": 2.3083,
       "step": 120
     },
     {
       "epoch": 0.21217907914279652,
+      "grad_norm": 0.7747501730918884,
       "learning_rate": 8.701389985376578e-06,
+      "loss": 2.2058,
       "step": 125
     },
     {
+      "epoch": 0.21727137704222363,
+      "eval_loss": 2.245945692062378,
+      "eval_runtime": 14.3131,
+      "eval_samples_per_second": 17.397,
+      "eval_steps_per_second": 17.397,
+      "step": 128
     }
   ],
   "logging_steps": 5,
   "max_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 16,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 4073485919846400.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38f78d4323ef233534399aab0b37c291dc3254cb806a9a78ab7e35d1f4316915
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e902904bbfeafcf7200b04696313449326cdab359ba6c8339db9eada6e4a62e
 size 6776