StressTech/vedt-lg

Browse files

Files changed (4) hide show

all_results.json +11 -11
eval_results.json +7 -7
train_results.json +4 -4
trainer_state.json +160 -160

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
     "epoch": 4.98,
-    "eval_accuracy": 0.94,
-    "eval_f1": 0.95,
-    "eval_loss": 0.1643325686454773,
-    "eval_roc_auc": 0.96,
-    "eval_runtime": 251.2629,
-    "eval_samples_per_second": 2.754,
-    "eval_steps_per_second": 0.175,
-    "train_loss": 0.2953212790801877,
-    "train_runtime": 23053.216,
-    "train_samples_per_second": 0.849,
-    "train_steps_per_second": 0.026
 }

 {
     "epoch": 4.98,
+    "eval_accuracy": 0.92,
+    "eval_f1": 0.93,
+    "eval_loss": 0.18165849149227142,
+    "eval_roc_auc": 0.95,
+    "eval_runtime": 267.8594,
+    "eval_samples_per_second": 2.583,
+    "eval_steps_per_second": 0.164,
+    "train_loss": 0.31025831718913843,
+    "train_runtime": 21358.5627,
+    "train_samples_per_second": 0.916,
+    "train_steps_per_second": 0.029
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 4.98,
-    "eval_accuracy": 0.94,
-    "eval_f1": 0.95,
-    "eval_loss": 0.1643325686454773,
-    "eval_roc_auc": 0.96,
-    "eval_runtime": 251.2629,
-    "eval_samples_per_second": 2.754,
-    "eval_steps_per_second": 0.175
 }

 {
     "epoch": 4.98,
+    "eval_accuracy": 0.92,
+    "eval_f1": 0.93,
+    "eval_loss": 0.18165849149227142,
+    "eval_roc_auc": 0.95,
+    "eval_runtime": 267.8594,
+    "eval_samples_per_second": 2.583,
+    "eval_steps_per_second": 0.164
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 4.98,
-    "train_loss": 0.2953212790801877,
-    "train_runtime": 23053.216,
-    "train_samples_per_second": 0.849,
-    "train_steps_per_second": 0.026
 }

 {
     "epoch": 4.98,
+    "train_loss": 0.31025831718913843,
+    "train_runtime": 21358.5627,
+    "train_samples_per_second": 0.916,
+    "train_steps_per_second": 0.029
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.94,
   "best_model_checkpoint": "vedt-lg/checkpoint-610",
   "epoch": 4.979591836734694,
   "eval_steps": 500,
@@ -10,494 +10,494 @@
   "log_history": [
     {
       "epoch": 0.08,
-      "grad_norm": 0.6926315426826477,
       "learning_rate": 8.196721311475409e-06,
-      "loss": 0.6858,
       "step": 10
     },
     {
       "epoch": 0.16,
-      "grad_norm": 0.6380481123924255,
       "learning_rate": 1.6393442622950818e-05,
-      "loss": 0.6122,
       "step": 20
     },
     {
       "epoch": 0.24,
-      "grad_norm": 0.44903865456581116,
       "learning_rate": 2.459016393442623e-05,
-      "loss": 0.5935,
       "step": 30
     },
     {
       "epoch": 0.33,
-      "grad_norm": 0.1756860464811325,
       "learning_rate": 3.2786885245901635e-05,
-      "loss": 0.5547,
       "step": 40
     },
     {
       "epoch": 0.41,
-      "grad_norm": 0.43841540813446045,
       "learning_rate": 4.098360655737705e-05,
-      "loss": 0.5486,
       "step": 50
     },
     {
       "epoch": 0.49,
-      "grad_norm": 0.3223252296447754,
       "learning_rate": 4.918032786885246e-05,
-      "loss": 0.5816,
       "step": 60
     },
     {
       "epoch": 0.57,
-      "grad_norm": 0.42403605580329895,
       "learning_rate": 4.918032786885246e-05,
-      "loss": 0.5797,
       "step": 70
     },
     {
       "epoch": 0.65,
-      "grad_norm": 0.6035967469215393,
       "learning_rate": 4.8269581056466304e-05,
-      "loss": 0.5587,
       "step": 80
     },
     {
       "epoch": 0.73,
-      "grad_norm": 0.6372044086456299,
       "learning_rate": 4.7358834244080144e-05,
-      "loss": 0.548,
       "step": 90
     },
     {
       "epoch": 0.82,
-      "grad_norm": 0.5376227498054504,
       "learning_rate": 4.644808743169399e-05,
-      "loss": 0.5741,
       "step": 100
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.5992793440818787,
       "learning_rate": 4.553734061930783e-05,
-      "loss": 0.5331,
       "step": 110
     },
     {
       "epoch": 0.98,
-      "grad_norm": 0.6592369675636292,
       "learning_rate": 4.462659380692168e-05,
-      "loss": 0.523,
       "step": 120
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.45,
       "eval_f1": 0.53,
-      "eval_loss": 0.5291920304298401,
       "eval_roc_auc": 0.67,
-      "eval_runtime": 308.9689,
-      "eval_samples_per_second": 2.24,
-      "eval_steps_per_second": 0.142,
       "step": 122
     },
     {
       "epoch": 1.06,
-      "grad_norm": 0.5247851610183716,
       "learning_rate": 4.371584699453552e-05,
-      "loss": 0.508,
       "step": 130
     },
     {
       "epoch": 1.14,
-      "grad_norm": 0.6510629653930664,
       "learning_rate": 4.280510018214937e-05,
-      "loss": 0.5039,
       "step": 140
     },
     {
       "epoch": 1.22,
-      "grad_norm": 0.8890066146850586,
       "learning_rate": 4.189435336976321e-05,
-      "loss": 0.5184,
       "step": 150
     },
     {
       "epoch": 1.31,
-      "grad_norm": 1.0160518884658813,
       "learning_rate": 4.098360655737705e-05,
-      "loss": 0.4992,
       "step": 160
     },
     {
       "epoch": 1.39,
-      "grad_norm": 1.0044326782226562,
       "learning_rate": 4.007285974499089e-05,
-      "loss": 0.4835,
       "step": 170
     },
     {
       "epoch": 1.47,
-      "grad_norm": 1.259665846824646,
       "learning_rate": 3.916211293260474e-05,
-      "loss": 0.4324,
       "step": 180
     },
     {
       "epoch": 1.55,
-      "grad_norm": 1.2308465242385864,
       "learning_rate": 3.825136612021858e-05,
-      "loss": 0.4026,
       "step": 190
     },
     {
       "epoch": 1.63,
-      "grad_norm": 1.2136099338531494,
       "learning_rate": 3.7340619307832425e-05,
-      "loss": 0.4163,
       "step": 200
     },
     {
       "epoch": 1.71,
-      "grad_norm": 1.1175576448440552,
       "learning_rate": 3.6429872495446266e-05,
-      "loss": 0.3774,
       "step": 210
     },
     {
       "epoch": 1.8,
-      "grad_norm": 2.0764663219451904,
       "learning_rate": 3.551912568306011e-05,
-      "loss": 0.366,
       "step": 220
     },
     {
       "epoch": 1.88,
-      "grad_norm": 1.3543003797531128,
       "learning_rate": 3.4608378870673954e-05,
-      "loss": 0.332,
       "step": 230
     },
     {
       "epoch": 1.96,
-      "grad_norm": 2.1058902740478516,
       "learning_rate": 3.36976320582878e-05,
-      "loss": 0.3308,
       "step": 240
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.79,
-      "eval_f1": 0.82,
-      "eval_loss": 0.33306625485420227,
-      "eval_roc_auc": 0.86,
-      "eval_runtime": 252.3349,
-      "eval_samples_per_second": 2.742,
-      "eval_steps_per_second": 0.174,
       "step": 245
     },
     {
       "epoch": 2.04,
-      "grad_norm": 1.6840165853500366,
       "learning_rate": 3.2786885245901635e-05,
-      "loss": 0.292,
       "step": 250
     },
     {
       "epoch": 2.12,
-      "grad_norm": 1.5220506191253662,
       "learning_rate": 3.187613843351548e-05,
-      "loss": 0.2798,
       "step": 260
     },
     {
       "epoch": 2.2,
-      "grad_norm": 1.846103310585022,
       "learning_rate": 3.096539162112932e-05,
-      "loss": 0.2568,
       "step": 270
     },
     {
       "epoch": 2.29,
-      "grad_norm": 1.4235060214996338,
       "learning_rate": 3.005464480874317e-05,
-      "loss": 0.2553,
       "step": 280
     },
     {
       "epoch": 2.37,
-      "grad_norm": 0.7757242918014526,
       "learning_rate": 2.9143897996357018e-05,
-      "loss": 0.2266,
       "step": 290
     },
     {
       "epoch": 2.45,
-      "grad_norm": 0.7044312357902527,
       "learning_rate": 2.823315118397086e-05,
-      "loss": 0.2444,
       "step": 300
     },
     {
       "epoch": 2.53,
-      "grad_norm": 1.387548565864563,
       "learning_rate": 2.7322404371584703e-05,
-      "loss": 0.2519,
       "step": 310
     },
     {
       "epoch": 2.61,
-      "grad_norm": 1.388034462928772,
       "learning_rate": 2.6411657559198543e-05,
-      "loss": 0.2271,
       "step": 320
     },
     {
       "epoch": 2.69,
-      "grad_norm": 1.846086859703064,
       "learning_rate": 2.550091074681239e-05,
-      "loss": 0.2093,
       "step": 330
     },
     {
       "epoch": 2.78,
-      "grad_norm": 0.7766602039337158,
       "learning_rate": 2.459016393442623e-05,
-      "loss": 0.2211,
       "step": 340
     },
     {
       "epoch": 2.86,
-      "grad_norm": 0.8391594290733337,
       "learning_rate": 2.3679417122040072e-05,
-      "loss": 0.204,
       "step": 350
     },
     {
       "epoch": 2.94,
-      "grad_norm": 2.0943243503570557,
       "learning_rate": 2.2768670309653916e-05,
-      "loss": 0.1989,
       "step": 360
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9,
-      "eval_f1": 0.91,
-      "eval_loss": 0.22652386128902435,
-      "eval_roc_auc": 0.93,
-      "eval_runtime": 245.4746,
-      "eval_samples_per_second": 2.819,
-      "eval_steps_per_second": 0.179,
       "step": 367
     },
     {
       "epoch": 3.02,
-      "grad_norm": 1.7276263236999512,
       "learning_rate": 2.185792349726776e-05,
-      "loss": 0.189,
       "step": 370
     },
     {
       "epoch": 3.1,
-      "grad_norm": 0.5598946809768677,
       "learning_rate": 2.0947176684881604e-05,
-      "loss": 0.1644,
       "step": 380
     },
     {
       "epoch": 3.18,
-      "grad_norm": 0.7145459651947021,
       "learning_rate": 2.0036429872495445e-05,
-      "loss": 0.139,
       "step": 390
     },
     {
       "epoch": 3.27,
-      "grad_norm": 1.7051069736480713,
       "learning_rate": 1.912568306010929e-05,
-      "loss": 0.136,
       "step": 400
     },
     {
       "epoch": 3.35,
-      "grad_norm": 0.9204809665679932,
       "learning_rate": 1.8214936247723133e-05,
-      "loss": 0.1481,
       "step": 410
     },
     {
       "epoch": 3.43,
-      "grad_norm": 0.36123162508010864,
       "learning_rate": 1.7304189435336977e-05,
-      "loss": 0.1329,
       "step": 420
     },
     {
       "epoch": 3.51,
-      "grad_norm": 1.1382514238357544,
       "learning_rate": 1.6393442622950818e-05,
-      "loss": 0.1317,
       "step": 430
     },
     {
       "epoch": 3.59,
-      "grad_norm": 0.461958110332489,
       "learning_rate": 1.548269581056466e-05,
-      "loss": 0.1353,
       "step": 440
     },
     {
       "epoch": 3.67,
-      "grad_norm": 0.41453880071640015,
       "learning_rate": 1.4571948998178509e-05,
-      "loss": 0.1446,
       "step": 450
     },
     {
       "epoch": 3.76,
-      "grad_norm": 0.7464944124221802,
       "learning_rate": 1.3661202185792351e-05,
-      "loss": 0.1263,
       "step": 460
     },
     {
       "epoch": 3.84,
-      "grad_norm": 3.2197680473327637,
       "learning_rate": 1.2750455373406195e-05,
-      "loss": 0.1328,
       "step": 470
     },
     {
       "epoch": 3.92,
-      "grad_norm": 1.6838792562484741,
       "learning_rate": 1.1839708561020036e-05,
-      "loss": 0.13,
       "step": 480
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.1785459518432617,
       "learning_rate": 1.092896174863388e-05,
-      "loss": 0.1182,
       "step": 490
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.92,
-      "eval_f1": 0.92,
-      "eval_loss": 0.19490335881710052,
-      "eval_roc_auc": 0.94,
-      "eval_runtime": 244.4085,
-      "eval_samples_per_second": 2.831,
-      "eval_steps_per_second": 0.18,
       "step": 490
     },
     {
       "epoch": 4.08,
-      "grad_norm": 1.0171513557434082,
       "learning_rate": 1.0018214936247722e-05,
-      "loss": 0.1215,
       "step": 500
     },
     {
       "epoch": 4.16,
-      "grad_norm": 0.2800655961036682,
       "learning_rate": 9.107468123861566e-06,
-      "loss": 0.1079,
       "step": 510
     },
     {
       "epoch": 4.24,
-      "grad_norm": 0.21738438308238983,
       "learning_rate": 8.196721311475409e-06,
-      "loss": 0.1035,
       "step": 520
     },
     {
       "epoch": 4.33,
-      "grad_norm": 1.4126193523406982,
       "learning_rate": 7.2859744990892545e-06,
-      "loss": 0.0983,
       "step": 530
     },
     {
       "epoch": 4.41,
-      "grad_norm": 0.337568074464798,
       "learning_rate": 6.375227686703098e-06,
-      "loss": 0.097,
       "step": 540
     },
     {
       "epoch": 4.49,
-      "grad_norm": 0.7930494546890259,
       "learning_rate": 5.46448087431694e-06,
-      "loss": 0.0995,
       "step": 550
     },
     {
       "epoch": 4.57,
-      "grad_norm": 3.2153773307800293,
       "learning_rate": 4.553734061930783e-06,
-      "loss": 0.1041,
       "step": 560
     },
     {
       "epoch": 4.65,
-      "grad_norm": 0.3979400098323822,
       "learning_rate": 3.6429872495446273e-06,
-      "loss": 0.1106,
       "step": 570
     },
     {
       "epoch": 4.73,
-      "grad_norm": 0.2404131442308426,
       "learning_rate": 2.73224043715847e-06,
-      "loss": 0.1115,
       "step": 580
     },
     {
       "epoch": 4.82,
-      "grad_norm": 2.076061248779297,
       "learning_rate": 1.8214936247723136e-06,
-      "loss": 0.1026,
       "step": 590
     },
     {
       "epoch": 4.9,
-      "grad_norm": 0.37801551818847656,
       "learning_rate": 9.107468123861568e-07,
-      "loss": 0.1055,
       "step": 600
     },
     {
       "epoch": 4.98,
-      "grad_norm": 0.21578004956245422,
       "learning_rate": 0.0,
-      "loss": 0.0936,
       "step": 610
     },
     {
       "epoch": 4.98,
-      "eval_accuracy": 0.94,
-      "eval_f1": 0.95,
-      "eval_loss": 0.1643325686454773,
-      "eval_roc_auc": 0.96,
-      "eval_runtime": 246.0383,
-      "eval_samples_per_second": 2.813,
-      "eval_steps_per_second": 0.179,
       "step": 610
     },
     {
       "epoch": 4.98,
       "step": 610,
       "total_flos": 1.511107340940288e+18,
-      "train_loss": 0.2953212790801877,
-      "train_runtime": 23053.216,
-      "train_samples_per_second": 0.849,
-      "train_steps_per_second": 0.026
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.92,
   "best_model_checkpoint": "vedt-lg/checkpoint-610",
   "epoch": 4.979591836734694,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.08,
+      "grad_norm": 0.682578980922699,
       "learning_rate": 8.196721311475409e-06,
+      "loss": 0.6807,
       "step": 10
     },
     {
       "epoch": 0.16,
+      "grad_norm": 0.5046971440315247,
       "learning_rate": 1.6393442622950818e-05,
+      "loss": 0.6364,
       "step": 20
     },
     {
       "epoch": 0.24,
+      "grad_norm": 0.33521437644958496,
       "learning_rate": 2.459016393442623e-05,
+      "loss": 0.5854,
       "step": 30
     },
     {
       "epoch": 0.33,
+      "grad_norm": 0.43238601088523865,
       "learning_rate": 3.2786885245901635e-05,
+      "loss": 0.5798,
       "step": 40
     },
     {
       "epoch": 0.41,
+      "grad_norm": 0.4953717291355133,
       "learning_rate": 4.098360655737705e-05,
+      "loss": 0.566,
       "step": 50
     },
     {
       "epoch": 0.49,
+      "grad_norm": 0.2957334816455841,
       "learning_rate": 4.918032786885246e-05,
+      "loss": 0.57,
       "step": 60
     },
     {
       "epoch": 0.57,
+      "grad_norm": 0.5350973010063171,
       "learning_rate": 4.918032786885246e-05,
+      "loss": 0.5502,
       "step": 70
     },
     {
       "epoch": 0.65,
+      "grad_norm": 0.4942874312400818,
       "learning_rate": 4.8269581056466304e-05,
+      "loss": 0.5717,
       "step": 80
     },
     {
       "epoch": 0.73,
+      "grad_norm": 0.6144607067108154,
       "learning_rate": 4.7358834244080144e-05,
+      "loss": 0.5507,
       "step": 90
     },
     {
       "epoch": 0.82,
+      "grad_norm": 0.5439937710762024,
       "learning_rate": 4.644808743169399e-05,
+      "loss": 0.5512,
       "step": 100
     },
     {
       "epoch": 0.9,
+      "grad_norm": 1.0248185396194458,
       "learning_rate": 4.553734061930783e-05,
+      "loss": 0.5299,
       "step": 110
     },
     {
       "epoch": 0.98,
+      "grad_norm": 0.7169288992881775,
       "learning_rate": 4.462659380692168e-05,
+      "loss": 0.5369,
       "step": 120
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.41,
       "eval_f1": 0.53,
+      "eval_loss": 0.5338725447654724,
       "eval_roc_auc": 0.67,
+      "eval_runtime": 232.797,
+      "eval_samples_per_second": 2.973,
+      "eval_steps_per_second": 0.189,
       "step": 122
     },
     {
       "epoch": 1.06,
+      "grad_norm": 0.40648889541625977,
       "learning_rate": 4.371584699453552e-05,
+      "loss": 0.5107,
       "step": 130
     },
     {
       "epoch": 1.14,
+      "grad_norm": 0.8224670886993408,
       "learning_rate": 4.280510018214937e-05,
+      "loss": 0.5076,
       "step": 140
     },
     {
       "epoch": 1.22,
+      "grad_norm": 1.0490410327911377,
       "learning_rate": 4.189435336976321e-05,
+      "loss": 0.4701,
       "step": 150
     },
     {
       "epoch": 1.31,
+      "grad_norm": 0.9794094562530518,
       "learning_rate": 4.098360655737705e-05,
+      "loss": 0.4728,
       "step": 160
     },
     {
       "epoch": 1.39,
+      "grad_norm": 1.6970316171646118,
       "learning_rate": 4.007285974499089e-05,
+      "loss": 0.4583,
       "step": 170
     },
     {
       "epoch": 1.47,
+      "grad_norm": 0.9203856587409973,
       "learning_rate": 3.916211293260474e-05,
+      "loss": 0.4424,
       "step": 180
     },
     {
       "epoch": 1.55,
+      "grad_norm": 1.466894507408142,
       "learning_rate": 3.825136612021858e-05,
+      "loss": 0.4705,
       "step": 190
     },
     {
       "epoch": 1.63,
+      "grad_norm": 1.467274785041809,
       "learning_rate": 3.7340619307832425e-05,
+      "loss": 0.3944,
       "step": 200
     },
     {
       "epoch": 1.71,
+      "grad_norm": 2.0932650566101074,
       "learning_rate": 3.6429872495446266e-05,
+      "loss": 0.4124,
       "step": 210
     },
     {
       "epoch": 1.8,
+      "grad_norm": 1.7254140377044678,
       "learning_rate": 3.551912568306011e-05,
+      "loss": 0.3879,
       "step": 220
     },
     {
       "epoch": 1.88,
+      "grad_norm": 1.5929466485977173,
       "learning_rate": 3.4608378870673954e-05,
+      "loss": 0.3973,
       "step": 230
     },
     {
       "epoch": 1.96,
+      "grad_norm": 1.1917792558670044,
       "learning_rate": 3.36976320582878e-05,
+      "loss": 0.3995,
       "step": 240
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.73,
+      "eval_f1": 0.8,
+      "eval_loss": 0.35908573865890503,
+      "eval_roc_auc": 0.84,
+      "eval_runtime": 233.574,
+      "eval_samples_per_second": 2.963,
+      "eval_steps_per_second": 0.188,
       "step": 245
     },
     {
       "epoch": 2.04,
+      "grad_norm": 1.0108511447906494,
       "learning_rate": 3.2786885245901635e-05,
+      "loss": 0.3515,
       "step": 250
     },
     {
       "epoch": 2.12,
+      "grad_norm": 2.756605386734009,
       "learning_rate": 3.187613843351548e-05,
+      "loss": 0.3185,
       "step": 260
     },
     {
       "epoch": 2.2,
+      "grad_norm": 1.808558702468872,
       "learning_rate": 3.096539162112932e-05,
+      "loss": 0.2923,
       "step": 270
     },
     {
       "epoch": 2.29,
+      "grad_norm": 2.1279032230377197,
       "learning_rate": 3.005464480874317e-05,
+      "loss": 0.3079,
       "step": 280
     },
     {
       "epoch": 2.37,
+      "grad_norm": 2.7758231163024902,
       "learning_rate": 2.9143897996357018e-05,
+      "loss": 0.2895,
       "step": 290
     },
     {
       "epoch": 2.45,
+      "grad_norm": 3.106663465499878,
       "learning_rate": 2.823315118397086e-05,
+      "loss": 0.2637,
       "step": 300
     },
     {
       "epoch": 2.53,
+      "grad_norm": 2.2975656986236572,
       "learning_rate": 2.7322404371584703e-05,
+      "loss": 0.2647,
       "step": 310
     },
     {
       "epoch": 2.61,
+      "grad_norm": 2.8662543296813965,
       "learning_rate": 2.6411657559198543e-05,
+      "loss": 0.2605,
       "step": 320
     },
     {
       "epoch": 2.69,
+      "grad_norm": 1.3953065872192383,
       "learning_rate": 2.550091074681239e-05,
+      "loss": 0.2555,
       "step": 330
     },
     {
       "epoch": 2.78,
+      "grad_norm": 1.7778942584991455,
       "learning_rate": 2.459016393442623e-05,
+      "loss": 0.2632,
       "step": 340
     },
     {
       "epoch": 2.86,
+      "grad_norm": 1.884192943572998,
       "learning_rate": 2.3679417122040072e-05,
+      "loss": 0.2273,
       "step": 350
     },
     {
       "epoch": 2.94,
+      "grad_norm": 1.6550705432891846,
       "learning_rate": 2.2768670309653916e-05,
+      "loss": 0.2357,
       "step": 360
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.88,
+      "eval_f1": 0.89,
+      "eval_loss": 0.24918493628501892,
+      "eval_roc_auc": 0.92,
+      "eval_runtime": 229.7594,
+      "eval_samples_per_second": 3.012,
+      "eval_steps_per_second": 0.192,
       "step": 367
     },
     {
       "epoch": 3.02,
+      "grad_norm": 2.5777928829193115,
       "learning_rate": 2.185792349726776e-05,
+      "loss": 0.2088,
       "step": 370
     },
     {
       "epoch": 3.1,
+      "grad_norm": 0.8032457232475281,
       "learning_rate": 2.0947176684881604e-05,
+      "loss": 0.1768,
       "step": 380
     },
     {
       "epoch": 3.18,
+      "grad_norm": 0.6953706741333008,
       "learning_rate": 2.0036429872495445e-05,
+      "loss": 0.1507,
       "step": 390
     },
     {
       "epoch": 3.27,
+      "grad_norm": 2.908647060394287,
       "learning_rate": 1.912568306010929e-05,
+      "loss": 0.158,
       "step": 400
     },
     {
       "epoch": 3.35,
+      "grad_norm": 0.8021059036254883,
       "learning_rate": 1.8214936247723133e-05,
+      "loss": 0.1645,
       "step": 410
     },
     {
       "epoch": 3.43,
+      "grad_norm": 0.3419005274772644,
       "learning_rate": 1.7304189435336977e-05,
+      "loss": 0.1502,
       "step": 420
     },
     {
       "epoch": 3.51,
+      "grad_norm": 1.2981460094451904,
       "learning_rate": 1.6393442622950818e-05,
+      "loss": 0.1494,
       "step": 430
     },
     {
       "epoch": 3.59,
+      "grad_norm": 1.8636257648468018,
       "learning_rate": 1.548269581056466e-05,
+      "loss": 0.1536,
       "step": 440
     },
     {
       "epoch": 3.67,
+      "grad_norm": 2.633089780807495,
       "learning_rate": 1.4571948998178509e-05,
+      "loss": 0.1471,
       "step": 450
     },
     {
       "epoch": 3.76,
+      "grad_norm": 0.5719029903411865,
       "learning_rate": 1.3661202185792351e-05,
+      "loss": 0.1278,
       "step": 460
     },
     {
       "epoch": 3.84,
+      "grad_norm": 0.7035483121871948,
       "learning_rate": 1.2750455373406195e-05,
+      "loss": 0.1415,
       "step": 470
     },
     {
       "epoch": 3.92,
+      "grad_norm": 2.4820892810821533,
       "learning_rate": 1.1839708561020036e-05,
+      "loss": 0.1419,
       "step": 480
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.7846884727478027,
       "learning_rate": 1.092896174863388e-05,
+      "loss": 0.1409,
       "step": 490
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9,
+      "eval_f1": 0.91,
+      "eval_loss": 0.20149800181388855,
+      "eval_roc_auc": 0.93,
+      "eval_runtime": 234.0099,
+      "eval_samples_per_second": 2.957,
+      "eval_steps_per_second": 0.188,
       "step": 490
     },
     {
       "epoch": 4.08,
+      "grad_norm": 1.5027194023132324,
       "learning_rate": 1.0018214936247722e-05,
+      "loss": 0.1238,
       "step": 500
     },
     {
       "epoch": 4.16,
+      "grad_norm": 0.26064255833625793,
       "learning_rate": 9.107468123861566e-06,
+      "loss": 0.1198,
       "step": 510
     },
     {
       "epoch": 4.24,
+      "grad_norm": 1.2067747116088867,
       "learning_rate": 8.196721311475409e-06,
+      "loss": 0.1172,
       "step": 520
     },
     {
       "epoch": 4.33,
+      "grad_norm": 1.3866766691207886,
       "learning_rate": 7.2859744990892545e-06,
+      "loss": 0.122,
       "step": 530
     },
     {
       "epoch": 4.41,
+      "grad_norm": 1.4562671184539795,
       "learning_rate": 6.375227686703098e-06,
+      "loss": 0.1041,
       "step": 540
     },
     {
       "epoch": 4.49,
+      "grad_norm": 0.4889439344406128,
       "learning_rate": 5.46448087431694e-06,
+      "loss": 0.1097,
       "step": 550
     },
     {
       "epoch": 4.57,
+      "grad_norm": 0.21975009143352509,
       "learning_rate": 4.553734061930783e-06,
+      "loss": 0.1122,
       "step": 560
     },
     {
       "epoch": 4.65,
+      "grad_norm": 0.25279122591018677,
       "learning_rate": 3.6429872495446273e-06,
+      "loss": 0.102,
       "step": 570
     },
     {
       "epoch": 4.73,
+      "grad_norm": 1.0802370309829712,
       "learning_rate": 2.73224043715847e-06,
+      "loss": 0.1086,
       "step": 580
     },
     {
       "epoch": 4.82,
+      "grad_norm": 0.4069725275039673,
       "learning_rate": 1.8214936247723136e-06,
+      "loss": 0.1145,
       "step": 590
     },
     {
       "epoch": 4.9,
+      "grad_norm": 1.47029709815979,
       "learning_rate": 9.107468123861568e-07,
+      "loss": 0.104,
       "step": 600
     },
     {
       "epoch": 4.98,
+      "grad_norm": 0.2243444174528122,
       "learning_rate": 0.0,
+      "loss": 0.1137,
       "step": 610
     },
     {
       "epoch": 4.98,
+      "eval_accuracy": 0.92,
+      "eval_f1": 0.93,
+      "eval_loss": 0.18165849149227142,
+      "eval_roc_auc": 0.95,
+      "eval_runtime": 241.8614,
+      "eval_samples_per_second": 2.861,
+      "eval_steps_per_second": 0.182,
       "step": 610
     },
     {
       "epoch": 4.98,
       "step": 610,
       "total_flos": 1.511107340940288e+18,
+      "train_loss": 0.31025831718913843,
+      "train_runtime": 21358.5627,
+      "train_samples_per_second": 0.916,
+      "train_steps_per_second": 0.029
     }
   ],
   "logging_steps": 10,