Training in progress, step 6000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77bdd07402c0fe434c587ece44b2edeb5f86258e2a03ca9d156a6d48b5150f65
 size 738367848

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee3ca4993c74fdba66a4a45cec937d889ea635d5a3363dbf41258ab3cdb82d1e
 size 738367848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cfa7170844cfd8c9e538ce6b712c134638973e02bcee820b7bd2a686a44027c
 size 1476823354

 version https://git-lfs.github.com/spec/v1
+oid sha256:703c818dd2c8e17f4fd71ce7085e8a08cd52a233c9ec0efa1da31b9b6249f59f
 size 1476823354

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5504b8d722b425f58bab6aedf9a43fc8129b02036307d31c7a21e224d2412ace
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b92a5a9232e10290e92a7ee43e17a65c2d7fd5bd9b7fae4a78bb653de6ff7f1e
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e555860fd7a2cfb8945f188f7232baf938ce622886881cc422b3eb0e7444eda4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:027e63f43c97b9a1e6e633ec27654b2d81e59843c5c61895f16184d95b5ecfce
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea0c272cf77c9504efaa077bfa8f9229d461c16d6641be0e57a7f20f9b761399
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ce4c5bab7dcc40e8eda0dabcca4b51013677ae4eb8d8b9aae51fdbac3ff5302
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:921e0812b510be6ea788fc2c6aa7541f3ff4eb1bb3dd7c230340a35d8e1e764b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b04fd2cdaec73d40bd342c2736426a28ca23cb93fea46275f9c93f0355e8e51
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3603a5403f0489f4be4d27720a0fa7e0fe0d08dbde5d58c1060cef37b9084d2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fb08899b31a5efc329181f0ecc59c2d36f1c1b6251e03bcab322df2bd5b23a5
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b9f685b83b5545cc2db9c29e88184590e89acb7836b4bb92a6a1df01b4bf43f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1f2ce10faab494375937f049ced3ce1d0fb669dd4ede3a5d75a6c0bc4eebe50
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5843202dd0ab5bc42fd0b6fa35e7cc2dca365d38fb379a2faf93bf274ef023e6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fb2fd90ebb124ea406837f497911487ba5c20d875615f6a03594328a7dafc26
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f72ffc2afb7672fc32ddd050c69181c2c0c16f8eac79a352eecb064fb5a9c7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:de98b2885a6933e6cd867d0a9af94f7453c3971e0017fa67668e1a0ca515fd9d
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10f98a9bf3c827b7f13510b7bc00db936ca6b0dcd935745bc447f03aae03112f
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:662f374a56de952606a2f764f88941c488163b14a1fd8282c0553ed7f96dbcfe
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.686035613870665,
   "eval_steps": 250,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3827,6 +3827,770 @@
       "eval_spearman_manhattan": 0.745568766414613,
       "eval_steps_per_second": 8.354,
       "step": 5000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.623242736644799,
   "eval_steps": 250,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.745568766414613,
       "eval_steps_per_second": 8.354,
       "step": 5000
+    },
+    {
+      "epoch": 4.695407685098407,
+      "grad_norm": 1.6077407598495483,
+      "learning_rate": 9.9633176646312e-06,
+      "loss": 0.0993,
+      "step": 5010
+    },
+    {
+      "epoch": 4.704779756326148,
+      "grad_norm": 1.206281065940857,
+      "learning_rate": 9.963244446396931e-06,
+      "loss": 0.082,
+      "step": 5020
+    },
+    {
+      "epoch": 4.71415182755389,
+      "grad_norm": 1.168562650680542,
+      "learning_rate": 9.963171228162662e-06,
+      "loss": 0.075,
+      "step": 5030
+    },
+    {
+      "epoch": 4.723523898781631,
+      "grad_norm": 1.0943313837051392,
+      "learning_rate": 9.963098009928394e-06,
+      "loss": 0.0907,
+      "step": 5040
+    },
+    {
+      "epoch": 4.7328959700093725,
+      "grad_norm": 1.1832613945007324,
+      "learning_rate": 9.963024791694125e-06,
+      "loss": 0.0776,
+      "step": 5050
+    },
+    {
+      "epoch": 4.742268041237113,
+      "grad_norm": 1.1568524837493896,
+      "learning_rate": 9.962951573459856e-06,
+      "loss": 0.0956,
+      "step": 5060
+    },
+    {
+      "epoch": 4.751640112464854,
+      "grad_norm": 1.4179660081863403,
+      "learning_rate": 9.962878355225586e-06,
+      "loss": 0.079,
+      "step": 5070
+    },
+    {
+      "epoch": 4.761012183692596,
+      "grad_norm": 1.56465744972229,
+      "learning_rate": 9.962805136991317e-06,
+      "loss": 0.0708,
+      "step": 5080
+    },
+    {
+      "epoch": 4.770384254920337,
+      "grad_norm": 1.47963547706604,
+      "learning_rate": 9.962731918757048e-06,
+      "loss": 0.0817,
+      "step": 5090
+    },
+    {
+      "epoch": 4.779756326148079,
+      "grad_norm": 1.4979149103164673,
+      "learning_rate": 9.962658700522779e-06,
+      "loss": 0.0859,
+      "step": 5100
+    },
+    {
+      "epoch": 4.78912839737582,
+      "grad_norm": 1.0254287719726562,
+      "learning_rate": 9.962585482288511e-06,
+      "loss": 0.077,
+      "step": 5110
+    },
+    {
+      "epoch": 4.798500468603561,
+      "grad_norm": 1.5644149780273438,
+      "learning_rate": 9.96251226405424e-06,
+      "loss": 0.0775,
+      "step": 5120
+    },
+    {
+      "epoch": 4.807872539831303,
+      "grad_norm": 1.2777773141860962,
+      "learning_rate": 9.962439045819971e-06,
+      "loss": 0.0734,
+      "step": 5130
+    },
+    {
+      "epoch": 4.817244611059044,
+      "grad_norm": 1.130614995956421,
+      "learning_rate": 9.962365827585703e-06,
+      "loss": 0.082,
+      "step": 5140
+    },
+    {
+      "epoch": 4.826616682286786,
+      "grad_norm": 0.9016211032867432,
+      "learning_rate": 9.962292609351434e-06,
+      "loss": 0.08,
+      "step": 5150
+    },
+    {
+      "epoch": 4.835988753514527,
+      "grad_norm": 1.4159069061279297,
+      "learning_rate": 9.962219391117165e-06,
+      "loss": 0.0841,
+      "step": 5160
+    },
+    {
+      "epoch": 4.845360824742268,
+      "grad_norm": 1.600085973739624,
+      "learning_rate": 9.962146172882896e-06,
+      "loss": 0.0766,
+      "step": 5170
+    },
+    {
+      "epoch": 4.85473289597001,
+      "grad_norm": 1.4401110410690308,
+      "learning_rate": 9.962072954648626e-06,
+      "loss": 0.0869,
+      "step": 5180
+    },
+    {
+      "epoch": 4.8641049671977505,
+      "grad_norm": 1.4603939056396484,
+      "learning_rate": 9.961999736414357e-06,
+      "loss": 0.077,
+      "step": 5190
+    },
+    {
+      "epoch": 4.873477038425492,
+      "grad_norm": 1.0498592853546143,
+      "learning_rate": 9.961926518180088e-06,
+      "loss": 0.0673,
+      "step": 5200
+    },
+    {
+      "epoch": 4.882849109653233,
+      "grad_norm": 1.9157027006149292,
+      "learning_rate": 9.96185329994582e-06,
+      "loss": 0.0865,
+      "step": 5210
+    },
+    {
+      "epoch": 4.892221180880974,
+      "grad_norm": 1.0183812379837036,
+      "learning_rate": 9.961780081711551e-06,
+      "loss": 0.0809,
+      "step": 5220
+    },
+    {
+      "epoch": 4.901593252108716,
+      "grad_norm": 1.4563605785369873,
+      "learning_rate": 9.96170686347728e-06,
+      "loss": 0.086,
+      "step": 5230
+    },
+    {
+      "epoch": 4.910965323336457,
+      "grad_norm": 1.1856083869934082,
+      "learning_rate": 9.961633645243013e-06,
+      "loss": 0.0802,
+      "step": 5240
+    },
+    {
+      "epoch": 4.920337394564199,
+      "grad_norm": 1.3724653720855713,
+      "learning_rate": 9.961560427008743e-06,
+      "loss": 0.0839,
+      "step": 5250
+    },
+    {
+      "epoch": 4.920337394564199,
+      "eval_loss": 0.04000931978225708,
+      "eval_pearson_cosine": 0.7643105387687683,
+      "eval_pearson_dot": 0.6954823732376099,
+      "eval_pearson_euclidean": 0.7297146320343018,
+      "eval_pearson_manhattan": 0.7310500144958496,
+      "eval_runtime": 21.985,
+      "eval_samples_per_second": 68.228,
+      "eval_spearman_cosine": 0.7658903505068073,
+      "eval_spearman_dot": 0.6968591888025883,
+      "eval_spearman_euclidean": 0.7350736410651904,
+      "eval_spearman_manhattan": 0.7366836781540181,
+      "eval_steps_per_second": 8.551,
+      "step": 5250
+    },
+    {
+      "epoch": 4.92970946579194,
+      "grad_norm": 1.7151585817337036,
+      "learning_rate": 9.961487208774474e-06,
+      "loss": 0.0791,
+      "step": 5260
+    },
+    {
+      "epoch": 4.939081537019681,
+      "grad_norm": 1.6940653324127197,
+      "learning_rate": 9.961413990540205e-06,
+      "loss": 0.0893,
+      "step": 5270
+    },
+    {
+      "epoch": 4.948453608247423,
+      "grad_norm": 1.5087528228759766,
+      "learning_rate": 9.961340772305936e-06,
+      "loss": 0.0801,
+      "step": 5280
+    },
+    {
+      "epoch": 4.957825679475164,
+      "grad_norm": 1.2038474082946777,
+      "learning_rate": 9.961267554071666e-06,
+      "loss": 0.0791,
+      "step": 5290
+    },
+    {
+      "epoch": 4.967197750702906,
+      "grad_norm": 1.4044734239578247,
+      "learning_rate": 9.961194335837397e-06,
+      "loss": 0.0832,
+      "step": 5300
+    },
+    {
+      "epoch": 4.976569821930647,
+      "grad_norm": 1.057298183441162,
+      "learning_rate": 9.96112111760313e-06,
+      "loss": 0.0869,
+      "step": 5310
+    },
+    {
+      "epoch": 4.985941893158388,
+      "grad_norm": 1.4192899465560913,
+      "learning_rate": 9.96104789936886e-06,
+      "loss": 0.0837,
+      "step": 5320
+    },
+    {
+      "epoch": 4.9953139643861295,
+      "grad_norm": 1.7742289304733276,
+      "learning_rate": 9.960974681134591e-06,
+      "loss": 0.0858,
+      "step": 5330
+    },
+    {
+      "epoch": 5.0046860356138705,
+      "grad_norm": 0.9188485741615295,
+      "learning_rate": 9.960901462900322e-06,
+      "loss": 0.0684,
+      "step": 5340
+    },
+    {
+      "epoch": 5.014058106841612,
+      "grad_norm": 1.6541597843170166,
+      "learning_rate": 9.960828244666052e-06,
+      "loss": 0.0669,
+      "step": 5350
+    },
+    {
+      "epoch": 5.023430178069353,
+      "grad_norm": 1.5705071687698364,
+      "learning_rate": 9.960755026431783e-06,
+      "loss": 0.0646,
+      "step": 5360
+    },
+    {
+      "epoch": 5.032802249297094,
+      "grad_norm": 0.9007801413536072,
+      "learning_rate": 9.960681808197514e-06,
+      "loss": 0.0721,
+      "step": 5370
+    },
+    {
+      "epoch": 5.042174320524836,
+      "grad_norm": 1.044138789176941,
+      "learning_rate": 9.960608589963245e-06,
+      "loss": 0.0585,
+      "step": 5380
+    },
+    {
+      "epoch": 5.051546391752577,
+      "grad_norm": 1.455098032951355,
+      "learning_rate": 9.960535371728977e-06,
+      "loss": 0.0677,
+      "step": 5390
+    },
+    {
+      "epoch": 5.060918462980319,
+      "grad_norm": 1.3480255603790283,
+      "learning_rate": 9.960462153494708e-06,
+      "loss": 0.0582,
+      "step": 5400
+    },
+    {
+      "epoch": 5.07029053420806,
+      "grad_norm": 0.9733775854110718,
+      "learning_rate": 9.960388935260437e-06,
+      "loss": 0.057,
+      "step": 5410
+    },
+    {
+      "epoch": 5.079662605435801,
+      "grad_norm": 1.202635645866394,
+      "learning_rate": 9.96031571702617e-06,
+      "loss": 0.0642,
+      "step": 5420
+    },
+    {
+      "epoch": 5.089034676663543,
+      "grad_norm": 1.2410409450531006,
+      "learning_rate": 9.9602424987919e-06,
+      "loss": 0.055,
+      "step": 5430
+    },
+    {
+      "epoch": 5.098406747891284,
+      "grad_norm": 1.341126799583435,
+      "learning_rate": 9.960169280557631e-06,
+      "loss": 0.066,
+      "step": 5440
+    },
+    {
+      "epoch": 5.107778819119026,
+      "grad_norm": 1.070065975189209,
+      "learning_rate": 9.960096062323362e-06,
+      "loss": 0.0565,
+      "step": 5450
+    },
+    {
+      "epoch": 5.117150890346767,
+      "grad_norm": 1.5855072736740112,
+      "learning_rate": 9.960022844089092e-06,
+      "loss": 0.0613,
+      "step": 5460
+    },
+    {
+      "epoch": 5.126522961574508,
+      "grad_norm": 0.7614333629608154,
+      "learning_rate": 9.959949625854823e-06,
+      "loss": 0.0572,
+      "step": 5470
+    },
+    {
+      "epoch": 5.1358950328022495,
+      "grad_norm": 1.0969761610031128,
+      "learning_rate": 9.959876407620554e-06,
+      "loss": 0.0557,
+      "step": 5480
+    },
+    {
+      "epoch": 5.14526710402999,
+      "grad_norm": 1.7454636096954346,
+      "learning_rate": 9.959803189386286e-06,
+      "loss": 0.0647,
+      "step": 5490
+    },
+    {
+      "epoch": 5.154639175257732,
+      "grad_norm": 0.9625281691551208,
+      "learning_rate": 9.959729971152017e-06,
+      "loss": 0.0499,
+      "step": 5500
+    },
+    {
+      "epoch": 5.154639175257732,
+      "eval_loss": 0.03924967721104622,
+      "eval_pearson_cosine": 0.7608553767204285,
+      "eval_pearson_dot": 0.6993385553359985,
+      "eval_pearson_euclidean": 0.732108473777771,
+      "eval_pearson_manhattan": 0.7334935069084167,
+      "eval_runtime": 28.2448,
+      "eval_samples_per_second": 53.107,
+      "eval_spearman_cosine": 0.7615678141531256,
+      "eval_spearman_dot": 0.6999177956469285,
+      "eval_spearman_euclidean": 0.7378738640113753,
+      "eval_spearman_manhattan": 0.7392624046122273,
+      "eval_steps_per_second": 6.656,
+      "step": 5500
+    },
+    {
+      "epoch": 5.164011246485473,
+      "grad_norm": 1.4280071258544922,
+      "learning_rate": 9.959656752917748e-06,
+      "loss": 0.0557,
+      "step": 5510
+    },
+    {
+      "epoch": 5.173383317713214,
+      "grad_norm": 1.6271259784698486,
+      "learning_rate": 9.959583534683479e-06,
+      "loss": 0.0602,
+      "step": 5520
+    },
+    {
+      "epoch": 5.182755388940956,
+      "grad_norm": 1.2609021663665771,
+      "learning_rate": 9.95951031644921e-06,
+      "loss": 0.0545,
+      "step": 5530
+    },
+    {
+      "epoch": 5.192127460168697,
+      "grad_norm": 1.2945165634155273,
+      "learning_rate": 9.95943709821494e-06,
+      "loss": 0.0592,
+      "step": 5540
+    },
+    {
+      "epoch": 5.201499531396439,
+      "grad_norm": 1.3600184917449951,
+      "learning_rate": 9.959363879980671e-06,
+      "loss": 0.0492,
+      "step": 5550
+    },
+    {
+      "epoch": 5.21087160262418,
+      "grad_norm": 1.3210471868515015,
+      "learning_rate": 9.959290661746403e-06,
+      "loss": 0.0558,
+      "step": 5560
+    },
+    {
+      "epoch": 5.220243673851921,
+      "grad_norm": 0.8935280442237854,
+      "learning_rate": 9.959217443512134e-06,
+      "loss": 0.0566,
+      "step": 5570
+    },
+    {
+      "epoch": 5.229615745079663,
+      "grad_norm": 0.9014615416526794,
+      "learning_rate": 9.959144225277863e-06,
+      "loss": 0.0578,
+      "step": 5580
+    },
+    {
+      "epoch": 5.238987816307404,
+      "grad_norm": 0.9144461750984192,
+      "learning_rate": 9.959071007043596e-06,
+      "loss": 0.0642,
+      "step": 5590
+    },
+    {
+      "epoch": 5.248359887535146,
+      "grad_norm": 1.1306620836257935,
+      "learning_rate": 9.958997788809326e-06,
+      "loss": 0.0645,
+      "step": 5600
+    },
+    {
+      "epoch": 5.257731958762887,
+      "grad_norm": 1.6353179216384888,
+      "learning_rate": 9.958924570575057e-06,
+      "loss": 0.0563,
+      "step": 5610
+    },
+    {
+      "epoch": 5.2671040299906275,
+      "grad_norm": 1.0438508987426758,
+      "learning_rate": 9.958851352340788e-06,
+      "loss": 0.0554,
+      "step": 5620
+    },
+    {
+      "epoch": 5.276476101218369,
+      "grad_norm": 1.0287367105484009,
+      "learning_rate": 9.958778134106519e-06,
+      "loss": 0.0586,
+      "step": 5630
+    },
+    {
+      "epoch": 5.28584817244611,
+      "grad_norm": 1.0613245964050293,
+      "learning_rate": 9.95870491587225e-06,
+      "loss": 0.0634,
+      "step": 5640
+    },
+    {
+      "epoch": 5.295220243673852,
+      "grad_norm": 1.489405632019043,
+      "learning_rate": 9.95863169763798e-06,
+      "loss": 0.0474,
+      "step": 5650
+    },
+    {
+      "epoch": 5.304592314901593,
+      "grad_norm": 1.4497292041778564,
+      "learning_rate": 9.95855847940371e-06,
+      "loss": 0.056,
+      "step": 5660
+    },
+    {
+      "epoch": 5.313964386129334,
+      "grad_norm": 1.2881600856781006,
+      "learning_rate": 9.958485261169443e-06,
+      "loss": 0.0561,
+      "step": 5670
+    },
+    {
+      "epoch": 5.323336457357076,
+      "grad_norm": 1.4863743782043457,
+      "learning_rate": 9.958412042935174e-06,
+      "loss": 0.0562,
+      "step": 5680
+    },
+    {
+      "epoch": 5.332708528584817,
+      "grad_norm": 1.325191855430603,
+      "learning_rate": 9.958338824700903e-06,
+      "loss": 0.0569,
+      "step": 5690
+    },
+    {
+      "epoch": 5.342080599812559,
+      "grad_norm": 1.0650861263275146,
+      "learning_rate": 9.958265606466636e-06,
+      "loss": 0.0574,
+      "step": 5700
+    },
+    {
+      "epoch": 5.3514526710403,
+      "grad_norm": 1.7255184650421143,
+      "learning_rate": 9.958192388232366e-06,
+      "loss": 0.055,
+      "step": 5710
+    },
+    {
+      "epoch": 5.360824742268041,
+      "grad_norm": 0.8258642554283142,
+      "learning_rate": 9.958119169998097e-06,
+      "loss": 0.0509,
+      "step": 5720
+    },
+    {
+      "epoch": 5.370196813495783,
+      "grad_norm": 1.2811216115951538,
+      "learning_rate": 9.958045951763828e-06,
+      "loss": 0.0585,
+      "step": 5730
+    },
+    {
+      "epoch": 5.379568884723524,
+      "grad_norm": 1.2582824230194092,
+      "learning_rate": 9.95797273352956e-06,
+      "loss": 0.0589,
+      "step": 5740
+    },
+    {
+      "epoch": 5.3889409559512655,
+      "grad_norm": 1.3511929512023926,
+      "learning_rate": 9.95789951529529e-06,
+      "loss": 0.0542,
+      "step": 5750
+    },
+    {
+      "epoch": 5.3889409559512655,
+      "eval_loss": 0.03850702941417694,
+      "eval_pearson_cosine": 0.7663590312004089,
+      "eval_pearson_dot": 0.7060524225234985,
+      "eval_pearson_euclidean": 0.7385671734809875,
+      "eval_pearson_manhattan": 0.7399072647094727,
+      "eval_runtime": 27.6896,
+      "eval_samples_per_second": 54.172,
+      "eval_spearman_cosine": 0.7668814587849042,
+      "eval_spearman_dot": 0.706466499232552,
+      "eval_spearman_euclidean": 0.744533534662993,
+      "eval_spearman_manhattan": 0.7454034343244123,
+      "eval_steps_per_second": 6.79,
+      "step": 5750
+    },
+    {
+      "epoch": 5.3983130271790065,
+      "grad_norm": 1.3905717134475708,
+      "learning_rate": 9.95782629706102e-06,
+      "loss": 0.0583,
+      "step": 5760
+    },
+    {
+      "epoch": 5.4076850984067475,
+      "grad_norm": 1.5047788619995117,
+      "learning_rate": 9.957753078826752e-06,
+      "loss": 0.0605,
+      "step": 5770
+    },
+    {
+      "epoch": 5.417057169634489,
+      "grad_norm": 1.280427098274231,
+      "learning_rate": 9.957679860592483e-06,
+      "loss": 0.0584,
+      "step": 5780
+    },
+    {
+      "epoch": 5.42642924086223,
+      "grad_norm": 1.3530281782150269,
+      "learning_rate": 9.957606642358214e-06,
+      "loss": 0.0591,
+      "step": 5790
+    },
+    {
+      "epoch": 5.435801312089972,
+      "grad_norm": 1.0610909461975098,
+      "learning_rate": 9.957533424123945e-06,
+      "loss": 0.0546,
+      "step": 5800
+    },
+    {
+      "epoch": 5.445173383317713,
+      "grad_norm": 0.9637224674224854,
+      "learning_rate": 9.957460205889675e-06,
+      "loss": 0.0641,
+      "step": 5810
+    },
+    {
+      "epoch": 5.454545454545454,
+      "grad_norm": 1.3324577808380127,
+      "learning_rate": 9.957386987655406e-06,
+      "loss": 0.0599,
+      "step": 5820
+    },
+    {
+      "epoch": 5.463917525773196,
+      "grad_norm": 0.9660161137580872,
+      "learning_rate": 9.957313769421137e-06,
+      "loss": 0.0591,
+      "step": 5830
+    },
+    {
+      "epoch": 5.473289597000937,
+      "grad_norm": 1.128570556640625,
+      "learning_rate": 9.95724055118687e-06,
+      "loss": 0.0579,
+      "step": 5840
+    },
+    {
+      "epoch": 5.482661668228679,
+      "grad_norm": 1.444172739982605,
+      "learning_rate": 9.9571673329526e-06,
+      "loss": 0.0636,
+      "step": 5850
+    },
+    {
+      "epoch": 5.49203373945642,
+      "grad_norm": 1.3510165214538574,
+      "learning_rate": 9.95709411471833e-06,
+      "loss": 0.0631,
+      "step": 5860
+    },
+    {
+      "epoch": 5.501405810684162,
+      "grad_norm": 1.0439740419387817,
+      "learning_rate": 9.957020896484062e-06,
+      "loss": 0.0635,
+      "step": 5870
+    },
+    {
+      "epoch": 5.510777881911903,
+      "grad_norm": 1.15412175655365,
+      "learning_rate": 9.956947678249792e-06,
+      "loss": 0.0595,
+      "step": 5880
+    },
+    {
+      "epoch": 5.520149953139644,
+      "grad_norm": 1.221147894859314,
+      "learning_rate": 9.956874460015523e-06,
+      "loss": 0.0552,
+      "step": 5890
+    },
+    {
+      "epoch": 5.5295220243673855,
+      "grad_norm": 1.4210234880447388,
+      "learning_rate": 9.956801241781254e-06,
+      "loss": 0.0593,
+      "step": 5900
+    },
+    {
+      "epoch": 5.5388940955951265,
+      "grad_norm": 1.1082103252410889,
+      "learning_rate": 9.956728023546985e-06,
+      "loss": 0.0535,
+      "step": 5910
+    },
+    {
+      "epoch": 5.548266166822868,
+      "grad_norm": 0.8931286334991455,
+      "learning_rate": 9.956654805312715e-06,
+      "loss": 0.0556,
+      "step": 5920
+    },
+    {
+      "epoch": 5.557638238050609,
+      "grad_norm": 1.5182912349700928,
+      "learning_rate": 9.956581587078446e-06,
+      "loss": 0.0583,
+      "step": 5930
+    },
+    {
+      "epoch": 5.56701030927835,
+      "grad_norm": 1.2056432962417603,
+      "learning_rate": 9.956508368844177e-06,
+      "loss": 0.064,
+      "step": 5940
+    },
+    {
+      "epoch": 5.576382380506092,
+      "grad_norm": 1.5039522647857666,
+      "learning_rate": 9.95643515060991e-06,
+      "loss": 0.0708,
+      "step": 5950
+    },
+    {
+      "epoch": 5.585754451733833,
+      "grad_norm": 1.2651883363723755,
+      "learning_rate": 9.95636193237564e-06,
+      "loss": 0.0596,
+      "step": 5960
+    },
+    {
+      "epoch": 5.595126522961575,
+      "grad_norm": 1.317690134048462,
+      "learning_rate": 9.956288714141371e-06,
+      "loss": 0.0713,
+      "step": 5970
+    },
+    {
+      "epoch": 5.604498594189316,
+      "grad_norm": 0.9705867767333984,
+      "learning_rate": 9.956215495907102e-06,
+      "loss": 0.0699,
+      "step": 5980
+    },
+    {
+      "epoch": 5.613870665417057,
+      "grad_norm": 1.4250271320343018,
+      "learning_rate": 9.956142277672832e-06,
+      "loss": 0.0595,
+      "step": 5990
+    },
+    {
+      "epoch": 5.623242736644799,
+      "grad_norm": 1.0857118368148804,
+      "learning_rate": 9.956069059438563e-06,
+      "loss": 0.0555,
+      "step": 6000
+    },
+    {
+      "epoch": 5.623242736644799,
+      "eval_loss": 0.03963544964790344,
+      "eval_pearson_cosine": 0.7571043968200684,
+      "eval_pearson_dot": 0.700376570224762,
+      "eval_pearson_euclidean": 0.7279260158538818,
+      "eval_pearson_manhattan": 0.729307234287262,
+      "eval_runtime": 25.5449,
+      "eval_samples_per_second": 58.72,
+      "eval_spearman_cosine": 0.7579022153365402,
+      "eval_spearman_dot": 0.6992710065203335,
+      "eval_spearman_euclidean": 0.7330627821557505,
+      "eval_spearman_manhattan": 0.7343750357819732,
+      "eval_steps_per_second": 7.36,
+      "step": 6000
     }
   ],
   "logging_steps": 10,