Training in progress, step 2000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb9e1bcee7f011fef03e2175c8251f4452754d982e429b6f1c85c49ad3df80dd
 size 738367848

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba21b9e70b08c8157a0be6f7f43a461e7115ad8add195cfd8d7ecd41a4a559ba
 size 738367848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7edaedb3fab405157cc63ab8b3d7262e165878db58ddc86f23c506a7b06f9617
 size 1476823354

 version https://git-lfs.github.com/spec/v1
+oid sha256:f32f2ca1f450a8a345cef7a5a79a872c2bc4a1ba658bcfe499421b034c07bf73
 size 1476823354

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06fea830cf5ad73ec00d500ea6fb952740ac936f18e93fa2d32abde1ea3ead92
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ca51d4b33edcedf9568d5202767b896d828b5aeca18f2cdd82617688464b784
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be561d1df19be227394d8ea607c54262a06c9bf880af0aa5e04a52596a2a6cb0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:10e6ea705ea5a1704cd5773090c827a2013c8caab967a116ff24a5f57ce3ce90
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f3e24417a59435f5a8450a4aeb0f09cc92734b5c3b45a0701b2c043c415c05
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6ff0b4da12dd0cdcb6e90b04160e41685d9ccc1fa1cc74bb7949edf700200d4
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bea02744c29f30024590ab1629a0e7b7dabbf1e8476456c2e7c5ce46dc35c28
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:322470b09ac4f5d9443d55c37c8b8e7d0e8a1702208c81e52e3a58a8de515b5b
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:041be966454b60c86af576fc1eb7f34189114689abff8f9622b947110f7334c8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ababe8505205ca2bcb959a2abbe2fbc8b6ad677bd43b1f2ee9055b3cb400b061
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b85766f6596d15a810177d77dd259d9b50588cf100ec5f8ebff5fed881d57957
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1c3ba656fdb40a72824e366a08e148a30e1089a6ecd019eaf28fa4a17859fa
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8be75d04b1ebe614241b88fd010a5dda1b7bf703c00c6ebe310ca07975830fe7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:042c62210b9e1c9ed394e0a3362b1c773c07591d94f2716a8e928676134742b7
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4699833a7ab4cb692996ef7567f934c0bac79d6a067963a873f89a38e412bd48
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb54f0278c663494261026658652f845bae43245e75ccc213c6897de179f542a
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:452f0ce45a0532872d3dafca4ac6f3ac9310f686f3f3a2026b82609fe1ad92b0
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fe8eacf1bb6bef5171d133da4e7818c1e7ae0192bd879d86e40a8d923aeb81f
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9372071227741331,
   "eval_steps": 250,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -771,6 +771,770 @@
       "eval_spearman_manhattan": 0.7778181970888292,
       "eval_steps_per_second": 8.583,
       "step": 1000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8744142455482662,
   "eval_steps": 250,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7778181970888292,
       "eval_steps_per_second": 8.583,
       "step": 1000
+    },
+    {
+      "epoch": 0.9465791940018744,
+      "grad_norm": 1.1828556060791016,
+      "learning_rate": 9.992604958338825e-06,
+      "loss": 0.2168,
+      "step": 1010
+    },
+    {
+      "epoch": 0.9559512652296157,
+      "grad_norm": 1.2189664840698242,
+      "learning_rate": 9.992531740104556e-06,
+      "loss": 0.2072,
+      "step": 1020
+    },
+    {
+      "epoch": 0.9653233364573571,
+      "grad_norm": 1.6102409362792969,
+      "learning_rate": 9.992458521870287e-06,
+      "loss": 0.2228,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9746954076850984,
+      "grad_norm": 1.6891916990280151,
+      "learning_rate": 9.99238530363602e-06,
+      "loss": 0.2404,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9840674789128397,
+      "grad_norm": 1.2274008989334106,
+      "learning_rate": 9.99231208540175e-06,
+      "loss": 0.2225,
+      "step": 1050
+    },
+    {
+      "epoch": 0.993439550140581,
+      "grad_norm": 1.2388169765472412,
+      "learning_rate": 9.992238867167479e-06,
+      "loss": 0.2215,
+      "step": 1060
+    },
+    {
+      "epoch": 1.0028116213683225,
+      "grad_norm": 1.2347650527954102,
+      "learning_rate": 9.992165648933211e-06,
+      "loss": 0.2239,
+      "step": 1070
+    },
+    {
+      "epoch": 1.0121836925960637,
+      "grad_norm": 1.1266793012619019,
+      "learning_rate": 9.992092430698942e-06,
+      "loss": 0.1932,
+      "step": 1080
+    },
+    {
+      "epoch": 1.021555763823805,
+      "grad_norm": 1.5187146663665771,
+      "learning_rate": 9.992019212464673e-06,
+      "loss": 0.205,
+      "step": 1090
+    },
+    {
+      "epoch": 1.0309278350515463,
+      "grad_norm": 1.4463717937469482,
+      "learning_rate": 9.991945994230404e-06,
+      "loss": 0.1818,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0402999062792877,
+      "grad_norm": 1.6186790466308594,
+      "learning_rate": 9.991872775996136e-06,
+      "loss": 0.2076,
+      "step": 1110
+    },
+    {
+      "epoch": 1.0496719775070291,
+      "grad_norm": 1.3895883560180664,
+      "learning_rate": 9.991799557761865e-06,
+      "loss": 0.2096,
+      "step": 1120
+    },
+    {
+      "epoch": 1.0590440487347703,
+      "grad_norm": 1.296912670135498,
+      "learning_rate": 9.991726339527596e-06,
+      "loss": 0.2046,
+      "step": 1130
+    },
+    {
+      "epoch": 1.0684161199625117,
+      "grad_norm": 1.5527839660644531,
+      "learning_rate": 9.991653121293328e-06,
+      "loss": 0.1972,
+      "step": 1140
+    },
+    {
+      "epoch": 1.077788191190253,
+      "grad_norm": 1.4777096509933472,
+      "learning_rate": 9.99157990305906e-06,
+      "loss": 0.2086,
+      "step": 1150
+    },
+    {
+      "epoch": 1.0871602624179943,
+      "grad_norm": 1.3155533075332642,
+      "learning_rate": 9.99150668482479e-06,
+      "loss": 0.1969,
+      "step": 1160
+    },
+    {
+      "epoch": 1.0965323336457358,
+      "grad_norm": 1.5277265310287476,
+      "learning_rate": 9.99143346659052e-06,
+      "loss": 0.1923,
+      "step": 1170
+    },
+    {
+      "epoch": 1.105904404873477,
+      "grad_norm": 1.3764179944992065,
+      "learning_rate": 9.991360248356251e-06,
+      "loss": 0.1916,
+      "step": 1180
+    },
+    {
+      "epoch": 1.1152764761012184,
+      "grad_norm": 1.6024688482284546,
+      "learning_rate": 9.991287030121982e-06,
+      "loss": 0.185,
+      "step": 1190
+    },
+    {
+      "epoch": 1.1246485473289598,
+      "grad_norm": 1.2752821445465088,
+      "learning_rate": 9.991213811887713e-06,
+      "loss": 0.1829,
+      "step": 1200
+    },
+    {
+      "epoch": 1.134020618556701,
+      "grad_norm": 1.4704368114471436,
+      "learning_rate": 9.991140593653444e-06,
+      "loss": 0.2006,
+      "step": 1210
+    },
+    {
+      "epoch": 1.1433926897844424,
+      "grad_norm": 1.3614213466644287,
+      "learning_rate": 9.991067375419176e-06,
+      "loss": 0.1776,
+      "step": 1220
+    },
+    {
+      "epoch": 1.1527647610121836,
+      "grad_norm": 1.2852075099945068,
+      "learning_rate": 9.990994157184905e-06,
+      "loss": 0.2116,
+      "step": 1230
+    },
+    {
+      "epoch": 1.162136832239925,
+      "grad_norm": 1.1774332523345947,
+      "learning_rate": 9.990920938950636e-06,
+      "loss": 0.1909,
+      "step": 1240
+    },
+    {
+      "epoch": 1.1715089034676662,
+      "grad_norm": 1.0442605018615723,
+      "learning_rate": 9.990847720716368e-06,
+      "loss": 0.1933,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1715089034676662,
+      "eval_loss": 0.08017747104167938,
+      "eval_pearson_cosine": 0.7703680992126465,
+      "eval_pearson_dot": 0.6808142066001892,
+      "eval_pearson_euclidean": 0.7676056623458862,
+      "eval_pearson_manhattan": 0.7677772045135498,
+      "eval_runtime": 22.1599,
+      "eval_samples_per_second": 67.69,
+      "eval_spearman_cosine": 0.7790172740054649,
+      "eval_spearman_dot": 0.6796557194170769,
+      "eval_spearman_euclidean": 0.7739566900498013,
+      "eval_spearman_manhattan": 0.7741509176342483,
+      "eval_steps_per_second": 8.484,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1808809746954076,
+      "grad_norm": 1.3561466932296753,
+      "learning_rate": 9.990774502482099e-06,
+      "loss": 0.1921,
+      "step": 1260
+    },
+    {
+      "epoch": 1.190253045923149,
+      "grad_norm": 1.2151105403900146,
+      "learning_rate": 9.99070128424783e-06,
+      "loss": 0.1865,
+      "step": 1270
+    },
+    {
+      "epoch": 1.1996251171508903,
+      "grad_norm": 1.4363489151000977,
+      "learning_rate": 9.99062806601356e-06,
+      "loss": 0.2071,
+      "step": 1280
+    },
+    {
+      "epoch": 1.2089971883786317,
+      "grad_norm": 1.1078994274139404,
+      "learning_rate": 9.990554847779291e-06,
+      "loss": 0.1984,
+      "step": 1290
+    },
+    {
+      "epoch": 1.218369259606373,
+      "grad_norm": 1.4608142375946045,
+      "learning_rate": 9.990481629545022e-06,
+      "loss": 0.1926,
+      "step": 1300
+    },
+    {
+      "epoch": 1.2277413308341143,
+      "grad_norm": 1.5290361642837524,
+      "learning_rate": 9.990408411310753e-06,
+      "loss": 0.1935,
+      "step": 1310
+    },
+    {
+      "epoch": 1.2371134020618557,
+      "grad_norm": 1.09344482421875,
+      "learning_rate": 9.990335193076485e-06,
+      "loss": 0.2026,
+      "step": 1320
+    },
+    {
+      "epoch": 1.246485473289597,
+      "grad_norm": 1.5567576885223389,
+      "learning_rate": 9.990261974842216e-06,
+      "loss": 0.1968,
+      "step": 1330
+    },
+    {
+      "epoch": 1.2558575445173383,
+      "grad_norm": 1.243221402168274,
+      "learning_rate": 9.990188756607947e-06,
+      "loss": 0.1859,
+      "step": 1340
+    },
+    {
+      "epoch": 1.2652296157450795,
+      "grad_norm": 1.5287493467330933,
+      "learning_rate": 9.990115538373678e-06,
+      "loss": 0.2067,
+      "step": 1350
+    },
+    {
+      "epoch": 1.274601686972821,
+      "grad_norm": 1.1587677001953125,
+      "learning_rate": 9.990042320139408e-06,
+      "loss": 0.1848,
+      "step": 1360
+    },
+    {
+      "epoch": 1.2839737582005624,
+      "grad_norm": 1.3521069288253784,
+      "learning_rate": 9.989969101905139e-06,
+      "loss": 0.1975,
+      "step": 1370
+    },
+    {
+      "epoch": 1.2933458294283038,
+      "grad_norm": 1.1655584573745728,
+      "learning_rate": 9.98989588367087e-06,
+      "loss": 0.1963,
+      "step": 1380
+    },
+    {
+      "epoch": 1.302717900656045,
+      "grad_norm": 1.1636890172958374,
+      "learning_rate": 9.989822665436602e-06,
+      "loss": 0.1768,
+      "step": 1390
+    },
+    {
+      "epoch": 1.3120899718837864,
+      "grad_norm": 1.3106030225753784,
+      "learning_rate": 9.989749447202333e-06,
+      "loss": 0.1918,
+      "step": 1400
+    },
+    {
+      "epoch": 1.3214620431115276,
+      "grad_norm": 1.314274787902832,
+      "learning_rate": 9.989676228968062e-06,
+      "loss": 0.1733,
+      "step": 1410
+    },
+    {
+      "epoch": 1.330834114339269,
+      "grad_norm": 1.646234393119812,
+      "learning_rate": 9.989603010733795e-06,
+      "loss": 0.1797,
+      "step": 1420
+    },
+    {
+      "epoch": 1.3402061855670104,
+      "grad_norm": 1.3321646451950073,
+      "learning_rate": 9.989529792499525e-06,
+      "loss": 0.1726,
+      "step": 1430
+    },
+    {
+      "epoch": 1.3495782567947516,
+      "grad_norm": 1.3959871530532837,
+      "learning_rate": 9.989456574265256e-06,
+      "loss": 0.1889,
+      "step": 1440
+    },
+    {
+      "epoch": 1.358950328022493,
+      "grad_norm": 1.1790053844451904,
+      "learning_rate": 9.989383356030987e-06,
+      "loss": 0.1779,
+      "step": 1450
+    },
+    {
+      "epoch": 1.3683223992502342,
+      "grad_norm": 1.7612881660461426,
+      "learning_rate": 9.989310137796718e-06,
+      "loss": 0.1834,
+      "step": 1460
+    },
+    {
+      "epoch": 1.3776944704779757,
+      "grad_norm": 1.2366232872009277,
+      "learning_rate": 9.989236919562448e-06,
+      "loss": 0.1996,
+      "step": 1470
+    },
+    {
+      "epoch": 1.387066541705717,
+      "grad_norm": 1.550465703010559,
+      "learning_rate": 9.989163701328179e-06,
+      "loss": 0.1991,
+      "step": 1480
+    },
+    {
+      "epoch": 1.3964386129334583,
+      "grad_norm": 1.2935107946395874,
+      "learning_rate": 9.98909048309391e-06,
+      "loss": 0.1956,
+      "step": 1490
+    },
+    {
+      "epoch": 1.4058106841611997,
+      "grad_norm": 0.9709776639938354,
+      "learning_rate": 9.989017264859642e-06,
+      "loss": 0.1872,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4058106841611997,
+      "eval_loss": 0.07902642339468002,
+      "eval_pearson_cosine": 0.7684531211853027,
+      "eval_pearson_dot": 0.6580111980438232,
+      "eval_pearson_euclidean": 0.768983006477356,
+      "eval_pearson_manhattan": 0.7692690491676331,
+      "eval_runtime": 23.5462,
+      "eval_samples_per_second": 63.704,
+      "eval_spearman_cosine": 0.7777241764238451,
+      "eval_spearman_dot": 0.6568945327389543,
+      "eval_spearman_euclidean": 0.7752386276211667,
+      "eval_spearman_manhattan": 0.7755204438878311,
+      "eval_steps_per_second": 7.984,
+      "step": 1500
+    },
+    {
+      "epoch": 1.415182755388941,
+      "grad_norm": 1.5001726150512695,
+      "learning_rate": 9.988944046625373e-06,
+      "loss": 0.2094,
+      "step": 1510
+    },
+    {
+      "epoch": 1.4245548266166823,
+      "grad_norm": 1.1697657108306885,
+      "learning_rate": 9.988870828391102e-06,
+      "loss": 0.1862,
+      "step": 1520
+    },
+    {
+      "epoch": 1.4339268978444237,
+      "grad_norm": 1.3496723175048828,
+      "learning_rate": 9.988797610156834e-06,
+      "loss": 0.1863,
+      "step": 1530
+    },
+    {
+      "epoch": 1.443298969072165,
+      "grad_norm": 1.3314088582992554,
+      "learning_rate": 9.988724391922565e-06,
+      "loss": 0.1809,
+      "step": 1540
+    },
+    {
+      "epoch": 1.4526710402999063,
+      "grad_norm": 1.2966681718826294,
+      "learning_rate": 9.988651173688296e-06,
+      "loss": 0.1799,
+      "step": 1550
+    },
+    {
+      "epoch": 1.4620431115276475,
+      "grad_norm": 1.141318917274475,
+      "learning_rate": 9.988577955454027e-06,
+      "loss": 0.1983,
+      "step": 1560
+    },
+    {
+      "epoch": 1.471415182755389,
+      "grad_norm": 1.1170287132263184,
+      "learning_rate": 9.98850473721976e-06,
+      "loss": 0.1823,
+      "step": 1570
+    },
+    {
+      "epoch": 1.4807872539831304,
+      "grad_norm": 1.4531837701797485,
+      "learning_rate": 9.988431518985488e-06,
+      "loss": 0.1693,
+      "step": 1580
+    },
+    {
+      "epoch": 1.4901593252108716,
+      "grad_norm": 1.5249556303024292,
+      "learning_rate": 9.988358300751219e-06,
+      "loss": 0.2014,
+      "step": 1590
+    },
+    {
+      "epoch": 1.499531396438613,
+      "grad_norm": 1.319170594215393,
+      "learning_rate": 9.988285082516951e-06,
+      "loss": 0.1841,
+      "step": 1600
+    },
+    {
+      "epoch": 1.5089034676663542,
+      "grad_norm": 1.2907928228378296,
+      "learning_rate": 9.988211864282682e-06,
+      "loss": 0.1778,
+      "step": 1610
+    },
+    {
+      "epoch": 1.5182755388940956,
+      "grad_norm": 1.170284628868103,
+      "learning_rate": 9.988138646048413e-06,
+      "loss": 0.1668,
+      "step": 1620
+    },
+    {
+      "epoch": 1.527647610121837,
+      "grad_norm": 1.4182498455047607,
+      "learning_rate": 9.988065427814144e-06,
+      "loss": 0.1968,
+      "step": 1630
+    },
+    {
+      "epoch": 1.5370196813495782,
+      "grad_norm": 1.3137290477752686,
+      "learning_rate": 9.987992209579874e-06,
+      "loss": 0.1734,
+      "step": 1640
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "grad_norm": 1.458721399307251,
+      "learning_rate": 9.987918991345605e-06,
+      "loss": 0.209,
+      "step": 1650
+    },
+    {
+      "epoch": 1.5557638238050608,
+      "grad_norm": 1.1368082761764526,
+      "learning_rate": 9.987845773111336e-06,
+      "loss": 0.1831,
+      "step": 1660
+    },
+    {
+      "epoch": 1.5651358950328023,
+      "grad_norm": 1.0743663311004639,
+      "learning_rate": 9.987772554877068e-06,
+      "loss": 0.1883,
+      "step": 1670
+    },
+    {
+      "epoch": 1.5745079662605437,
+      "grad_norm": 1.4294681549072266,
+      "learning_rate": 9.987699336642799e-06,
+      "loss": 0.1851,
+      "step": 1680
+    },
+    {
+      "epoch": 1.5838800374882849,
+      "grad_norm": 1.0537577867507935,
+      "learning_rate": 9.987626118408528e-06,
+      "loss": 0.1818,
+      "step": 1690
+    },
+    {
+      "epoch": 1.5932521087160263,
+      "grad_norm": 1.3930073976516724,
+      "learning_rate": 9.98755290017426e-06,
+      "loss": 0.1876,
+      "step": 1700
+    },
+    {
+      "epoch": 1.6026241799437675,
+      "grad_norm": 1.3290959596633911,
+      "learning_rate": 9.987479681939991e-06,
+      "loss": 0.1777,
+      "step": 1710
+    },
+    {
+      "epoch": 1.611996251171509,
+      "grad_norm": 1.3895900249481201,
+      "learning_rate": 9.987406463705722e-06,
+      "loss": 0.1728,
+      "step": 1720
+    },
+    {
+      "epoch": 1.6213683223992503,
+      "grad_norm": 1.336679220199585,
+      "learning_rate": 9.987333245471453e-06,
+      "loss": 0.202,
+      "step": 1730
+    },
+    {
+      "epoch": 1.6307403936269915,
+      "grad_norm": 1.4338617324829102,
+      "learning_rate": 9.987260027237184e-06,
+      "loss": 0.1745,
+      "step": 1740
+    },
+    {
+      "epoch": 1.640112464854733,
+      "grad_norm": 1.1854125261306763,
+      "learning_rate": 9.987186809002914e-06,
+      "loss": 0.1628,
+      "step": 1750
+    },
+    {
+      "epoch": 1.640112464854733,
+      "eval_loss": 0.07191870361566544,
+      "eval_pearson_cosine": 0.7651911973953247,
+      "eval_pearson_dot": 0.6584045886993408,
+      "eval_pearson_euclidean": 0.7615811228752136,
+      "eval_pearson_manhattan": 0.7618914842605591,
+      "eval_runtime": 22.2177,
+      "eval_samples_per_second": 67.514,
+      "eval_spearman_cosine": 0.7733826669765486,
+      "eval_spearman_dot": 0.6574446699366203,
+      "eval_spearman_euclidean": 0.7678793093449918,
+      "eval_spearman_manhattan": 0.7684997409854779,
+      "eval_steps_per_second": 8.462,
+      "step": 1750
+    },
+    {
+      "epoch": 1.6494845360824741,
+      "grad_norm": 1.468126654624939,
+      "learning_rate": 9.987113590768645e-06,
+      "loss": 0.1714,
+      "step": 1760
+    },
+    {
+      "epoch": 1.6588566073102156,
+      "grad_norm": 1.3639568090438843,
+      "learning_rate": 9.987040372534378e-06,
+      "loss": 0.1839,
+      "step": 1770
+    },
+    {
+      "epoch": 1.668228678537957,
+      "grad_norm": 1.2494312524795532,
+      "learning_rate": 9.986967154300108e-06,
+      "loss": 0.1753,
+      "step": 1780
+    },
+    {
+      "epoch": 1.6776007497656982,
+      "grad_norm": 1.2897909879684448,
+      "learning_rate": 9.986893936065839e-06,
+      "loss": 0.1704,
+      "step": 1790
+    },
+    {
+      "epoch": 1.6869728209934396,
+      "grad_norm": 1.413866400718689,
+      "learning_rate": 9.98682071783157e-06,
+      "loss": 0.1868,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6963448922211808,
+      "grad_norm": 1.093849778175354,
+      "learning_rate": 9.9867474995973e-06,
+      "loss": 0.1889,
+      "step": 1810
+    },
+    {
+      "epoch": 1.7057169634489222,
+      "grad_norm": 1.3857814073562622,
+      "learning_rate": 9.986674281363031e-06,
+      "loss": 0.1818,
+      "step": 1820
+    },
+    {
+      "epoch": 1.7150890346766636,
+      "grad_norm": 1.3772344589233398,
+      "learning_rate": 9.986601063128762e-06,
+      "loss": 0.1683,
+      "step": 1830
+    },
+    {
+      "epoch": 1.7244611059044048,
+      "grad_norm": 1.3299206495285034,
+      "learning_rate": 9.986527844894493e-06,
+      "loss": 0.1865,
+      "step": 1840
+    },
+    {
+      "epoch": 1.7338331771321462,
+      "grad_norm": 1.3139843940734863,
+      "learning_rate": 9.986454626660225e-06,
+      "loss": 0.169,
+      "step": 1850
+    },
+    {
+      "epoch": 1.7432052483598874,
+      "grad_norm": 1.3562296628952026,
+      "learning_rate": 9.986381408425954e-06,
+      "loss": 0.2012,
+      "step": 1860
+    },
+    {
+      "epoch": 1.7525773195876289,
+      "grad_norm": 1.2332826852798462,
+      "learning_rate": 9.986308190191685e-06,
+      "loss": 0.1877,
+      "step": 1870
+    },
+    {
+      "epoch": 1.7619493908153703,
+      "grad_norm": 1.083622932434082,
+      "learning_rate": 9.986234971957418e-06,
+      "loss": 0.2026,
+      "step": 1880
+    },
+    {
+      "epoch": 1.7713214620431117,
+      "grad_norm": 1.6391818523406982,
+      "learning_rate": 9.986161753723148e-06,
+      "loss": 0.1902,
+      "step": 1890
+    },
+    {
+      "epoch": 1.780693533270853,
+      "grad_norm": 1.0985593795776367,
+      "learning_rate": 9.986088535488879e-06,
+      "loss": 0.1845,
+      "step": 1900
+    },
+    {
+      "epoch": 1.790065604498594,
+      "grad_norm": 1.609025001525879,
+      "learning_rate": 9.98601531725461e-06,
+      "loss": 0.1939,
+      "step": 1910
+    },
+    {
+      "epoch": 1.7994376757263355,
+      "grad_norm": 1.0637205839157104,
+      "learning_rate": 9.98594209902034e-06,
+      "loss": 0.1775,
+      "step": 1920
+    },
+    {
+      "epoch": 1.808809746954077,
+      "grad_norm": 1.159469723701477,
+      "learning_rate": 9.985868880786071e-06,
+      "loss": 0.161,
+      "step": 1930
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 1.1251918077468872,
+      "learning_rate": 9.985795662551802e-06,
+      "loss": 0.1965,
+      "step": 1940
+    },
+    {
+      "epoch": 1.8275538894095595,
+      "grad_norm": 1.3804899454116821,
+      "learning_rate": 9.985722444317534e-06,
+      "loss": 0.1768,
+      "step": 1950
+    },
+    {
+      "epoch": 1.8369259606373007,
+      "grad_norm": 1.194275140762329,
+      "learning_rate": 9.985649226083265e-06,
+      "loss": 0.1782,
+      "step": 1960
+    },
+    {
+      "epoch": 1.8462980318650422,
+      "grad_norm": 1.5173845291137695,
+      "learning_rate": 9.985576007848996e-06,
+      "loss": 0.193,
+      "step": 1970
+    },
+    {
+      "epoch": 1.8556701030927836,
+      "grad_norm": 1.7733920812606812,
+      "learning_rate": 9.985502789614727e-06,
+      "loss": 0.1804,
+      "step": 1980
+    },
+    {
+      "epoch": 1.865042174320525,
+      "grad_norm": 1.1430355310440063,
+      "learning_rate": 9.985429571380457e-06,
+      "loss": 0.1869,
+      "step": 1990
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "grad_norm": 1.3633067607879639,
+      "learning_rate": 9.985356353146188e-06,
+      "loss": 0.1983,
+      "step": 2000
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "eval_loss": 0.07371454685926437,
+      "eval_pearson_cosine": 0.7772414684295654,
+      "eval_pearson_dot": 0.660416841506958,
+      "eval_pearson_euclidean": 0.7648824453353882,
+      "eval_pearson_manhattan": 0.7654331922531128,
+      "eval_runtime": 22.1973,
+      "eval_samples_per_second": 67.576,
+      "eval_spearman_cosine": 0.7863920785446639,
+      "eval_spearman_dot": 0.6607574545837009,
+      "eval_spearman_euclidean": 0.7740511645049805,
+      "eval_spearman_manhattan": 0.7747616492851076,
+      "eval_steps_per_second": 8.47,
+      "step": 2000
     }
   ],
   "logging_steps": 10,