Training in progress, step 9000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f6fca18b3d6839cfa4f9b00cec6f979a279d6161ccf0e227ea2f0e6664d6d3e
 size 738367848

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6621097a97062a5102e67fc29c2bb01fb6549601c085f8f26cce5a1634634ee
 size 738367848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:138d6cf3c8fe05fea07df883537101df6a3d38e7d05cbcc03796a983de350576
 size 1476823354

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e77fb5c2bafed3ee939a6057af4a25e874ed04b715f60fc720a59e7b1d77f2d
 size 1476823354

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28cdaddb959868042b846248e699766aefc2fadab97732661ad902989f1034df
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:98b04d6c2e8863bbad65481224e2bdca0706f808989765d4a58e7054f3e5dac5
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f01a643a1ae2b83dd1c19bc6b73325f7e12cc5322058a11111e293dc5b31ae9d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ae3ef9777e30c36dff6498b006da1eb150bccee38de6cf7669f386fc977289b
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a90f4546ff0a4d9c836b2695bc4b1ddad6eb64e578565dd4c83c3a0c3672df7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:680cdbb58729160d28a1f3cc615b2c063f7c72522976ed4abf05aaf19f07acb8
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:649b5fa0e92e74982a79e3759794b1cfec60cf9441738902668d54e2ffe1767b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1c050129d4c78b5963b9d24ede87255fc330819afb083e880a4ab6391077de6
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9e8b7d006141b3943e31b1b95143c70d5c410839f60e8892c3ebb5474fa5b82
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:95927238adba95b6358a20dd1852c4905066c03f5b6f24857e2f6c82bb9f0977
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab8e9d82889b9d58c21adc3199b61dc25e089ed0456cd04a5834b8213920db8d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7431d23b9b61660f73b469a3e73ae62f971d8bd2ced76f239fd78258fe40a803
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d61bbe5a4669c770dea677fdd22d95a5f9a1874c146a203a6de6b923066699e2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bdcc55ac2d89ab7fac22a6eb989c2be897f201356182513ed90bc09a5326786
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:208e36b51f1fe5107b8000b99406d4ff1bd7e95578591bc1f581b4593f80e4c6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:aae3da8149789ffc686c284e85fc275d996d793ce0edd8fa2949c1a21a4de8c9
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81e0e2c967dab9f9c48f59c1d3cd0a40f676964ec54c91035ecabb3e1c2f4b45
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:708acca42b057f68ded76410daaf0ceaf94be65729403bb2d72b15a907559585
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.497656982193065,
   "eval_steps": 250,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6119,6 +6119,770 @@
       "eval_spearman_manhattan": 0.7409361299302836,
       "eval_steps_per_second": 8.407,
       "step": 8000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.434864104967197,
   "eval_steps": 250,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7409361299302836,
       "eval_steps_per_second": 8.407,
       "step": 8000
+    },
+    {
+      "epoch": 7.507029053420806,
+      "grad_norm": 0.443439781665802,
+      "learning_rate": 9.941352194350481e-06,
+      "loss": 0.0301,
+      "step": 8010
+    },
+    {
+      "epoch": 7.516401124648548,
+      "grad_norm": 0.5801528692245483,
+      "learning_rate": 9.941278976116214e-06,
+      "loss": 0.0379,
+      "step": 8020
+    },
+    {
+      "epoch": 7.525773195876289,
+      "grad_norm": 0.9093418717384338,
+      "learning_rate": 9.941205757881943e-06,
+      "loss": 0.0376,
+      "step": 8030
+    },
+    {
+      "epoch": 7.5351452671040295,
+      "grad_norm": 0.7593823671340942,
+      "learning_rate": 9.941132539647674e-06,
+      "loss": 0.0444,
+      "step": 8040
+    },
+    {
+      "epoch": 7.544517338331771,
+      "grad_norm": 0.706062376499176,
+      "learning_rate": 9.941059321413406e-06,
+      "loss": 0.0365,
+      "step": 8050
+    },
+    {
+      "epoch": 7.553889409559512,
+      "grad_norm": 0.9754658937454224,
+      "learning_rate": 9.940986103179137e-06,
+      "loss": 0.0333,
+      "step": 8060
+    },
+    {
+      "epoch": 7.563261480787254,
+      "grad_norm": 0.8546915054321289,
+      "learning_rate": 9.940912884944867e-06,
+      "loss": 0.0365,
+      "step": 8070
+    },
+    {
+      "epoch": 7.572633552014995,
+      "grad_norm": 1.0958435535430908,
+      "learning_rate": 9.940839666710598e-06,
+      "loss": 0.0371,
+      "step": 8080
+    },
+    {
+      "epoch": 7.582005623242736,
+      "grad_norm": 0.9083812832832336,
+      "learning_rate": 9.940766448476329e-06,
+      "loss": 0.0355,
+      "step": 8090
+    },
+    {
+      "epoch": 7.591377694470478,
+      "grad_norm": 0.8183301091194153,
+      "learning_rate": 9.94069323024206e-06,
+      "loss": 0.0366,
+      "step": 8100
+    },
+    {
+      "epoch": 7.600749765698219,
+      "grad_norm": 1.1571640968322754,
+      "learning_rate": 9.94062001200779e-06,
+      "loss": 0.0357,
+      "step": 8110
+    },
+    {
+      "epoch": 7.610121836925961,
+      "grad_norm": 0.47001174092292786,
+      "learning_rate": 9.940546793773523e-06,
+      "loss": 0.0366,
+      "step": 8120
+    },
+    {
+      "epoch": 7.619493908153702,
+      "grad_norm": 0.7864421010017395,
+      "learning_rate": 9.940473575539254e-06,
+      "loss": 0.0354,
+      "step": 8130
+    },
+    {
+      "epoch": 7.628865979381443,
+      "grad_norm": 1.7657727003097534,
+      "learning_rate": 9.940400357304984e-06,
+      "loss": 0.0353,
+      "step": 8140
+    },
+    {
+      "epoch": 7.638238050609185,
+      "grad_norm": 0.9494844079017639,
+      "learning_rate": 9.940327139070715e-06,
+      "loss": 0.0358,
+      "step": 8150
+    },
+    {
+      "epoch": 7.647610121836926,
+      "grad_norm": 1.1095364093780518,
+      "learning_rate": 9.940253920836446e-06,
+      "loss": 0.0338,
+      "step": 8160
+    },
+    {
+      "epoch": 7.6569821930646675,
+      "grad_norm": 0.5973043441772461,
+      "learning_rate": 9.940180702602177e-06,
+      "loss": 0.0332,
+      "step": 8170
+    },
+    {
+      "epoch": 7.6663542642924085,
+      "grad_norm": 0.5820950865745544,
+      "learning_rate": 9.940107484367907e-06,
+      "loss": 0.0398,
+      "step": 8180
+    },
+    {
+      "epoch": 7.6757263355201495,
+      "grad_norm": 0.8826543688774109,
+      "learning_rate": 9.94003426613364e-06,
+      "loss": 0.0363,
+      "step": 8190
+    },
+    {
+      "epoch": 7.685098406747891,
+      "grad_norm": 1.2651371955871582,
+      "learning_rate": 9.93996104789937e-06,
+      "loss": 0.041,
+      "step": 8200
+    },
+    {
+      "epoch": 7.694470477975632,
+      "grad_norm": 0.4515238106250763,
+      "learning_rate": 9.9398878296651e-06,
+      "loss": 0.0375,
+      "step": 8210
+    },
+    {
+      "epoch": 7.703842549203374,
+      "grad_norm": 1.2343902587890625,
+      "learning_rate": 9.939814611430832e-06,
+      "loss": 0.0362,
+      "step": 8220
+    },
+    {
+      "epoch": 7.713214620431115,
+      "grad_norm": 0.9942644238471985,
+      "learning_rate": 9.939741393196563e-06,
+      "loss": 0.029,
+      "step": 8230
+    },
+    {
+      "epoch": 7.722586691658856,
+      "grad_norm": 1.327783226966858,
+      "learning_rate": 9.939668174962294e-06,
+      "loss": 0.0392,
+      "step": 8240
+    },
+    {
+      "epoch": 7.731958762886598,
+      "grad_norm": 1.4785791635513306,
+      "learning_rate": 9.939594956728024e-06,
+      "loss": 0.035,
+      "step": 8250
+    },
+    {
+      "epoch": 7.731958762886598,
+      "eval_loss": 0.037988826632499695,
+      "eval_pearson_cosine": 0.7700406312942505,
+      "eval_pearson_dot": 0.7271457314491272,
+      "eval_pearson_euclidean": 0.7288488745689392,
+      "eval_pearson_manhattan": 0.7308281660079956,
+      "eval_runtime": 23.4237,
+      "eval_samples_per_second": 64.038,
+      "eval_spearman_cosine": 0.7690641250527666,
+      "eval_spearman_dot": 0.72759972168602,
+      "eval_spearman_euclidean": 0.7335219335323239,
+      "eval_spearman_manhattan": 0.7351665552942261,
+      "eval_steps_per_second": 8.026,
+      "step": 8250
+    },
+    {
+      "epoch": 7.741330834114339,
+      "grad_norm": 0.9368901252746582,
+      "learning_rate": 9.939521738493755e-06,
+      "loss": 0.0354,
+      "step": 8260
+    },
+    {
+      "epoch": 7.750702905342081,
+      "grad_norm": 0.924701452255249,
+      "learning_rate": 9.939448520259486e-06,
+      "loss": 0.0308,
+      "step": 8270
+    },
+    {
+      "epoch": 7.760074976569822,
+      "grad_norm": 0.6925562620162964,
+      "learning_rate": 9.939375302025217e-06,
+      "loss": 0.0379,
+      "step": 8280
+    },
+    {
+      "epoch": 7.769447047797563,
+      "grad_norm": 1.1450366973876953,
+      "learning_rate": 9.939302083790947e-06,
+      "loss": 0.035,
+      "step": 8290
+    },
+    {
+      "epoch": 7.778819119025305,
+      "grad_norm": 1.4248292446136475,
+      "learning_rate": 9.93922886555668e-06,
+      "loss": 0.0425,
+      "step": 8300
+    },
+    {
+      "epoch": 7.788191190253046,
+      "grad_norm": 1.1555083990097046,
+      "learning_rate": 9.93915564732241e-06,
+      "loss": 0.035,
+      "step": 8310
+    },
+    {
+      "epoch": 7.7975632614807875,
+      "grad_norm": 0.8950551152229309,
+      "learning_rate": 9.93908242908814e-06,
+      "loss": 0.0371,
+      "step": 8320
+    },
+    {
+      "epoch": 7.8069353327085285,
+      "grad_norm": 0.9402216076850891,
+      "learning_rate": 9.939009210853872e-06,
+      "loss": 0.0325,
+      "step": 8330
+    },
+    {
+      "epoch": 7.816307403936269,
+      "grad_norm": 0.7723280191421509,
+      "learning_rate": 9.938935992619603e-06,
+      "loss": 0.0335,
+      "step": 8340
+    },
+    {
+      "epoch": 7.825679475164011,
+      "grad_norm": 1.1138160228729248,
+      "learning_rate": 9.938862774385334e-06,
+      "loss": 0.0392,
+      "step": 8350
+    },
+    {
+      "epoch": 7.835051546391752,
+      "grad_norm": 1.1937012672424316,
+      "learning_rate": 9.938789556151064e-06,
+      "loss": 0.0349,
+      "step": 8360
+    },
+    {
+      "epoch": 7.844423617619494,
+      "grad_norm": 0.8927692174911499,
+      "learning_rate": 9.938716337916797e-06,
+      "loss": 0.0339,
+      "step": 8370
+    },
+    {
+      "epoch": 7.853795688847235,
+      "grad_norm": 1.1513832807540894,
+      "learning_rate": 9.938643119682526e-06,
+      "loss": 0.039,
+      "step": 8380
+    },
+    {
+      "epoch": 7.863167760074976,
+      "grad_norm": 0.6757535338401794,
+      "learning_rate": 9.938569901448257e-06,
+      "loss": 0.0331,
+      "step": 8390
+    },
+    {
+      "epoch": 7.872539831302718,
+      "grad_norm": 0.64778071641922,
+      "learning_rate": 9.938496683213989e-06,
+      "loss": 0.0357,
+      "step": 8400
+    },
+    {
+      "epoch": 7.881911902530459,
+      "grad_norm": 0.8938049674034119,
+      "learning_rate": 9.93842346497972e-06,
+      "loss": 0.0342,
+      "step": 8410
+    },
+    {
+      "epoch": 7.891283973758201,
+      "grad_norm": 1.0501271486282349,
+      "learning_rate": 9.93835024674545e-06,
+      "loss": 0.0335,
+      "step": 8420
+    },
+    {
+      "epoch": 7.900656044985942,
+      "grad_norm": 0.8977199792861938,
+      "learning_rate": 9.938277028511181e-06,
+      "loss": 0.0352,
+      "step": 8430
+    },
+    {
+      "epoch": 7.910028116213683,
+      "grad_norm": 1.1958116292953491,
+      "learning_rate": 9.938203810276912e-06,
+      "loss": 0.0349,
+      "step": 8440
+    },
+    {
+      "epoch": 7.919400187441425,
+      "grad_norm": 0.9677138328552246,
+      "learning_rate": 9.938130592042643e-06,
+      "loss": 0.0368,
+      "step": 8450
+    },
+    {
+      "epoch": 7.928772258669166,
+      "grad_norm": 0.6786054372787476,
+      "learning_rate": 9.938057373808374e-06,
+      "loss": 0.0312,
+      "step": 8460
+    },
+    {
+      "epoch": 7.938144329896907,
+      "grad_norm": 0.8180833458900452,
+      "learning_rate": 9.937984155574106e-06,
+      "loss": 0.0351,
+      "step": 8470
+    },
+    {
+      "epoch": 7.947516401124648,
+      "grad_norm": 0.9622411727905273,
+      "learning_rate": 9.937910937339837e-06,
+      "loss": 0.0312,
+      "step": 8480
+    },
+    {
+      "epoch": 7.956888472352389,
+      "grad_norm": 0.7947582006454468,
+      "learning_rate": 9.937837719105566e-06,
+      "loss": 0.0309,
+      "step": 8490
+    },
+    {
+      "epoch": 7.966260543580131,
+      "grad_norm": 0.663296103477478,
+      "learning_rate": 9.937764500871298e-06,
+      "loss": 0.0361,
+      "step": 8500
+    },
+    {
+      "epoch": 7.966260543580131,
+      "eval_loss": 0.03769104555249214,
+      "eval_pearson_cosine": 0.7716894745826721,
+      "eval_pearson_dot": 0.7308681011199951,
+      "eval_pearson_euclidean": 0.7253518104553223,
+      "eval_pearson_manhattan": 0.727583646774292,
+      "eval_runtime": 21.789,
+      "eval_samples_per_second": 68.842,
+      "eval_spearman_cosine": 0.7708559308843369,
+      "eval_spearman_dot": 0.7317227014854395,
+      "eval_spearman_euclidean": 0.729650509473576,
+      "eval_spearman_manhattan": 0.7317616874018321,
+      "eval_steps_per_second": 8.628,
+      "step": 8500
+    },
+    {
+      "epoch": 7.975632614807872,
+      "grad_norm": 0.4781196415424347,
+      "learning_rate": 9.937691282637029e-06,
+      "loss": 0.0322,
+      "step": 8510
+    },
+    {
+      "epoch": 7.985004686035614,
+      "grad_norm": 1.5688908100128174,
+      "learning_rate": 9.93761806440276e-06,
+      "loss": 0.0385,
+      "step": 8520
+    },
+    {
+      "epoch": 7.994376757263355,
+      "grad_norm": 0.9491916298866272,
+      "learning_rate": 9.93754484616849e-06,
+      "loss": 0.0349,
+      "step": 8530
+    },
+    {
+      "epoch": 8.003748828491096,
+      "grad_norm": 0.5889357924461365,
+      "learning_rate": 9.937471627934221e-06,
+      "loss": 0.0282,
+      "step": 8540
+    },
+    {
+      "epoch": 8.013120899718837,
+      "grad_norm": 0.7906449437141418,
+      "learning_rate": 9.937398409699952e-06,
+      "loss": 0.0236,
+      "step": 8550
+    },
+    {
+      "epoch": 8.02249297094658,
+      "grad_norm": 1.4013662338256836,
+      "learning_rate": 9.937325191465683e-06,
+      "loss": 0.0303,
+      "step": 8560
+    },
+    {
+      "epoch": 8.03186504217432,
+      "grad_norm": 1.186049461364746,
+      "learning_rate": 9.937251973231414e-06,
+      "loss": 0.0283,
+      "step": 8570
+    },
+    {
+      "epoch": 8.041237113402062,
+      "grad_norm": 0.9762454628944397,
+      "learning_rate": 9.937178754997146e-06,
+      "loss": 0.0235,
+      "step": 8580
+    },
+    {
+      "epoch": 8.050609184629803,
+      "grad_norm": 0.8854254484176636,
+      "learning_rate": 9.937105536762877e-06,
+      "loss": 0.0269,
+      "step": 8590
+    },
+    {
+      "epoch": 8.059981255857544,
+      "grad_norm": 1.2090007066726685,
+      "learning_rate": 9.937032318528607e-06,
+      "loss": 0.0254,
+      "step": 8600
+    },
+    {
+      "epoch": 8.069353327085286,
+      "grad_norm": 0.5176217555999756,
+      "learning_rate": 9.936959100294338e-06,
+      "loss": 0.0317,
+      "step": 8610
+    },
+    {
+      "epoch": 8.078725398313027,
+      "grad_norm": 0.4938619136810303,
+      "learning_rate": 9.936885882060069e-06,
+      "loss": 0.0245,
+      "step": 8620
+    },
+    {
+      "epoch": 8.088097469540768,
+      "grad_norm": 1.6035066843032837,
+      "learning_rate": 9.9368126638258e-06,
+      "loss": 0.0296,
+      "step": 8630
+    },
+    {
+      "epoch": 8.09746954076851,
+      "grad_norm": 0.6895983815193176,
+      "learning_rate": 9.93673944559153e-06,
+      "loss": 0.0292,
+      "step": 8640
+    },
+    {
+      "epoch": 8.10684161199625,
+      "grad_norm": 0.6980400085449219,
+      "learning_rate": 9.936666227357263e-06,
+      "loss": 0.0299,
+      "step": 8650
+    },
+    {
+      "epoch": 8.116213683223993,
+      "grad_norm": 1.0714101791381836,
+      "learning_rate": 9.936593009122992e-06,
+      "loss": 0.0258,
+      "step": 8660
+    },
+    {
+      "epoch": 8.125585754451734,
+      "grad_norm": 0.6729503273963928,
+      "learning_rate": 9.936519790888723e-06,
+      "loss": 0.0279,
+      "step": 8670
+    },
+    {
+      "epoch": 8.134957825679475,
+      "grad_norm": 0.8938456177711487,
+      "learning_rate": 9.936446572654455e-06,
+      "loss": 0.0245,
+      "step": 8680
+    },
+    {
+      "epoch": 8.144329896907216,
+      "grad_norm": 1.2066154479980469,
+      "learning_rate": 9.936373354420186e-06,
+      "loss": 0.0334,
+      "step": 8690
+    },
+    {
+      "epoch": 8.153701968134957,
+      "grad_norm": 0.7639226913452148,
+      "learning_rate": 9.936300136185917e-06,
+      "loss": 0.0245,
+      "step": 8700
+    },
+    {
+      "epoch": 8.1630740393627,
+      "grad_norm": 1.4429128170013428,
+      "learning_rate": 9.936226917951647e-06,
+      "loss": 0.0278,
+      "step": 8710
+    },
+    {
+      "epoch": 8.17244611059044,
+      "grad_norm": 0.8992042541503906,
+      "learning_rate": 9.936153699717378e-06,
+      "loss": 0.0267,
+      "step": 8720
+    },
+    {
+      "epoch": 8.181818181818182,
+      "grad_norm": 0.598173975944519,
+      "learning_rate": 9.936080481483109e-06,
+      "loss": 0.0258,
+      "step": 8730
+    },
+    {
+      "epoch": 8.191190253045923,
+      "grad_norm": 0.42205601930618286,
+      "learning_rate": 9.93600726324884e-06,
+      "loss": 0.0323,
+      "step": 8740
+    },
+    {
+      "epoch": 8.200562324273664,
+      "grad_norm": 0.584039568901062,
+      "learning_rate": 9.935934045014572e-06,
+      "loss": 0.0224,
+      "step": 8750
+    },
+    {
+      "epoch": 8.200562324273664,
+      "eval_loss": 0.037737876176834106,
+      "eval_pearson_cosine": 0.7710561156272888,
+      "eval_pearson_dot": 0.7243790626525879,
+      "eval_pearson_euclidean": 0.7310018539428711,
+      "eval_pearson_manhattan": 0.7328372001647949,
+      "eval_runtime": 24.3532,
+      "eval_samples_per_second": 61.593,
+      "eval_spearman_cosine": 0.7703050511110383,
+      "eval_spearman_dot": 0.725368343860831,
+      "eval_spearman_euclidean": 0.7355669919591825,
+      "eval_spearman_manhattan": 0.7369211933770833,
+      "eval_steps_per_second": 7.72,
+      "step": 8750
+    },
+    {
+      "epoch": 8.209934395501406,
+      "grad_norm": 0.8525517582893372,
+      "learning_rate": 9.935860826780303e-06,
+      "loss": 0.0268,
+      "step": 8760
+    },
+    {
+      "epoch": 8.219306466729147,
+      "grad_norm": 0.7080439329147339,
+      "learning_rate": 9.935787608546034e-06,
+      "loss": 0.0237,
+      "step": 8770
+    },
+    {
+      "epoch": 8.228678537956888,
+      "grad_norm": 0.7084332704544067,
+      "learning_rate": 9.935714390311764e-06,
+      "loss": 0.0232,
+      "step": 8780
+    },
+    {
+      "epoch": 8.23805060918463,
+      "grad_norm": 1.2140733003616333,
+      "learning_rate": 9.935641172077495e-06,
+      "loss": 0.028,
+      "step": 8790
+    },
+    {
+      "epoch": 8.24742268041237,
+      "grad_norm": 0.6614952087402344,
+      "learning_rate": 9.935567953843226e-06,
+      "loss": 0.025,
+      "step": 8800
+    },
+    {
+      "epoch": 8.256794751640113,
+      "grad_norm": 0.642755925655365,
+      "learning_rate": 9.935494735608957e-06,
+      "loss": 0.0259,
+      "step": 8810
+    },
+    {
+      "epoch": 8.266166822867854,
+      "grad_norm": 1.1676636934280396,
+      "learning_rate": 9.935421517374687e-06,
+      "loss": 0.0292,
+      "step": 8820
+    },
+    {
+      "epoch": 8.275538894095595,
+      "grad_norm": 0.4561503529548645,
+      "learning_rate": 9.935348299140418e-06,
+      "loss": 0.026,
+      "step": 8830
+    },
+    {
+      "epoch": 8.284910965323336,
+      "grad_norm": 0.5693290829658508,
+      "learning_rate": 9.935275080906149e-06,
+      "loss": 0.0283,
+      "step": 8840
+    },
+    {
+      "epoch": 8.294283036551079,
+      "grad_norm": 1.2574779987335205,
+      "learning_rate": 9.935201862671881e-06,
+      "loss": 0.0275,
+      "step": 8850
+    },
+    {
+      "epoch": 8.30365510777882,
+      "grad_norm": 0.9662300944328308,
+      "learning_rate": 9.935128644437612e-06,
+      "loss": 0.0257,
+      "step": 8860
+    },
+    {
+      "epoch": 8.31302717900656,
+      "grad_norm": 0.5467878580093384,
+      "learning_rate": 9.935055426203343e-06,
+      "loss": 0.0264,
+      "step": 8870
+    },
+    {
+      "epoch": 8.322399250234302,
+      "grad_norm": 1.0672435760498047,
+      "learning_rate": 9.934982207969074e-06,
+      "loss": 0.0334,
+      "step": 8880
+    },
+    {
+      "epoch": 8.331771321462043,
+      "grad_norm": 1.155970573425293,
+      "learning_rate": 9.934908989734804e-06,
+      "loss": 0.029,
+      "step": 8890
+    },
+    {
+      "epoch": 8.341143392689784,
+      "grad_norm": 0.9163686037063599,
+      "learning_rate": 9.934835771500535e-06,
+      "loss": 0.0295,
+      "step": 8900
+    },
+    {
+      "epoch": 8.350515463917526,
+      "grad_norm": 0.6844992637634277,
+      "learning_rate": 9.934762553266266e-06,
+      "loss": 0.0228,
+      "step": 8910
+    },
+    {
+      "epoch": 8.359887535145267,
+      "grad_norm": 0.6449628472328186,
+      "learning_rate": 9.934689335031997e-06,
+      "loss": 0.0272,
+      "step": 8920
+    },
+    {
+      "epoch": 8.369259606373008,
+      "grad_norm": 1.0157432556152344,
+      "learning_rate": 9.934616116797729e-06,
+      "loss": 0.0251,
+      "step": 8930
+    },
+    {
+      "epoch": 8.37863167760075,
+      "grad_norm": 0.9558159112930298,
+      "learning_rate": 9.93454289856346e-06,
+      "loss": 0.0262,
+      "step": 8940
+    },
+    {
+      "epoch": 8.388003748828492,
+      "grad_norm": 1.2592884302139282,
+      "learning_rate": 9.934469680329189e-06,
+      "loss": 0.0317,
+      "step": 8950
+    },
+    {
+      "epoch": 8.397375820056233,
+      "grad_norm": 0.8466887474060059,
+      "learning_rate": 9.934396462094921e-06,
+      "loss": 0.0333,
+      "step": 8960
+    },
+    {
+      "epoch": 8.406747891283974,
+      "grad_norm": 0.8453270792961121,
+      "learning_rate": 9.934323243860652e-06,
+      "loss": 0.0276,
+      "step": 8970
+    },
+    {
+      "epoch": 8.416119962511715,
+      "grad_norm": 0.6024593710899353,
+      "learning_rate": 9.934250025626383e-06,
+      "loss": 0.0269,
+      "step": 8980
+    },
+    {
+      "epoch": 8.425492033739456,
+      "grad_norm": 0.8663728833198547,
+      "learning_rate": 9.934176807392114e-06,
+      "loss": 0.0289,
+      "step": 8990
+    },
+    {
+      "epoch": 8.434864104967197,
+      "grad_norm": 0.8765361905097961,
+      "learning_rate": 9.934103589157846e-06,
+      "loss": 0.0256,
+      "step": 9000
+    },
+    {
+      "epoch": 8.434864104967197,
+      "eval_loss": 0.038624610751867294,
+      "eval_pearson_cosine": 0.7652055025100708,
+      "eval_pearson_dot": 0.7185550928115845,
+      "eval_pearson_euclidean": 0.7254422903060913,
+      "eval_pearson_manhattan": 0.7273893356323242,
+      "eval_runtime": 25.8439,
+      "eval_samples_per_second": 58.041,
+      "eval_spearman_cosine": 0.7646832614130892,
+      "eval_spearman_dot": 0.7190565869110545,
+      "eval_spearman_euclidean": 0.7303235144121284,
+      "eval_spearman_manhattan": 0.7319318616566108,
+      "eval_steps_per_second": 7.274,
+      "step": 9000
     }
   ],
   "logging_steps": 10,