Training in progress, step 8000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:320c1a6e527bda174c669c1f951ba0d8511688825b12496cdd957e88966c44d9
 size 738367848

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f6fca18b3d6839cfa4f9b00cec6f979a279d6161ccf0e227ea2f0e6664d6d3e
 size 738367848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57f4bc2a3c4abe8dda39abccfe59caa42f3c3826a1837f4bf0c5399a3526b447
 size 1476823354

 version https://git-lfs.github.com/spec/v1
+oid sha256:138d6cf3c8fe05fea07df883537101df6a3d38e7d05cbcc03796a983de350576
 size 1476823354

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6677d2f94c1eeef9fd86043f9720c0ec154224510969ab790d1983791f375b88
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:28cdaddb959868042b846248e699766aefc2fadab97732661ad902989f1034df
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4c2eafdb8010cffd636a540805e21c2ed7a900fa295f85b31d51d1a42084ef2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f01a643a1ae2b83dd1c19bc6b73325f7e12cc5322058a11111e293dc5b31ae9d
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:243c3ab92fec11f8d6189a1ee0c6563a7d0fa0286f6142dbd247bcce148d357d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a90f4546ff0a4d9c836b2695bc4b1ddad6eb64e578565dd4c83c3a0c3672df7
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c16967790d71b2e48b6adefaa270162917f0f86335d85480de9fb6860c7492
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:649b5fa0e92e74982a79e3759794b1cfec60cf9441738902668d54e2ffe1767b
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:369fdbde0f14abf383325d06785d666884716d0228d7dc8c5e50c13cfb424b27
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9e8b7d006141b3943e31b1b95143c70d5c410839f60e8892c3ebb5474fa5b82
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb8ed41d9a3d876261e27e3c4c409c9b564db5930687ae4ec83f98c5023be0a7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab8e9d82889b9d58c21adc3199b61dc25e089ed0456cd04a5834b8213920db8d
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a76fd0f99241be8ebb729e7e60a6572e44b68c9f795cc3e8947a8ca4fa56c56
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d61bbe5a4669c770dea677fdd22d95a5f9a1874c146a203a6de6b923066699e2
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45c51dab87a7b7a65f8d23876cdf72e77eeca4ff50002d44cd0db1ecc3a43a63
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:208e36b51f1fe5107b8000b99406d4ff1bd7e95578591bc1f581b4593f80e4c6
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2dc388ca3bbc2159f39c9ce16c2f601ff32a9453701746d70cc6d36087ab16b
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:81e0e2c967dab9f9c48f59c1d3cd0a40f676964ec54c91035ecabb3e1c2f4b45
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.560449859418932,
   "eval_steps": 250,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5355,6 +5355,770 @@
       "eval_spearman_manhattan": 0.7397995971405482,
       "eval_steps_per_second": 8.263,
       "step": 7000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.497656982193065,
   "eval_steps": 250,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7397995971405482,
       "eval_steps_per_second": 8.263,
       "step": 7000
+    },
+    {
+      "epoch": 6.569821930646673,
+      "grad_norm": 1.1269482374191284,
+      "learning_rate": 9.948674017777388e-06,
+      "loss": 0.0395,
+      "step": 7010
+    },
+    {
+      "epoch": 6.579194001874415,
+      "grad_norm": 0.8978859782218933,
+      "learning_rate": 9.948600799543118e-06,
+      "loss": 0.0438,
+      "step": 7020
+    },
+    {
+      "epoch": 6.588566073102156,
+      "grad_norm": 1.3999450206756592,
+      "learning_rate": 9.94852758130885e-06,
+      "loss": 0.0466,
+      "step": 7030
+    },
+    {
+      "epoch": 6.597938144329897,
+      "grad_norm": 0.985998272895813,
+      "learning_rate": 9.948454363074582e-06,
+      "loss": 0.0474,
+      "step": 7040
+    },
+    {
+      "epoch": 6.607310215557638,
+      "grad_norm": 0.7843828797340393,
+      "learning_rate": 9.948381144840312e-06,
+      "loss": 0.0417,
+      "step": 7050
+    },
+    {
+      "epoch": 6.616682286785379,
+      "grad_norm": 1.64656400680542,
+      "learning_rate": 9.948307926606043e-06,
+      "loss": 0.045,
+      "step": 7060
+    },
+    {
+      "epoch": 6.626054358013121,
+      "grad_norm": 0.6348075866699219,
+      "learning_rate": 9.948234708371774e-06,
+      "loss": 0.0501,
+      "step": 7070
+    },
+    {
+      "epoch": 6.635426429240862,
+      "grad_norm": 1.8781590461730957,
+      "learning_rate": 9.948161490137505e-06,
+      "loss": 0.0445,
+      "step": 7080
+    },
+    {
+      "epoch": 6.644798500468603,
+      "grad_norm": 1.0441402196884155,
+      "learning_rate": 9.948088271903235e-06,
+      "loss": 0.0457,
+      "step": 7090
+    },
+    {
+      "epoch": 6.654170571696345,
+      "grad_norm": 1.2460689544677734,
+      "learning_rate": 9.948015053668966e-06,
+      "loss": 0.0471,
+      "step": 7100
+    },
+    {
+      "epoch": 6.663542642924086,
+      "grad_norm": 0.993414580821991,
+      "learning_rate": 9.947941835434698e-06,
+      "loss": 0.0423,
+      "step": 7110
+    },
+    {
+      "epoch": 6.672914714151828,
+      "grad_norm": 1.2848552465438843,
+      "learning_rate": 9.947868617200428e-06,
+      "loss": 0.0414,
+      "step": 7120
+    },
+    {
+      "epoch": 6.682286785379569,
+      "grad_norm": 1.2903103828430176,
+      "learning_rate": 9.947795398966158e-06,
+      "loss": 0.0402,
+      "step": 7130
+    },
+    {
+      "epoch": 6.69165885660731,
+      "grad_norm": 1.2319235801696777,
+      "learning_rate": 9.94772218073189e-06,
+      "loss": 0.0504,
+      "step": 7140
+    },
+    {
+      "epoch": 6.701030927835052,
+      "grad_norm": 0.8465273976325989,
+      "learning_rate": 9.947648962497621e-06,
+      "loss": 0.0409,
+      "step": 7150
+    },
+    {
+      "epoch": 6.710402999062793,
+      "grad_norm": 1.186928153038025,
+      "learning_rate": 9.947575744263352e-06,
+      "loss": 0.0458,
+      "step": 7160
+    },
+    {
+      "epoch": 6.719775070290535,
+      "grad_norm": 1.3528752326965332,
+      "learning_rate": 9.947502526029083e-06,
+      "loss": 0.0433,
+      "step": 7170
+    },
+    {
+      "epoch": 6.7291471415182755,
+      "grad_norm": 0.8908892273902893,
+      "learning_rate": 9.947429307794814e-06,
+      "loss": 0.0456,
+      "step": 7180
+    },
+    {
+      "epoch": 6.7385192127460165,
+      "grad_norm": 1.1235069036483765,
+      "learning_rate": 9.947356089560544e-06,
+      "loss": 0.0481,
+      "step": 7190
+    },
+    {
+      "epoch": 6.747891283973758,
+      "grad_norm": 1.6809895038604736,
+      "learning_rate": 9.947282871326275e-06,
+      "loss": 0.0454,
+      "step": 7200
+    },
+    {
+      "epoch": 6.757263355201499,
+      "grad_norm": 0.8632039427757263,
+      "learning_rate": 9.947209653092008e-06,
+      "loss": 0.0481,
+      "step": 7210
+    },
+    {
+      "epoch": 6.766635426429241,
+      "grad_norm": 1.2185996770858765,
+      "learning_rate": 9.947136434857738e-06,
+      "loss": 0.0383,
+      "step": 7220
+    },
+    {
+      "epoch": 6.776007497656982,
+      "grad_norm": 0.6979696154594421,
+      "learning_rate": 9.947063216623467e-06,
+      "loss": 0.0435,
+      "step": 7230
+    },
+    {
+      "epoch": 6.785379568884723,
+      "grad_norm": 1.459441065788269,
+      "learning_rate": 9.9469899983892e-06,
+      "loss": 0.0449,
+      "step": 7240
+    },
+    {
+      "epoch": 6.794751640112465,
+      "grad_norm": 1.0957977771759033,
+      "learning_rate": 9.94691678015493e-06,
+      "loss": 0.032,
+      "step": 7250
+    },
+    {
+      "epoch": 6.794751640112465,
+      "eval_loss": 0.03765299916267395,
+      "eval_pearson_cosine": 0.7692482471466064,
+      "eval_pearson_dot": 0.722366452217102,
+      "eval_pearson_euclidean": 0.7316011190414429,
+      "eval_pearson_manhattan": 0.7333144545555115,
+      "eval_runtime": 22.5438,
+      "eval_samples_per_second": 66.537,
+      "eval_spearman_cosine": 0.7695046405395065,
+      "eval_spearman_dot": 0.7242050912795406,
+      "eval_spearman_euclidean": 0.7356828429817377,
+      "eval_spearman_manhattan": 0.737487116385034,
+      "eval_steps_per_second": 8.339,
+      "step": 7250
+    },
+    {
+      "epoch": 6.804123711340206,
+      "grad_norm": 1.377066731452942,
+      "learning_rate": 9.946843561920661e-06,
+      "loss": 0.0529,
+      "step": 7260
+    },
+    {
+      "epoch": 6.813495782567948,
+      "grad_norm": 0.714728057384491,
+      "learning_rate": 9.946770343686392e-06,
+      "loss": 0.0432,
+      "step": 7270
+    },
+    {
+      "epoch": 6.822867853795689,
+      "grad_norm": 1.4324384927749634,
+      "learning_rate": 9.946697125452125e-06,
+      "loss": 0.046,
+      "step": 7280
+    },
+    {
+      "epoch": 6.83223992502343,
+      "grad_norm": 1.2564704418182373,
+      "learning_rate": 9.946623907217854e-06,
+      "loss": 0.046,
+      "step": 7290
+    },
+    {
+      "epoch": 6.841611996251172,
+      "grad_norm": 0.8522197008132935,
+      "learning_rate": 9.946550688983584e-06,
+      "loss": 0.0393,
+      "step": 7300
+    },
+    {
+      "epoch": 6.850984067478913,
+      "grad_norm": 0.8751912117004395,
+      "learning_rate": 9.946477470749317e-06,
+      "loss": 0.0426,
+      "step": 7310
+    },
+    {
+      "epoch": 6.8603561387066545,
+      "grad_norm": 0.8960391879081726,
+      "learning_rate": 9.946404252515048e-06,
+      "loss": 0.0445,
+      "step": 7320
+    },
+    {
+      "epoch": 6.8697282099343955,
+      "grad_norm": 1.092128872871399,
+      "learning_rate": 9.946331034280778e-06,
+      "loss": 0.0459,
+      "step": 7330
+    },
+    {
+      "epoch": 6.8791002811621365,
+      "grad_norm": 1.1840777397155762,
+      "learning_rate": 9.946257816046509e-06,
+      "loss": 0.0387,
+      "step": 7340
+    },
+    {
+      "epoch": 6.888472352389878,
+      "grad_norm": 1.0283764600753784,
+      "learning_rate": 9.94618459781224e-06,
+      "loss": 0.0577,
+      "step": 7350
+    },
+    {
+      "epoch": 6.897844423617619,
+      "grad_norm": 0.749761164188385,
+      "learning_rate": 9.94611137957797e-06,
+      "loss": 0.0414,
+      "step": 7360
+    },
+    {
+      "epoch": 6.907216494845361,
+      "grad_norm": 0.8442000150680542,
+      "learning_rate": 9.946038161343701e-06,
+      "loss": 0.046,
+      "step": 7370
+    },
+    {
+      "epoch": 6.916588566073102,
+      "grad_norm": 1.2296583652496338,
+      "learning_rate": 9.945964943109432e-06,
+      "loss": 0.0412,
+      "step": 7380
+    },
+    {
+      "epoch": 6.925960637300843,
+      "grad_norm": 0.6515626311302185,
+      "learning_rate": 9.945891724875165e-06,
+      "loss": 0.0481,
+      "step": 7390
+    },
+    {
+      "epoch": 6.935332708528585,
+      "grad_norm": 1.8992091417312622,
+      "learning_rate": 9.945818506640895e-06,
+      "loss": 0.0431,
+      "step": 7400
+    },
+    {
+      "epoch": 6.944704779756326,
+      "grad_norm": 1.1663875579833984,
+      "learning_rate": 9.945745288406624e-06,
+      "loss": 0.0459,
+      "step": 7410
+    },
+    {
+      "epoch": 6.954076850984068,
+      "grad_norm": 0.6695976853370667,
+      "learning_rate": 9.945672070172357e-06,
+      "loss": 0.0448,
+      "step": 7420
+    },
+    {
+      "epoch": 6.963448922211809,
+      "grad_norm": 1.158563494682312,
+      "learning_rate": 9.945598851938088e-06,
+      "loss": 0.0398,
+      "step": 7430
+    },
+    {
+      "epoch": 6.97282099343955,
+      "grad_norm": 1.2068713903427124,
+      "learning_rate": 9.945525633703818e-06,
+      "loss": 0.0443,
+      "step": 7440
+    },
+    {
+      "epoch": 6.982193064667292,
+      "grad_norm": 0.9688456654548645,
+      "learning_rate": 9.945452415469549e-06,
+      "loss": 0.0452,
+      "step": 7450
+    },
+    {
+      "epoch": 6.991565135895033,
+      "grad_norm": 1.5483156442642212,
+      "learning_rate": 9.94537919723528e-06,
+      "loss": 0.0498,
+      "step": 7460
+    },
+    {
+      "epoch": 7.0009372071227745,
+      "grad_norm": 1.18287193775177,
+      "learning_rate": 9.94530597900101e-06,
+      "loss": 0.0445,
+      "step": 7470
+    },
+    {
+      "epoch": 7.010309278350515,
+      "grad_norm": 0.7765620946884155,
+      "learning_rate": 9.945232760766741e-06,
+      "loss": 0.0346,
+      "step": 7480
+    },
+    {
+      "epoch": 7.019681349578256,
+      "grad_norm": 0.948760986328125,
+      "learning_rate": 9.945159542532474e-06,
+      "loss": 0.0348,
+      "step": 7490
+    },
+    {
+      "epoch": 7.029053420805998,
+      "grad_norm": 0.9965664744377136,
+      "learning_rate": 9.945086324298205e-06,
+      "loss": 0.0342,
+      "step": 7500
+    },
+    {
+      "epoch": 7.029053420805998,
+      "eval_loss": 0.03782695531845093,
+      "eval_pearson_cosine": 0.768491804599762,
+      "eval_pearson_dot": 0.7183945775032043,
+      "eval_pearson_euclidean": 0.7320147752761841,
+      "eval_pearson_manhattan": 0.7333334684371948,
+      "eval_runtime": 21.6515,
+      "eval_samples_per_second": 69.279,
+      "eval_spearman_cosine": 0.7677979499645443,
+      "eval_spearman_dot": 0.7186610110098233,
+      "eval_spearman_euclidean": 0.7364530110375347,
+      "eval_spearman_manhattan": 0.737620665225201,
+      "eval_steps_per_second": 8.683,
+      "step": 7500
+    },
+    {
+      "epoch": 7.038425492033739,
+      "grad_norm": 0.8594346046447754,
+      "learning_rate": 9.945013106063935e-06,
+      "loss": 0.0318,
+      "step": 7510
+    },
+    {
+      "epoch": 7.047797563261481,
+      "grad_norm": 1.62812340259552,
+      "learning_rate": 9.944939887829666e-06,
+      "loss": 0.0414,
+      "step": 7520
+    },
+    {
+      "epoch": 7.057169634489222,
+      "grad_norm": 1.1017098426818848,
+      "learning_rate": 9.944866669595397e-06,
+      "loss": 0.0327,
+      "step": 7530
+    },
+    {
+      "epoch": 7.066541705716963,
+      "grad_norm": 0.8536505699157715,
+      "learning_rate": 9.944793451361128e-06,
+      "loss": 0.0286,
+      "step": 7540
+    },
+    {
+      "epoch": 7.075913776944705,
+      "grad_norm": 1.0389901399612427,
+      "learning_rate": 9.944720233126858e-06,
+      "loss": 0.0365,
+      "step": 7550
+    },
+    {
+      "epoch": 7.085285848172446,
+      "grad_norm": 1.0682491064071655,
+      "learning_rate": 9.94464701489259e-06,
+      "loss": 0.034,
+      "step": 7560
+    },
+    {
+      "epoch": 7.094657919400188,
+      "grad_norm": 0.8786489963531494,
+      "learning_rate": 9.944573796658321e-06,
+      "loss": 0.0373,
+      "step": 7570
+    },
+    {
+      "epoch": 7.104029990627929,
+      "grad_norm": 1.3642008304595947,
+      "learning_rate": 9.94450057842405e-06,
+      "loss": 0.0314,
+      "step": 7580
+    },
+    {
+      "epoch": 7.11340206185567,
+      "grad_norm": 0.7243325114250183,
+      "learning_rate": 9.944427360189783e-06,
+      "loss": 0.0299,
+      "step": 7590
+    },
+    {
+      "epoch": 7.122774133083412,
+      "grad_norm": 0.6696385145187378,
+      "learning_rate": 9.944354141955514e-06,
+      "loss": 0.0311,
+      "step": 7600
+    },
+    {
+      "epoch": 7.1321462043111525,
+      "grad_norm": 1.03152334690094,
+      "learning_rate": 9.944280923721244e-06,
+      "loss": 0.0355,
+      "step": 7610
+    },
+    {
+      "epoch": 7.141518275538894,
+      "grad_norm": 0.8586616516113281,
+      "learning_rate": 9.944207705486975e-06,
+      "loss": 0.0394,
+      "step": 7620
+    },
+    {
+      "epoch": 7.150890346766635,
+      "grad_norm": 0.9514285922050476,
+      "learning_rate": 9.944134487252706e-06,
+      "loss": 0.035,
+      "step": 7630
+    },
+    {
+      "epoch": 7.160262417994376,
+      "grad_norm": 0.8053460717201233,
+      "learning_rate": 9.944061269018437e-06,
+      "loss": 0.0312,
+      "step": 7640
+    },
+    {
+      "epoch": 7.169634489222118,
+      "grad_norm": 1.0056674480438232,
+      "learning_rate": 9.943988050784167e-06,
+      "loss": 0.0371,
+      "step": 7650
+    },
+    {
+      "epoch": 7.179006560449859,
+      "grad_norm": 0.7738359570503235,
+      "learning_rate": 9.943914832549898e-06,
+      "loss": 0.0302,
+      "step": 7660
+    },
+    {
+      "epoch": 7.188378631677601,
+      "grad_norm": 1.039197325706482,
+      "learning_rate": 9.94384161431563e-06,
+      "loss": 0.0316,
+      "step": 7670
+    },
+    {
+      "epoch": 7.197750702905342,
+      "grad_norm": 1.578165888786316,
+      "learning_rate": 9.943768396081361e-06,
+      "loss": 0.0388,
+      "step": 7680
+    },
+    {
+      "epoch": 7.207122774133083,
+      "grad_norm": 1.1753205060958862,
+      "learning_rate": 9.943695177847092e-06,
+      "loss": 0.0387,
+      "step": 7690
+    },
+    {
+      "epoch": 7.216494845360825,
+      "grad_norm": 1.295299768447876,
+      "learning_rate": 9.943621959612823e-06,
+      "loss": 0.0417,
+      "step": 7700
+    },
+    {
+      "epoch": 7.225866916588566,
+      "grad_norm": 0.9477363228797913,
+      "learning_rate": 9.943548741378554e-06,
+      "loss": 0.0305,
+      "step": 7710
+    },
+    {
+      "epoch": 7.235238987816308,
+      "grad_norm": 1.0547223091125488,
+      "learning_rate": 9.943475523144284e-06,
+      "loss": 0.0314,
+      "step": 7720
+    },
+    {
+      "epoch": 7.244611059044049,
+      "grad_norm": 1.4873117208480835,
+      "learning_rate": 9.943402304910015e-06,
+      "loss": 0.0302,
+      "step": 7730
+    },
+    {
+      "epoch": 7.25398313027179,
+      "grad_norm": 0.9882778525352478,
+      "learning_rate": 9.943329086675748e-06,
+      "loss": 0.0328,
+      "step": 7740
+    },
+    {
+      "epoch": 7.2633552014995315,
+      "grad_norm": 1.3187719583511353,
+      "learning_rate": 9.943255868441477e-06,
+      "loss": 0.0341,
+      "step": 7750
+    },
+    {
+      "epoch": 7.2633552014995315,
+      "eval_loss": 0.03773624449968338,
+      "eval_pearson_cosine": 0.7699387073516846,
+      "eval_pearson_dot": 0.7237234115600586,
+      "eval_pearson_euclidean": 0.7316513061523438,
+      "eval_pearson_manhattan": 0.7335678339004517,
+      "eval_runtime": 22.1612,
+      "eval_samples_per_second": 67.686,
+      "eval_spearman_cosine": 0.7694615753118931,
+      "eval_spearman_dot": 0.7243788947148158,
+      "eval_spearman_euclidean": 0.7361849268567764,
+      "eval_spearman_manhattan": 0.7377945356892571,
+      "eval_steps_per_second": 8.483,
+      "step": 7750
+    },
+    {
+      "epoch": 7.2727272727272725,
+      "grad_norm": 1.0984870195388794,
+      "learning_rate": 9.943182650207207e-06,
+      "loss": 0.0329,
+      "step": 7760
+    },
+    {
+      "epoch": 7.282099343955014,
+      "grad_norm": 0.7666100263595581,
+      "learning_rate": 9.94310943197294e-06,
+      "loss": 0.0358,
+      "step": 7770
+    },
+    {
+      "epoch": 7.291471415182755,
+      "grad_norm": 0.9941838383674622,
+      "learning_rate": 9.94303621373867e-06,
+      "loss": 0.0351,
+      "step": 7780
+    },
+    {
+      "epoch": 7.300843486410496,
+      "grad_norm": 1.3012335300445557,
+      "learning_rate": 9.942962995504401e-06,
+      "loss": 0.0296,
+      "step": 7790
+    },
+    {
+      "epoch": 7.310215557638238,
+      "grad_norm": 1.1914719343185425,
+      "learning_rate": 9.942889777270132e-06,
+      "loss": 0.0333,
+      "step": 7800
+    },
+    {
+      "epoch": 7.319587628865979,
+      "grad_norm": 1.1405929327011108,
+      "learning_rate": 9.942816559035863e-06,
+      "loss": 0.0408,
+      "step": 7810
+    },
+    {
+      "epoch": 7.328959700093721,
+      "grad_norm": 0.665600061416626,
+      "learning_rate": 9.942743340801594e-06,
+      "loss": 0.0314,
+      "step": 7820
+    },
+    {
+      "epoch": 7.338331771321462,
+      "grad_norm": 1.2029966115951538,
+      "learning_rate": 9.942670122567324e-06,
+      "loss": 0.041,
+      "step": 7830
+    },
+    {
+      "epoch": 7.347703842549203,
+      "grad_norm": 0.44810751080513,
+      "learning_rate": 9.942596904333057e-06,
+      "loss": 0.0317,
+      "step": 7840
+    },
+    {
+      "epoch": 7.357075913776945,
+      "grad_norm": 1.565082311630249,
+      "learning_rate": 9.942523686098788e-06,
+      "loss": 0.035,
+      "step": 7850
+    },
+    {
+      "epoch": 7.366447985004686,
+      "grad_norm": 1.6850316524505615,
+      "learning_rate": 9.942450467864517e-06,
+      "loss": 0.0365,
+      "step": 7860
+    },
+    {
+      "epoch": 7.375820056232428,
+      "grad_norm": 1.0027261972427368,
+      "learning_rate": 9.942377249630249e-06,
+      "loss": 0.0309,
+      "step": 7870
+    },
+    {
+      "epoch": 7.385192127460169,
+      "grad_norm": 0.51674485206604,
+      "learning_rate": 9.94230403139598e-06,
+      "loss": 0.0321,
+      "step": 7880
+    },
+    {
+      "epoch": 7.39456419868791,
+      "grad_norm": 1.0429599285125732,
+      "learning_rate": 9.94223081316171e-06,
+      "loss": 0.033,
+      "step": 7890
+    },
+    {
+      "epoch": 7.4039362699156515,
+      "grad_norm": 0.618232250213623,
+      "learning_rate": 9.942157594927441e-06,
+      "loss": 0.0353,
+      "step": 7900
+    },
+    {
+      "epoch": 7.413308341143392,
+      "grad_norm": 0.9780518412590027,
+      "learning_rate": 9.942084376693174e-06,
+      "loss": 0.0354,
+      "step": 7910
+    },
+    {
+      "epoch": 7.422680412371134,
+      "grad_norm": 1.214362621307373,
+      "learning_rate": 9.942011158458903e-06,
+      "loss": 0.0338,
+      "step": 7920
+    },
+    {
+      "epoch": 7.432052483598875,
+      "grad_norm": 1.202986240386963,
+      "learning_rate": 9.941937940224634e-06,
+      "loss": 0.0387,
+      "step": 7930
+    },
+    {
+      "epoch": 7.441424554826616,
+      "grad_norm": 1.4128488302230835,
+      "learning_rate": 9.941864721990366e-06,
+      "loss": 0.0315,
+      "step": 7940
+    },
+    {
+      "epoch": 7.450796626054358,
+      "grad_norm": 0.7198026180267334,
+      "learning_rate": 9.941791503756097e-06,
+      "loss": 0.0338,
+      "step": 7950
+    },
+    {
+      "epoch": 7.460168697282099,
+      "grad_norm": 1.1124250888824463,
+      "learning_rate": 9.941718285521828e-06,
+      "loss": 0.0352,
+      "step": 7960
+    },
+    {
+      "epoch": 7.469540768509841,
+      "grad_norm": 1.0420817136764526,
+      "learning_rate": 9.941645067287558e-06,
+      "loss": 0.0338,
+      "step": 7970
+    },
+    {
+      "epoch": 7.478912839737582,
+      "grad_norm": 0.9638373255729675,
+      "learning_rate": 9.941571849053289e-06,
+      "loss": 0.0356,
+      "step": 7980
+    },
+    {
+      "epoch": 7.488284910965323,
+      "grad_norm": 0.8584896922111511,
+      "learning_rate": 9.94149863081902e-06,
+      "loss": 0.0353,
+      "step": 7990
+    },
+    {
+      "epoch": 7.497656982193065,
+      "grad_norm": 0.7161556482315063,
+      "learning_rate": 9.94142541258475e-06,
+      "loss": 0.0329,
+      "step": 8000
+    },
+    {
+      "epoch": 7.497656982193065,
+      "eval_loss": 0.03753030672669411,
+      "eval_pearson_cosine": 0.7705868482589722,
+      "eval_pearson_dot": 0.7248358726501465,
+      "eval_pearson_euclidean": 0.734631359577179,
+      "eval_pearson_manhattan": 0.7363988161087036,
+      "eval_runtime": 22.3628,
+      "eval_samples_per_second": 67.076,
+      "eval_spearman_cosine": 0.769708288306187,
+      "eval_spearman_dot": 0.7249767839130733,
+      "eval_spearman_euclidean": 0.7394619718544255,
+      "eval_spearman_manhattan": 0.7409361299302836,
+      "eval_steps_per_second": 8.407,
+      "step": 8000
     }
   ],
   "logging_steps": 10,