mtzig
/

v2c_mistral_lora

Model card Files Files and versions Community

mtzig commited on Nov 19, 2024

Commit

eae153f

verified ·

1 Parent(s): e0631a2

Training in progress, step 600, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec0b23fb29b3168d711126e63c390cefd28562954b8b8ef4840f478aa2aec88c
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:d887d13337c308c5ca733d6323a9864415d8d7fdb689e7054b8b65fc58af94a6
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:719e2f980220aec49e7260281d780c4b705e08e44da393275851a1c0ada4a677
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:b06daf412411fb1721690a1827cb6e1038a59c2d2dc7e7999d0561604a9799f2
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9348a9304f5360f4c21ad45a44bbc0168ae2b80712245674a9a769f6eb7aa152
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7aff80990d5d3dea0a8ba059b313ef8993ab8cddb3b3079270f3d150397961f
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e3bcd9ed5fbe41d6c66f117fd9b6d9de2950c64c39151e84cf8161db4402f2
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2cfeefe6c41b4091cb2d5b0fdfa5ff9456b7db0f81ce256bdc2e5c5cfd9de5
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b902873a146629a1ece23ec06ea7f89258be805f622edd3f56bb4e27b370d1f
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6e7f5bf95c7024205a8119ce9bcf03a4fdd51aae9f436a0a35acb375bb3884b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90be759819f75fd58133ca2a31ffb7e3abdb5e55026b34e76783d4cbdb7645cc
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b48bfb689ef000812053e33e2dc970f52c5dd0b8bea9cda6777c2c298951a80
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bac79d5ff2444d45cca1c402876704174077427c6b7d2902ab84bdd3aeb6a4c1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:516752f1fbf9ee4f98d0697eb89075aa40a9ed64fdd213cf582c9b1a40cf8d2d
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36fa53207112e96cf1d931008a46af86708bec88e31fc02618c631b73b238844
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5b0bde13b911b7337906544cf9c5bd2107b176fc7783ebbbad8f40ece936477
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:002fb55933219d3afc15cf13593cee3b4cc68a24a920a24f43ed82f5a081cc35
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cedc08212b07c1673536f40c11159242b59a9f0aadf57db9bad6f13ac81a6af
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af32edbfbf253ca5324b65d305f359aaf2d7238a6c9110be03e0839d25660469
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cbab2b6a44c6ac01a6a8e4c5859b2a55eaebd5654b8efdeeaf69b4dbf690320
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3382949932341001,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3819,6 +3819,766 @@
       "eval_samples_per_second": 5.626,
       "eval_steps_per_second": 0.189,
       "step": 500
     }
   ],
   "logging_steps": 1,
@@ -3838,7 +4598,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.513912347435991e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4059539918809202,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.626,
       "eval_steps_per_second": 0.189,
       "step": 500
+    },
+    {
+      "epoch": 0.33897158322056836,
+      "grad_norm": 4.322254180908203,
+      "learning_rate": 1.672051050494526e-05,
+      "loss": 0.2227,
+      "step": 501
+    },
+    {
+      "epoch": 0.33964817320703655,
+      "grad_norm": 3.6232991218566895,
+      "learning_rate": 1.67030003102464e-05,
+      "loss": 0.1609,
+      "step": 502
+    },
+    {
+      "epoch": 0.34032476319350474,
+      "grad_norm": 6.037874221801758,
+      "learning_rate": 1.6685452716072946e-05,
+      "loss": 0.144,
+      "step": 503
+    },
+    {
+      "epoch": 0.34100135317997293,
+      "grad_norm": 3.3179101943969727,
+      "learning_rate": 1.6667867820331927e-05,
+      "loss": 0.1325,
+      "step": 504
+    },
+    {
+      "epoch": 0.3416779431664411,
+      "grad_norm": 3.1885428428649902,
+      "learning_rate": 1.6650245721138483e-05,
+      "loss": 0.1493,
+      "step": 505
+    },
+    {
+      "epoch": 0.3423545331529093,
+      "grad_norm": 3.5949137210845947,
+      "learning_rate": 1.6632586516815346e-05,
+      "loss": 0.1273,
+      "step": 506
+    },
+    {
+      "epoch": 0.34303112313937756,
+      "grad_norm": 2.8679418563842773,
+      "learning_rate": 1.6614890305892266e-05,
+      "loss": 0.0887,
+      "step": 507
+    },
+    {
+      "epoch": 0.34370771312584575,
+      "grad_norm": 2.384528160095215,
+      "learning_rate": 1.6597157187105475e-05,
+      "loss": 0.0974,
+      "step": 508
+    },
+    {
+      "epoch": 0.34438430311231394,
+      "grad_norm": 3.2372498512268066,
+      "learning_rate": 1.657938725939713e-05,
+      "loss": 0.1175,
+      "step": 509
+    },
+    {
+      "epoch": 0.34506089309878213,
+      "grad_norm": 2.4635872840881348,
+      "learning_rate": 1.6561580621914764e-05,
+      "loss": 0.0602,
+      "step": 510
+    },
+    {
+      "epoch": 0.3457374830852503,
+      "grad_norm": 4.7463531494140625,
+      "learning_rate": 1.6543737374010742e-05,
+      "loss": 0.1404,
+      "step": 511
+    },
+    {
+      "epoch": 0.34641407307171856,
+      "grad_norm": 3.910125255584717,
+      "learning_rate": 1.6525857615241686e-05,
+      "loss": 0.1732,
+      "step": 512
+    },
+    {
+      "epoch": 0.34709066305818675,
+      "grad_norm": 3.2249362468719482,
+      "learning_rate": 1.6507941445367935e-05,
+      "loss": 0.1706,
+      "step": 513
+    },
+    {
+      "epoch": 0.34776725304465494,
+      "grad_norm": 3.5670406818389893,
+      "learning_rate": 1.648998896435299e-05,
+      "loss": 0.1288,
+      "step": 514
+    },
+    {
+      "epoch": 0.34844384303112313,
+      "grad_norm": 2.954425096511841,
+      "learning_rate": 1.6472000272362937e-05,
+      "loss": 0.1691,
+      "step": 515
+    },
+    {
+      "epoch": 0.3491204330175913,
+      "grad_norm": 3.0924575328826904,
+      "learning_rate": 1.6453975469765913e-05,
+      "loss": 0.1445,
+      "step": 516
+    },
+    {
+      "epoch": 0.3497970230040595,
+      "grad_norm": 3.242204427719116,
+      "learning_rate": 1.643591465713153e-05,
+      "loss": 0.113,
+      "step": 517
+    },
+    {
+      "epoch": 0.35047361299052776,
+      "grad_norm": 3.513796806335449,
+      "learning_rate": 1.6417817935230318e-05,
+      "loss": 0.1342,
+      "step": 518
+    },
+    {
+      "epoch": 0.35115020297699595,
+      "grad_norm": 3.459606409072876,
+      "learning_rate": 1.6399685405033168e-05,
+      "loss": 0.167,
+      "step": 519
+    },
+    {
+      "epoch": 0.35182679296346414,
+      "grad_norm": 3.4279625415802,
+      "learning_rate": 1.6381517167710757e-05,
+      "loss": 0.1466,
+      "step": 520
+    },
+    {
+      "epoch": 0.35182679296346414,
+      "eval_accuracy": 0.8027522935779816,
+      "eval_f1": 0.48687350835322196,
+      "eval_loss": 0.4396270513534546,
+      "eval_precision": 0.8429752066115702,
+      "eval_recall": 0.3422818791946309,
+      "eval_runtime": 53.1809,
+      "eval_samples_per_second": 5.604,
+      "eval_steps_per_second": 0.188,
+      "step": 520
+    },
+    {
+      "epoch": 0.35250338294993233,
+      "grad_norm": 3.181802988052368,
+      "learning_rate": 1.6363313324632995e-05,
+      "loss": 0.1381,
+      "step": 521
+    },
+    {
+      "epoch": 0.3531799729364005,
+      "grad_norm": 2.620626449584961,
+      "learning_rate": 1.6345073977368455e-05,
+      "loss": 0.1523,
+      "step": 522
+    },
+    {
+      "epoch": 0.35385656292286877,
+      "grad_norm": 4.116923809051514,
+      "learning_rate": 1.6326799227683806e-05,
+      "loss": 0.0602,
+      "step": 523
+    },
+    {
+      "epoch": 0.35453315290933696,
+      "grad_norm": 3.4836175441741943,
+      "learning_rate": 1.630848917754324e-05,
+      "loss": 0.0969,
+      "step": 524
+    },
+    {
+      "epoch": 0.35520974289580515,
+      "grad_norm": 3.9089815616607666,
+      "learning_rate": 1.629014392910791e-05,
+      "loss": 0.1509,
+      "step": 525
+    },
+    {
+      "epoch": 0.35588633288227334,
+      "grad_norm": 3.1335699558258057,
+      "learning_rate": 1.6271763584735373e-05,
+      "loss": 0.1366,
+      "step": 526
+    },
+    {
+      "epoch": 0.3565629228687415,
+      "grad_norm": 3.3636960983276367,
+      "learning_rate": 1.625334824697898e-05,
+      "loss": 0.1233,
+      "step": 527
+    },
+    {
+      "epoch": 0.3572395128552097,
+      "grad_norm": 3.7551486492156982,
+      "learning_rate": 1.6234898018587336e-05,
+      "loss": 0.1541,
+      "step": 528
+    },
+    {
+      "epoch": 0.35791610284167796,
+      "grad_norm": 6.929388046264648,
+      "learning_rate": 1.6216413002503736e-05,
+      "loss": 0.2057,
+      "step": 529
+    },
+    {
+      "epoch": 0.35859269282814615,
+      "grad_norm": 4.0752763748168945,
+      "learning_rate": 1.619789330186555e-05,
+      "loss": 0.1008,
+      "step": 530
+    },
+    {
+      "epoch": 0.35926928281461434,
+      "grad_norm": 3.1588234901428223,
+      "learning_rate": 1.6179339020003685e-05,
+      "loss": 0.1454,
+      "step": 531
+    },
+    {
+      "epoch": 0.35994587280108253,
+      "grad_norm": 6.536987781524658,
+      "learning_rate": 1.616075026044199e-05,
+      "loss": 0.1461,
+      "step": 532
+    },
+    {
+      "epoch": 0.3606224627875507,
+      "grad_norm": 3.1867458820343018,
+      "learning_rate": 1.6142127126896682e-05,
+      "loss": 0.182,
+      "step": 533
+    },
+    {
+      "epoch": 0.36129905277401897,
+      "grad_norm": 3.9853105545043945,
+      "learning_rate": 1.6123469723275766e-05,
+      "loss": 0.1525,
+      "step": 534
+    },
+    {
+      "epoch": 0.36197564276048716,
+      "grad_norm": 2.4770116806030273,
+      "learning_rate": 1.6104778153678467e-05,
+      "loss": 0.1789,
+      "step": 535
+    },
+    {
+      "epoch": 0.36265223274695535,
+      "grad_norm": 4.895524024963379,
+      "learning_rate": 1.6086052522394625e-05,
+      "loss": 0.1909,
+      "step": 536
+    },
+    {
+      "epoch": 0.36332882273342354,
+      "grad_norm": 7.819604873657227,
+      "learning_rate": 1.6067292933904144e-05,
+      "loss": 0.1793,
+      "step": 537
+    },
+    {
+      "epoch": 0.36400541271989173,
+      "grad_norm": 5.251774311065674,
+      "learning_rate": 1.6048499492876378e-05,
+      "loss": 0.1829,
+      "step": 538
+    },
+    {
+      "epoch": 0.3646820027063599,
+      "grad_norm": 5.605532646179199,
+      "learning_rate": 1.602967230416957e-05,
+      "loss": 0.273,
+      "step": 539
+    },
+    {
+      "epoch": 0.36535859269282817,
+      "grad_norm": 3.302903175354004,
+      "learning_rate": 1.6010811472830253e-05,
+      "loss": 0.1608,
+      "step": 540
+    },
+    {
+      "epoch": 0.36535859269282817,
+      "eval_accuracy": 0.8165137614678899,
+      "eval_f1": 0.5412844036697247,
+      "eval_loss": 0.4029388427734375,
+      "eval_precision": 0.855072463768116,
+      "eval_recall": 0.3959731543624161,
+      "eval_runtime": 54.3008,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.184,
+      "step": 540
+    },
+    {
+      "epoch": 0.36603518267929636,
+      "grad_norm": 3.057288408279419,
+      "learning_rate": 1.5991917104092677e-05,
+      "loss": 0.1671,
+      "step": 541
+    },
+    {
+      "epoch": 0.36671177266576455,
+      "grad_norm": 4.837218761444092,
+      "learning_rate": 1.5972989303378207e-05,
+      "loss": 0.1425,
+      "step": 542
+    },
+    {
+      "epoch": 0.36738836265223274,
+      "grad_norm": 2.922201633453369,
+      "learning_rate": 1.595402817629475e-05,
+      "loss": 0.2097,
+      "step": 543
+    },
+    {
+      "epoch": 0.3680649526387009,
+      "grad_norm": 8.20699691772461,
+      "learning_rate": 1.593503382863615e-05,
+      "loss": 0.1657,
+      "step": 544
+    },
+    {
+      "epoch": 0.36874154262516917,
+      "grad_norm": 3.043370246887207,
+      "learning_rate": 1.591600636638161e-05,
+      "loss": 0.1568,
+      "step": 545
+    },
+    {
+      "epoch": 0.36941813261163736,
+      "grad_norm": 6.523357391357422,
+      "learning_rate": 1.589694589569509e-05,
+      "loss": 0.1299,
+      "step": 546
+    },
+    {
+      "epoch": 0.37009472259810555,
+      "grad_norm": 3.4266302585601807,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.1608,
+      "step": 547
+    },
+    {
+      "epoch": 0.37077131258457374,
+      "grad_norm": 4.111809253692627,
+      "learning_rate": 1.5858726354602248e-05,
+      "loss": 0.1975,
+      "step": 548
+    },
+    {
+      "epoch": 0.37144790257104193,
+      "grad_norm": 3.3651816844940186,
+      "learning_rate": 1.5839567497442338e-05,
+      "loss": 0.171,
+      "step": 549
+    },
+    {
+      "epoch": 0.3721244925575101,
+      "grad_norm": 3.0030105113983154,
+      "learning_rate": 1.5820376058342077e-05,
+      "loss": 0.1365,
+      "step": 550
+    },
+    {
+      "epoch": 0.37280108254397837,
+      "grad_norm": 3.5873923301696777,
+      "learning_rate": 1.5801152144380353e-05,
+      "loss": 0.1745,
+      "step": 551
+    },
+    {
+      "epoch": 0.37347767253044656,
+      "grad_norm": 3.0994861125946045,
+      "learning_rate": 1.578189586281723e-05,
+      "loss": 0.1407,
+      "step": 552
+    },
+    {
+      "epoch": 0.37415426251691475,
+      "grad_norm": 2.788184642791748,
+      "learning_rate": 1.5762607321093368e-05,
+      "loss": 0.134,
+      "step": 553
+    },
+    {
+      "epoch": 0.37483085250338294,
+      "grad_norm": 2.5775389671325684,
+      "learning_rate": 1.5743286626829437e-05,
+      "loss": 0.1075,
+      "step": 554
+    },
+    {
+      "epoch": 0.37550744248985113,
+      "grad_norm": 3.5334537029266357,
+      "learning_rate": 1.5723933887825492e-05,
+      "loss": 0.1165,
+      "step": 555
+    },
+    {
+      "epoch": 0.3761840324763194,
+      "grad_norm": 3.544222116470337,
+      "learning_rate": 1.5704549212060383e-05,
+      "loss": 0.1739,
+      "step": 556
+    },
+    {
+      "epoch": 0.37686062246278756,
+      "grad_norm": 3.89497709274292,
+      "learning_rate": 1.568513270769115e-05,
+      "loss": 0.1549,
+      "step": 557
+    },
+    {
+      "epoch": 0.37753721244925575,
+      "grad_norm": 2.996244192123413,
+      "learning_rate": 1.5665684483052425e-05,
+      "loss": 0.1742,
+      "step": 558
+    },
+    {
+      "epoch": 0.37821380243572394,
+      "grad_norm": 4.149686336517334,
+      "learning_rate": 1.564620464665582e-05,
+      "loss": 0.1655,
+      "step": 559
+    },
+    {
+      "epoch": 0.37889039242219213,
+      "grad_norm": 3.9218225479125977,
+      "learning_rate": 1.5626693307189334e-05,
+      "loss": 0.1472,
+      "step": 560
+    },
+    {
+      "epoch": 0.37889039242219213,
+      "eval_accuracy": 0.8064220183486238,
+      "eval_f1": 0.5104408352668214,
+      "eval_loss": 0.44546324014663696,
+      "eval_precision": 0.8270676691729323,
+      "eval_recall": 0.3691275167785235,
+      "eval_runtime": 52.4956,
+      "eval_samples_per_second": 5.677,
+      "eval_steps_per_second": 0.19,
+      "step": 560
+    },
+    {
+      "epoch": 0.3795669824086603,
+      "grad_norm": 7.877570629119873,
+      "learning_rate": 1.560715057351673e-05,
+      "loss": 0.0964,
+      "step": 561
+    },
+    {
+      "epoch": 0.38024357239512857,
+      "grad_norm": 3.73523211479187,
+      "learning_rate": 1.5587576554676927e-05,
+      "loss": 0.1444,
+      "step": 562
+    },
+    {
+      "epoch": 0.38092016238159676,
+      "grad_norm": 10.825215339660645,
+      "learning_rate": 1.556797135988342e-05,
+      "loss": 0.151,
+      "step": 563
+    },
+    {
+      "epoch": 0.38159675236806495,
+      "grad_norm": 6.863844871520996,
+      "learning_rate": 1.5548335098523634e-05,
+      "loss": 0.2423,
+      "step": 564
+    },
+    {
+      "epoch": 0.38227334235453314,
+      "grad_norm": 3.01707124710083,
+      "learning_rate": 1.5528667880158338e-05,
+      "loss": 0.1483,
+      "step": 565
+    },
+    {
+      "epoch": 0.38294993234100133,
+      "grad_norm": 3.50577712059021,
+      "learning_rate": 1.5508969814521026e-05,
+      "loss": 0.1359,
+      "step": 566
+    },
+    {
+      "epoch": 0.3836265223274696,
+      "grad_norm": 3.558225631713867,
+      "learning_rate": 1.5489241011517303e-05,
+      "loss": 0.0951,
+      "step": 567
+    },
+    {
+      "epoch": 0.38430311231393777,
+      "grad_norm": 7.069665431976318,
+      "learning_rate": 1.5469481581224274e-05,
+      "loss": 0.0979,
+      "step": 568
+    },
+    {
+      "epoch": 0.38497970230040596,
+      "grad_norm": 4.208998680114746,
+      "learning_rate": 1.5449691633889924e-05,
+      "loss": 0.1451,
+      "step": 569
+    },
+    {
+      "epoch": 0.38565629228687415,
+      "grad_norm": 3.042346477508545,
+      "learning_rate": 1.5429871279932514e-05,
+      "loss": 0.1555,
+      "step": 570
+    },
+    {
+      "epoch": 0.38633288227334234,
+      "grad_norm": 6.0393595695495605,
+      "learning_rate": 1.5410020629939966e-05,
+      "loss": 0.1965,
+      "step": 571
+    },
+    {
+      "epoch": 0.3870094722598105,
+      "grad_norm": 3.022724151611328,
+      "learning_rate": 1.5390139794669225e-05,
+      "loss": 0.1219,
+      "step": 572
+    },
+    {
+      "epoch": 0.3876860622462788,
+      "grad_norm": 2.8513102531433105,
+      "learning_rate": 1.5370228885045662e-05,
+      "loss": 0.1634,
+      "step": 573
+    },
+    {
+      "epoch": 0.38836265223274696,
+      "grad_norm": 3.42635440826416,
+      "learning_rate": 1.535028801216245e-05,
+      "loss": 0.1874,
+      "step": 574
+    },
+    {
+      "epoch": 0.38903924221921515,
+      "grad_norm": 6.154781341552734,
+      "learning_rate": 1.533031728727994e-05,
+      "loss": 0.1979,
+      "step": 575
+    },
+    {
+      "epoch": 0.38971583220568334,
+      "grad_norm": 4.227107524871826,
+      "learning_rate": 1.531031682182504e-05,
+      "loss": 0.2125,
+      "step": 576
+    },
+    {
+      "epoch": 0.39039242219215153,
+      "grad_norm": 3.389040946960449,
+      "learning_rate": 1.5290286727390604e-05,
+      "loss": 0.1554,
+      "step": 577
+    },
+    {
+      "epoch": 0.3910690121786198,
+      "grad_norm": 3.34859299659729,
+      "learning_rate": 1.527022711573479e-05,
+      "loss": 0.1859,
+      "step": 578
+    },
+    {
+      "epoch": 0.39174560216508797,
+      "grad_norm": 2.8738038539886475,
+      "learning_rate": 1.5250138098780456e-05,
+      "loss": 0.105,
+      "step": 579
+    },
+    {
+      "epoch": 0.39242219215155616,
+      "grad_norm": 3.0525081157684326,
+      "learning_rate": 1.5230019788614527e-05,
+      "loss": 0.1437,
+      "step": 580
+    },
+    {
+      "epoch": 0.39242219215155616,
+      "eval_accuracy": 0.8036697247706422,
+      "eval_f1": 0.4928909952606635,
+      "eval_loss": 0.4023875296115875,
+      "eval_precision": 0.8387096774193549,
+      "eval_recall": 0.348993288590604,
+      "eval_runtime": 53.2583,
+      "eval_samples_per_second": 5.595,
+      "eval_steps_per_second": 0.188,
+      "step": 580
+    },
+    {
+      "epoch": 0.39309878213802435,
+      "grad_norm": 2.1808993816375732,
+      "learning_rate": 1.5209872297487365e-05,
+      "loss": 0.158,
+      "step": 581
+    },
+    {
+      "epoch": 0.39377537212449254,
+      "grad_norm": 2.2843339443206787,
+      "learning_rate": 1.5189695737812153e-05,
+      "loss": 0.0944,
+      "step": 582
+    },
+    {
+      "epoch": 0.3944519621109608,
+      "grad_norm": 3.0277621746063232,
+      "learning_rate": 1.5169490222164255e-05,
+      "loss": 0.1253,
+      "step": 583
+    },
+    {
+      "epoch": 0.395128552097429,
+      "grad_norm": 3.6869609355926514,
+      "learning_rate": 1.5149255863280607e-05,
+      "loss": 0.1293,
+      "step": 584
+    },
+    {
+      "epoch": 0.39580514208389717,
+      "grad_norm": 2.9757912158966064,
+      "learning_rate": 1.5128992774059063e-05,
+      "loss": 0.1344,
+      "step": 585
+    },
+    {
+      "epoch": 0.39648173207036536,
+      "grad_norm": 3.4651436805725098,
+      "learning_rate": 1.5108701067557787e-05,
+      "loss": 0.1131,
+      "step": 586
+    },
+    {
+      "epoch": 0.39715832205683355,
+      "grad_norm": 3.6160385608673096,
+      "learning_rate": 1.5088380856994608e-05,
+      "loss": 0.1679,
+      "step": 587
+    },
+    {
+      "epoch": 0.39783491204330174,
+      "grad_norm": 2.459801197052002,
+      "learning_rate": 1.50680322557464e-05,
+      "loss": 0.0886,
+      "step": 588
+    },
+    {
+      "epoch": 0.39851150202977,
+      "grad_norm": 3.2416129112243652,
+      "learning_rate": 1.504765537734844e-05,
+      "loss": 0.1534,
+      "step": 589
+    },
+    {
+      "epoch": 0.39918809201623817,
+      "grad_norm": 2.9892609119415283,
+      "learning_rate": 1.5027250335493771e-05,
+      "loss": 0.0943,
+      "step": 590
+    },
+    {
+      "epoch": 0.39986468200270636,
+      "grad_norm": 5.113293647766113,
+      "learning_rate": 1.5006817244032589e-05,
+      "loss": 0.1717,
+      "step": 591
+    },
+    {
+      "epoch": 0.40054127198917455,
+      "grad_norm": 6.7918195724487305,
+      "learning_rate": 1.4986356216971583e-05,
+      "loss": 0.1747,
+      "step": 592
+    },
+    {
+      "epoch": 0.40121786197564274,
+      "grad_norm": 3.726599931716919,
+      "learning_rate": 1.4965867368473308e-05,
+      "loss": 0.1416,
+      "step": 593
+    },
+    {
+      "epoch": 0.401894451962111,
+      "grad_norm": 6.388960361480713,
+      "learning_rate": 1.4945350812855555e-05,
+      "loss": 0.1946,
+      "step": 594
+    },
+    {
+      "epoch": 0.4025710419485792,
+      "grad_norm": 3.8928306102752686,
+      "learning_rate": 1.4924806664590702e-05,
+      "loss": 0.1622,
+      "step": 595
+    },
+    {
+      "epoch": 0.40324763193504737,
+      "grad_norm": 3.4860315322875977,
+      "learning_rate": 1.4904235038305084e-05,
+      "loss": 0.1549,
+      "step": 596
+    },
+    {
+      "epoch": 0.40392422192151556,
+      "grad_norm": 4.641502857208252,
+      "learning_rate": 1.4883636048778347e-05,
+      "loss": 0.1789,
+      "step": 597
+    },
+    {
+      "epoch": 0.40460081190798375,
+      "grad_norm": 4.543725967407227,
+      "learning_rate": 1.4863009810942814e-05,
+      "loss": 0.1651,
+      "step": 598
+    },
+    {
+      "epoch": 0.40527740189445194,
+      "grad_norm": 10.844779014587402,
+      "learning_rate": 1.4842356439882841e-05,
+      "loss": 0.2244,
+      "step": 599
+    },
+    {
+      "epoch": 0.4059539918809202,
+      "grad_norm": 7.078522205352783,
+      "learning_rate": 1.4821676050834166e-05,
+      "loss": 0.2055,
+      "step": 600
+    },
+    {
+      "epoch": 0.4059539918809202,
+      "eval_accuracy": 0.8229357798165138,
+      "eval_f1": 0.5758241758241758,
+      "eval_loss": 0.40693244338035583,
+      "eval_precision": 0.8343949044585988,
+      "eval_recall": 0.4395973154362416,
+      "eval_runtime": 53.515,
+      "eval_samples_per_second": 5.569,
+      "eval_steps_per_second": 0.187,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.81775286403072e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null