mtzig
/

v2c_mistral_lora

Model card Files Files and versions Community

mtzig commited on Nov 19, 2024

Commit

960a54b

verified ·

1 Parent(s): 042789c

Training in progress, step 900, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4366e69d60737b3779bf9a490440dab3b7129f75dd2feb73dc07db72babfbdf
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dcfd94f62ff19b8a9933a9541a5733207408d391abbc19039ab84f7f6b53b2b
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6dd1a92d0a5135b333dcb0ee27f4083935df79d3cdbd2e1782a276fcaa9d154
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dbf500184a745e32656bd72aed96444d450b8822d32f095305fab829cad5dcd
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4835991b793120481b099eb89774026995ab06f7469520e242d29572c729356e
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:19d8b41074874752835461e4b0b43cfae611a1b52b65b06efded073a8540f0a3
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc58fcb266dccc572788bea6fad1f9f18f3c730bcccdaac874c4e3525aa012f7
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:420c4af07d8d11503cf38a19956fa08bce83ddcb83c306ed5f4f325d2289c54f
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10960d9381443ad0dcee2d617e86555e9074adf42f10ea5b5031e4d17e4541fc
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b5d70ab7c84844a31deff224e2783035d5a27b4e451d959e41e69e6ba1bfba0
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40b617e3c4555dd60638eed9d7607d51addbf2e88c7e24d50cc4af0a97e2c1ee
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:acfc04e204792faef03bd393bc190684855a1199069618e09617dabdc06f61f4
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aca6570204ebce4c6f1f377b28739749ab7e2db8774a4ae79b88318ecc645d3
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6560ad83e9bf537962a4628c52535beab1489d42b33161c72bbe9a7052130abb
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af486d9702ac04f9288a8d7f8d269fc56995d192739a371cdc0ab84562d444ee
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9290d11cadcf051134f7e3a6303ac31bd31867fa4eca0a0ba3fad88d33d73e1e
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6651bb14848ddc09834acedbc497fa211b2b3bf1fd839c0a3e2edc297b450478
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f014cc69554457011024b3f78c613f5d6d21afe59987b579c8148d7a14d4266
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae03e0e09af0ed507e28016716e1ab7cf741033f725d1d5e7ab0b16606ee820f
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:211fe4cc875fc5d117275383fb9805fb9073808b1bf8c46687ccdf31963af654
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38f2cc82eeba75672cf489909ffeec57c804049b636096ef6ef25670940386a2
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:c181295f448353cc0ad867ce15d877dc5e4902c02d374aebe08a6faa6eaf73cb
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e86dc8922a03fbd7dae55bdea9fe0c57d7c92e7e4db833cf223eab9d601f3f59
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff94a6828461c3753dda9d571a0a287a6967bc241a3276d73771206e60da3988
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0693986dcdbacb610348452117526a26c1a6fb2feb944c0d12e677a07f1eaf73
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da38d22b5a3dd941093c6e3a0d9705292603a8a72ab0757d88c7c3b61a44e0be
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5412719891745602,
   "eval_steps": 20,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6099,6 +6099,766 @@
       "eval_samples_per_second": 5.622,
       "eval_steps_per_second": 0.189,
       "step": 800
     }
   ],
   "logging_steps": 1,
@@ -6118,7 +6878,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.4277215937665434e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6089309878213802,
   "eval_steps": 20,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.622,
       "eval_steps_per_second": 0.189,
       "step": 800
+    },
+    {
+      "epoch": 0.5419485791610285,
+      "grad_norm": 4.048157691955566,
+      "learning_rate": 1.0283414013680233e-05,
+      "loss": 0.1629,
+      "step": 801
+    },
+    {
+      "epoch": 0.5426251691474966,
+      "grad_norm": 8.180608749389648,
+      "learning_rate": 1.0259801736097634e-05,
+      "loss": 0.2779,
+      "step": 802
+    },
+    {
+      "epoch": 0.5433017591339648,
+      "grad_norm": 2.2637126445770264,
+      "learning_rate": 1.023618800894798e-05,
+      "loss": 0.0888,
+      "step": 803
+    },
+    {
+      "epoch": 0.543978349120433,
+      "grad_norm": 3.4222660064697266,
+      "learning_rate": 1.0212572963984358e-05,
+      "loss": 0.1072,
+      "step": 804
+    },
+    {
+      "epoch": 0.5446549391069012,
+      "grad_norm": 5.149094104766846,
+      "learning_rate": 1.0188956732967208e-05,
+      "loss": 0.1834,
+      "step": 805
+    },
+    {
+      "epoch": 0.5453315290933695,
+      "grad_norm": 4.928592681884766,
+      "learning_rate": 1.0165339447663586e-05,
+      "loss": 0.1065,
+      "step": 806
+    },
+    {
+      "epoch": 0.5460081190798376,
+      "grad_norm": 3.3745458126068115,
+      "learning_rate": 1.0141721239846436e-05,
+      "loss": 0.1105,
+      "step": 807
+    },
+    {
+      "epoch": 0.5466847090663058,
+      "grad_norm": 3.140056848526001,
+      "learning_rate": 1.0118102241293848e-05,
+      "loss": 0.1057,
+      "step": 808
+    },
+    {
+      "epoch": 0.547361299052774,
+      "grad_norm": 2.9225945472717285,
+      "learning_rate": 1.0094482583788311e-05,
+      "loss": 0.1409,
+      "step": 809
+    },
+    {
+      "epoch": 0.5480378890392422,
+      "grad_norm": 5.8072333335876465,
+      "learning_rate": 1.0070862399116016e-05,
+      "loss": 0.1697,
+      "step": 810
+    },
+    {
+      "epoch": 0.5487144790257105,
+      "grad_norm": 2.9896950721740723,
+      "learning_rate": 1.0047241819066069e-05,
+      "loss": 0.0893,
+      "step": 811
+    },
+    {
+      "epoch": 0.5493910690121786,
+      "grad_norm": 9.982451438903809,
+      "learning_rate": 1.0023620975429803e-05,
+      "loss": 0.2119,
+      "step": 812
+    },
+    {
+      "epoch": 0.5500676589986468,
+      "grad_norm": 5.057304382324219,
+      "learning_rate": 1e-05,
+      "loss": 0.1417,
+      "step": 813
+    },
+    {
+      "epoch": 0.550744248985115,
+      "grad_norm": 8.598350524902344,
+      "learning_rate": 9.976379024570202e-06,
+      "loss": 0.2122,
+      "step": 814
+    },
+    {
+      "epoch": 0.5514208389715832,
+      "grad_norm": 2.8650100231170654,
+      "learning_rate": 9.952758180933933e-06,
+      "loss": 0.0901,
+      "step": 815
+    },
+    {
+      "epoch": 0.5520974289580515,
+      "grad_norm": 5.409826278686523,
+      "learning_rate": 9.929137600883986e-06,
+      "loss": 0.1613,
+      "step": 816
+    },
+    {
+      "epoch": 0.5527740189445196,
+      "grad_norm": 2.837448835372925,
+      "learning_rate": 9.90551741621169e-06,
+      "loss": 0.0946,
+      "step": 817
+    },
+    {
+      "epoch": 0.5534506089309879,
+      "grad_norm": 3.9413063526153564,
+      "learning_rate": 9.881897758706155e-06,
+      "loss": 0.1099,
+      "step": 818
+    },
+    {
+      "epoch": 0.554127198917456,
+      "grad_norm": 2.284583330154419,
+      "learning_rate": 9.858278760153567e-06,
+      "loss": 0.0653,
+      "step": 819
+    },
+    {
+      "epoch": 0.5548037889039242,
+      "grad_norm": 6.636195182800293,
+      "learning_rate": 9.834660552336415e-06,
+      "loss": 0.1583,
+      "step": 820
+    },
+    {
+      "epoch": 0.5548037889039242,
+      "eval_accuracy": 0.7788990825688074,
+      "eval_f1": 0.3674540682414698,
+      "eval_loss": 0.47594916820526123,
+      "eval_precision": 0.8433734939759037,
+      "eval_recall": 0.2348993288590604,
+      "eval_runtime": 53.6382,
+      "eval_samples_per_second": 5.556,
+      "eval_steps_per_second": 0.186,
+      "step": 820
+    },
+    {
+      "epoch": 0.5554803788903924,
+      "grad_norm": 3.6005120277404785,
+      "learning_rate": 9.811043267032797e-06,
+      "loss": 0.0887,
+      "step": 821
+    },
+    {
+      "epoch": 0.5561569688768606,
+      "grad_norm": 3.6898558139801025,
+      "learning_rate": 9.787427036015647e-06,
+      "loss": 0.147,
+      "step": 822
+    },
+    {
+      "epoch": 0.5568335588633289,
+      "grad_norm": 6.481770992279053,
+      "learning_rate": 9.763811991052021e-06,
+      "loss": 0.1877,
+      "step": 823
+    },
+    {
+      "epoch": 0.557510148849797,
+      "grad_norm": 2.4457807540893555,
+      "learning_rate": 9.74019826390237e-06,
+      "loss": 0.1004,
+      "step": 824
+    },
+    {
+      "epoch": 0.5581867388362652,
+      "grad_norm": 2.3346476554870605,
+      "learning_rate": 9.716585986319769e-06,
+      "loss": 0.1199,
+      "step": 825
+    },
+    {
+      "epoch": 0.5588633288227334,
+      "grad_norm": 5.753274917602539,
+      "learning_rate": 9.692975290049228e-06,
+      "loss": 0.1646,
+      "step": 826
+    },
+    {
+      "epoch": 0.5595399188092016,
+      "grad_norm": 4.540411949157715,
+      "learning_rate": 9.669366306826919e-06,
+      "loss": 0.1275,
+      "step": 827
+    },
+    {
+      "epoch": 0.5602165087956699,
+      "grad_norm": 4.377498149871826,
+      "learning_rate": 9.645759168379463e-06,
+      "loss": 0.1508,
+      "step": 828
+    },
+    {
+      "epoch": 0.560893098782138,
+      "grad_norm": 4.894872188568115,
+      "learning_rate": 9.622154006423185e-06,
+      "loss": 0.1608,
+      "step": 829
+    },
+    {
+      "epoch": 0.5615696887686062,
+      "grad_norm": 3.9579596519470215,
+      "learning_rate": 9.598550952663383e-06,
+      "loss": 0.0748,
+      "step": 830
+    },
+    {
+      "epoch": 0.5622462787550744,
+      "grad_norm": 3.1920807361602783,
+      "learning_rate": 9.574950138793593e-06,
+      "loss": 0.0958,
+      "step": 831
+    },
+    {
+      "epoch": 0.5629228687415426,
+      "grad_norm": 2.8056745529174805,
+      "learning_rate": 9.551351696494854e-06,
+      "loss": 0.1528,
+      "step": 832
+    },
+    {
+      "epoch": 0.5635994587280109,
+      "grad_norm": 2.493863105773926,
+      "learning_rate": 9.527755757434968e-06,
+      "loss": 0.0693,
+      "step": 833
+    },
+    {
+      "epoch": 0.564276048714479,
+      "grad_norm": 3.3314931392669678,
+      "learning_rate": 9.504162453267776e-06,
+      "loss": 0.1227,
+      "step": 834
+    },
+    {
+      "epoch": 0.5649526387009473,
+      "grad_norm": 3.9033989906311035,
+      "learning_rate": 9.480571915632422e-06,
+      "loss": 0.1199,
+      "step": 835
+    },
+    {
+      "epoch": 0.5656292286874154,
+      "grad_norm": 3.6395678520202637,
+      "learning_rate": 9.456984276152598e-06,
+      "loss": 0.1057,
+      "step": 836
+    },
+    {
+      "epoch": 0.5663058186738836,
+      "grad_norm": 6.916732311248779,
+      "learning_rate": 9.43339966643584e-06,
+      "loss": 0.1741,
+      "step": 837
+    },
+    {
+      "epoch": 0.5669824086603519,
+      "grad_norm": 3.8561432361602783,
+      "learning_rate": 9.409818218072774e-06,
+      "loss": 0.1654,
+      "step": 838
+    },
+    {
+      "epoch": 0.56765899864682,
+      "grad_norm": 3.962113380432129,
+      "learning_rate": 9.386240062636388e-06,
+      "loss": 0.1459,
+      "step": 839
+    },
+    {
+      "epoch": 0.5683355886332883,
+      "grad_norm": 2.5661449432373047,
+      "learning_rate": 9.362665331681294e-06,
+      "loss": 0.1363,
+      "step": 840
+    },
+    {
+      "epoch": 0.5683355886332883,
+      "eval_accuracy": 0.8009174311926606,
+      "eval_f1": 0.4668304668304668,
+      "eval_loss": 0.43011632561683655,
+      "eval_precision": 0.8715596330275229,
+      "eval_recall": 0.3187919463087248,
+      "eval_runtime": 54.0976,
+      "eval_samples_per_second": 5.509,
+      "eval_steps_per_second": 0.185,
+      "step": 840
+    },
+    {
+      "epoch": 0.5690121786197564,
+      "grad_norm": 3.792685031890869,
+      "learning_rate": 9.339094156743007e-06,
+      "loss": 0.1408,
+      "step": 841
+    },
+    {
+      "epoch": 0.5696887686062246,
+      "grad_norm": 4.538841247558594,
+      "learning_rate": 9.315526669337189e-06,
+      "loss": 0.1399,
+      "step": 842
+    },
+    {
+      "epoch": 0.5703653585926928,
+      "grad_norm": 5.182969570159912,
+      "learning_rate": 9.291963000958932e-06,
+      "loss": 0.1753,
+      "step": 843
+    },
+    {
+      "epoch": 0.571041948579161,
+      "grad_norm": 3.905219554901123,
+      "learning_rate": 9.268403283082025e-06,
+      "loss": 0.143,
+      "step": 844
+    },
+    {
+      "epoch": 0.5717185385656293,
+      "grad_norm": 3.7634634971618652,
+      "learning_rate": 9.244847647158203e-06,
+      "loss": 0.1469,
+      "step": 845
+    },
+    {
+      "epoch": 0.5723951285520974,
+      "grad_norm": 3.5530450344085693,
+      "learning_rate": 9.221296224616443e-06,
+      "loss": 0.1334,
+      "step": 846
+    },
+    {
+      "epoch": 0.5730717185385656,
+      "grad_norm": 6.1246161460876465,
+      "learning_rate": 9.197749146862193e-06,
+      "loss": 0.1216,
+      "step": 847
+    },
+    {
+      "epoch": 0.5737483085250338,
+      "grad_norm": 7.231658458709717,
+      "learning_rate": 9.174206545276678e-06,
+      "loss": 0.2128,
+      "step": 848
+    },
+    {
+      "epoch": 0.574424898511502,
+      "grad_norm": 6.129051685333252,
+      "learning_rate": 9.150668551216134e-06,
+      "loss": 0.2178,
+      "step": 849
+    },
+    {
+      "epoch": 0.5751014884979703,
+      "grad_norm": 4.892454624176025,
+      "learning_rate": 9.127135296011102e-06,
+      "loss": 0.1496,
+      "step": 850
+    },
+    {
+      "epoch": 0.5757780784844384,
+      "grad_norm": 6.8777337074279785,
+      "learning_rate": 9.103606910965666e-06,
+      "loss": 0.2008,
+      "step": 851
+    },
+    {
+      "epoch": 0.5764546684709067,
+      "grad_norm": 3.538118600845337,
+      "learning_rate": 9.080083527356755e-06,
+      "loss": 0.1232,
+      "step": 852
+    },
+    {
+      "epoch": 0.5771312584573748,
+      "grad_norm": 5.2440080642700195,
+      "learning_rate": 9.056565276433378e-06,
+      "loss": 0.1973,
+      "step": 853
+    },
+    {
+      "epoch": 0.577807848443843,
+      "grad_norm": 2.282479763031006,
+      "learning_rate": 9.033052289415914e-06,
+      "loss": 0.0696,
+      "step": 854
+    },
+    {
+      "epoch": 0.5784844384303113,
+      "grad_norm": 3.643191337585449,
+      "learning_rate": 9.009544697495373e-06,
+      "loss": 0.1378,
+      "step": 855
+    },
+    {
+      "epoch": 0.5791610284167794,
+      "grad_norm": 3.0240986347198486,
+      "learning_rate": 8.986042631832656e-06,
+      "loss": 0.1579,
+      "step": 856
+    },
+    {
+      "epoch": 0.5798376184032477,
+      "grad_norm": 3.921018362045288,
+      "learning_rate": 8.962546223557838e-06,
+      "loss": 0.1194,
+      "step": 857
+    },
+    {
+      "epoch": 0.5805142083897158,
+      "grad_norm": 3.4192543029785156,
+      "learning_rate": 8.93905560376942e-06,
+      "loss": 0.1817,
+      "step": 858
+    },
+    {
+      "epoch": 0.581190798376184,
+      "grad_norm": 4.1514363288879395,
+      "learning_rate": 8.915570903533615e-06,
+      "loss": 0.1489,
+      "step": 859
+    },
+    {
+      "epoch": 0.5818673883626523,
+      "grad_norm": 3.885377883911133,
+      "learning_rate": 8.892092253883602e-06,
+      "loss": 0.1456,
+      "step": 860
+    },
+    {
+      "epoch": 0.5818673883626523,
+      "eval_accuracy": 0.7926605504587156,
+      "eval_f1": 0.42346938775510207,
+      "eval_loss": 0.4394099712371826,
+      "eval_precision": 0.8829787234042553,
+      "eval_recall": 0.2785234899328859,
+      "eval_runtime": 53.3745,
+      "eval_samples_per_second": 5.583,
+      "eval_steps_per_second": 0.187,
+      "step": 860
+    },
+    {
+      "epoch": 0.5825439783491204,
+      "grad_norm": 3.6462066173553467,
+      "learning_rate": 8.8686197858188e-06,
+      "loss": 0.1782,
+      "step": 861
+    },
+    {
+      "epoch": 0.5832205683355887,
+      "grad_norm": 3.2633800506591797,
+      "learning_rate": 8.84515363030414e-06,
+      "loss": 0.1656,
+      "step": 862
+    },
+    {
+      "epoch": 0.5838971583220568,
+      "grad_norm": 5.255461692810059,
+      "learning_rate": 8.821693918269334e-06,
+      "loss": 0.1306,
+      "step": 863
+    },
+    {
+      "epoch": 0.584573748308525,
+      "grad_norm": 4.525811672210693,
+      "learning_rate": 8.798240780608143e-06,
+      "loss": 0.1684,
+      "step": 864
+    },
+    {
+      "epoch": 0.5852503382949933,
+      "grad_norm": 2.788585901260376,
+      "learning_rate": 8.774794348177641e-06,
+      "loss": 0.1456,
+      "step": 865
+    },
+    {
+      "epoch": 0.5859269282814614,
+      "grad_norm": 3.1500301361083984,
+      "learning_rate": 8.751354751797492e-06,
+      "loss": 0.1347,
+      "step": 866
+    },
+    {
+      "epoch": 0.5866035182679297,
+      "grad_norm": 3.487180471420288,
+      "learning_rate": 8.727922122249221e-06,
+      "loss": 0.1393,
+      "step": 867
+    },
+    {
+      "epoch": 0.5872801082543978,
+      "grad_norm": 2.1133573055267334,
+      "learning_rate": 8.704496590275479e-06,
+      "loss": 0.0814,
+      "step": 868
+    },
+    {
+      "epoch": 0.587956698240866,
+      "grad_norm": 3.227505922317505,
+      "learning_rate": 8.68107828657931e-06,
+      "loss": 0.1104,
+      "step": 869
+    },
+    {
+      "epoch": 0.5886332882273342,
+      "grad_norm": 2.8195204734802246,
+      "learning_rate": 8.657667341823449e-06,
+      "loss": 0.1073,
+      "step": 870
+    },
+    {
+      "epoch": 0.5893098782138024,
+      "grad_norm": 6.85077428817749,
+      "learning_rate": 8.63426388662954e-06,
+      "loss": 0.2117,
+      "step": 871
+    },
+    {
+      "epoch": 0.5899864682002707,
+      "grad_norm": 3.027806043624878,
+      "learning_rate": 8.61086805157747e-06,
+      "loss": 0.13,
+      "step": 872
+    },
+    {
+      "epoch": 0.5906630581867388,
+      "grad_norm": 3.608955144882202,
+      "learning_rate": 8.587479967204584e-06,
+      "loss": 0.1323,
+      "step": 873
+    },
+    {
+      "epoch": 0.591339648173207,
+      "grad_norm": 3.6784167289733887,
+      "learning_rate": 8.564099764004998e-06,
+      "loss": 0.1205,
+      "step": 874
+    },
+    {
+      "epoch": 0.5920162381596752,
+      "grad_norm": 3.6753430366516113,
+      "learning_rate": 8.540727572428854e-06,
+      "loss": 0.1728,
+      "step": 875
+    },
+    {
+      "epoch": 0.5926928281461434,
+      "grad_norm": 3.4869165420532227,
+      "learning_rate": 8.51736352288158e-06,
+      "loss": 0.1363,
+      "step": 876
+    },
+    {
+      "epoch": 0.5933694181326117,
+      "grad_norm": 6.327773571014404,
+      "learning_rate": 8.494007745723197e-06,
+      "loss": 0.1723,
+      "step": 877
+    },
+    {
+      "epoch": 0.5940460081190798,
+      "grad_norm": 4.366674423217773,
+      "learning_rate": 8.47066037126754e-06,
+      "loss": 0.1557,
+      "step": 878
+    },
+    {
+      "epoch": 0.5947225981055481,
+      "grad_norm": 3.28305721282959,
+      "learning_rate": 8.447321529781597e-06,
+      "loss": 0.1253,
+      "step": 879
+    },
+    {
+      "epoch": 0.5953991880920162,
+      "grad_norm": 3.0015041828155518,
+      "learning_rate": 8.423991351484715e-06,
+      "loss": 0.1318,
+      "step": 880
+    },
+    {
+      "epoch": 0.5953991880920162,
+      "eval_accuracy": 0.8192660550458716,
+      "eval_f1": 0.5553047404063205,
+      "eval_loss": 0.3900049328804016,
+      "eval_precision": 0.8482758620689655,
+      "eval_recall": 0.412751677852349,
+      "eval_runtime": 53.5058,
+      "eval_samples_per_second": 5.569,
+      "eval_steps_per_second": 0.187,
+      "step": 880
+    },
+    {
+      "epoch": 0.5960757780784844,
+      "grad_norm": 2.9270071983337402,
+      "learning_rate": 8.400669966547925e-06,
+      "loss": 0.1256,
+      "step": 881
+    },
+    {
+      "epoch": 0.5967523680649527,
+      "grad_norm": 2.6574175357818604,
+      "learning_rate": 8.377357505093183e-06,
+      "loss": 0.0761,
+      "step": 882
+    },
+    {
+      "epoch": 0.5974289580514208,
+      "grad_norm": 3.648263692855835,
+      "learning_rate": 8.35405409719266e-06,
+      "loss": 0.124,
+      "step": 883
+    },
+    {
+      "epoch": 0.5981055480378891,
+      "grad_norm": 4.690035820007324,
+      "learning_rate": 8.330759872868022e-06,
+      "loss": 0.182,
+      "step": 884
+    },
+    {
+      "epoch": 0.5987821380243572,
+      "grad_norm": 3.0360960960388184,
+      "learning_rate": 8.307474962089676e-06,
+      "loss": 0.1437,
+      "step": 885
+    },
+    {
+      "epoch": 0.5994587280108254,
+      "grad_norm": 3.8773977756500244,
+      "learning_rate": 8.284199494776083e-06,
+      "loss": 0.0975,
+      "step": 886
+    },
+    {
+      "epoch": 0.6001353179972937,
+      "grad_norm": 3.7407238483428955,
+      "learning_rate": 8.260933600793003e-06,
+      "loss": 0.1422,
+      "step": 887
+    },
+    {
+      "epoch": 0.6008119079837618,
+      "grad_norm": 4.789558410644531,
+      "learning_rate": 8.237677409952784e-06,
+      "loss": 0.1737,
+      "step": 888
+    },
+    {
+      "epoch": 0.6014884979702301,
+      "grad_norm": 5.8444929122924805,
+      "learning_rate": 8.214431052013636e-06,
+      "loss": 0.1658,
+      "step": 889
+    },
+    {
+      "epoch": 0.6021650879566982,
+      "grad_norm": 2.8387224674224854,
+      "learning_rate": 8.191194656678905e-06,
+      "loss": 0.1317,
+      "step": 890
+    },
+    {
+      "epoch": 0.6028416779431665,
+      "grad_norm": 3.5490684509277344,
+      "learning_rate": 8.16796835359635e-06,
+      "loss": 0.0796,
+      "step": 891
+    },
+    {
+      "epoch": 0.6035182679296346,
+      "grad_norm": 3.600038766860962,
+      "learning_rate": 8.144752272357424e-06,
+      "loss": 0.1059,
+      "step": 892
+    },
+    {
+      "epoch": 0.6041948579161028,
+      "grad_norm": 6.19486665725708,
+      "learning_rate": 8.12154654249654e-06,
+      "loss": 0.2211,
+      "step": 893
+    },
+    {
+      "epoch": 0.6048714479025711,
+      "grad_norm": 3.217571973800659,
+      "learning_rate": 8.098351293490365e-06,
+      "loss": 0.0893,
+      "step": 894
+    },
+    {
+      "epoch": 0.6055480378890392,
+      "grad_norm": 3.447753667831421,
+      "learning_rate": 8.07516665475708e-06,
+      "loss": 0.1373,
+      "step": 895
+    },
+    {
+      "epoch": 0.6062246278755075,
+      "grad_norm": 4.001631259918213,
+      "learning_rate": 8.051992755655672e-06,
+      "loss": 0.1635,
+      "step": 896
+    },
+    {
+      "epoch": 0.6069012178619756,
+      "grad_norm": 3.870436191558838,
+      "learning_rate": 8.0288297254852e-06,
+      "loss": 0.1659,
+      "step": 897
+    },
+    {
+      "epoch": 0.6075778078484438,
+      "grad_norm": 7.8299479484558105,
+      "learning_rate": 8.005677693484077e-06,
+      "loss": 0.2432,
+      "step": 898
+    },
+    {
+      "epoch": 0.6082543978349121,
+      "grad_norm": 2.8993029594421387,
+      "learning_rate": 7.98253678882937e-06,
+      "loss": 0.0963,
+      "step": 899
+    },
+    {
+      "epoch": 0.6089309878213802,
+      "grad_norm": 3.3452529907226562,
+      "learning_rate": 7.959407140636034e-06,
+      "loss": 0.1336,
+      "step": 900
+    },
+    {
+      "epoch": 0.6089309878213802,
+      "eval_accuracy": 0.8,
+      "eval_f1": 0.47342995169082125,
+      "eval_loss": 0.42485949397087097,
+      "eval_precision": 0.8448275862068966,
+      "eval_recall": 0.3288590604026846,
+      "eval_runtime": 53.6449,
+      "eval_samples_per_second": 5.555,
+      "eval_steps_per_second": 0.186,
+      "step": 900
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.732359159822418e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null