mtzig
/

v2c_mistral_lora

Model card Files Files and versions Community

mtzig commited on Nov 19, 2024

Commit

e0631a2

verified ·

1 Parent(s): fdd872f

Training in progress, step 500, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4963b2cd50e57f6b515f56f974dfe45d992517004fc520f6955d81d176f790a7
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec0b23fb29b3168d711126e63c390cefd28562954b8b8ef4840f478aa2aec88c
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c68fdb607ac4683a8dca2ee6fa979f122c8b9e4f5a8be05c199df9ffdf462632
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:719e2f980220aec49e7260281d780c4b705e08e44da393275851a1c0ada4a677
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8f1c5f0040695754e95cea31a92ba95b979e25d690f9d64c169d66dc419f228
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:9348a9304f5360f4c21ad45a44bbc0168ae2b80712245674a9a769f6eb7aa152
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8e9491dc652893fb060e965d69962558957f031ecac809634247164f574e608
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9e3bcd9ed5fbe41d6c66f117fd9b6d9de2950c64c39151e84cf8161db4402f2
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d035efe305175a2f8bfbab2f8d3e62cee6f2ced0a908d7eb6c1e495846d0737b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b902873a146629a1ece23ec06ea7f89258be805f622edd3f56bb4e27b370d1f
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc84a14f60fa5fc54638a6ef9c91a376a58f7ab98ea47d3c31d76ce89c680414
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:90be759819f75fd58133ca2a31ffb7e3abdb5e55026b34e76783d4cbdb7645cc
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac4073bdc83a079a4b6896bc4a6496aeea9ed2771c055d341f2925ac3e15b804
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:bac79d5ff2444d45cca1c402876704174077427c6b7d2902ab84bdd3aeb6a4c1
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a66dd53cdd3497de414d53e774c65997b79be629a8b45594ad103171f71988a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:36fa53207112e96cf1d931008a46af86708bec88e31fc02618c631b73b238844
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30f7efb14f830613ce1feb32c656507e2b2715abb7e03351d4ab24fdac833de9
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:002fb55933219d3afc15cf13593cee3b4cc68a24a920a24f43ed82f5a081cc35
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b570acbde5d360a8111669f646b87b723b1561b932314383883cb8d7631cf6a5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7218e38300ea7b9c89377dc67299aac317cf89fbd5fed41930f1224bfa1fab89
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce2f6e01a41ead5e1f0563b520db5e55e49adbcab1ba2767d62506fd2c2fd350
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dd6521f2fc3283d23bd25a27f2810cab0424e95a40073d1ed6cfb13ed15dc2f
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b05228164f2365d0c73a013ea3f0d6ff1002ba4a518c68a6670e0c417be0df02
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b47a7144b9ff045949aa91aea787001a456200397c8e845704484a0656bbbacc
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feec47af43281c02d149007021796dc5997bea57643d860b75184d48d617927b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:af32edbfbf253ca5324b65d305f359aaf2d7238a6c9110be03e0839d25660469
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2706359945872801,
   "eval_steps": 20,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3059,6 +3059,766 @@
       "eval_samples_per_second": 5.737,
       "eval_steps_per_second": 0.193,
       "step": 400
     }
   ],
   "logging_steps": 1,
@@ -3078,7 +3838,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2098518370798797e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3382949932341001,
   "eval_steps": 20,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.737,
       "eval_steps_per_second": 0.193,
       "step": 400
+    },
+    {
+      "epoch": 0.2713125845737483,
+      "grad_norm": 3.803469181060791,
+      "learning_rate": 1.8266820575458908e-05,
+      "loss": 0.1116,
+      "step": 401
+    },
+    {
+      "epoch": 0.2719891745602165,
+      "grad_norm": 4.727139949798584,
+      "learning_rate": 1.8253506714608176e-05,
+      "loss": 0.1973,
+      "step": 402
+    },
+    {
+      "epoch": 0.27266576454668473,
+      "grad_norm": 4.788311004638672,
+      "learning_rate": 1.8240146803212854e-05,
+      "loss": 0.2294,
+      "step": 403
+    },
+    {
+      "epoch": 0.2733423545331529,
+      "grad_norm": 9.147326469421387,
+      "learning_rate": 1.822674091581474e-05,
+      "loss": 0.1194,
+      "step": 404
+    },
+    {
+      "epoch": 0.2740189445196211,
+      "grad_norm": 3.2791059017181396,
+      "learning_rate": 1.8213289127212152e-05,
+      "loss": 0.0931,
+      "step": 405
+    },
+    {
+      "epoch": 0.2746955345060893,
+      "grad_norm": 4.282406330108643,
+      "learning_rate": 1.8199791512459507e-05,
+      "loss": 0.1893,
+      "step": 406
+    },
+    {
+      "epoch": 0.2753721244925575,
+      "grad_norm": 5.307563781738281,
+      "learning_rate": 1.8186248146866928e-05,
+      "loss": 0.1627,
+      "step": 407
+    },
+    {
+      "epoch": 0.27604871447902574,
+      "grad_norm": 3.126235246658325,
+      "learning_rate": 1.817265910599978e-05,
+      "loss": 0.1254,
+      "step": 408
+    },
+    {
+      "epoch": 0.2767253044654939,
+      "grad_norm": 3.751150369644165,
+      "learning_rate": 1.81590244656783e-05,
+      "loss": 0.1884,
+      "step": 409
+    },
+    {
+      "epoch": 0.2774018944519621,
+      "grad_norm": 4.908536434173584,
+      "learning_rate": 1.8145344301977126e-05,
+      "loss": 0.1522,
+      "step": 410
+    },
+    {
+      "epoch": 0.2780784844384303,
+      "grad_norm": 3.765190601348877,
+      "learning_rate": 1.8131618691224916e-05,
+      "loss": 0.1509,
+      "step": 411
+    },
+    {
+      "epoch": 0.2787550744248985,
+      "grad_norm": 4.558242321014404,
+      "learning_rate": 1.811784771000387e-05,
+      "loss": 0.1151,
+      "step": 412
+    },
+    {
+      "epoch": 0.2794316644113667,
+      "grad_norm": 3.2288334369659424,
+      "learning_rate": 1.8104031435149366e-05,
+      "loss": 0.1238,
+      "step": 413
+    },
+    {
+      "epoch": 0.28010825439783493,
+      "grad_norm": 3.91261625289917,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.1979,
+      "step": 414
+    },
+    {
+      "epoch": 0.2807848443843031,
+      "grad_norm": 5.789203643798828,
+      "learning_rate": 1.8076263313144568e-05,
+      "loss": 0.1015,
+      "step": 415
+    },
+    {
+      "epoch": 0.2814614343707713,
+      "grad_norm": 3.4970619678497314,
+      "learning_rate": 1.806231162092686e-05,
+      "loss": 0.1626,
+      "step": 416
+    },
+    {
+      "epoch": 0.2821380243572395,
+      "grad_norm": 2.941303253173828,
+      "learning_rate": 1.804831494494e-05,
+      "loss": 0.1262,
+      "step": 417
+    },
+    {
+      "epoch": 0.2828146143437077,
+      "grad_norm": 3.1387312412261963,
+      "learning_rate": 1.8034273363278615e-05,
+      "loss": 0.112,
+      "step": 418
+    },
+    {
+      "epoch": 0.28349120433017594,
+      "grad_norm": 3.1637914180755615,
+      "learning_rate": 1.8020186954287883e-05,
+      "loss": 0.1387,
+      "step": 419
+    },
+    {
+      "epoch": 0.28416779431664413,
+      "grad_norm": 7.6281538009643555,
+      "learning_rate": 1.8006055796563103e-05,
+      "loss": 0.1498,
+      "step": 420
+    },
+    {
+      "epoch": 0.28416779431664413,
+      "eval_accuracy": 0.7880733944954128,
+      "eval_f1": 0.43795620437956206,
+      "eval_loss": 0.4631403982639313,
+      "eval_precision": 0.7964601769911505,
+      "eval_recall": 0.30201342281879195,
+      "eval_runtime": 53.6246,
+      "eval_samples_per_second": 5.557,
+      "eval_steps_per_second": 0.186,
+      "step": 420
+    },
+    {
+      "epoch": 0.2848443843031123,
+      "grad_norm": 7.874175071716309,
+      "learning_rate": 1.7991879968949248e-05,
+      "loss": 0.1542,
+      "step": 421
+    },
+    {
+      "epoch": 0.2855209742895805,
+      "grad_norm": 2.5916264057159424,
+      "learning_rate": 1.797765955054053e-05,
+      "loss": 0.1319,
+      "step": 422
+    },
+    {
+      "epoch": 0.2861975642760487,
+      "grad_norm": 9.027409553527832,
+      "learning_rate": 1.7963394620679945e-05,
+      "loss": 0.2224,
+      "step": 423
+    },
+    {
+      "epoch": 0.2868741542625169,
+      "grad_norm": 2.5223119258880615,
+      "learning_rate": 1.7949085258958853e-05,
+      "loss": 0.1183,
+      "step": 424
+    },
+    {
+      "epoch": 0.28755074424898514,
+      "grad_norm": 1.9095633029937744,
+      "learning_rate": 1.7934731545216515e-05,
+      "loss": 0.1178,
+      "step": 425
+    },
+    {
+      "epoch": 0.2882273342354533,
+      "grad_norm": 3.547039031982422,
+      "learning_rate": 1.792033355953966e-05,
+      "loss": 0.1246,
+      "step": 426
+    },
+    {
+      "epoch": 0.2889039242219215,
+      "grad_norm": 3.945955991744995,
+      "learning_rate": 1.790589138226203e-05,
+      "loss": 0.2155,
+      "step": 427
+    },
+    {
+      "epoch": 0.2895805142083897,
+      "grad_norm": 1.659956932067871,
+      "learning_rate": 1.789140509396394e-05,
+      "loss": 0.0721,
+      "step": 428
+    },
+    {
+      "epoch": 0.2902571041948579,
+      "grad_norm": 3.547576427459717,
+      "learning_rate": 1.7876874775471806e-05,
+      "loss": 0.1895,
+      "step": 429
+    },
+    {
+      "epoch": 0.29093369418132614,
+      "grad_norm": 5.191123008728027,
+      "learning_rate": 1.7862300507857733e-05,
+      "loss": 0.2105,
+      "step": 430
+    },
+    {
+      "epoch": 0.29161028416779433,
+      "grad_norm": 4.68615198135376,
+      "learning_rate": 1.7847682372439024e-05,
+      "loss": 0.2427,
+      "step": 431
+    },
+    {
+      "epoch": 0.2922868741542625,
+      "grad_norm": 7.467837333679199,
+      "learning_rate": 1.7833020450777756e-05,
+      "loss": 0.255,
+      "step": 432
+    },
+    {
+      "epoch": 0.2929634641407307,
+      "grad_norm": 4.769316673278809,
+      "learning_rate": 1.78183148246803e-05,
+      "loss": 0.2349,
+      "step": 433
+    },
+    {
+      "epoch": 0.2936400541271989,
+      "grad_norm": 2.3752694129943848,
+      "learning_rate": 1.7803565576196884e-05,
+      "loss": 0.1347,
+      "step": 434
+    },
+    {
+      "epoch": 0.2943166441136671,
+      "grad_norm": 2.9256367683410645,
+      "learning_rate": 1.7788772787621126e-05,
+      "loss": 0.19,
+      "step": 435
+    },
+    {
+      "epoch": 0.29499323410013534,
+      "grad_norm": 2.6127521991729736,
+      "learning_rate": 1.7773936541489577e-05,
+      "loss": 0.1579,
+      "step": 436
+    },
+    {
+      "epoch": 0.2956698240866035,
+      "grad_norm": 1.9983330965042114,
+      "learning_rate": 1.7759056920581256e-05,
+      "loss": 0.1109,
+      "step": 437
+    },
+    {
+      "epoch": 0.2963464140730717,
+      "grad_norm": 2.2543447017669678,
+      "learning_rate": 1.7744134007917195e-05,
+      "loss": 0.1244,
+      "step": 438
+    },
+    {
+      "epoch": 0.2970230040595399,
+      "grad_norm": 3.1791696548461914,
+      "learning_rate": 1.7729167886759974e-05,
+      "loss": 0.1867,
+      "step": 439
+    },
+    {
+      "epoch": 0.2976995940460081,
+      "grad_norm": 2.7958037853240967,
+      "learning_rate": 1.771415864061326e-05,
+      "loss": 0.1344,
+      "step": 440
+    },
+    {
+      "epoch": 0.2976995940460081,
+      "eval_accuracy": 0.7963302752293578,
+      "eval_f1": 0.47641509433962265,
+      "eval_loss": 0.42485642433166504,
+      "eval_precision": 0.8015873015873016,
+      "eval_recall": 0.3389261744966443,
+      "eval_runtime": 52.4984,
+      "eval_samples_per_second": 5.676,
+      "eval_steps_per_second": 0.19,
+      "step": 440
+    },
+    {
+      "epoch": 0.29837618403247634,
+      "grad_norm": 2.20705509185791,
+      "learning_rate": 1.7699106353221322e-05,
+      "loss": 0.1233,
+      "step": 441
+    },
+    {
+      "epoch": 0.29905277401894453,
+      "grad_norm": 2.328334331512451,
+      "learning_rate": 1.7684011108568593e-05,
+      "loss": 0.1142,
+      "step": 442
+    },
+    {
+      "epoch": 0.2997293640054127,
+      "grad_norm": 3.256822109222412,
+      "learning_rate": 1.7668872990879175e-05,
+      "loss": 0.1556,
+      "step": 443
+    },
+    {
+      "epoch": 0.3004059539918809,
+      "grad_norm": 2.4061648845672607,
+      "learning_rate": 1.765369208461639e-05,
+      "loss": 0.0828,
+      "step": 444
+    },
+    {
+      "epoch": 0.3010825439783491,
+      "grad_norm": 5.99202299118042,
+      "learning_rate": 1.7638468474482297e-05,
+      "loss": 0.157,
+      "step": 445
+    },
+    {
+      "epoch": 0.3017591339648173,
+      "grad_norm": 3.7360379695892334,
+      "learning_rate": 1.762320224541722e-05,
+      "loss": 0.1257,
+      "step": 446
+    },
+    {
+      "epoch": 0.30243572395128554,
+      "grad_norm": 3.2651238441467285,
+      "learning_rate": 1.760789348259927e-05,
+      "loss": 0.1732,
+      "step": 447
+    },
+    {
+      "epoch": 0.30311231393775373,
+      "grad_norm": 3.5508763790130615,
+      "learning_rate": 1.7592542271443888e-05,
+      "loss": 0.1644,
+      "step": 448
+    },
+    {
+      "epoch": 0.3037889039242219,
+      "grad_norm": 4.703643798828125,
+      "learning_rate": 1.757714869760335e-05,
+      "loss": 0.2103,
+      "step": 449
+    },
+    {
+      "epoch": 0.3044654939106901,
+      "grad_norm": 5.588313102722168,
+      "learning_rate": 1.756171284696629e-05,
+      "loss": 0.187,
+      "step": 450
+    },
+    {
+      "epoch": 0.3051420838971583,
+      "grad_norm": 1.9803051948547363,
+      "learning_rate": 1.7546234805657235e-05,
+      "loss": 0.0944,
+      "step": 451
+    },
+    {
+      "epoch": 0.30581867388362655,
+      "grad_norm": 3.1527740955352783,
+      "learning_rate": 1.7530714660036112e-05,
+      "loss": 0.1105,
+      "step": 452
+    },
+    {
+      "epoch": 0.30649526387009474,
+      "grad_norm": 4.078627109527588,
+      "learning_rate": 1.7515152496697765e-05,
+      "loss": 0.161,
+      "step": 453
+    },
+    {
+      "epoch": 0.3071718538565629,
+      "grad_norm": 4.430943489074707,
+      "learning_rate": 1.749954840247148e-05,
+      "loss": 0.1883,
+      "step": 454
+    },
+    {
+      "epoch": 0.3078484438430311,
+      "grad_norm": 3.115837335586548,
+      "learning_rate": 1.7483902464420507e-05,
+      "loss": 0.1122,
+      "step": 455
+    },
+    {
+      "epoch": 0.3085250338294993,
+      "grad_norm": 3.008695602416992,
+      "learning_rate": 1.7468214769841542e-05,
+      "loss": 0.1034,
+      "step": 456
+    },
+    {
+      "epoch": 0.3092016238159675,
+      "grad_norm": 6.273781776428223,
+      "learning_rate": 1.7452485406264278e-05,
+      "loss": 0.1709,
+      "step": 457
+    },
+    {
+      "epoch": 0.30987821380243574,
+      "grad_norm": 4.796054363250732,
+      "learning_rate": 1.74367144614509e-05,
+      "loss": 0.1932,
+      "step": 458
+    },
+    {
+      "epoch": 0.31055480378890393,
+      "grad_norm": 10.217569351196289,
+      "learning_rate": 1.742090202339559e-05,
+      "loss": 0.19,
+      "step": 459
+    },
+    {
+      "epoch": 0.3112313937753721,
+      "grad_norm": 3.481541395187378,
+      "learning_rate": 1.7405048180324046e-05,
+      "loss": 0.161,
+      "step": 460
+    },
+    {
+      "epoch": 0.3112313937753721,
+      "eval_accuracy": 0.8091743119266055,
+      "eval_f1": 0.5336322869955157,
+      "eval_loss": 0.42575448751449585,
+      "eval_precision": 0.8040540540540541,
+      "eval_recall": 0.39932885906040266,
+      "eval_runtime": 53.3596,
+      "eval_samples_per_second": 5.585,
+      "eval_steps_per_second": 0.187,
+      "step": 460
+    },
+    {
+      "epoch": 0.3119079837618403,
+      "grad_norm": 3.4007368087768555,
+      "learning_rate": 1.7389153020692985e-05,
+      "loss": 0.1502,
+      "step": 461
+    },
+    {
+      "epoch": 0.3125845737483085,
+      "grad_norm": 3.0644993782043457,
+      "learning_rate": 1.7373216633189653e-05,
+      "loss": 0.1749,
+      "step": 462
+    },
+    {
+      "epoch": 0.31326116373477675,
+      "grad_norm": 4.407646179199219,
+      "learning_rate": 1.735723910673132e-05,
+      "loss": 0.1703,
+      "step": 463
+    },
+    {
+      "epoch": 0.31393775372124494,
+      "grad_norm": 3.6031856536865234,
+      "learning_rate": 1.7341220530464796e-05,
+      "loss": 0.1745,
+      "step": 464
+    },
+    {
+      "epoch": 0.31461434370771313,
+      "grad_norm": 5.204887390136719,
+      "learning_rate": 1.7325160993765934e-05,
+      "loss": 0.0987,
+      "step": 465
+    },
+    {
+      "epoch": 0.3152909336941813,
+      "grad_norm": 2.864173173904419,
+      "learning_rate": 1.7309060586239117e-05,
+      "loss": 0.1985,
+      "step": 466
+    },
+    {
+      "epoch": 0.3159675236806495,
+      "grad_norm": 3.125213861465454,
+      "learning_rate": 1.7292919397716772e-05,
+      "loss": 0.1482,
+      "step": 467
+    },
+    {
+      "epoch": 0.3166441136671177,
+      "grad_norm": 5.636457920074463,
+      "learning_rate": 1.7276737518258865e-05,
+      "loss": 0.1882,
+      "step": 468
+    },
+    {
+      "epoch": 0.31732070365358594,
+      "grad_norm": 4.034516334533691,
+      "learning_rate": 1.7260515038152393e-05,
+      "loss": 0.2319,
+      "step": 469
+    },
+    {
+      "epoch": 0.31799729364005414,
+      "grad_norm": 2.29288911819458,
+      "learning_rate": 1.7244252047910893e-05,
+      "loss": 0.0806,
+      "step": 470
+    },
+    {
+      "epoch": 0.3186738836265223,
+      "grad_norm": 4.686462879180908,
+      "learning_rate": 1.7227948638273918e-05,
+      "loss": 0.192,
+      "step": 471
+    },
+    {
+      "epoch": 0.3193504736129905,
+      "grad_norm": 3.879487991333008,
+      "learning_rate": 1.7211604900206552e-05,
+      "loss": 0.1904,
+      "step": 472
+    },
+    {
+      "epoch": 0.3200270635994587,
+      "grad_norm": 4.023051738739014,
+      "learning_rate": 1.7195220924898883e-05,
+      "loss": 0.2034,
+      "step": 473
+    },
+    {
+      "epoch": 0.32070365358592695,
+      "grad_norm": 4.105659008026123,
+      "learning_rate": 1.717879680376551e-05,
+      "loss": 0.1803,
+      "step": 474
+    },
+    {
+      "epoch": 0.32138024357239514,
+      "grad_norm": 5.522044658660889,
+      "learning_rate": 1.7162332628445024e-05,
+      "loss": 0.2052,
+      "step": 475
+    },
+    {
+      "epoch": 0.32205683355886333,
+      "grad_norm": 4.441620349884033,
+      "learning_rate": 1.7145828490799497e-05,
+      "loss": 0.1982,
+      "step": 476
+    },
+    {
+      "epoch": 0.3227334235453315,
+      "grad_norm": 2.258070707321167,
+      "learning_rate": 1.7129284482913973e-05,
+      "loss": 0.1493,
+      "step": 477
+    },
+    {
+      "epoch": 0.3234100135317997,
+      "grad_norm": 4.115694522857666,
+      "learning_rate": 1.7112700697095955e-05,
+      "loss": 0.1957,
+      "step": 478
+    },
+    {
+      "epoch": 0.32408660351826796,
+      "grad_norm": 4.366945743560791,
+      "learning_rate": 1.709607722587488e-05,
+      "loss": 0.2066,
+      "step": 479
+    },
+    {
+      "epoch": 0.32476319350473615,
+      "grad_norm": 3.625458240509033,
+      "learning_rate": 1.7079414162001617e-05,
+      "loss": 0.2087,
+      "step": 480
+    },
+    {
+      "epoch": 0.32476319350473615,
+      "eval_accuracy": 0.810091743119266,
+      "eval_f1": 0.5152224824355972,
+      "eval_loss": 0.4003700017929077,
+      "eval_precision": 0.8527131782945736,
+      "eval_recall": 0.3691275167785235,
+      "eval_runtime": 52.4305,
+      "eval_samples_per_second": 5.684,
+      "eval_steps_per_second": 0.191,
+      "step": 480
+    },
+    {
+      "epoch": 0.32543978349120434,
+      "grad_norm": 4.504916667938232,
+      "learning_rate": 1.7062711598447936e-05,
+      "loss": 0.168,
+      "step": 481
+    },
+    {
+      "epoch": 0.3261163734776725,
+      "grad_norm": 3.6613380908966064,
+      "learning_rate": 1.7045969628406013e-05,
+      "loss": 0.1761,
+      "step": 482
+    },
+    {
+      "epoch": 0.3267929634641407,
+      "grad_norm": 5.603222846984863,
+      "learning_rate": 1.7029188345287868e-05,
+      "loss": 0.1618,
+      "step": 483
+    },
+    {
+      "epoch": 0.3274695534506089,
+      "grad_norm": 5.035453796386719,
+      "learning_rate": 1.7012367842724887e-05,
+      "loss": 0.1485,
+      "step": 484
+    },
+    {
+      "epoch": 0.32814614343707715,
+      "grad_norm": 3.6518185138702393,
+      "learning_rate": 1.6995508214567275e-05,
+      "loss": 0.1497,
+      "step": 485
+    },
+    {
+      "epoch": 0.32882273342354534,
+      "grad_norm": 3.421865463256836,
+      "learning_rate": 1.6978609554883544e-05,
+      "loss": 0.1269,
+      "step": 486
+    },
+    {
+      "epoch": 0.32949932341001353,
+      "grad_norm": 1.6450062990188599,
+      "learning_rate": 1.6961671957959967e-05,
+      "loss": 0.0814,
+      "step": 487
+    },
+    {
+      "epoch": 0.3301759133964817,
+      "grad_norm": 3.649200201034546,
+      "learning_rate": 1.6944695518300087e-05,
+      "loss": 0.0999,
+      "step": 488
+    },
+    {
+      "epoch": 0.3308525033829499,
+      "grad_norm": 5.043969631195068,
+      "learning_rate": 1.6927680330624165e-05,
+      "loss": 0.2421,
+      "step": 489
+    },
+    {
+      "epoch": 0.33152909336941816,
+      "grad_norm": 2.5395421981811523,
+      "learning_rate": 1.691062648986865e-05,
+      "loss": 0.1194,
+      "step": 490
+    },
+    {
+      "epoch": 0.33220568335588635,
+      "grad_norm": 3.3575992584228516,
+      "learning_rate": 1.6893534091185658e-05,
+      "loss": 0.1217,
+      "step": 491
+    },
+    {
+      "epoch": 0.33288227334235454,
+      "grad_norm": 3.968233823776245,
+      "learning_rate": 1.6876403229942453e-05,
+      "loss": 0.1636,
+      "step": 492
+    },
+    {
+      "epoch": 0.33355886332882273,
+      "grad_norm": 4.133052825927734,
+      "learning_rate": 1.6859234001720882e-05,
+      "loss": 0.0986,
+      "step": 493
+    },
+    {
+      "epoch": 0.3342354533152909,
+      "grad_norm": 6.324604034423828,
+      "learning_rate": 1.6842026502316874e-05,
+      "loss": 0.1145,
+      "step": 494
+    },
+    {
+      "epoch": 0.3349120433017591,
+      "grad_norm": 4.619051933288574,
+      "learning_rate": 1.682478082773989e-05,
+      "loss": 0.2143,
+      "step": 495
+    },
+    {
+      "epoch": 0.33558863328822736,
+      "grad_norm": 3.0241997241973877,
+      "learning_rate": 1.680749707421238e-05,
+      "loss": 0.1057,
+      "step": 496
+    },
+    {
+      "epoch": 0.33626522327469555,
+      "grad_norm": 1.7503517866134644,
+      "learning_rate": 1.6790175338169277e-05,
+      "loss": 0.0634,
+      "step": 497
+    },
+    {
+      "epoch": 0.33694181326116374,
+      "grad_norm": 4.2864990234375,
+      "learning_rate": 1.6772815716257414e-05,
+      "loss": 0.1524,
+      "step": 498
+    },
+    {
+      "epoch": 0.3376184032476319,
+      "grad_norm": 4.454866886138916,
+      "learning_rate": 1.6755418305335026e-05,
+      "loss": 0.1908,
+      "step": 499
+    },
+    {
+      "epoch": 0.3382949932341001,
+      "grad_norm": 5.34849739074707,
+      "learning_rate": 1.673798320247118e-05,
+      "loss": 0.1857,
+      "step": 500
+    },
+    {
+      "epoch": 0.3382949932341001,
+      "eval_accuracy": 0.7862385321100918,
+      "eval_f1": 0.391644908616188,
+      "eval_loss": 0.5401991605758667,
+      "eval_precision": 0.8823529411764706,
+      "eval_recall": 0.2516778523489933,
+      "eval_runtime": 52.9654,
+      "eval_samples_per_second": 5.626,
+      "eval_steps_per_second": 0.189,
+      "step": 500
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.513912347435991e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null