Training in progress, step 800, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e2356ab40c12010f82e0468e01d29e496b88111fe03b82cd7feccd2244f2d76
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:1780f9c1185f675cd6d51e82c1e80ca4f3e247aa087747947454cf738a5d4c69
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccda15c137674757272ca9a1e7faeeeacab02505d67e05c4d7ebe44cc6a4b153
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5c1cde5d8aa7aeb944e3e90997bd082e98d4ca837e32246771d3c564f3795b8
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dc157f03faa1207462cb37f715cc653baa805f5c414cfb69f73f1ef19a61118
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:b83c11bec463dc59bf896173c919dd90bf0348066e44adb9b0e543295330a1bf
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40f7ba7f95601c31b92888b340de1db5d112c903a5f054ef378fa8d334b109d8
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8fd391b9627b47091cd87960049ac26042dde18861c1d7e32eb8c1118797bb8
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8da404dd915ddc5786378001a5d8b341c178642cef0fa5e08b8f3beb67dc7cb
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe0b23737c45689a0672974138d2e4bf3250efbe4a01af660359c0407af9bb21
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5d35bb59f4f49474e830ccd46842fcc6946c9f086e93024ff04f721199acc57
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:10e2f0e46255077284fd1723812107259e93b0ddedaac70ce788c07045f96453
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac6a1ff009a6db976158959cb8041df84e0cca3b33030728e6faf834e7ec72cf
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:75eb0c742069dd550c1d5ea0a95a5d6f378d2b8b113ac677ef2cdd84c0e57d0b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0699607949cd765eebdf60840d7ed5f0aebefee59edbb9463b802af0f820f2d1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcb86dc908dae8fcffc64fbd5f755a25779848603655d0b14f508407e36d14b3
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1854f3cbc2d043054722525ddb7c6d840fe619ac6e722abc90668756a2bf03d
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bbdc461acddb68778ff93a3106863b49db625d394bc9812c902dbf4a3f0decb
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ca1b3957819960b03608de19c4085d857ce0ee70b4144698881329d19543373
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:84aacbbc43943b2ed2d3eeb03d889744c56f76845a7d96e49fa7bff5da5be3b6
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26304480186583ed12a61dfc367660400975b17b195ce7f553e02600fcda72cc
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa47b6b07773b1a1fc22394cf526cb8aba69b558d0c5e9d7eeb7487fded1884b
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf1df145d3bf08ae4663cfb2c2935b2a282725834f65fde0348128bf1964387b
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae426b79fc7504b3415de1b203e94c3df18eeaa89bc726cbd2ff1e2fdd6c95ce
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:955e64c88de6579928ca795c761cef4142e056dbf769931deca6f0e3847c6550
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8412f5078d5372d361046df0c90d05d473909fc8ab1aa58766d872c8114b5c70
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5932203389830508,
   "eval_steps": 20,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5339,6 +5339,766 @@
       "eval_samples_per_second": 5.866,
       "eval_steps_per_second": 0.201,
       "step": 700
     }
   ],
   "logging_steps": 1,
@@ -5358,7 +6118,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1575362459520205e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6779661016949152,
   "eval_steps": 20,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.866,
       "eval_steps_per_second": 0.201,
       "step": 700
+    },
+    {
+      "epoch": 0.5940677966101695,
+      "grad_norm": 1.3996844291687012,
+      "learning_rate": 8.46780298998537e-06,
+      "loss": 0.0051,
+      "step": 701
+    },
+    {
+      "epoch": 0.5949152542372881,
+      "grad_norm": 1.469482421875,
+      "learning_rate": 8.438577183006448e-06,
+      "loss": 0.0096,
+      "step": 702
+    },
+    {
+      "epoch": 0.5957627118644068,
+      "grad_norm": 0.796106219291687,
+      "learning_rate": 8.409365039809282e-06,
+      "loss": 0.006,
+      "step": 703
+    },
+    {
+      "epoch": 0.5966101694915255,
+      "grad_norm": 1.5384269952774048,
+      "learning_rate": 8.380166816025043e-06,
+      "loss": 0.0144,
+      "step": 704
+    },
+    {
+      "epoch": 0.597457627118644,
+      "grad_norm": 2.1261978149414062,
+      "learning_rate": 8.350982767163105e-06,
+      "loss": 0.0185,
+      "step": 705
+    },
+    {
+      "epoch": 0.5983050847457627,
+      "grad_norm": 2.251471757888794,
+      "learning_rate": 8.321813148608784e-06,
+      "loss": 0.0158,
+      "step": 706
+    },
+    {
+      "epoch": 0.5991525423728814,
+      "grad_norm": 0.6852215528488159,
+      "learning_rate": 8.292658215621139e-06,
+      "loss": 0.0025,
+      "step": 707
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.9804059863090515,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 0.0028,
+      "step": 708
+    },
+    {
+      "epoch": 0.6008474576271187,
+      "grad_norm": 1.716261863708496,
+      "learning_rate": 8.234393426737258e-06,
+      "loss": 0.0095,
+      "step": 709
+    },
+    {
+      "epoch": 0.6016949152542372,
+      "grad_norm": 2.618445634841919,
+      "learning_rate": 8.205284080707634e-06,
+      "loss": 0.0172,
+      "step": 710
+    },
+    {
+      "epoch": 0.6025423728813559,
+      "grad_norm": 0.9949232935905457,
+      "learning_rate": 8.176190439973442e-06,
+      "loss": 0.0044,
+      "step": 711
+    },
+    {
+      "epoch": 0.6033898305084746,
+      "grad_norm": 0.9794982075691223,
+      "learning_rate": 8.147112759128859e-06,
+      "loss": 0.0046,
+      "step": 712
+    },
+    {
+      "epoch": 0.6042372881355932,
+      "grad_norm": 1.576850414276123,
+      "learning_rate": 8.118051292628394e-06,
+      "loss": 0.0127,
+      "step": 713
+    },
+    {
+      "epoch": 0.6050847457627119,
+      "grad_norm": 1.6285077333450317,
+      "learning_rate": 8.089006294784679e-06,
+      "loss": 0.0077,
+      "step": 714
+    },
+    {
+      "epoch": 0.6059322033898306,
+      "grad_norm": 2.055169105529785,
+      "learning_rate": 8.059978019766219e-06,
+      "loss": 0.0078,
+      "step": 715
+    },
+    {
+      "epoch": 0.6067796610169491,
+      "grad_norm": 1.1716010570526123,
+      "learning_rate": 8.030966721595186e-06,
+      "loss": 0.0042,
+      "step": 716
+    },
+    {
+      "epoch": 0.6076271186440678,
+      "grad_norm": 0.2800714075565338,
+      "learning_rate": 8.001972654145194e-06,
+      "loss": 0.0012,
+      "step": 717
+    },
+    {
+      "epoch": 0.6084745762711864,
+      "grad_norm": 1.2018545866012573,
+      "learning_rate": 7.972996071139065e-06,
+      "loss": 0.009,
+      "step": 718
+    },
+    {
+      "epoch": 0.6093220338983051,
+      "grad_norm": 3.2295126914978027,
+      "learning_rate": 7.944037226146623e-06,
+      "loss": 0.0188,
+      "step": 719
+    },
+    {
+      "epoch": 0.6101694915254238,
+      "grad_norm": 2.7130823135375977,
+      "learning_rate": 7.915096372582467e-06,
+      "loss": 0.014,
+      "step": 720
+    },
+    {
+      "epoch": 0.6101694915254238,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 9.377366950502619e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.3568,
+      "eval_samples_per_second": 5.686,
+      "eval_steps_per_second": 0.195,
+      "step": 720
+    },
+    {
+      "epoch": 0.6110169491525423,
+      "grad_norm": 0.14015014469623566,
+      "learning_rate": 7.886173763703757e-06,
+      "loss": 0.0007,
+      "step": 721
+    },
+    {
+      "epoch": 0.611864406779661,
+      "grad_norm": 1.3559490442276,
+      "learning_rate": 7.857269652607995e-06,
+      "loss": 0.005,
+      "step": 722
+    },
+    {
+      "epoch": 0.6127118644067797,
+      "grad_norm": 1.6353223323822021,
+      "learning_rate": 7.828384292230814e-06,
+      "loss": 0.0081,
+      "step": 723
+    },
+    {
+      "epoch": 0.6135593220338983,
+      "grad_norm": 1.1183819770812988,
+      "learning_rate": 7.799517935343757e-06,
+      "loss": 0.0034,
+      "step": 724
+    },
+    {
+      "epoch": 0.614406779661017,
+      "grad_norm": 1.9186286926269531,
+      "learning_rate": 7.770670834552074e-06,
+      "loss": 0.0153,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152542372881356,
+      "grad_norm": 1.465635895729065,
+      "learning_rate": 7.741843242292508e-06,
+      "loss": 0.0108,
+      "step": 726
+    },
+    {
+      "epoch": 0.6161016949152542,
+      "grad_norm": 1.6631442308425903,
+      "learning_rate": 7.713035410831086e-06,
+      "loss": 0.0155,
+      "step": 727
+    },
+    {
+      "epoch": 0.6169491525423729,
+      "grad_norm": 0.37416231632232666,
+      "learning_rate": 7.68424759226091e-06,
+      "loss": 0.0011,
+      "step": 728
+    },
+    {
+      "epoch": 0.6177966101694915,
+      "grad_norm": 1.5809506177902222,
+      "learning_rate": 7.655480038499953e-06,
+      "loss": 0.0071,
+      "step": 729
+    },
+    {
+      "epoch": 0.6186440677966102,
+      "grad_norm": 1.0575535297393799,
+      "learning_rate": 7.626733001288852e-06,
+      "loss": 0.003,
+      "step": 730
+    },
+    {
+      "epoch": 0.6194915254237288,
+      "grad_norm": 1.1455744504928589,
+      "learning_rate": 7.598006732188708e-06,
+      "loss": 0.007,
+      "step": 731
+    },
+    {
+      "epoch": 0.6203389830508474,
+      "grad_norm": 1.1559722423553467,
+      "learning_rate": 7.569301482578885e-06,
+      "loss": 0.0043,
+      "step": 732
+    },
+    {
+      "epoch": 0.6211864406779661,
+      "grad_norm": 4.226150035858154,
+      "learning_rate": 7.540617503654804e-06,
+      "loss": 0.0244,
+      "step": 733
+    },
+    {
+      "epoch": 0.6220338983050847,
+      "grad_norm": 1.66443932056427,
+      "learning_rate": 7.511955046425754e-06,
+      "loss": 0.0073,
+      "step": 734
+    },
+    {
+      "epoch": 0.6228813559322034,
+      "grad_norm": 4.203097820281982,
+      "learning_rate": 7.483314361712686e-06,
+      "loss": 0.0236,
+      "step": 735
+    },
+    {
+      "epoch": 0.6237288135593221,
+      "grad_norm": 3.4578402042388916,
+      "learning_rate": 7.454695700146024e-06,
+      "loss": 0.0224,
+      "step": 736
+    },
+    {
+      "epoch": 0.6245762711864407,
+      "grad_norm": 2.495051383972168,
+      "learning_rate": 7.42609931216348e-06,
+      "loss": 0.0303,
+      "step": 737
+    },
+    {
+      "epoch": 0.6254237288135593,
+      "grad_norm": 0.11093101650476456,
+      "learning_rate": 7.397525448007838e-06,
+      "loss": 0.0005,
+      "step": 738
+    },
+    {
+      "epoch": 0.6262711864406779,
+      "grad_norm": 0.8444148302078247,
+      "learning_rate": 7.368974357724789e-06,
+      "loss": 0.0038,
+      "step": 739
+    },
+    {
+      "epoch": 0.6271186440677966,
+      "grad_norm": 0.6768697500228882,
+      "learning_rate": 7.3404462911607325e-06,
+      "loss": 0.0042,
+      "step": 740
+    },
+    {
+      "epoch": 0.6271186440677966,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 9.098863665712997e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.0217,
+      "eval_samples_per_second": 5.723,
+      "eval_steps_per_second": 0.196,
+      "step": 740
+    },
+    {
+      "epoch": 0.6279661016949153,
+      "grad_norm": 0.5370987057685852,
+      "learning_rate": 7.3119414979605865e-06,
+      "loss": 0.0043,
+      "step": 741
+    },
+    {
+      "epoch": 0.6288135593220339,
+      "grad_norm": 2.2939460277557373,
+      "learning_rate": 7.283460227565614e-06,
+      "loss": 0.0163,
+      "step": 742
+    },
+    {
+      "epoch": 0.6296610169491526,
+      "grad_norm": 0.1840486228466034,
+      "learning_rate": 7.255002729211227e-06,
+      "loss": 0.0014,
+      "step": 743
+    },
+    {
+      "epoch": 0.6305084745762712,
+      "grad_norm": 2.645730495452881,
+      "learning_rate": 7.226569251924811e-06,
+      "loss": 0.0305,
+      "step": 744
+    },
+    {
+      "epoch": 0.6313559322033898,
+      "grad_norm": 2.7763075828552246,
+      "learning_rate": 7.198160044523555e-06,
+      "loss": 0.0297,
+      "step": 745
+    },
+    {
+      "epoch": 0.6322033898305085,
+      "grad_norm": 1.471494436264038,
+      "learning_rate": 7.169775355612261e-06,
+      "loss": 0.0038,
+      "step": 746
+    },
+    {
+      "epoch": 0.6330508474576271,
+      "grad_norm": 1.1910088062286377,
+      "learning_rate": 7.141415433581169e-06,
+      "loss": 0.0051,
+      "step": 747
+    },
+    {
+      "epoch": 0.6338983050847458,
+      "grad_norm": 0.6888835430145264,
+      "learning_rate": 7.113080526603793e-06,
+      "loss": 0.0018,
+      "step": 748
+    },
+    {
+      "epoch": 0.6347457627118644,
+      "grad_norm": 0.5418266654014587,
+      "learning_rate": 7.0847708826347415e-06,
+      "loss": 0.0023,
+      "step": 749
+    },
+    {
+      "epoch": 0.635593220338983,
+      "grad_norm": 0.5402665138244629,
+      "learning_rate": 7.056486749407552e-06,
+      "loss": 0.0013,
+      "step": 750
+    },
+    {
+      "epoch": 0.6364406779661017,
+      "grad_norm": 0.44419825077056885,
+      "learning_rate": 7.028228374432523e-06,
+      "loss": 0.0018,
+      "step": 751
+    },
+    {
+      "epoch": 0.6372881355932203,
+      "grad_norm": 2.0415663719177246,
+      "learning_rate": 6.9999960049945406e-06,
+      "loss": 0.0136,
+      "step": 752
+    },
+    {
+      "epoch": 0.638135593220339,
+      "grad_norm": 1.5157843828201294,
+      "learning_rate": 6.971789888150926e-06,
+      "loss": 0.0225,
+      "step": 753
+    },
+    {
+      "epoch": 0.6389830508474577,
+      "grad_norm": 0.30365321040153503,
+      "learning_rate": 6.943610270729261e-06,
+      "loss": 0.0013,
+      "step": 754
+    },
+    {
+      "epoch": 0.6398305084745762,
+      "grad_norm": 1.8797694444656372,
+      "learning_rate": 6.915457399325243e-06,
+      "loss": 0.0126,
+      "step": 755
+    },
+    {
+      "epoch": 0.6406779661016949,
+      "grad_norm": 1.3082208633422852,
+      "learning_rate": 6.8873315203005155e-06,
+      "loss": 0.0186,
+      "step": 756
+    },
+    {
+      "epoch": 0.6415254237288136,
+      "grad_norm": 0.4574929475784302,
+      "learning_rate": 6.859232879780515e-06,
+      "loss": 0.0033,
+      "step": 757
+    },
+    {
+      "epoch": 0.6423728813559322,
+      "grad_norm": 1.4100733995437622,
+      "learning_rate": 6.831161723652313e-06,
+      "loss": 0.0054,
+      "step": 758
+    },
+    {
+      "epoch": 0.6432203389830509,
+      "grad_norm": 0.8795613646507263,
+      "learning_rate": 6.803118297562479e-06,
+      "loss": 0.006,
+      "step": 759
+    },
+    {
+      "epoch": 0.6440677966101694,
+      "grad_norm": 3.974163293838501,
+      "learning_rate": 6.775102846914912e-06,
+      "loss": 0.0418,
+      "step": 760
+    },
+    {
+      "epoch": 0.6440677966101694,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0002802866802085191,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.7257,
+      "eval_samples_per_second": 5.756,
+      "eval_steps_per_second": 0.197,
+      "step": 760
+    },
+    {
+      "epoch": 0.6449152542372881,
+      "grad_norm": 2.1430978775024414,
+      "learning_rate": 6.747115616868711e-06,
+      "loss": 0.0171,
+      "step": 761
+    },
+    {
+      "epoch": 0.6457627118644068,
+      "grad_norm": 0.2186567485332489,
+      "learning_rate": 6.719156852336015e-06,
+      "loss": 0.0009,
+      "step": 762
+    },
+    {
+      "epoch": 0.6466101694915254,
+      "grad_norm": 2.305494546890259,
+      "learning_rate": 6.691226797979864e-06,
+      "loss": 0.0223,
+      "step": 763
+    },
+    {
+      "epoch": 0.6474576271186441,
+      "grad_norm": 0.28418537974357605,
+      "learning_rate": 6.66332569821206e-06,
+      "loss": 0.0013,
+      "step": 764
+    },
+    {
+      "epoch": 0.6483050847457628,
+      "grad_norm": 0.9447827935218811,
+      "learning_rate": 6.635453797191034e-06,
+      "loss": 0.0048,
+      "step": 765
+    },
+    {
+      "epoch": 0.6491525423728813,
+      "grad_norm": 1.4569226503372192,
+      "learning_rate": 6.607611338819697e-06,
+      "loss": 0.0032,
+      "step": 766
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.2803967297077179,
+      "learning_rate": 6.579798566743314e-06,
+      "loss": 0.0011,
+      "step": 767
+    },
+    {
+      "epoch": 0.6508474576271186,
+      "grad_norm": 1.287703037261963,
+      "learning_rate": 6.552015724347367e-06,
+      "loss": 0.0057,
+      "step": 768
+    },
+    {
+      "epoch": 0.6516949152542373,
+      "grad_norm": 1.7164057493209839,
+      "learning_rate": 6.52426305475543e-06,
+      "loss": 0.0123,
+      "step": 769
+    },
+    {
+      "epoch": 0.652542372881356,
+      "grad_norm": 2.8528084754943848,
+      "learning_rate": 6.4965408008270355e-06,
+      "loss": 0.0127,
+      "step": 770
+    },
+    {
+      "epoch": 0.6533898305084745,
+      "grad_norm": 2.0749473571777344,
+      "learning_rate": 6.4688492051555604e-06,
+      "loss": 0.0145,
+      "step": 771
+    },
+    {
+      "epoch": 0.6542372881355932,
+      "grad_norm": 3.287358522415161,
+      "learning_rate": 6.441188510066092e-06,
+      "loss": 0.0254,
+      "step": 772
+    },
+    {
+      "epoch": 0.6550847457627119,
+      "grad_norm": 0.4311177432537079,
+      "learning_rate": 6.413558957613309e-06,
+      "loss": 0.0012,
+      "step": 773
+    },
+    {
+      "epoch": 0.6559322033898305,
+      "grad_norm": 1.6251966953277588,
+      "learning_rate": 6.385960789579364e-06,
+      "loss": 0.008,
+      "step": 774
+    },
+    {
+      "epoch": 0.6567796610169492,
+      "grad_norm": 2.233088493347168,
+      "learning_rate": 6.358394247471779e-06,
+      "loss": 0.0203,
+      "step": 775
+    },
+    {
+      "epoch": 0.6576271186440678,
+      "grad_norm": 0.6515169143676758,
+      "learning_rate": 6.330859572521311e-06,
+      "loss": 0.0032,
+      "step": 776
+    },
+    {
+      "epoch": 0.6584745762711864,
+      "grad_norm": 0.9649152159690857,
+      "learning_rate": 6.303357005679858e-06,
+      "loss": 0.0057,
+      "step": 777
+    },
+    {
+      "epoch": 0.6593220338983051,
+      "grad_norm": 0.40915530920028687,
+      "learning_rate": 6.275886787618339e-06,
+      "loss": 0.0017,
+      "step": 778
+    },
+    {
+      "epoch": 0.6601694915254237,
+      "grad_norm": 2.0900630950927734,
+      "learning_rate": 6.2484491587246096e-06,
+      "loss": 0.0091,
+      "step": 779
+    },
+    {
+      "epoch": 0.6610169491525424,
+      "grad_norm": 0.4685976803302765,
+      "learning_rate": 6.221044359101317e-06,
+      "loss": 0.0024,
+      "step": 780
+    },
+    {
+      "epoch": 0.6610169491525424,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00018300920783076435,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.7091,
+      "eval_samples_per_second": 5.758,
+      "eval_steps_per_second": 0.197,
+      "step": 780
+    },
+    {
+      "epoch": 0.661864406779661,
+      "grad_norm": 0.4373491108417511,
+      "learning_rate": 6.193672628563845e-06,
+      "loss": 0.0016,
+      "step": 781
+    },
+    {
+      "epoch": 0.6627118644067796,
+      "grad_norm": 0.18425188958644867,
+      "learning_rate": 6.166334206638186e-06,
+      "loss": 0.0007,
+      "step": 782
+    },
+    {
+      "epoch": 0.6635593220338983,
+      "grad_norm": 1.5032649040222168,
+      "learning_rate": 6.139029332558855e-06,
+      "loss": 0.0087,
+      "step": 783
+    },
+    {
+      "epoch": 0.6644067796610169,
+      "grad_norm": 1.4531553983688354,
+      "learning_rate": 6.111758245266795e-06,
+      "loss": 0.0055,
+      "step": 784
+    },
+    {
+      "epoch": 0.6652542372881356,
+      "grad_norm": 1.0665950775146484,
+      "learning_rate": 6.084521183407286e-06,
+      "loss": 0.0075,
+      "step": 785
+    },
+    {
+      "epoch": 0.6661016949152543,
+      "grad_norm": 2.243398666381836,
+      "learning_rate": 6.057318385327857e-06,
+      "loss": 0.0172,
+      "step": 786
+    },
+    {
+      "epoch": 0.6669491525423729,
+      "grad_norm": 1.1581579446792603,
+      "learning_rate": 6.030150089076199e-06,
+      "loss": 0.0046,
+      "step": 787
+    },
+    {
+      "epoch": 0.6677966101694915,
+      "grad_norm": 2.128571033477783,
+      "learning_rate": 6.0030165323980794e-06,
+      "loss": 0.0052,
+      "step": 788
+    },
+    {
+      "epoch": 0.6686440677966101,
+      "grad_norm": 3.439826011657715,
+      "learning_rate": 5.975917952735272e-06,
+      "loss": 0.0174,
+      "step": 789
+    },
+    {
+      "epoch": 0.6694915254237288,
+      "grad_norm": 0.6685582995414734,
+      "learning_rate": 5.948854587223465e-06,
+      "loss": 0.0034,
+      "step": 790
+    },
+    {
+      "epoch": 0.6703389830508475,
+      "grad_norm": 0.4205131530761719,
+      "learning_rate": 5.921826672690199e-06,
+      "loss": 0.0016,
+      "step": 791
+    },
+    {
+      "epoch": 0.6711864406779661,
+      "grad_norm": 0.8802849650382996,
+      "learning_rate": 5.894834445652777e-06,
+      "loss": 0.0041,
+      "step": 792
+    },
+    {
+      "epoch": 0.6720338983050848,
+      "grad_norm": 2.2352685928344727,
+      "learning_rate": 5.867878142316221e-06,
+      "loss": 0.0108,
+      "step": 793
+    },
+    {
+      "epoch": 0.6728813559322034,
+      "grad_norm": 2.6779541969299316,
+      "learning_rate": 5.840957998571177e-06,
+      "loss": 0.0305,
+      "step": 794
+    },
+    {
+      "epoch": 0.673728813559322,
+      "grad_norm": 2.999138116836548,
+      "learning_rate": 5.814074249991876e-06,
+      "loss": 0.0156,
+      "step": 795
+    },
+    {
+      "epoch": 0.6745762711864407,
+      "grad_norm": 0.4623313546180725,
+      "learning_rate": 5.787227131834043e-06,
+      "loss": 0.0013,
+      "step": 796
+    },
+    {
+      "epoch": 0.6754237288135593,
+      "grad_norm": 0.4670167863368988,
+      "learning_rate": 5.7604168790328774e-06,
+      "loss": 0.0016,
+      "step": 797
+    },
+    {
+      "epoch": 0.676271186440678,
+      "grad_norm": 1.1071865558624268,
+      "learning_rate": 5.733643726200958e-06,
+      "loss": 0.0055,
+      "step": 798
+    },
+    {
+      "epoch": 0.6771186440677966,
+      "grad_norm": 1.0425511598587036,
+      "learning_rate": 5.706907907626216e-06,
+      "loss": 0.0115,
+      "step": 799
+    },
+    {
+      "epoch": 0.6779661016949152,
+      "grad_norm": 0.9477194547653198,
+      "learning_rate": 5.680209657269871e-06,
+      "loss": 0.0039,
+      "step": 800
+    },
+    {
+      "epoch": 0.6779661016949152,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0001500351936556399,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 52.726,
+      "eval_samples_per_second": 5.538,
+      "eval_steps_per_second": 0.19,
+      "step": 800
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.46322680561664e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null