Training in progress, step 900, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1780f9c1185f675cd6d51e82c1e80ca4f3e247aa087747947454cf738a5d4c69
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:751cf08e904d158afe5d5c376833ae0e82507272c605040cee2892e5b08babd7
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5c1cde5d8aa7aeb944e3e90997bd082e98d4ca837e32246771d3c564f3795b8
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:06a90cd633a16bc937002e25bf17189511b59b8e8d6bd000662a0b07bbf80e65
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b83c11bec463dc59bf896173c919dd90bf0348066e44adb9b0e543295330a1bf
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a2a1314f17bbfab7f1e0d63c5f4ad16ed3c81d2546ede535c552f819fd2b3ab
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8fd391b9627b47091cd87960049ac26042dde18861c1d7e32eb8c1118797bb8
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:61ce145ff3942d4b7afa3864d5060ecb372e5343ad7abd8681f9ef04e3996a27
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe0b23737c45689a0672974138d2e4bf3250efbe4a01af660359c0407af9bb21
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef11d2a12800199b371850d31a6f25caf9ed6263ace1a113ebdb48708b504181
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10e2f0e46255077284fd1723812107259e93b0ddedaac70ce788c07045f96453
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:146b0c5dbeeaf44008b0996c6e5385da4bd543d15c17518bdbadad49738050cf
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75eb0c742069dd550c1d5ea0a95a5d6f378d2b8b113ac677ef2cdd84c0e57d0b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce829e48185824cbdd9332cfc8db3ea7a52a07e0542cfb9ceb1a123cf238c986
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb86dc908dae8fcffc64fbd5f755a25779848603655d0b14f508407e36d14b3
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ebc6b5b3bf3ff4db9103e1f6c2a534b04905118e03682dcfd5b2651cf5023a9
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bbdc461acddb68778ff93a3106863b49db625d394bc9812c902dbf4a3f0decb
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:de551c8b1c7165a88a996c1e2c9ccef2b9c716ed5dd27dbead3aed497f875baf
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84aacbbc43943b2ed2d3eeb03d889744c56f76845a7d96e49fa7bff5da5be3b6
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d7ac6617d0f4bedb4a49c51f3499536a49a714fbf47c2bf0f3ef31d2fc421c6
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa47b6b07773b1a1fc22394cf526cb8aba69b558d0c5e9d7eeb7487fded1884b
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e8353d56a8d408800aeacfb35920a2641f5b231344cfc6e9685c5fff1b02a0
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae426b79fc7504b3415de1b203e94c3df18eeaa89bc726cbd2ff1e2fdd6c95ce
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:e436a7cd1ba66004593b56f4b7ea09bd56b9555226a359189f1b562635d9c755
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8412f5078d5372d361046df0c90d05d473909fc8ab1aa58766d872c8114b5c70
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7754cc7953f3b6df72a3313e3aea13311d99a52571c658951fa15bc741d1fcff
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6779661016949152,
   "eval_steps": 20,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6099,6 +6099,766 @@
       "eval_samples_per_second": 5.538,
       "eval_steps_per_second": 0.19,
       "step": 800
     }
   ],
   "logging_steps": 1,
@@ -6118,7 +6878,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.46322680561664e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7627118644067796,
   "eval_steps": 20,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.538,
       "eval_steps_per_second": 0.19,
       "step": 800
+    },
+    {
+      "epoch": 0.6788135593220339,
+      "grad_norm": 0.8634885549545288,
+      "learning_rate": 5.6535492087643904e-06,
+      "loss": 0.0026,
+      "step": 801
+    },
+    {
+      "epoch": 0.6796610169491526,
+      "grad_norm": 2.032689094543457,
+      "learning_rate": 5.626926795411447e-06,
+      "loss": 0.01,
+      "step": 802
+    },
+    {
+      "epoch": 0.6805084745762712,
+      "grad_norm": 0.10548463463783264,
+      "learning_rate": 5.6003426501798665e-06,
+      "loss": 0.0005,
+      "step": 803
+    },
+    {
+      "epoch": 0.6813559322033899,
+      "grad_norm": 1.6854254007339478,
+      "learning_rate": 5.573797005703601e-06,
+      "loss": 0.0037,
+      "step": 804
+    },
+    {
+      "epoch": 0.6822033898305084,
+      "grad_norm": 0.280429869890213,
+      "learning_rate": 5.547290094279687e-06,
+      "loss": 0.001,
+      "step": 805
+    },
+    {
+      "epoch": 0.6830508474576271,
+      "grad_norm": 0.711410403251648,
+      "learning_rate": 5.520822147866214e-06,
+      "loss": 0.0033,
+      "step": 806
+    },
+    {
+      "epoch": 0.6838983050847458,
+      "grad_norm": 0.2613879144191742,
+      "learning_rate": 5.494393398080292e-06,
+      "loss": 0.0011,
+      "step": 807
+    },
+    {
+      "epoch": 0.6847457627118644,
+      "grad_norm": 0.8584437966346741,
+      "learning_rate": 5.46800407619603e-06,
+      "loss": 0.0023,
+      "step": 808
+    },
+    {
+      "epoch": 0.6855932203389831,
+      "grad_norm": 3.826030731201172,
+      "learning_rate": 5.441654413142508e-06,
+      "loss": 0.0228,
+      "step": 809
+    },
+    {
+      "epoch": 0.6864406779661016,
+      "grad_norm": 0.7557411193847656,
+      "learning_rate": 5.415344639501754e-06,
+      "loss": 0.0033,
+      "step": 810
+    },
+    {
+      "epoch": 0.6872881355932203,
+      "grad_norm": 1.0392420291900635,
+      "learning_rate": 5.38907498550674e-06,
+      "loss": 0.0043,
+      "step": 811
+    },
+    {
+      "epoch": 0.688135593220339,
+      "grad_norm": 2.502735137939453,
+      "learning_rate": 5.362845681039348e-06,
+      "loss": 0.0147,
+      "step": 812
+    },
+    {
+      "epoch": 0.6889830508474576,
+      "grad_norm": 0.42259418964385986,
+      "learning_rate": 5.336656955628371e-06,
+      "loss": 0.0021,
+      "step": 813
+    },
+    {
+      "epoch": 0.6898305084745763,
+      "grad_norm": 2.6665008068084717,
+      "learning_rate": 5.310509038447492e-06,
+      "loss": 0.0194,
+      "step": 814
+    },
+    {
+      "epoch": 0.690677966101695,
+      "grad_norm": 2.9882800579071045,
+      "learning_rate": 5.284402158313299e-06,
+      "loss": 0.0415,
+      "step": 815
+    },
+    {
+      "epoch": 0.6915254237288135,
+      "grad_norm": 0.5250701904296875,
+      "learning_rate": 5.25833654368326e-06,
+      "loss": 0.0027,
+      "step": 816
+    },
+    {
+      "epoch": 0.6923728813559322,
+      "grad_norm": 0.46300551295280457,
+      "learning_rate": 5.23231242265375e-06,
+      "loss": 0.0013,
+      "step": 817
+    },
+    {
+      "epoch": 0.6932203389830508,
+      "grad_norm": 0.7175685167312622,
+      "learning_rate": 5.206330022958024e-06,
+      "loss": 0.0037,
+      "step": 818
+    },
+    {
+      "epoch": 0.6940677966101695,
+      "grad_norm": 0.36853301525115967,
+      "learning_rate": 5.180389571964249e-06,
+      "loss": 0.0016,
+      "step": 819
+    },
+    {
+      "epoch": 0.6949152542372882,
+      "grad_norm": 0.713392436504364,
+      "learning_rate": 5.1544912966735e-06,
+      "loss": 0.0048,
+      "step": 820
+    },
+    {
+      "epoch": 0.6949152542372882,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 9.25260319490917e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.5622,
+      "eval_samples_per_second": 5.663,
+      "eval_steps_per_second": 0.194,
+      "step": 820
+    },
+    {
+      "epoch": 0.6957627118644067,
+      "grad_norm": 1.1480737924575806,
+      "learning_rate": 5.1286354237177806e-06,
+      "loss": 0.0071,
+      "step": 821
+    },
+    {
+      "epoch": 0.6966101694915254,
+      "grad_norm": 1.0792937278747559,
+      "learning_rate": 5.102822179358037e-06,
+      "loss": 0.0062,
+      "step": 822
+    },
+    {
+      "epoch": 0.6974576271186441,
+      "grad_norm": 2.4379987716674805,
+      "learning_rate": 5.0770517894821815e-06,
+      "loss": 0.0301,
+      "step": 823
+    },
+    {
+      "epoch": 0.6983050847457627,
+      "grad_norm": 1.457727313041687,
+      "learning_rate": 5.051324479603106e-06,
+      "loss": 0.0199,
+      "step": 824
+    },
+    {
+      "epoch": 0.6991525423728814,
+      "grad_norm": 0.9668751955032349,
+      "learning_rate": 5.025640474856732e-06,
+      "loss": 0.003,
+      "step": 825
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.48410564661026,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.0013,
+      "step": 826
+    },
+    {
+      "epoch": 0.7008474576271186,
+      "grad_norm": 0.28067731857299805,
+      "learning_rate": 4.97440327940895e-06,
+      "loss": 0.0012,
+      "step": 827
+    },
+    {
+      "epoch": 0.7016949152542373,
+      "grad_norm": 0.2483496367931366,
+      "learning_rate": 4.948850537076719e-06,
+      "loss": 0.0007,
+      "step": 828
+    },
+    {
+      "epoch": 0.7025423728813559,
+      "grad_norm": 1.3155626058578491,
+      "learning_rate": 4.923341996611604e-06,
+      "loss": 0.0077,
+      "step": 829
+    },
+    {
+      "epoch": 0.7033898305084746,
+      "grad_norm": 0.7930201888084412,
+      "learning_rate": 4.897877881235091e-06,
+      "loss": 0.0027,
+      "step": 830
+    },
+    {
+      "epoch": 0.7042372881355933,
+      "grad_norm": 0.8325580954551697,
+      "learning_rate": 4.8724584137799235e-06,
+      "loss": 0.0081,
+      "step": 831
+    },
+    {
+      "epoch": 0.7050847457627119,
+      "grad_norm": 2.1520488262176514,
+      "learning_rate": 4.847083816688123e-06,
+      "loss": 0.0172,
+      "step": 832
+    },
+    {
+      "epoch": 0.7059322033898305,
+      "grad_norm": 0.5673890709877014,
+      "learning_rate": 4.821754312009063e-06,
+      "loss": 0.0019,
+      "step": 833
+    },
+    {
+      "epoch": 0.7067796610169491,
+      "grad_norm": 2.460827350616455,
+      "learning_rate": 4.796470121397518e-06,
+      "loss": 0.0238,
+      "step": 834
+    },
+    {
+      "epoch": 0.7076271186440678,
+      "grad_norm": 1.8376518487930298,
+      "learning_rate": 4.771231466111725e-06,
+      "loss": 0.0136,
+      "step": 835
+    },
+    {
+      "epoch": 0.7084745762711865,
+      "grad_norm": 1.0489223003387451,
+      "learning_rate": 4.746038567011454e-06,
+      "loss": 0.0035,
+      "step": 836
+    },
+    {
+      "epoch": 0.7093220338983051,
+      "grad_norm": 2.19427227973938,
+      "learning_rate": 4.7208916445560625e-06,
+      "loss": 0.0212,
+      "step": 837
+    },
+    {
+      "epoch": 0.7101694915254237,
+      "grad_norm": 2.033280849456787,
+      "learning_rate": 4.695790918802577e-06,
+      "loss": 0.0033,
+      "step": 838
+    },
+    {
+      "epoch": 0.7110169491525423,
+      "grad_norm": 1.6251804828643799,
+      "learning_rate": 4.67073660940376e-06,
+      "loss": 0.0187,
+      "step": 839
+    },
+    {
+      "epoch": 0.711864406779661,
+      "grad_norm": 0.2912212610244751,
+      "learning_rate": 4.645728935606194e-06,
+      "loss": 0.0007,
+      "step": 840
+    },
+    {
+      "epoch": 0.711864406779661,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00012361357221379876,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.0511,
+      "eval_samples_per_second": 5.72,
+      "eval_steps_per_second": 0.196,
+      "step": 840
+    },
+    {
+      "epoch": 0.7127118644067797,
+      "grad_norm": 3.8638107776641846,
+      "learning_rate": 4.620768116248362e-06,
+      "loss": 0.0192,
+      "step": 841
+    },
+    {
+      "epoch": 0.7135593220338983,
+      "grad_norm": 3.521618366241455,
+      "learning_rate": 4.595854369758727e-06,
+      "loss": 0.0239,
+      "step": 842
+    },
+    {
+      "epoch": 0.714406779661017,
+      "grad_norm": 4.152134418487549,
+      "learning_rate": 4.570987914153824e-06,
+      "loss": 0.0344,
+      "step": 843
+    },
+    {
+      "epoch": 0.7152542372881356,
+      "grad_norm": 1.025924801826477,
+      "learning_rate": 4.546168967036352e-06,
+      "loss": 0.0037,
+      "step": 844
+    },
+    {
+      "epoch": 0.7161016949152542,
+      "grad_norm": 1.601256012916565,
+      "learning_rate": 4.521397745593279e-06,
+      "loss": 0.008,
+      "step": 845
+    },
+    {
+      "epoch": 0.7169491525423729,
+      "grad_norm": 1.8692275285720825,
+      "learning_rate": 4.4966744665939226e-06,
+      "loss": 0.0072,
+      "step": 846
+    },
+    {
+      "epoch": 0.7177966101694915,
+      "grad_norm": 2.0935654640197754,
+      "learning_rate": 4.4719993463880695e-06,
+      "loss": 0.0217,
+      "step": 847
+    },
+    {
+      "epoch": 0.7186440677966102,
+      "grad_norm": 1.089236855506897,
+      "learning_rate": 4.447372600904065e-06,
+      "loss": 0.0095,
+      "step": 848
+    },
+    {
+      "epoch": 0.7194915254237289,
+      "grad_norm": 1.3698294162750244,
+      "learning_rate": 4.422794445646947e-06,
+      "loss": 0.0075,
+      "step": 849
+    },
+    {
+      "epoch": 0.7203389830508474,
+      "grad_norm": 1.4754582643508911,
+      "learning_rate": 4.398265095696539e-06,
+      "loss": 0.012,
+      "step": 850
+    },
+    {
+      "epoch": 0.7211864406779661,
+      "grad_norm": 0.5242229104042053,
+      "learning_rate": 4.373784765705586e-06,
+      "loss": 0.0038,
+      "step": 851
+    },
+    {
+      "epoch": 0.7220338983050848,
+      "grad_norm": 3.324636220932007,
+      "learning_rate": 4.349353669897856e-06,
+      "loss": 0.0299,
+      "step": 852
+    },
+    {
+      "epoch": 0.7228813559322034,
+      "grad_norm": 1.4912688732147217,
+      "learning_rate": 4.324972022066284e-06,
+      "loss": 0.009,
+      "step": 853
+    },
+    {
+      "epoch": 0.7237288135593221,
+      "grad_norm": 1.8088048696517944,
+      "learning_rate": 4.300640035571085e-06,
+      "loss": 0.0156,
+      "step": 854
+    },
+    {
+      "epoch": 0.7245762711864406,
+      "grad_norm": 0.9810622930526733,
+      "learning_rate": 4.276357923337903e-06,
+      "loss": 0.0054,
+      "step": 855
+    },
+    {
+      "epoch": 0.7254237288135593,
+      "grad_norm": 1.399301290512085,
+      "learning_rate": 4.2521258978559324e-06,
+      "loss": 0.0144,
+      "step": 856
+    },
+    {
+      "epoch": 0.726271186440678,
+      "grad_norm": 1.4187586307525635,
+      "learning_rate": 4.227944171176072e-06,
+      "loss": 0.0111,
+      "step": 857
+    },
+    {
+      "epoch": 0.7271186440677966,
+      "grad_norm": 1.7159850597381592,
+      "learning_rate": 4.203812954909057e-06,
+      "loss": 0.0124,
+      "step": 858
+    },
+    {
+      "epoch": 0.7279661016949153,
+      "grad_norm": 1.37935471534729,
+      "learning_rate": 4.179732460223626e-06,
+      "loss": 0.0118,
+      "step": 859
+    },
+    {
+      "epoch": 0.7288135593220338,
+      "grad_norm": 0.29636350274086,
+      "learning_rate": 4.1557028978446415e-06,
+      "loss": 0.0014,
+      "step": 860
+    },
+    {
+      "epoch": 0.7288135593220338,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00012519690790213645,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.6172,
+      "eval_samples_per_second": 5.769,
+      "eval_steps_per_second": 0.198,
+      "step": 860
+    },
+    {
+      "epoch": 0.7296610169491525,
+      "grad_norm": 0.8602759838104248,
+      "learning_rate": 4.1317244780512775e-06,
+      "loss": 0.0092,
+      "step": 861
+    },
+    {
+      "epoch": 0.7305084745762712,
+      "grad_norm": 2.8475470542907715,
+      "learning_rate": 4.107797410675166e-06,
+      "loss": 0.0388,
+      "step": 862
+    },
+    {
+      "epoch": 0.7313559322033898,
+      "grad_norm": 1.3523766994476318,
+      "learning_rate": 4.083921905098559e-06,
+      "loss": 0.0068,
+      "step": 863
+    },
+    {
+      "epoch": 0.7322033898305085,
+      "grad_norm": 1.5425556898117065,
+      "learning_rate": 4.060098170252495e-06,
+      "loss": 0.0116,
+      "step": 864
+    },
+    {
+      "epoch": 0.7330508474576272,
+      "grad_norm": 0.3472643494606018,
+      "learning_rate": 4.036326414614985e-06,
+      "loss": 0.0016,
+      "step": 865
+    },
+    {
+      "epoch": 0.7338983050847457,
+      "grad_norm": 0.4821791648864746,
+      "learning_rate": 4.0126068462091705e-06,
+      "loss": 0.0022,
+      "step": 866
+    },
+    {
+      "epoch": 0.7347457627118644,
+      "grad_norm": 0.49641525745391846,
+      "learning_rate": 3.988939672601509e-06,
+      "loss": 0.0018,
+      "step": 867
+    },
+    {
+      "epoch": 0.735593220338983,
+      "grad_norm": 1.2695690393447876,
+      "learning_rate": 3.9653251008999615e-06,
+      "loss": 0.0189,
+      "step": 868
+    },
+    {
+      "epoch": 0.7364406779661017,
+      "grad_norm": 0.7525699734687805,
+      "learning_rate": 3.941763337752177e-06,
+      "loss": 0.0027,
+      "step": 869
+    },
+    {
+      "epoch": 0.7372881355932204,
+      "grad_norm": 1.9671075344085693,
+      "learning_rate": 3.918254589343683e-06,
+      "loss": 0.0161,
+      "step": 870
+    },
+    {
+      "epoch": 0.738135593220339,
+      "grad_norm": 0.5608029365539551,
+      "learning_rate": 3.894799061396086e-06,
+      "loss": 0.002,
+      "step": 871
+    },
+    {
+      "epoch": 0.7389830508474576,
+      "grad_norm": 2.967503309249878,
+      "learning_rate": 3.871396959165267e-06,
+      "loss": 0.0201,
+      "step": 872
+    },
+    {
+      "epoch": 0.7398305084745763,
+      "grad_norm": 0.9887444972991943,
+      "learning_rate": 3.848048487439583e-06,
+      "loss": 0.0059,
+      "step": 873
+    },
+    {
+      "epoch": 0.7406779661016949,
+      "grad_norm": 1.1107892990112305,
+      "learning_rate": 3.824753850538082e-06,
+      "loss": 0.0071,
+      "step": 874
+    },
+    {
+      "epoch": 0.7415254237288136,
+      "grad_norm": 0.9307472705841064,
+      "learning_rate": 3.801513252308712e-06,
+      "loss": 0.0042,
+      "step": 875
+    },
+    {
+      "epoch": 0.7423728813559322,
+      "grad_norm": 2.223409652709961,
+      "learning_rate": 3.778326896126533e-06,
+      "loss": 0.0084,
+      "step": 876
+    },
+    {
+      "epoch": 0.7432203389830508,
+      "grad_norm": 0.8251433968544006,
+      "learning_rate": 3.755194984891943e-06,
+      "loss": 0.0042,
+      "step": 877
+    },
+    {
+      "epoch": 0.7440677966101695,
+      "grad_norm": 1.5690832138061523,
+      "learning_rate": 3.7321177210288974e-06,
+      "loss": 0.0045,
+      "step": 878
+    },
+    {
+      "epoch": 0.7449152542372881,
+      "grad_norm": 1.1555606126785278,
+      "learning_rate": 3.709095306483149e-06,
+      "loss": 0.009,
+      "step": 879
+    },
+    {
+      "epoch": 0.7457627118644068,
+      "grad_norm": 0.7731421589851379,
+      "learning_rate": 3.6861279427204634e-06,
+      "loss": 0.0056,
+      "step": 880
+    },
+    {
+      "epoch": 0.7457627118644068,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 9.962059266399592e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 52.1678,
+      "eval_samples_per_second": 5.597,
+      "eval_steps_per_second": 0.192,
+      "step": 880
+    },
+    {
+      "epoch": 0.7466101694915255,
+      "grad_norm": 0.9392852783203125,
+      "learning_rate": 3.6632158307248713e-06,
+      "loss": 0.0043,
+      "step": 881
+    },
+    {
+      "epoch": 0.747457627118644,
+      "grad_norm": 0.8620559573173523,
+      "learning_rate": 3.6403591709968924e-06,
+      "loss": 0.0049,
+      "step": 882
+    },
+    {
+      "epoch": 0.7483050847457627,
+      "grad_norm": 1.7161260843276978,
+      "learning_rate": 3.617558163551802e-06,
+      "loss": 0.0101,
+      "step": 883
+    },
+    {
+      "epoch": 0.7491525423728813,
+      "grad_norm": 0.5389106273651123,
+      "learning_rate": 3.5948130079178666e-06,
+      "loss": 0.0052,
+      "step": 884
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.6375874280929565,
+      "learning_rate": 3.5721239031346067e-06,
+      "loss": 0.0099,
+      "step": 885
+    },
+    {
+      "epoch": 0.7508474576271187,
+      "grad_norm": 0.791953444480896,
+      "learning_rate": 3.5494910477510445e-06,
+      "loss": 0.0035,
+      "step": 886
+    },
+    {
+      "epoch": 0.7516949152542373,
+      "grad_norm": 2.004249095916748,
+      "learning_rate": 3.526914639823973e-06,
+      "loss": 0.012,
+      "step": 887
+    },
+    {
+      "epoch": 0.752542372881356,
+      "grad_norm": 0.7185747623443604,
+      "learning_rate": 3.5043948769162227e-06,
+      "loss": 0.0037,
+      "step": 888
+    },
+    {
+      "epoch": 0.7533898305084745,
+      "grad_norm": 1.0839685201644897,
+      "learning_rate": 3.4819319560949303e-06,
+      "loss": 0.0043,
+      "step": 889
+    },
+    {
+      "epoch": 0.7542372881355932,
+      "grad_norm": 1.8889586925506592,
+      "learning_rate": 3.4595260739298174e-06,
+      "loss": 0.0236,
+      "step": 890
+    },
+    {
+      "epoch": 0.7550847457627119,
+      "grad_norm": 1.4316060543060303,
+      "learning_rate": 3.437177426491468e-06,
+      "loss": 0.0168,
+      "step": 891
+    },
+    {
+      "epoch": 0.7559322033898305,
+      "grad_norm": 1.128692865371704,
+      "learning_rate": 3.414886209349615e-06,
+      "loss": 0.007,
+      "step": 892
+    },
+    {
+      "epoch": 0.7567796610169492,
+      "grad_norm": 1.5015407800674438,
+      "learning_rate": 3.3926526175714246e-06,
+      "loss": 0.0063,
+      "step": 893
+    },
+    {
+      "epoch": 0.7576271186440678,
+      "grad_norm": 0.8763653635978699,
+      "learning_rate": 3.3704768457197933e-06,
+      "loss": 0.0039,
+      "step": 894
+    },
+    {
+      "epoch": 0.7584745762711864,
+      "grad_norm": 2.3314383029937744,
+      "learning_rate": 3.3483590878516437e-06,
+      "loss": 0.0201,
+      "step": 895
+    },
+    {
+      "epoch": 0.7593220338983051,
+      "grad_norm": 1.774864912033081,
+      "learning_rate": 3.3262995375162256e-06,
+      "loss": 0.0058,
+      "step": 896
+    },
+    {
+      "epoch": 0.7601694915254237,
+      "grad_norm": 0.5185796618461609,
+      "learning_rate": 3.304298387753426e-06,
+      "loss": 0.0022,
+      "step": 897
+    },
+    {
+      "epoch": 0.7610169491525424,
+      "grad_norm": 1.1957974433898926,
+      "learning_rate": 3.282355831092072e-06,
+      "loss": 0.0046,
+      "step": 898
+    },
+    {
+      "epoch": 0.761864406779661,
+      "grad_norm": 1.759142518043518,
+      "learning_rate": 3.2604720595482598e-06,
+      "loss": 0.0097,
+      "step": 899
+    },
+    {
+      "epoch": 0.7627118644067796,
+      "grad_norm": 2.0010337829589844,
+      "learning_rate": 3.2386472646236565e-06,
+      "loss": 0.0107,
+      "step": 900
+    },
+    {
+      "epoch": 0.7627118644067796,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 9.30224996409379e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.6959,
+      "eval_samples_per_second": 5.876,
+      "eval_steps_per_second": 0.201,
+      "step": 900
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.771703818092544e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null