Training in progress, step 1100, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:258fa13d0dd3a9484ec2b8bba17c7c79f8fae592c54988db0060f30bed4fd479
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd4094f5600490ddf6d9dc86706a89c258972627eabb482c09db8601aaa408b6
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5ddb62a05e33303e25df1c1b59bf783af13705be97b8587921a6631bbf41f12
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a5f19e172755f2ce57b999b6bf91cc0cd71f655dfb983069bc0cf1f20c1a06d
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fb6a1a5c2377031003c7d16853c28d7a0326058f17d16ddaa590879db829783
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c2c51b674c05b19e09a6f9dc112d8aed01c92bba25c7ff3c02cc7e583e58316
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a518b3cdba9c599ba3497e050cfb494de6051c337793cf768f8446e88e0ef4ba
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:87060ce519920d72bc5688fe4b87ba053fe5674703e0cfb88414391c60a767ad
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1aebed5961971ac0185b5d1edd913501186a04d8cb3949bbd870af297dec990
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:223e910b7b1616737b5bc86e1ebfb716e2a5b926a5993ed4e39db2e7651a4478
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4034df41a1c0d3738bcd73e59e7e4471dae0dae7adcc4ea761a25657d8d77fa1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:43b45ba64474b3b8076d79d336bf19cbfbf47a3077e59ccccda7247f6abf0ebd
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7294b9b4f0bbf7be3fd83aa7bd5f3c71e8668b2c2e36b427b4e526da02d8b63
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:02d133caa8a7c8c9f20ecb1f747d463913eb8e7adea3e916057db45aee893c68
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c060ae75b35787edb9e656fa359b5e8baf41200c17d6d0b344faaeac0c182233
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:81cb5bfebcce1a4979fbe0cfe517ce8ed3410829b5d415fc3687e8cd5e5c8a63
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46d64aa80154edb0becdb4e60fed57a8aac14a4ebe5ad47164b8308b04d1a370
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:435d97755e037c527a64ed888b5fccf61252600460ddb0a957d40f8cf8984322
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2af1c350e67f963da31a05dc6edc793160cea95a04ea98f5a78d582b25ac08c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e4a7ce1edd4170f6d4eb155e5e19998fd066ff3bfebd60f589551b3e6deedd6
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99c03513e72c4db6bdeb7d74baec0b63e12465bd1567437e670ad367c25edffc
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7b6f523269f600825123123e93e374bafdb4065da7c3500423ba2da40982a17
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2416af50204c614cf7f740b07f5654dd4e7764bc2fe0987af0691cc96765362c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:36347d57510ac50d1215fd7cfb5a25f5354d812e876333fa5409094c79836493
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13782dda1786550739f5e5b9748c9c3674e47c6e87347dbff2f82a544e235cb5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:30bfb6fa4fd21ac286df0550c82cdbf8a597994647e5b3f5b958394e3a125a12
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7654037504783774,
   "eval_steps": 20,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7619,6 +7619,766 @@
       "eval_samples_per_second": 6.985,
       "eval_steps_per_second": 0.232,
       "step": 1000
     }
   ],
   "logging_steps": 1,
@@ -7638,7 +8398,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.536494547196969e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8419441255262151,
   "eval_steps": 20,
+  "global_step": 1100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.985,
       "eval_steps_per_second": 0.232,
       "step": 1000
+    },
+    {
+      "epoch": 0.7661691542288557,
+      "grad_norm": 5.599081993103027,
+      "learning_rate": 3.1447898585370386e-06,
+      "loss": 0.2121,
+      "step": 1001
+    },
+    {
+      "epoch": 0.7669345579793341,
+      "grad_norm": 4.840198516845703,
+      "learning_rate": 3.125348465684439e-06,
+      "loss": 0.1907,
+      "step": 1002
+    },
+    {
+      "epoch": 0.7676999617298125,
+      "grad_norm": 7.6106858253479,
+      "learning_rate": 3.105956217277738e-06,
+      "loss": 0.3576,
+      "step": 1003
+    },
+    {
+      "epoch": 0.7684653654802909,
+      "grad_norm": 6.351868629455566,
+      "learning_rate": 3.086613251945246e-06,
+      "loss": 0.2508,
+      "step": 1004
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 9.808284759521484,
+      "learning_rate": 3.067319707962957e-06,
+      "loss": 0.4001,
+      "step": 1005
+    },
+    {
+      "epoch": 0.7699961729812476,
+      "grad_norm": 7.302840709686279,
+      "learning_rate": 3.0480757232535773e-06,
+      "loss": 0.3344,
+      "step": 1006
+    },
+    {
+      "epoch": 0.770761576731726,
+      "grad_norm": 7.3297438621521,
+      "learning_rate": 3.02888143538553e-06,
+      "loss": 0.2596,
+      "step": 1007
+    },
+    {
+      "epoch": 0.7715269804822044,
+      "grad_norm": 6.303321838378906,
+      "learning_rate": 3.0097369815719746e-06,
+      "loss": 0.2743,
+      "step": 1008
+    },
+    {
+      "epoch": 0.7722923842326828,
+      "grad_norm": 7.253098011016846,
+      "learning_rate": 2.990642498669816e-06,
+      "loss": 0.3192,
+      "step": 1009
+    },
+    {
+      "epoch": 0.7730577879831612,
+      "grad_norm": 6.633822441101074,
+      "learning_rate": 2.971598123178744e-06,
+      "loss": 0.2047,
+      "step": 1010
+    },
+    {
+      "epoch": 0.7738231917336394,
+      "grad_norm": 6.165762901306152,
+      "learning_rate": 2.9526039912402504e-06,
+      "loss": 0.3222,
+      "step": 1011
+    },
+    {
+      "epoch": 0.7745885954841178,
+      "grad_norm": 4.74859094619751,
+      "learning_rate": 2.9336602386366396e-06,
+      "loss": 0.209,
+      "step": 1012
+    },
+    {
+      "epoch": 0.7753539992345962,
+      "grad_norm": 7.679808616638184,
+      "learning_rate": 2.9147670007900875e-06,
+      "loss": 0.2636,
+      "step": 1013
+    },
+    {
+      "epoch": 0.7761194029850746,
+      "grad_norm": 6.208285331726074,
+      "learning_rate": 2.8959244127616483e-06,
+      "loss": 0.3115,
+      "step": 1014
+    },
+    {
+      "epoch": 0.776884806735553,
+      "grad_norm": 7.4330902099609375,
+      "learning_rate": 2.877132609250303e-06,
+      "loss": 0.2613,
+      "step": 1015
+    },
+    {
+      "epoch": 0.7776502104860313,
+      "grad_norm": 7.014687538146973,
+      "learning_rate": 2.8583917245919944e-06,
+      "loss": 0.2428,
+      "step": 1016
+    },
+    {
+      "epoch": 0.7784156142365097,
+      "grad_norm": 6.197044372558594,
+      "learning_rate": 2.839701892758655e-06,
+      "loss": 0.3242,
+      "step": 1017
+    },
+    {
+      "epoch": 0.7791810179869881,
+      "grad_norm": 5.864729404449463,
+      "learning_rate": 2.8210632473572664e-06,
+      "loss": 0.3934,
+      "step": 1018
+    },
+    {
+      "epoch": 0.7799464217374665,
+      "grad_norm": 9.904959678649902,
+      "learning_rate": 2.8024759216288953e-06,
+      "loss": 0.4493,
+      "step": 1019
+    },
+    {
+      "epoch": 0.7807118254879449,
+      "grad_norm": 7.564253330230713,
+      "learning_rate": 2.783940048447743e-06,
+      "loss": 0.3237,
+      "step": 1020
+    },
+    {
+      "epoch": 0.7807118254879449,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8431876606683805,
+      "eval_loss": 0.3033747375011444,
+      "eval_precision": 0.8723404255319149,
+      "eval_recall": 0.8159203980099502,
+      "eval_runtime": 44.2093,
+      "eval_samples_per_second": 6.809,
+      "eval_steps_per_second": 0.226,
+      "step": 1020
+    },
+    {
+      "epoch": 0.7814772292384232,
+      "grad_norm": 7.01906156539917,
+      "learning_rate": 2.765455760320196e-06,
+      "loss": 0.2956,
+      "step": 1021
+    },
+    {
+      "epoch": 0.7822426329889016,
+      "grad_norm": 5.770253658294678,
+      "learning_rate": 2.7470231893838684e-06,
+      "loss": 0.2521,
+      "step": 1022
+    },
+    {
+      "epoch": 0.78300803673938,
+      "grad_norm": 5.1977410316467285,
+      "learning_rate": 2.728642467406679e-06,
+      "loss": 0.2315,
+      "step": 1023
+    },
+    {
+      "epoch": 0.7837734404898584,
+      "grad_norm": 6.585521697998047,
+      "learning_rate": 2.7103137257858867e-06,
+      "loss": 0.266,
+      "step": 1024
+    },
+    {
+      "epoch": 0.7845388442403368,
+      "grad_norm": 4.882285118103027,
+      "learning_rate": 2.692037095547164e-06,
+      "loss": 0.2697,
+      "step": 1025
+    },
+    {
+      "epoch": 0.7853042479908151,
+      "grad_norm": 5.839199542999268,
+      "learning_rate": 2.6738127073436694e-06,
+      "loss": 0.2287,
+      "step": 1026
+    },
+    {
+      "epoch": 0.7860696517412935,
+      "grad_norm": 6.01020622253418,
+      "learning_rate": 2.6556406914550803e-06,
+      "loss": 0.2481,
+      "step": 1027
+    },
+    {
+      "epoch": 0.7868350554917719,
+      "grad_norm": 6.746147632598877,
+      "learning_rate": 2.6375211777867015e-06,
+      "loss": 0.307,
+      "step": 1028
+    },
+    {
+      "epoch": 0.7876004592422503,
+      "grad_norm": 7.418403148651123,
+      "learning_rate": 2.6194542958685052e-06,
+      "loss": 0.3297,
+      "step": 1029
+    },
+    {
+      "epoch": 0.7883658629927287,
+      "grad_norm": 5.111098766326904,
+      "learning_rate": 2.601440174854225e-06,
+      "loss": 0.25,
+      "step": 1030
+    },
+    {
+      "epoch": 0.789131266743207,
+      "grad_norm": 5.072177410125732,
+      "learning_rate": 2.5834789435204245e-06,
+      "loss": 0.217,
+      "step": 1031
+    },
+    {
+      "epoch": 0.7898966704936854,
+      "grad_norm": 9.598026275634766,
+      "learning_rate": 2.5655707302655766e-06,
+      "loss": 0.2256,
+      "step": 1032
+    },
+    {
+      "epoch": 0.7906620742441638,
+      "grad_norm": 5.46431303024292,
+      "learning_rate": 2.5477156631091503e-06,
+      "loss": 0.2236,
+      "step": 1033
+    },
+    {
+      "epoch": 0.7914274779946422,
+      "grad_norm": 6.440191268920898,
+      "learning_rate": 2.5299138696906833e-06,
+      "loss": 0.2711,
+      "step": 1034
+    },
+    {
+      "epoch": 0.7921928817451206,
+      "grad_norm": 6.173571586608887,
+      "learning_rate": 2.512165477268889e-06,
+      "loss": 0.2715,
+      "step": 1035
+    },
+    {
+      "epoch": 0.7929582854955989,
+      "grad_norm": 9.205805778503418,
+      "learning_rate": 2.4944706127207252e-06,
+      "loss": 0.3408,
+      "step": 1036
+    },
+    {
+      "epoch": 0.7937236892460773,
+      "grad_norm": 6.677053451538086,
+      "learning_rate": 2.476829402540504e-06,
+      "loss": 0.1972,
+      "step": 1037
+    },
+    {
+      "epoch": 0.7944890929965557,
+      "grad_norm": 9.463765144348145,
+      "learning_rate": 2.459241972838988e-06,
+      "loss": 0.2984,
+      "step": 1038
+    },
+    {
+      "epoch": 0.7952544967470341,
+      "grad_norm": 6.406791687011719,
+      "learning_rate": 2.4417084493424693e-06,
+      "loss": 0.2565,
+      "step": 1039
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 8.168065071105957,
+      "learning_rate": 2.4242289573918933e-06,
+      "loss": 0.4034,
+      "step": 1040
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "eval_accuracy": 0.8898916967509025,
+      "eval_f1": 0.8381962864721485,
+      "eval_loss": 0.2988373935222626,
+      "eval_precision": 0.8977272727272727,
+      "eval_recall": 0.7860696517412935,
+      "eval_runtime": 43.2157,
+      "eval_samples_per_second": 6.965,
+      "eval_steps_per_second": 0.231,
+      "step": 1040
+    },
+    {
+      "epoch": 0.7967853042479908,
+      "grad_norm": 5.31250524520874,
+      "learning_rate": 2.4068036219419433e-06,
+      "loss": 0.2661,
+      "step": 1041
+    },
+    {
+      "epoch": 0.7975507079984692,
+      "grad_norm": 15.13749885559082,
+      "learning_rate": 2.3894325675601683e-06,
+      "loss": 0.3992,
+      "step": 1042
+    },
+    {
+      "epoch": 0.7983161117489476,
+      "grad_norm": 7.951029300689697,
+      "learning_rate": 2.3721159184260733e-06,
+      "loss": 0.3912,
+      "step": 1043
+    },
+    {
+      "epoch": 0.799081515499426,
+      "grad_norm": 7.845716953277588,
+      "learning_rate": 2.354853798330242e-06,
+      "loss": 0.2465,
+      "step": 1044
+    },
+    {
+      "epoch": 0.7998469192499044,
+      "grad_norm": 10.499722480773926,
+      "learning_rate": 2.3376463306734543e-06,
+      "loss": 0.4171,
+      "step": 1045
+    },
+    {
+      "epoch": 0.8006123230003827,
+      "grad_norm": 7.074059009552002,
+      "learning_rate": 2.3204936384657873e-06,
+      "loss": 0.333,
+      "step": 1046
+    },
+    {
+      "epoch": 0.801377726750861,
+      "grad_norm": 5.240701198577881,
+      "learning_rate": 2.303395844325761e-06,
+      "loss": 0.2089,
+      "step": 1047
+    },
+    {
+      "epoch": 0.8021431305013395,
+      "grad_norm": 6.376049041748047,
+      "learning_rate": 2.2863530704794334e-06,
+      "loss": 0.2528,
+      "step": 1048
+    },
+    {
+      "epoch": 0.8029085342518179,
+      "grad_norm": 6.376869201660156,
+      "learning_rate": 2.26936543875956e-06,
+      "loss": 0.2357,
+      "step": 1049
+    },
+    {
+      "epoch": 0.8036739380022963,
+      "grad_norm": 7.007830619812012,
+      "learning_rate": 2.252433070604695e-06,
+      "loss": 0.3034,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8044393417527745,
+      "grad_norm": 5.573482990264893,
+      "learning_rate": 2.2355560870583283e-06,
+      "loss": 0.2589,
+      "step": 1051
+    },
+    {
+      "epoch": 0.8052047455032529,
+      "grad_norm": 7.182730674743652,
+      "learning_rate": 2.2187346087680363e-06,
+      "loss": 0.2601,
+      "step": 1052
+    },
+    {
+      "epoch": 0.8059701492537313,
+      "grad_norm": 6.265502452850342,
+      "learning_rate": 2.201968755984596e-06,
+      "loss": 0.2131,
+      "step": 1053
+    },
+    {
+      "epoch": 0.8067355530042097,
+      "grad_norm": 6.296632289886475,
+      "learning_rate": 2.185258648561147e-06,
+      "loss": 0.2377,
+      "step": 1054
+    },
+    {
+      "epoch": 0.8075009567546881,
+      "grad_norm": 6.393189430236816,
+      "learning_rate": 2.1686044059523192e-06,
+      "loss": 0.3424,
+      "step": 1055
+    },
+    {
+      "epoch": 0.8082663605051664,
+      "grad_norm": 5.018173694610596,
+      "learning_rate": 2.1520061472133903e-06,
+      "loss": 0.2154,
+      "step": 1056
+    },
+    {
+      "epoch": 0.8090317642556448,
+      "grad_norm": 6.2258687019348145,
+      "learning_rate": 2.1354639909994258e-06,
+      "loss": 0.2585,
+      "step": 1057
+    },
+    {
+      "epoch": 0.8097971680061232,
+      "grad_norm": 6.394412040710449,
+      "learning_rate": 2.1189780555644302e-06,
+      "loss": 0.3103,
+      "step": 1058
+    },
+    {
+      "epoch": 0.8105625717566016,
+      "grad_norm": 6.619604110717773,
+      "learning_rate": 2.1025484587605115e-06,
+      "loss": 0.4228,
+      "step": 1059
+    },
+    {
+      "epoch": 0.81132797550708,
+      "grad_norm": 6.956901550292969,
+      "learning_rate": 2.0861753180370324e-06,
+      "loss": 0.2682,
+      "step": 1060
+    },
+    {
+      "epoch": 0.81132797550708,
+      "eval_accuracy": 0.8844765342960289,
+      "eval_f1": 0.8350515463917526,
+      "eval_loss": 0.3001127541065216,
+      "eval_precision": 0.8663101604278075,
+      "eval_recall": 0.8059701492537313,
+      "eval_runtime": 43.5926,
+      "eval_samples_per_second": 6.905,
+      "eval_steps_per_second": 0.229,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8120933792575583,
+      "grad_norm": 7.195816993713379,
+      "learning_rate": 2.0698587504397684e-06,
+      "loss": 0.3363,
+      "step": 1061
+    },
+    {
+      "epoch": 0.8128587830080367,
+      "grad_norm": 7.6192498207092285,
+      "learning_rate": 2.0535988726100774e-06,
+      "loss": 0.3632,
+      "step": 1062
+    },
+    {
+      "epoch": 0.8136241867585151,
+      "grad_norm": 8.436617851257324,
+      "learning_rate": 2.0373958007840545e-06,
+      "loss": 0.3416,
+      "step": 1063
+    },
+    {
+      "epoch": 0.8143895905089935,
+      "grad_norm": 8.453132629394531,
+      "learning_rate": 2.0212496507917214e-06,
+      "loss": 0.2447,
+      "step": 1064
+    },
+    {
+      "epoch": 0.8151549942594719,
+      "grad_norm": 11.446274757385254,
+      "learning_rate": 2.0051605380561702e-06,
+      "loss": 0.3519,
+      "step": 1065
+    },
+    {
+      "epoch": 0.8159203980099502,
+      "grad_norm": 5.6378254890441895,
+      "learning_rate": 1.9891285775927684e-06,
+      "loss": 0.2777,
+      "step": 1066
+    },
+    {
+      "epoch": 0.8166858017604286,
+      "grad_norm": 11.645222663879395,
+      "learning_rate": 1.973153884008312e-06,
+      "loss": 0.2887,
+      "step": 1067
+    },
+    {
+      "epoch": 0.817451205510907,
+      "grad_norm": 5.4502434730529785,
+      "learning_rate": 1.957236571500224e-06,
+      "loss": 0.2295,
+      "step": 1068
+    },
+    {
+      "epoch": 0.8182166092613854,
+      "grad_norm": 5.929233074188232,
+      "learning_rate": 1.941376753855728e-06,
+      "loss": 0.2573,
+      "step": 1069
+    },
+    {
+      "epoch": 0.8189820130118638,
+      "grad_norm": 7.02168083190918,
+      "learning_rate": 1.925574544451031e-06,
+      "loss": 0.3507,
+      "step": 1070
+    },
+    {
+      "epoch": 0.8197474167623421,
+      "grad_norm": 6.753659248352051,
+      "learning_rate": 1.9098300562505266e-06,
+      "loss": 0.3882,
+      "step": 1071
+    },
+    {
+      "epoch": 0.8205128205128205,
+      "grad_norm": 7.252670764923096,
+      "learning_rate": 1.8941434018059779e-06,
+      "loss": 0.3117,
+      "step": 1072
+    },
+    {
+      "epoch": 0.8212782242632989,
+      "grad_norm": 4.297603130340576,
+      "learning_rate": 1.878514693255714e-06,
+      "loss": 0.2392,
+      "step": 1073
+    },
+    {
+      "epoch": 0.8220436280137773,
+      "grad_norm": 8.13119125366211,
+      "learning_rate": 1.8629440423238333e-06,
+      "loss": 0.3269,
+      "step": 1074
+    },
+    {
+      "epoch": 0.8228090317642557,
+      "grad_norm": 8.53504753112793,
+      "learning_rate": 1.8474315603193916e-06,
+      "loss": 0.3209,
+      "step": 1075
+    },
+    {
+      "epoch": 0.823574435514734,
+      "grad_norm": 7.265506267547607,
+      "learning_rate": 1.8319773581356248e-06,
+      "loss": 0.3279,
+      "step": 1076
+    },
+    {
+      "epoch": 0.8243398392652124,
+      "grad_norm": 6.86147928237915,
+      "learning_rate": 1.8165815462491466e-06,
+      "loss": 0.2692,
+      "step": 1077
+    },
+    {
+      "epoch": 0.8251052430156908,
+      "grad_norm": 7.1608686447143555,
+      "learning_rate": 1.8012442347191483e-06,
+      "loss": 0.3593,
+      "step": 1078
+    },
+    {
+      "epoch": 0.8258706467661692,
+      "grad_norm": 5.432136535644531,
+      "learning_rate": 1.7859655331866422e-06,
+      "loss": 0.3488,
+      "step": 1079
+    },
+    {
+      "epoch": 0.8266360505166476,
+      "grad_norm": 8.375764846801758,
+      "learning_rate": 1.7707455508736381e-06,
+      "loss": 0.2921,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8266360505166476,
+      "eval_accuracy": 0.8844765342960289,
+      "eval_f1": 0.8324607329842932,
+      "eval_loss": 0.29819196462631226,
+      "eval_precision": 0.8784530386740331,
+      "eval_recall": 0.7910447761194029,
+      "eval_runtime": 43.9709,
+      "eval_samples_per_second": 6.845,
+      "eval_steps_per_second": 0.227,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8274014542671259,
+      "grad_norm": 5.469040870666504,
+      "learning_rate": 1.7555843965823992e-06,
+      "loss": 0.2931,
+      "step": 1081
+    },
+    {
+      "epoch": 0.8281668580176043,
+      "grad_norm": 6.6713409423828125,
+      "learning_rate": 1.7404821786946346e-06,
+      "loss": 0.3362,
+      "step": 1082
+    },
+    {
+      "epoch": 0.8289322617680827,
+      "grad_norm": 7.332741737365723,
+      "learning_rate": 1.725439005170747e-06,
+      "loss": 0.2507,
+      "step": 1083
+    },
+    {
+      "epoch": 0.8296976655185611,
+      "grad_norm": 8.208507537841797,
+      "learning_rate": 1.7104549835490491e-06,
+      "loss": 0.3192,
+      "step": 1084
+    },
+    {
+      "epoch": 0.8304630692690395,
+      "grad_norm": 6.0084967613220215,
+      "learning_rate": 1.6955302209449987e-06,
+      "loss": 0.3366,
+      "step": 1085
+    },
+    {
+      "epoch": 0.8312284730195177,
+      "grad_norm": 6.15051794052124,
+      "learning_rate": 1.680664824050432e-06,
+      "loss": 0.3023,
+      "step": 1086
+    },
+    {
+      "epoch": 0.8319938767699961,
+      "grad_norm": 8.824700355529785,
+      "learning_rate": 1.6658588991327962e-06,
+      "loss": 0.2097,
+      "step": 1087
+    },
+    {
+      "epoch": 0.8327592805204745,
+      "grad_norm": 4.843833923339844,
+      "learning_rate": 1.6511125520344007e-06,
+      "loss": 0.2767,
+      "step": 1088
+    },
+    {
+      "epoch": 0.8335246842709529,
+      "grad_norm": 4.750216007232666,
+      "learning_rate": 1.636425888171652e-06,
+      "loss": 0.2911,
+      "step": 1089
+    },
+    {
+      "epoch": 0.8342900880214313,
+      "grad_norm": 4.159714698791504,
+      "learning_rate": 1.6217990125342964e-06,
+      "loss": 0.2666,
+      "step": 1090
+    },
+    {
+      "epoch": 0.8350554917719096,
+      "grad_norm": 9.31843090057373,
+      "learning_rate": 1.6072320296846898e-06,
+      "loss": 0.2472,
+      "step": 1091
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 11.698112487792969,
+      "learning_rate": 1.5927250437570197e-06,
+      "loss": 0.2629,
+      "step": 1092
+    },
+    {
+      "epoch": 0.8365862992728664,
+      "grad_norm": 6.662525653839111,
+      "learning_rate": 1.5782781584565854e-06,
+      "loss": 0.3005,
+      "step": 1093
+    },
+    {
+      "epoch": 0.8373517030233448,
+      "grad_norm": 6.270053386688232,
+      "learning_rate": 1.5638914770590508e-06,
+      "loss": 0.2998,
+      "step": 1094
+    },
+    {
+      "epoch": 0.8381171067738232,
+      "grad_norm": 8.17238712310791,
+      "learning_rate": 1.5495651024096925e-06,
+      "loss": 0.4168,
+      "step": 1095
+    },
+    {
+      "epoch": 0.8388825105243015,
+      "grad_norm": 7.660524845123291,
+      "learning_rate": 1.5352991369226865e-06,
+      "loss": 0.2949,
+      "step": 1096
+    },
+    {
+      "epoch": 0.8396479142747799,
+      "grad_norm": 6.679647922515869,
+      "learning_rate": 1.5210936825803602e-06,
+      "loss": 0.3089,
+      "step": 1097
+    },
+    {
+      "epoch": 0.8404133180252583,
+      "grad_norm": 6.309601306915283,
+      "learning_rate": 1.5069488409324696e-06,
+      "loss": 0.2447,
+      "step": 1098
+    },
+    {
+      "epoch": 0.8411787217757367,
+      "grad_norm": 6.660057544708252,
+      "learning_rate": 1.4928647130954743e-06,
+      "loss": 0.2332,
+      "step": 1099
+    },
+    {
+      "epoch": 0.8419441255262151,
+      "grad_norm": 7.898063659667969,
+      "learning_rate": 1.4788413997518026e-06,
+      "loss": 0.3732,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8419441255262151,
+      "eval_accuracy": 0.8790613718411552,
+      "eval_f1": 0.8277634961439588,
+      "eval_loss": 0.3002900779247284,
+      "eval_precision": 0.8563829787234043,
+      "eval_recall": 0.8009950248756219,
+      "eval_runtime": 42.9938,
+      "eval_samples_per_second": 7.001,
+      "eval_steps_per_second": 0.233,
+      "step": 1100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.6907983391188582e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null