Training in progress, step 1000, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:751cf08e904d158afe5d5c376833ae0e82507272c605040cee2892e5b08babd7
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cd9f4e1d0bb326b818db1b6faa552753bc4a3328ac93e01b3631a83d08e1c95
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06a90cd633a16bc937002e25bf17189511b59b8e8d6bd000662a0b07bbf80e65
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c1ce66274008394f36d101e20d4378dd480a6f7db7387a58eed60435a8f39a7
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a2a1314f17bbfab7f1e0d63c5f4ad16ed3c81d2546ede535c552f819fd2b3ab
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b3e7a569d804afc7e9af01c045d344bcf8aa04435a748d8f22d80f77f68191f
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61ce145ff3942d4b7afa3864d5060ecb372e5343ad7abd8681f9ef04e3996a27
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:84f72d90d6d6f96ffde5e12766b8aa3f0ebf70484ff977b4cc1380cfd2635d82
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef11d2a12800199b371850d31a6f25caf9ed6263ace1a113ebdb48708b504181
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7ec10706acfd7aebf2e0313a26ad47f112db6494baa4011866a112fa6459782
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:146b0c5dbeeaf44008b0996c6e5385da4bd543d15c17518bdbadad49738050cf
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d45fd8c4f5cac20eb0715bd7c3583b8b9d6d50be52eb3b819ead289c264bf4c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce829e48185824cbdd9332cfc8db3ea7a52a07e0542cfb9ceb1a123cf238c986
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc7bbedf822084a972aaf7dbfdc31778a6b5afdff5f9d51666b28397948c4cf6
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ebc6b5b3bf3ff4db9103e1f6c2a534b04905118e03682dcfd5b2651cf5023a9
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc56dd27c16979078189d0168509b3491fac9a7018e2acd5413b0b5bfb9e62b8
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de551c8b1c7165a88a996c1e2c9ccef2b9c716ed5dd27dbead3aed497f875baf
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbefc2a9b5877ac52b5c278c40b832840a445a83b4f45552eae9c8d8fd7025ab
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d7ac6617d0f4bedb4a49c51f3499536a49a714fbf47c2bf0f3ef31d2fc421c6
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f7ee2bc06c634de7d668e8f27eb2c655185598b0005a48f28db9b8c13871cf8
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52e8353d56a8d408800aeacfb35920a2641f5b231344cfc6e9685c5fff1b02a0
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:e89f6ffe398cd010021cbea856f31e9f12c086dc22192dd94cd4139ed13bc428
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e436a7cd1ba66004593b56f4b7ea09bd56b9555226a359189f1b562635d9c755
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cac7e1aa01f996ea4ccf65c0edbca9c2218b27d0fee393e5dadf9e12f0a4ac0
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7754cc7953f3b6df72a3313e3aea13311d99a52571c658951fa15bc741d1fcff
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca19ec64a3f37f86c1a9f3bd1615be54fe5912d912de79a7d3f808a593a2192d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7627118644067796,
   "eval_steps": 20,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6859,6 +6859,766 @@
       "eval_samples_per_second": 5.876,
       "eval_steps_per_second": 0.201,
       "step": 900
     }
   ],
   "logging_steps": 1,
@@ -6878,7 +7638,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.771703818092544e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.847457627118644,
   "eval_steps": 20,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.876,
       "eval_steps_per_second": 0.201,
       "step": 900
+    },
+    {
+      "epoch": 0.7635593220338983,
+      "grad_norm": 1.5581014156341553,
+      "learning_rate": 3.216881637303839e-06,
+      "loss": 0.0083,
+      "step": 901
+    },
+    {
+      "epoch": 0.764406779661017,
+      "grad_norm": 1.8738924264907837,
+      "learning_rate": 3.1951753680566143e-06,
+      "loss": 0.0215,
+      "step": 902
+    },
+    {
+      "epoch": 0.7652542372881356,
+      "grad_norm": 0.4267842173576355,
+      "learning_rate": 3.1735286468303563e-06,
+      "loss": 0.0016,
+      "step": 903
+    },
+    {
+      "epoch": 0.7661016949152543,
+      "grad_norm": 1.4631012678146362,
+      "learning_rate": 3.151941663052345e-06,
+      "loss": 0.0058,
+      "step": 904
+    },
+    {
+      "epoch": 0.7669491525423728,
+      "grad_norm": 0.23579372465610504,
+      "learning_rate": 3.130414605627102e-06,
+      "loss": 0.0017,
+      "step": 905
+    },
+    {
+      "epoch": 0.7677966101694915,
+      "grad_norm": 1.0443428754806519,
+      "learning_rate": 3.1089476629347494e-06,
+      "loss": 0.0078,
+      "step": 906
+    },
+    {
+      "epoch": 0.7686440677966102,
+      "grad_norm": 0.8802245259284973,
+      "learning_rate": 3.087541022829347e-06,
+      "loss": 0.0052,
+      "step": 907
+    },
+    {
+      "epoch": 0.7694915254237288,
+      "grad_norm": 0.9820923805236816,
+      "learning_rate": 3.066194872637258e-06,
+      "loss": 0.0022,
+      "step": 908
+    },
+    {
+      "epoch": 0.7703389830508475,
+      "grad_norm": 0.40738704800605774,
+      "learning_rate": 3.04490939915551e-06,
+      "loss": 0.001,
+      "step": 909
+    },
+    {
+      "epoch": 0.7711864406779662,
+      "grad_norm": 2.081660032272339,
+      "learning_rate": 3.023684788650154e-06,
+      "loss": 0.0101,
+      "step": 910
+    },
+    {
+      "epoch": 0.7720338983050847,
+      "grad_norm": 1.3725014925003052,
+      "learning_rate": 3.002521226854641e-06,
+      "loss": 0.0069,
+      "step": 911
+    },
+    {
+      "epoch": 0.7728813559322034,
+      "grad_norm": 2.1171929836273193,
+      "learning_rate": 2.981418898968186e-06,
+      "loss": 0.0139,
+      "step": 912
+    },
+    {
+      "epoch": 0.773728813559322,
+      "grad_norm": 1.6483219861984253,
+      "learning_rate": 2.9603779896541705e-06,
+      "loss": 0.0092,
+      "step": 913
+    },
+    {
+      "epoch": 0.7745762711864407,
+      "grad_norm": 0.36683687567710876,
+      "learning_rate": 2.939398683038497e-06,
+      "loss": 0.0012,
+      "step": 914
+    },
+    {
+      "epoch": 0.7754237288135594,
+      "grad_norm": 1.9361350536346436,
+      "learning_rate": 2.918481162707999e-06,
+      "loss": 0.0093,
+      "step": 915
+    },
+    {
+      "epoch": 0.7762711864406779,
+      "grad_norm": 0.6846543550491333,
+      "learning_rate": 2.89762561170882e-06,
+      "loss": 0.0035,
+      "step": 916
+    },
+    {
+      "epoch": 0.7771186440677966,
+      "grad_norm": 1.052035927772522,
+      "learning_rate": 2.8768322125448265e-06,
+      "loss": 0.0123,
+      "step": 917
+    },
+    {
+      "epoch": 0.7779661016949152,
+      "grad_norm": 0.6025975942611694,
+      "learning_rate": 2.856101147175998e-06,
+      "loss": 0.0035,
+      "step": 918
+    },
+    {
+      "epoch": 0.7788135593220339,
+      "grad_norm": 1.8254081010818481,
+      "learning_rate": 2.8354325970168483e-06,
+      "loss": 0.0175,
+      "step": 919
+    },
+    {
+      "epoch": 0.7796610169491526,
+      "grad_norm": 0.6324992179870605,
+      "learning_rate": 2.814826742934823e-06,
+      "loss": 0.0027,
+      "step": 920
+    },
+    {
+      "epoch": 0.7796610169491526,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 7.932856533443555e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.5195,
+      "eval_samples_per_second": 5.78,
+      "eval_steps_per_second": 0.198,
+      "step": 920
+    },
+    {
+      "epoch": 0.7805084745762711,
+      "grad_norm": 4.134251117706299,
+      "learning_rate": 2.794283765248722e-06,
+      "loss": 0.0218,
+      "step": 921
+    },
+    {
+      "epoch": 0.7813559322033898,
+      "grad_norm": 1.057350754737854,
+      "learning_rate": 2.7738038437271288e-06,
+      "loss": 0.0032,
+      "step": 922
+    },
+    {
+      "epoch": 0.7822033898305085,
+      "grad_norm": 0.7094781994819641,
+      "learning_rate": 2.7533871575868275e-06,
+      "loss": 0.0028,
+      "step": 923
+    },
+    {
+      "epoch": 0.7830508474576271,
+      "grad_norm": 2.3617732524871826,
+      "learning_rate": 2.733033885491241e-06,
+      "loss": 0.0126,
+      "step": 924
+    },
+    {
+      "epoch": 0.7838983050847458,
+      "grad_norm": 0.1944715678691864,
+      "learning_rate": 2.7127442055488617e-06,
+      "loss": 0.0007,
+      "step": 925
+    },
+    {
+      "epoch": 0.7847457627118644,
+      "grad_norm": 0.6528817415237427,
+      "learning_rate": 2.6925182953117022e-06,
+      "loss": 0.0046,
+      "step": 926
+    },
+    {
+      "epoch": 0.785593220338983,
+      "grad_norm": 0.31304916739463806,
+      "learning_rate": 2.67235633177373e-06,
+      "loss": 0.0016,
+      "step": 927
+    },
+    {
+      "epoch": 0.7864406779661017,
+      "grad_norm": 0.75702303647995,
+      "learning_rate": 2.6522584913693295e-06,
+      "loss": 0.0047,
+      "step": 928
+    },
+    {
+      "epoch": 0.7872881355932203,
+      "grad_norm": 1.600816011428833,
+      "learning_rate": 2.6322249499717477e-06,
+      "loss": 0.0062,
+      "step": 929
+    },
+    {
+      "epoch": 0.788135593220339,
+      "grad_norm": 1.592640995979309,
+      "learning_rate": 2.6122558828915647e-06,
+      "loss": 0.0064,
+      "step": 930
+    },
+    {
+      "epoch": 0.7889830508474577,
+      "grad_norm": 2.1126153469085693,
+      "learning_rate": 2.5923514648751537e-06,
+      "loss": 0.0265,
+      "step": 931
+    },
+    {
+      "epoch": 0.7898305084745763,
+      "grad_norm": 1.4339178800582886,
+      "learning_rate": 2.572511870103149e-06,
+      "loss": 0.0054,
+      "step": 932
+    },
+    {
+      "epoch": 0.7906779661016949,
+      "grad_norm": 2.253162145614624,
+      "learning_rate": 2.55273727218894e-06,
+      "loss": 0.0321,
+      "step": 933
+    },
+    {
+      "epoch": 0.7915254237288135,
+      "grad_norm": 1.1612133979797363,
+      "learning_rate": 2.533027844177123e-06,
+      "loss": 0.0062,
+      "step": 934
+    },
+    {
+      "epoch": 0.7923728813559322,
+      "grad_norm": 1.0363982915878296,
+      "learning_rate": 2.5133837585420084e-06,
+      "loss": 0.0053,
+      "step": 935
+    },
+    {
+      "epoch": 0.7932203389830509,
+      "grad_norm": 1.3332302570343018,
+      "learning_rate": 2.4938051871861046e-06,
+      "loss": 0.0072,
+      "step": 936
+    },
+    {
+      "epoch": 0.7940677966101695,
+      "grad_norm": 0.3061300218105316,
+      "learning_rate": 2.4742923014386154e-06,
+      "loss": 0.0015,
+      "step": 937
+    },
+    {
+      "epoch": 0.7949152542372881,
+      "grad_norm": 2.649893045425415,
+      "learning_rate": 2.4548452720539375e-06,
+      "loss": 0.0238,
+      "step": 938
+    },
+    {
+      "epoch": 0.7957627118644067,
+      "grad_norm": 0.9358623623847961,
+      "learning_rate": 2.435464269210167e-06,
+      "loss": 0.0036,
+      "step": 939
+    },
+    {
+      "epoch": 0.7966101694915254,
+      "grad_norm": 1.4924583435058594,
+      "learning_rate": 2.4161494625076164e-06,
+      "loss": 0.0105,
+      "step": 940
+    },
+    {
+      "epoch": 0.7966101694915254,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00010792797547765076,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.837,
+      "eval_samples_per_second": 5.859,
+      "eval_steps_per_second": 0.201,
+      "step": 940
+    },
+    {
+      "epoch": 0.7974576271186441,
+      "grad_norm": 0.9415515661239624,
+      "learning_rate": 2.3969010209673215e-06,
+      "loss": 0.0031,
+      "step": 941
+    },
+    {
+      "epoch": 0.7983050847457627,
+      "grad_norm": 1.4553923606872559,
+      "learning_rate": 2.3777191130295673e-06,
+      "loss": 0.008,
+      "step": 942
+    },
+    {
+      "epoch": 0.7991525423728814,
+      "grad_norm": 0.9974135160446167,
+      "learning_rate": 2.3586039065524113e-06,
+      "loss": 0.0037,
+      "step": 943
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.052581548690796,
+      "learning_rate": 2.339555568810221e-06,
+      "loss": 0.0057,
+      "step": 944
+    },
+    {
+      "epoch": 0.8008474576271186,
+      "grad_norm": 0.27318713068962097,
+      "learning_rate": 2.3205742664922006e-06,
+      "loss": 0.0011,
+      "step": 945
+    },
+    {
+      "epoch": 0.8016949152542373,
+      "grad_norm": 2.6839377880096436,
+      "learning_rate": 2.3016601657009364e-06,
+      "loss": 0.0192,
+      "step": 946
+    },
+    {
+      "epoch": 0.8025423728813559,
+      "grad_norm": 0.8619096279144287,
+      "learning_rate": 2.282813431950952e-06,
+      "loss": 0.0026,
+      "step": 947
+    },
+    {
+      "epoch": 0.8033898305084746,
+      "grad_norm": 2.3613054752349854,
+      "learning_rate": 2.264034230167246e-06,
+      "loss": 0.0161,
+      "step": 948
+    },
+    {
+      "epoch": 0.8042372881355933,
+      "grad_norm": 1.840660572052002,
+      "learning_rate": 2.245322724683854e-06,
+      "loss": 0.0191,
+      "step": 949
+    },
+    {
+      "epoch": 0.8050847457627118,
+      "grad_norm": 1.5182996988296509,
+      "learning_rate": 2.2266790792424096e-06,
+      "loss": 0.0083,
+      "step": 950
+    },
+    {
+      "epoch": 0.8059322033898305,
+      "grad_norm": 1.8400460481643677,
+      "learning_rate": 2.208103456990719e-06,
+      "loss": 0.0136,
+      "step": 951
+    },
+    {
+      "epoch": 0.8067796610169492,
+      "grad_norm": 1.5054808855056763,
+      "learning_rate": 2.1895960204813194e-06,
+      "loss": 0.0101,
+      "step": 952
+    },
+    {
+      "epoch": 0.8076271186440678,
+      "grad_norm": 1.5928698778152466,
+      "learning_rate": 2.1711569316700774e-06,
+      "loss": 0.0118,
+      "step": 953
+    },
+    {
+      "epoch": 0.8084745762711865,
+      "grad_norm": 1.162479281425476,
+      "learning_rate": 2.1527863519147474e-06,
+      "loss": 0.0068,
+      "step": 954
+    },
+    {
+      "epoch": 0.809322033898305,
+      "grad_norm": 1.07491135597229,
+      "learning_rate": 2.1344844419735757e-06,
+      "loss": 0.0025,
+      "step": 955
+    },
+    {
+      "epoch": 0.8101694915254237,
+      "grad_norm": 0.22395382821559906,
+      "learning_rate": 2.116251362003887e-06,
+      "loss": 0.0007,
+      "step": 956
+    },
+    {
+      "epoch": 0.8110169491525424,
+      "grad_norm": 0.4018426239490509,
+      "learning_rate": 2.098087271560687e-06,
+      "loss": 0.0026,
+      "step": 957
+    },
+    {
+      "epoch": 0.811864406779661,
+      "grad_norm": 1.074708104133606,
+      "learning_rate": 2.079992329595263e-06,
+      "loss": 0.0035,
+      "step": 958
+    },
+    {
+      "epoch": 0.8127118644067797,
+      "grad_norm": 1.0309704542160034,
+      "learning_rate": 2.0619666944537954e-06,
+      "loss": 0.0041,
+      "step": 959
+    },
+    {
+      "epoch": 0.8135593220338984,
+      "grad_norm": 2.1775588989257812,
+      "learning_rate": 2.044010523875969e-06,
+      "loss": 0.0157,
+      "step": 960
+    },
+    {
+      "epoch": 0.8135593220338984,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 9.212108125211671e-05,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.5926,
+      "eval_samples_per_second": 5.888,
+      "eval_steps_per_second": 0.202,
+      "step": 960
+    },
+    {
+      "epoch": 0.8144067796610169,
+      "grad_norm": 0.222603902220726,
+      "learning_rate": 2.0261239749935966e-06,
+      "loss": 0.0009,
+      "step": 961
+    },
+    {
+      "epoch": 0.8152542372881356,
+      "grad_norm": 0.21753355860710144,
+      "learning_rate": 2.0083072043292406e-06,
+      "loss": 0.0007,
+      "step": 962
+    },
+    {
+      "epoch": 0.8161016949152542,
+      "grad_norm": 1.3669072389602661,
+      "learning_rate": 1.9905603677948425e-06,
+      "loss": 0.0065,
+      "step": 963
+    },
+    {
+      "epoch": 0.8169491525423729,
+      "grad_norm": 2.4227099418640137,
+      "learning_rate": 1.972883620690366e-06,
+      "loss": 0.0253,
+      "step": 964
+    },
+    {
+      "epoch": 0.8177966101694916,
+      "grad_norm": 0.42630961537361145,
+      "learning_rate": 1.955277117702424e-06,
+      "loss": 0.0013,
+      "step": 965
+    },
+    {
+      "epoch": 0.8186440677966101,
+      "grad_norm": 1.9701416492462158,
+      "learning_rate": 1.9377410129029407e-06,
+      "loss": 0.011,
+      "step": 966
+    },
+    {
+      "epoch": 0.8194915254237288,
+      "grad_norm": 2.1445109844207764,
+      "learning_rate": 1.920275459747796e-06,
+      "loss": 0.0132,
+      "step": 967
+    },
+    {
+      "epoch": 0.8203389830508474,
+      "grad_norm": 1.7752200365066528,
+      "learning_rate": 1.902880611075477e-06,
+      "loss": 0.0069,
+      "step": 968
+    },
+    {
+      "epoch": 0.8211864406779661,
+      "grad_norm": 0.9991908669471741,
+      "learning_rate": 1.8855566191057538e-06,
+      "loss": 0.0043,
+      "step": 969
+    },
+    {
+      "epoch": 0.8220338983050848,
+      "grad_norm": 1.4875959157943726,
+      "learning_rate": 1.868303635438332e-06,
+      "loss": 0.0118,
+      "step": 970
+    },
+    {
+      "epoch": 0.8228813559322034,
+      "grad_norm": 0.8871830701828003,
+      "learning_rate": 1.8511218110515428e-06,
+      "loss": 0.0042,
+      "step": 971
+    },
+    {
+      "epoch": 0.823728813559322,
+      "grad_norm": 1.4304015636444092,
+      "learning_rate": 1.8340112963009993e-06,
+      "loss": 0.0085,
+      "step": 972
+    },
+    {
+      "epoch": 0.8245762711864407,
+      "grad_norm": 1.7509040832519531,
+      "learning_rate": 1.81697224091831e-06,
+      "loss": 0.0181,
+      "step": 973
+    },
+    {
+      "epoch": 0.8254237288135593,
+      "grad_norm": 0.6783941388130188,
+      "learning_rate": 1.8000047940097453e-06,
+      "loss": 0.0039,
+      "step": 974
+    },
+    {
+      "epoch": 0.826271186440678,
+      "grad_norm": 0.9287757873535156,
+      "learning_rate": 1.7831091040549397e-06,
+      "loss": 0.0097,
+      "step": 975
+    },
+    {
+      "epoch": 0.8271186440677966,
+      "grad_norm": 1.7914001941680908,
+      "learning_rate": 1.7662853189055951e-06,
+      "loss": 0.0152,
+      "step": 976
+    },
+    {
+      "epoch": 0.8279661016949152,
+      "grad_norm": 0.4140421450138092,
+      "learning_rate": 1.7495335857841855e-06,
+      "loss": 0.0023,
+      "step": 977
+    },
+    {
+      "epoch": 0.8288135593220339,
+      "grad_norm": 0.8546230792999268,
+      "learning_rate": 1.7328540512826664e-06,
+      "loss": 0.0077,
+      "step": 978
+    },
+    {
+      "epoch": 0.8296610169491525,
+      "grad_norm": 1.1925534009933472,
+      "learning_rate": 1.7162468613611937e-06,
+      "loss": 0.0077,
+      "step": 979
+    },
+    {
+      "epoch": 0.8305084745762712,
+      "grad_norm": 1.0941600799560547,
+      "learning_rate": 1.699712161346846e-06,
+      "loss": 0.0082,
+      "step": 980
+    },
+    {
+      "epoch": 0.8305084745762712,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00011068069579778239,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.9161,
+      "eval_samples_per_second": 5.85,
+      "eval_steps_per_second": 0.2,
+      "step": 980
+    },
+    {
+      "epoch": 0.8313559322033899,
+      "grad_norm": 3.0363481044769287,
+      "learning_rate": 1.6832500959323605e-06,
+      "loss": 0.0313,
+      "step": 981
+    },
+    {
+      "epoch": 0.8322033898305085,
+      "grad_norm": 1.8849022388458252,
+      "learning_rate": 1.6668608091748495e-06,
+      "loss": 0.007,
+      "step": 982
+    },
+    {
+      "epoch": 0.8330508474576271,
+      "grad_norm": 0.2518068253993988,
+      "learning_rate": 1.6505444444945584e-06,
+      "loss": 0.0009,
+      "step": 983
+    },
+    {
+      "epoch": 0.8338983050847457,
+      "grad_norm": 0.548155665397644,
+      "learning_rate": 1.6343011446735925e-06,
+      "loss": 0.0024,
+      "step": 984
+    },
+    {
+      "epoch": 0.8347457627118644,
+      "grad_norm": 1.4121159315109253,
+      "learning_rate": 1.6181310518546856e-06,
+      "loss": 0.0082,
+      "step": 985
+    },
+    {
+      "epoch": 0.8355932203389831,
+      "grad_norm": 3.7406160831451416,
+      "learning_rate": 1.6020343075399425e-06,
+      "loss": 0.0086,
+      "step": 986
+    },
+    {
+      "epoch": 0.8364406779661017,
+      "grad_norm": 0.4382129907608032,
+      "learning_rate": 1.5860110525896143e-06,
+      "loss": 0.0032,
+      "step": 987
+    },
+    {
+      "epoch": 0.8372881355932204,
+      "grad_norm": 1.0554977655410767,
+      "learning_rate": 1.5700614272208492e-06,
+      "loss": 0.0042,
+      "step": 988
+    },
+    {
+      "epoch": 0.838135593220339,
+      "grad_norm": 0.5351442694664001,
+      "learning_rate": 1.5541855710064757e-06,
+      "loss": 0.0021,
+      "step": 989
+    },
+    {
+      "epoch": 0.8389830508474576,
+      "grad_norm": 1.2155871391296387,
+      "learning_rate": 1.5383836228737815e-06,
+      "loss": 0.0059,
+      "step": 990
+    },
+    {
+      "epoch": 0.8398305084745763,
+      "grad_norm": 1.8322945833206177,
+      "learning_rate": 1.522655721103291e-06,
+      "loss": 0.0069,
+      "step": 991
+    },
+    {
+      "epoch": 0.8406779661016949,
+      "grad_norm": 1.3039281368255615,
+      "learning_rate": 1.5070020033275655e-06,
+      "loss": 0.0102,
+      "step": 992
+    },
+    {
+      "epoch": 0.8415254237288136,
+      "grad_norm": 1.6748837232589722,
+      "learning_rate": 1.4914226065299886e-06,
+      "loss": 0.0059,
+      "step": 993
+    },
+    {
+      "epoch": 0.8423728813559322,
+      "grad_norm": 0.4845666289329529,
+      "learning_rate": 1.475917667043575e-06,
+      "loss": 0.0019,
+      "step": 994
+    },
+    {
+      "epoch": 0.8432203389830508,
+      "grad_norm": 0.8964245915412903,
+      "learning_rate": 1.4604873205497727e-06,
+      "loss": 0.002,
+      "step": 995
+    },
+    {
+      "epoch": 0.8440677966101695,
+      "grad_norm": 1.370054841041565,
+      "learning_rate": 1.445131702077277e-06,
+      "loss": 0.0086,
+      "step": 996
+    },
+    {
+      "epoch": 0.8449152542372881,
+      "grad_norm": 2.0046818256378174,
+      "learning_rate": 1.4298509460008491e-06,
+      "loss": 0.0311,
+      "step": 997
+    },
+    {
+      "epoch": 0.8457627118644068,
+      "grad_norm": 1.3406736850738525,
+      "learning_rate": 1.4146451860401445e-06,
+      "loss": 0.0075,
+      "step": 998
+    },
+    {
+      "epoch": 0.8466101694915255,
+      "grad_norm": 0.8433687090873718,
+      "learning_rate": 1.3995145552585321e-06,
+      "loss": 0.0047,
+      "step": 999
+    },
+    {
+      "epoch": 0.847457627118644,
+      "grad_norm": 2.1373324394226074,
+      "learning_rate": 1.3844591860619382e-06,
+      "loss": 0.0084,
+      "step": 1000
+    },
+    {
+      "epoch": 0.847457627118644,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0001222841819981113,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.0901,
+      "eval_samples_per_second": 5.83,
+      "eval_steps_per_second": 0.2,
+      "step": 1000
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.076975196163277e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null