mtzig commited on Nov 24, 2024

Commit

dd1a6d5

verified ·

1 Parent(s): e371b28

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84cc6088d1a36caf682b4ba964cd893752db7233c9ac2731e0bdecbcdf7b5227
+size 13934748

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:032757e766de4d9f4bbb31e72c0fc2f5016ed662bacbf4cdcb7e3308b6a0cac9
+size 13999412

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70dfcfbc62023412081edce90fbfc6bb052f6d340a3c3b07f004f301584ee0c7
+size 13990904

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d14f395311907bcfada3de9ddd795697a83c436721b6e3a2577a7a74cef92c4
+size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2500194f21bc76538b2c1b940c338d34558bbab87fb9822b585aa3e1dd3bf6d3
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d67ce69eb50c202ffe38a37d23ce8fbaad42cc3bb0f50546f25c3f334b359f2
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f618b60099ee98077cb33d7ef25639a63a2d4d3d44e14c170bbcf863d1d7915
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01392e604b9718dfb75b6aca4d767028a8d9e9db814f90dfae1a541d68f3bd92
+size 6966784

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e3af1412bccc3eadfac8740ec9f3a4420a7c5f09e3fe3834916f8d1d62e32cc
+size 14960

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:507c5ba79941654ef19efd04ea7687a98a5da5e324999e5c56ab7ef5a7874501
+size 14960

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbcca81eaf3e1fcd1ffc0e0811d0c9e7d0347da9661b13e7fa139d8134abcfcb
+size 14960

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91b21db9b4b2ed193b6628ce22e61310c77f199ef08663c67ba353159845902c
+size 14960

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cef0f333423fa3aff21a166b2bb6d2a55f2f3a173fc6ee99710701765969b439
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.04740459824602986,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.9098228663446055,
+      "eval_f1": 0.3,
+      "eval_loss": 0.39109358191490173,
+      "eval_precision": 0.2222222222222222,
+      "eval_recall": 0.46153846153846156,
+      "eval_runtime": 50.0411,
+      "eval_samples_per_second": 5.416,
+      "eval_steps_per_second": 0.18,
+      "step": 0
+    },
+    {
+      "epoch": 0.00047404598246029864,
+      "grad_norm": 2.736264228820801,
+      "learning_rate": 9.478672985781992e-08,
+      "loss": 0.6485,
+      "step": 1
+    },
+    {
+      "epoch": 0.0009480919649205973,
+      "grad_norm": 2.5090606212615967,
+      "learning_rate": 1.8957345971563984e-07,
+      "loss": 0.6663,
+      "step": 2
+    },
+    {
+      "epoch": 0.001422137947380896,
+      "grad_norm": 2.8418514728546143,
+      "learning_rate": 2.843601895734597e-07,
+      "loss": 0.6669,
+      "step": 3
+    },
+    {
+      "epoch": 0.0018961839298411946,
+      "grad_norm": 3.081920862197876,
+      "learning_rate": 3.791469194312797e-07,
+      "loss": 0.7195,
+      "step": 4
+    },
+    {
+      "epoch": 0.002370229912301493,
+      "grad_norm": 2.9263253211975098,
+      "learning_rate": 4.7393364928909956e-07,
+      "loss": 0.699,
+      "step": 5
+    },
+    {
+      "epoch": 0.002844275894761792,
+      "grad_norm": 2.3481531143188477,
+      "learning_rate": 5.687203791469194e-07,
+      "loss": 0.6352,
+      "step": 6
+    },
+    {
+      "epoch": 0.0033183218772220905,
+      "grad_norm": 2.840491533279419,
+      "learning_rate": 6.635071090047394e-07,
+      "loss": 0.6859,
+      "step": 7
+    },
+    {
+      "epoch": 0.003792367859682389,
+      "grad_norm": 2.8396637439727783,
+      "learning_rate": 7.582938388625594e-07,
+      "loss": 0.6912,
+      "step": 8
+    },
+    {
+      "epoch": 0.004266413842142688,
+      "grad_norm": 3.1124157905578613,
+      "learning_rate": 8.530805687203792e-07,
+      "loss": 0.6481,
+      "step": 9
+    },
+    {
+      "epoch": 0.004740459824602986,
+      "grad_norm": 2.768177032470703,
+      "learning_rate": 9.478672985781991e-07,
+      "loss": 0.6911,
+      "step": 10
+    },
+    {
+      "epoch": 0.0052145058070632855,
+      "grad_norm": 2.4753313064575195,
+      "learning_rate": 1.042654028436019e-06,
+      "loss": 0.5654,
+      "step": 11
+    },
+    {
+      "epoch": 0.005688551789523584,
+      "grad_norm": 3.73299241065979,
+      "learning_rate": 1.1374407582938388e-06,
+      "loss": 0.7249,
+      "step": 12
+    },
+    {
+      "epoch": 0.006162597771983883,
+      "grad_norm": 2.8647408485412598,
+      "learning_rate": 1.2322274881516587e-06,
+      "loss": 0.571,
+      "step": 13
+    },
+    {
+      "epoch": 0.006636643754444181,
+      "grad_norm": 1.9949300289154053,
+      "learning_rate": 1.3270142180094788e-06,
+      "loss": 0.5458,
+      "step": 14
+    },
+    {
+      "epoch": 0.00711068973690448,
+      "grad_norm": 2.8095905780792236,
+      "learning_rate": 1.4218009478672987e-06,
+      "loss": 0.6974,
+      "step": 15
+    },
+    {
+      "epoch": 0.007584735719364778,
+      "grad_norm": 2.3465747833251953,
+      "learning_rate": 1.5165876777251187e-06,
+      "loss": 0.5798,
+      "step": 16
+    },
+    {
+      "epoch": 0.008058781701825076,
+      "grad_norm": 2.2376415729522705,
+      "learning_rate": 1.6113744075829384e-06,
+      "loss": 0.6219,
+      "step": 17
+    },
+    {
+      "epoch": 0.008532827684285376,
+      "grad_norm": 2.2321646213531494,
+      "learning_rate": 1.7061611374407585e-06,
+      "loss": 0.6327,
+      "step": 18
+    },
+    {
+      "epoch": 0.009006873666745675,
+      "grad_norm": 2.9532177448272705,
+      "learning_rate": 1.8009478672985784e-06,
+      "loss": 0.7287,
+      "step": 19
+    },
+    {
+      "epoch": 0.009480919649205973,
+      "grad_norm": 2.7521305084228516,
+      "learning_rate": 1.8957345971563982e-06,
+      "loss": 0.7904,
+      "step": 20
+    },
+    {
+      "epoch": 0.009480919649205973,
+      "eval_accuracy": 0.9162640901771336,
+      "eval_f1": 0.3157894736842105,
+      "eval_loss": 0.3854508101940155,
+      "eval_precision": 0.24,
+      "eval_recall": 0.46153846153846156,
+      "eval_runtime": 50.1605,
+      "eval_samples_per_second": 5.403,
+      "eval_steps_per_second": 0.179,
+      "step": 20
+    },
+    {
+      "epoch": 0.009954965631666271,
+      "grad_norm": 2.5812387466430664,
+      "learning_rate": 1.990521327014218e-06,
+      "loss": 0.6582,
+      "step": 21
+    },
+    {
+      "epoch": 0.010429011614126571,
+      "grad_norm": 2.5878043174743652,
+      "learning_rate": 2.085308056872038e-06,
+      "loss": 0.5975,
+      "step": 22
+    },
+    {
+      "epoch": 0.01090305759658687,
+      "grad_norm": 2.4602837562561035,
+      "learning_rate": 2.180094786729858e-06,
+      "loss": 0.6356,
+      "step": 23
+    },
+    {
+      "epoch": 0.011377103579047167,
+      "grad_norm": 2.857377290725708,
+      "learning_rate": 2.2748815165876777e-06,
+      "loss": 0.6933,
+      "step": 24
+    },
+    {
+      "epoch": 0.011851149561507466,
+      "grad_norm": 2.478761911392212,
+      "learning_rate": 2.369668246445498e-06,
+      "loss": 0.6806,
+      "step": 25
+    },
+    {
+      "epoch": 0.012325195543967766,
+      "grad_norm": 2.6150331497192383,
+      "learning_rate": 2.4644549763033174e-06,
+      "loss": 0.6727,
+      "step": 26
+    },
+    {
+      "epoch": 0.012799241526428064,
+      "grad_norm": 2.4646215438842773,
+      "learning_rate": 2.5592417061611373e-06,
+      "loss": 0.7231,
+      "step": 27
+    },
+    {
+      "epoch": 0.013273287508888362,
+      "grad_norm": 2.3204421997070312,
+      "learning_rate": 2.6540284360189576e-06,
+      "loss": 0.715,
+      "step": 28
+    },
+    {
+      "epoch": 0.01374733349134866,
+      "grad_norm": 2.1901276111602783,
+      "learning_rate": 2.7488151658767775e-06,
+      "loss": 0.6207,
+      "step": 29
+    },
+    {
+      "epoch": 0.01422137947380896,
+      "grad_norm": 2.659156322479248,
+      "learning_rate": 2.8436018957345973e-06,
+      "loss": 0.6465,
+      "step": 30
+    },
+    {
+      "epoch": 0.014695425456269258,
+      "grad_norm": 3.0104305744171143,
+      "learning_rate": 2.938388625592417e-06,
+      "loss": 0.6848,
+      "step": 31
+    },
+    {
+      "epoch": 0.015169471438729557,
+      "grad_norm": 3.2612526416778564,
+      "learning_rate": 3.0331753554502375e-06,
+      "loss": 0.6094,
+      "step": 32
+    },
+    {
+      "epoch": 0.015643517421189856,
+      "grad_norm": 2.8630073070526123,
+      "learning_rate": 3.1279620853080574e-06,
+      "loss": 0.6679,
+      "step": 33
+    },
+    {
+      "epoch": 0.016117563403650153,
+      "grad_norm": 3.1366546154022217,
+      "learning_rate": 3.222748815165877e-06,
+      "loss": 0.6961,
+      "step": 34
+    },
+    {
+      "epoch": 0.016591609386110453,
+      "grad_norm": 2.5289793014526367,
+      "learning_rate": 3.3175355450236967e-06,
+      "loss": 0.6363,
+      "step": 35
+    },
+    {
+      "epoch": 0.017065655368570753,
+      "grad_norm": 1.996009111404419,
+      "learning_rate": 3.412322274881517e-06,
+      "loss": 0.6137,
+      "step": 36
+    },
+    {
+      "epoch": 0.01753970135103105,
+      "grad_norm": 2.309265613555908,
+      "learning_rate": 3.507109004739337e-06,
+      "loss": 0.5873,
+      "step": 37
+    },
+    {
+      "epoch": 0.01801374733349135,
+      "grad_norm": 2.2232859134674072,
+      "learning_rate": 3.6018957345971567e-06,
+      "loss": 0.6081,
+      "step": 38
+    },
+    {
+      "epoch": 0.018487793315951646,
+      "grad_norm": 2.608635902404785,
+      "learning_rate": 3.6966824644549766e-06,
+      "loss": 0.5946,
+      "step": 39
+    },
+    {
+      "epoch": 0.018961839298411946,
+      "grad_norm": 2.9958667755126953,
+      "learning_rate": 3.7914691943127964e-06,
+      "loss": 0.6496,
+      "step": 40
+    },
+    {
+      "epoch": 0.018961839298411946,
+      "eval_accuracy": 0.9299516908212561,
+      "eval_f1": 0.304,
+      "eval_loss": 0.357759952545166,
+      "eval_precision": 0.2602739726027397,
+      "eval_recall": 0.36538461538461536,
+      "eval_runtime": 50.7819,
+      "eval_samples_per_second": 5.337,
+      "eval_steps_per_second": 0.177,
+      "step": 40
+    },
+    {
+      "epoch": 0.019435885280872246,
+      "grad_norm": 2.9960222244262695,
+      "learning_rate": 3.886255924170616e-06,
+      "loss": 0.7012,
+      "step": 41
+    },
+    {
+      "epoch": 0.019909931263332542,
+      "grad_norm": 2.469219923019409,
+      "learning_rate": 3.981042654028436e-06,
+      "loss": 0.5172,
+      "step": 42
+    },
+    {
+      "epoch": 0.020383977245792842,
+      "grad_norm": 2.2367403507232666,
+      "learning_rate": 4.075829383886256e-06,
+      "loss": 0.6086,
+      "step": 43
+    },
+    {
+      "epoch": 0.020858023228253142,
+      "grad_norm": 2.455852746963501,
+      "learning_rate": 4.170616113744076e-06,
+      "loss": 0.6616,
+      "step": 44
+    },
+    {
+      "epoch": 0.02133206921071344,
+      "grad_norm": 2.6048426628112793,
+      "learning_rate": 4.265402843601897e-06,
+      "loss": 0.6319,
+      "step": 45
+    },
+    {
+      "epoch": 0.02180611519317374,
+      "grad_norm": 2.633476495742798,
+      "learning_rate": 4.360189573459716e-06,
+      "loss": 0.5807,
+      "step": 46
+    },
+    {
+      "epoch": 0.022280161175634035,
+      "grad_norm": 2.525595188140869,
+      "learning_rate": 4.4549763033175355e-06,
+      "loss": 0.566,
+      "step": 47
+    },
+    {
+      "epoch": 0.022754207158094335,
+      "grad_norm": 2.116396427154541,
+      "learning_rate": 4.549763033175355e-06,
+      "loss": 0.5222,
+      "step": 48
+    },
+    {
+      "epoch": 0.023228253140554635,
+      "grad_norm": 2.2869620323181152,
+      "learning_rate": 4.644549763033176e-06,
+      "loss": 0.6677,
+      "step": 49
+    },
+    {
+      "epoch": 0.02370229912301493,
+      "grad_norm": 3.656646966934204,
+      "learning_rate": 4.739336492890996e-06,
+      "loss": 0.6329,
+      "step": 50
+    },
+    {
+      "epoch": 0.02417634510547523,
+      "grad_norm": 2.4779574871063232,
+      "learning_rate": 4.834123222748816e-06,
+      "loss": 0.6179,
+      "step": 51
+    },
+    {
+      "epoch": 0.02465039108793553,
+      "grad_norm": 2.9239354133605957,
+      "learning_rate": 4.928909952606635e-06,
+      "loss": 0.5679,
+      "step": 52
+    },
+    {
+      "epoch": 0.025124437070395828,
+      "grad_norm": 2.596090793609619,
+      "learning_rate": 5.023696682464455e-06,
+      "loss": 0.5907,
+      "step": 53
+    },
+    {
+      "epoch": 0.025598483052856127,
+      "grad_norm": 2.4275245666503906,
+      "learning_rate": 5.118483412322275e-06,
+      "loss": 0.5432,
+      "step": 54
+    },
+    {
+      "epoch": 0.026072529035316427,
+      "grad_norm": 3.1805362701416016,
+      "learning_rate": 5.213270142180096e-06,
+      "loss": 0.6221,
+      "step": 55
+    },
+    {
+      "epoch": 0.026546575017776724,
+      "grad_norm": 2.3142030239105225,
+      "learning_rate": 5.308056872037915e-06,
+      "loss": 0.6459,
+      "step": 56
+    },
+    {
+      "epoch": 0.027020621000237024,
+      "grad_norm": 2.3154592514038086,
+      "learning_rate": 5.402843601895735e-06,
+      "loss": 0.5481,
+      "step": 57
+    },
+    {
+      "epoch": 0.02749466698269732,
+      "grad_norm": 2.70127272605896,
+      "learning_rate": 5.497630331753555e-06,
+      "loss": 0.5592,
+      "step": 58
+    },
+    {
+      "epoch": 0.02796871296515762,
+      "grad_norm": 2.5554442405700684,
+      "learning_rate": 5.592417061611375e-06,
+      "loss": 0.587,
+      "step": 59
+    },
+    {
+      "epoch": 0.02844275894761792,
+      "grad_norm": 2.4974448680877686,
+      "learning_rate": 5.687203791469195e-06,
+      "loss": 0.5209,
+      "step": 60
+    },
+    {
+      "epoch": 0.02844275894761792,
+      "eval_accuracy": 0.9468599033816425,
+      "eval_f1": 0.23255813953488372,
+      "eval_loss": 0.30114662647247314,
+      "eval_precision": 0.29411764705882354,
+      "eval_recall": 0.19230769230769232,
+      "eval_runtime": 50.6864,
+      "eval_samples_per_second": 5.347,
+      "eval_steps_per_second": 0.178,
+      "step": 60
+    },
+    {
+      "epoch": 0.028916804930078217,
+      "grad_norm": 2.1992790699005127,
+      "learning_rate": 5.7819905213270145e-06,
+      "loss": 0.6134,
+      "step": 61
+    },
+    {
+      "epoch": 0.029390850912538517,
+      "grad_norm": 2.135422468185425,
+      "learning_rate": 5.876777251184834e-06,
+      "loss": 0.5917,
+      "step": 62
+    },
+    {
+      "epoch": 0.029864896894998817,
+      "grad_norm": 1.9710865020751953,
+      "learning_rate": 5.971563981042654e-06,
+      "loss": 0.5341,
+      "step": 63
+    },
+    {
+      "epoch": 0.030338942877459113,
+      "grad_norm": 2.6831486225128174,
+      "learning_rate": 6.066350710900475e-06,
+      "loss": 0.5878,
+      "step": 64
+    },
+    {
+      "epoch": 0.030812988859919413,
+      "grad_norm": 2.277893543243408,
+      "learning_rate": 6.161137440758295e-06,
+      "loss": 0.5407,
+      "step": 65
+    },
+    {
+      "epoch": 0.03128703484237971,
+      "grad_norm": 2.153470993041992,
+      "learning_rate": 6.255924170616115e-06,
+      "loss": 0.5109,
+      "step": 66
+    },
+    {
+      "epoch": 0.03176108082484001,
+      "grad_norm": 2.458293914794922,
+      "learning_rate": 6.350710900473935e-06,
+      "loss": 0.5687,
+      "step": 67
+    },
+    {
+      "epoch": 0.032235126807300306,
+      "grad_norm": 1.6730012893676758,
+      "learning_rate": 6.445497630331754e-06,
+      "loss": 0.511,
+      "step": 68
+    },
+    {
+      "epoch": 0.032709172789760606,
+      "grad_norm": 2.294477939605713,
+      "learning_rate": 6.5402843601895735e-06,
+      "loss": 0.5163,
+      "step": 69
+    },
+    {
+      "epoch": 0.033183218772220906,
+      "grad_norm": 1.931765079498291,
+      "learning_rate": 6.635071090047393e-06,
+      "loss": 0.5463,
+      "step": 70
+    },
+    {
+      "epoch": 0.033657264754681206,
+      "grad_norm": 1.9582473039627075,
+      "learning_rate": 6.729857819905213e-06,
+      "loss": 0.5404,
+      "step": 71
+    },
+    {
+      "epoch": 0.034131310737141506,
+      "grad_norm": 2.352447986602783,
+      "learning_rate": 6.824644549763034e-06,
+      "loss": 0.5004,
+      "step": 72
+    },
+    {
+      "epoch": 0.0346053567196018,
+      "grad_norm": 2.5306575298309326,
+      "learning_rate": 6.919431279620854e-06,
+      "loss": 0.491,
+      "step": 73
+    },
+    {
+      "epoch": 0.0350794027020621,
+      "grad_norm": 1.954287052154541,
+      "learning_rate": 7.014218009478674e-06,
+      "loss": 0.5096,
+      "step": 74
+    },
+    {
+      "epoch": 0.0355534486845224,
+      "grad_norm": 1.7585203647613525,
+      "learning_rate": 7.1090047393364935e-06,
+      "loss": 0.4437,
+      "step": 75
+    },
+    {
+      "epoch": 0.0360274946669827,
+      "grad_norm": 1.9448845386505127,
+      "learning_rate": 7.203791469194313e-06,
+      "loss": 0.4902,
+      "step": 76
+    },
+    {
+      "epoch": 0.036501540649443,
+      "grad_norm": 2.1417629718780518,
+      "learning_rate": 7.298578199052133e-06,
+      "loss": 0.5599,
+      "step": 77
+    },
+    {
+      "epoch": 0.03697558663190329,
+      "grad_norm": 1.9677048921585083,
+      "learning_rate": 7.393364928909953e-06,
+      "loss": 0.5196,
+      "step": 78
+    },
+    {
+      "epoch": 0.03744963261436359,
+      "grad_norm": 4.773871421813965,
+      "learning_rate": 7.488151658767773e-06,
+      "loss": 0.7193,
+      "step": 79
+    },
+    {
+      "epoch": 0.03792367859682389,
+      "grad_norm": 1.7716329097747803,
+      "learning_rate": 7.582938388625593e-06,
+      "loss": 0.482,
+      "step": 80
+    },
+    {
+      "epoch": 0.03792367859682389,
+      "eval_accuracy": 0.9524959742351047,
+      "eval_f1": 0.21333333333333335,
+      "eval_loss": 0.2597336769104004,
+      "eval_precision": 0.34782608695652173,
+      "eval_recall": 0.15384615384615385,
+      "eval_runtime": 50.3051,
+      "eval_samples_per_second": 5.387,
+      "eval_steps_per_second": 0.179,
+      "step": 80
+    },
+    {
+      "epoch": 0.03839772457928419,
+      "grad_norm": 1.7248247861862183,
+      "learning_rate": 7.677725118483414e-06,
+      "loss": 0.4988,
+      "step": 81
+    },
+    {
+      "epoch": 0.03887177056174449,
+      "grad_norm": 2.6806564331054688,
+      "learning_rate": 7.772511848341233e-06,
+      "loss": 0.6173,
+      "step": 82
+    },
+    {
+      "epoch": 0.03934581654420479,
+      "grad_norm": 3.3090500831604004,
+      "learning_rate": 7.867298578199053e-06,
+      "loss": 0.6747,
+      "step": 83
+    },
+    {
+      "epoch": 0.039819862526665084,
+      "grad_norm": 1.7768396139144897,
+      "learning_rate": 7.962085308056872e-06,
+      "loss": 0.4246,
+      "step": 84
+    },
+    {
+      "epoch": 0.040293908509125384,
+      "grad_norm": 2.553398847579956,
+      "learning_rate": 8.056872037914693e-06,
+      "loss": 0.5885,
+      "step": 85
+    },
+    {
+      "epoch": 0.040767954491585684,
+      "grad_norm": 2.223745107650757,
+      "learning_rate": 8.151658767772512e-06,
+      "loss": 0.631,
+      "step": 86
+    },
+    {
+      "epoch": 0.041242000474045984,
+      "grad_norm": 2.303098440170288,
+      "learning_rate": 8.246445497630333e-06,
+      "loss": 0.4689,
+      "step": 87
+    },
+    {
+      "epoch": 0.041716046456506284,
+      "grad_norm": 1.8970552682876587,
+      "learning_rate": 8.341232227488152e-06,
+      "loss": 0.523,
+      "step": 88
+    },
+    {
+      "epoch": 0.04219009243896658,
+      "grad_norm": 2.505955934524536,
+      "learning_rate": 8.436018957345973e-06,
+      "loss": 0.4935,
+      "step": 89
+    },
+    {
+      "epoch": 0.04266413842142688,
+      "grad_norm": 1.875301718711853,
+      "learning_rate": 8.530805687203793e-06,
+      "loss": 0.4522,
+      "step": 90
+    },
+    {
+      "epoch": 0.04313818440388718,
+      "grad_norm": 1.900534749031067,
+      "learning_rate": 8.625592417061612e-06,
+      "loss": 0.4667,
+      "step": 91
+    },
+    {
+      "epoch": 0.04361223038634748,
+      "grad_norm": 3.142495632171631,
+      "learning_rate": 8.720379146919431e-06,
+      "loss": 0.7367,
+      "step": 92
+    },
+    {
+      "epoch": 0.04408627636880778,
+      "grad_norm": 2.096675395965576,
+      "learning_rate": 8.815165876777252e-06,
+      "loss": 0.5286,
+      "step": 93
+    },
+    {
+      "epoch": 0.04456032235126807,
+      "grad_norm": 2.4111526012420654,
+      "learning_rate": 8.909952606635071e-06,
+      "loss": 0.4165,
+      "step": 94
+    },
+    {
+      "epoch": 0.04503436833372837,
+      "grad_norm": 2.4553468227386475,
+      "learning_rate": 9.004739336492892e-06,
+      "loss": 0.5336,
+      "step": 95
+    },
+    {
+      "epoch": 0.04550841431618867,
+      "grad_norm": 2.3772170543670654,
+      "learning_rate": 9.09952606635071e-06,
+      "loss": 0.455,
+      "step": 96
+    },
+    {
+      "epoch": 0.04598246029864897,
+      "grad_norm": 2.652953863143921,
+      "learning_rate": 9.194312796208532e-06,
+      "loss": 0.5995,
+      "step": 97
+    },
+    {
+      "epoch": 0.04645650628110927,
+      "grad_norm": 1.7384384870529175,
+      "learning_rate": 9.289099526066352e-06,
+      "loss": 0.4296,
+      "step": 98
+    },
+    {
+      "epoch": 0.04693055226356957,
+      "grad_norm": 2.1251447200775146,
+      "learning_rate": 9.383886255924171e-06,
+      "loss": 0.5505,
+      "step": 99
+    },
+    {
+      "epoch": 0.04740459824602986,
+      "grad_norm": 1.7407325506210327,
+      "learning_rate": 9.478672985781992e-06,
+      "loss": 0.4165,
+      "step": 100
+    },
+    {
+      "epoch": 0.04740459824602986,
+      "eval_accuracy": 0.9549114331723028,
+      "eval_f1": 0.40425531914893614,
+      "eval_loss": 0.2602430284023285,
+      "eval_precision": 0.4523809523809524,
+      "eval_recall": 0.36538461538461536,
+      "eval_runtime": 50.5287,
+      "eval_samples_per_second": 5.363,
+      "eval_steps_per_second": 0.178,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 2109,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.677803521880883e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}