Training in progress, step 700, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e288bd840a16b2cbd8a3374bb949f1b1c187199eea64768875535052f81db099
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1d6658706a2b1b22d02af67ed32e150daada045c6218fcbac8d61cdee6f387a
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d8f724ed2ba62d4ed4f7f457305a29c044fc92263fb4ca9b09038183d31aeaa
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a53a5f077427c1fb6c1be3beda662bcb3c55295e52e5aac6cdd521540645e78
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62907865f8c9b9de147161436fec23e0a0a3205b827d496be6b915e2f6a61637
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b4033bcd984ed883ee9f4753f5acd2a5f9698c3b391651526fe5836282d38a7
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c32753acec9af4565f58dbc31cec7c0c6bc9ef2e62b6854c21d933b731258ac2
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3abd615b881caa9b6b112faf16e7d3d92e8f14de7b312bdedd386f878060361e
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:697053a12f78e9cd0517de1cabfa72a579559630e95ed1aa433ad67c5646389b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd4ac688667fed33dbac29dd54010210058743290dae20597420324bc4b12d61
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48bcd48af5b6cfa380c1c36060fcb58077075241d5dca14ab2ed7b8d81477c9b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:386c4e28b7b6c76dc1bee240fa0bb1bfba0d8ccb93833317aef937e1c66e8e56
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f382917805c0880ea5c586f02898986f046f45ead5dbd892ad525b7d8a5b4e1a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bc8d6adc4a8ca28639d5097e8d755b737723c2a73e02a639554d412e2af015c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4597256259e5a2c7c475191a3bdd74624e158798e72d836b1a2749f70fc6048
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce7adf139cb5be3fa94f558d2253b67614e8f5e40c792e0a5458dcecd0d865b5
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:855ee2eea26db19a2bc9cc5b04dadff41206d82e1c5a1fe77da238da76633816
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b8846b74d96cda2078cccff557518227c163d02a7e2b4a593daa2acbfe4642d
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b19f290e2b6e7e30a354c9cdd1a942b44ba05b3b706c4041390f3cbee2d59585
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:075424ce87fff9c2e036af3f101cf627348425b5ff8402b4a0c190100ea3ad91
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2828273a1308e661da21192f060469695aabbaeacbfc6389f33e773de694bc21
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2ac8d82137e7b493f65b02fe60e742d00785831acde45a3e931ec88619a5dca
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0185f9ac53f07ec0947948711d4dd961bdf47d4defc863468138a808e26e54b5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cd75e3ece083256eebd1a793ba9c4d81a6d9e08a128d64453489d62e892f1f6
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26db028a9049ea67225987ee1ccc2be42e4ecb5abdde128157d8fe80504b4a15
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c7b277ba7269f25114908097aae9c5e108d3ce5eac98d48cc795839db8493c9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7610993657505285,
   "eval_steps": 20,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4579,6 +4579,766 @@
       "eval_samples_per_second": 5.296,
       "eval_steps_per_second": 0.172,
       "step": 600
     }
   ],
   "logging_steps": 1,
@@ -4598,7 +5358,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2467637165634355e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8879492600422833,
   "eval_steps": 20,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.296,
       "eval_steps_per_second": 0.172,
       "step": 600
+    },
+    {
+      "epoch": 0.7623678646934461,
+      "grad_norm": 3.266761064529419,
+      "learning_rate": 3.2409224077012135e-06,
+      "loss": 0.1771,
+      "step": 601
+    },
+    {
+      "epoch": 0.7636363636363637,
+      "grad_norm": 4.591704368591309,
+      "learning_rate": 3.2083328663766466e-06,
+      "loss": 0.241,
+      "step": 602
+    },
+    {
+      "epoch": 0.7649048625792811,
+      "grad_norm": 4.731637954711914,
+      "learning_rate": 3.175876671962266e-06,
+      "loss": 0.2559,
+      "step": 603
+    },
+    {
+      "epoch": 0.7661733615221987,
+      "grad_norm": 9.054510116577148,
+      "learning_rate": 3.1435544616997303e-06,
+      "loss": 0.2459,
+      "step": 604
+    },
+    {
+      "epoch": 0.7674418604651163,
+      "grad_norm": 5.0422821044921875,
+      "learning_rate": 3.111366870200071e-06,
+      "loss": 0.1812,
+      "step": 605
+    },
+    {
+      "epoch": 0.7687103594080338,
+      "grad_norm": 5.838403701782227,
+      "learning_rate": 3.0793145294312253e-06,
+      "loss": 0.2237,
+      "step": 606
+    },
+    {
+      "epoch": 0.7699788583509514,
+      "grad_norm": 3.5189685821533203,
+      "learning_rate": 3.0473980687056314e-06,
+      "loss": 0.1696,
+      "step": 607
+    },
+    {
+      "epoch": 0.771247357293869,
+      "grad_norm": 3.204148530960083,
+      "learning_rate": 3.015618114667873e-06,
+      "loss": 0.1476,
+      "step": 608
+    },
+    {
+      "epoch": 0.7725158562367864,
+      "grad_norm": 5.796388149261475,
+      "learning_rate": 2.983975291282375e-06,
+      "loss": 0.1914,
+      "step": 609
+    },
+    {
+      "epoch": 0.773784355179704,
+      "grad_norm": 4.04534912109375,
+      "learning_rate": 2.952470219821152e-06,
+      "loss": 0.2216,
+      "step": 610
+    },
+    {
+      "epoch": 0.7750528541226216,
+      "grad_norm": 3.9704835414886475,
+      "learning_rate": 2.921103518851609e-06,
+      "loss": 0.2576,
+      "step": 611
+    },
+    {
+      "epoch": 0.7763213530655391,
+      "grad_norm": 3.9379115104675293,
+      "learning_rate": 2.889875804224409e-06,
+      "loss": 0.2255,
+      "step": 612
+    },
+    {
+      "epoch": 0.7775898520084567,
+      "grad_norm": 4.200435161590576,
+      "learning_rate": 2.8587876890613597e-06,
+      "loss": 0.2399,
+      "step": 613
+    },
+    {
+      "epoch": 0.7788583509513742,
+      "grad_norm": 3.6293070316314697,
+      "learning_rate": 2.827839783743391e-06,
+      "loss": 0.2346,
+      "step": 614
+    },
+    {
+      "epoch": 0.7801268498942917,
+      "grad_norm": 4.450516700744629,
+      "learning_rate": 2.7970326958985683e-06,
+      "loss": 0.2134,
+      "step": 615
+    },
+    {
+      "epoch": 0.7813953488372093,
+      "grad_norm": 3.8171873092651367,
+      "learning_rate": 2.766367030390157e-06,
+      "loss": 0.1628,
+      "step": 616
+    },
+    {
+      "epoch": 0.7826638477801269,
+      "grad_norm": 4.238905906677246,
+      "learning_rate": 2.7358433893047543e-06,
+      "loss": 0.2054,
+      "step": 617
+    },
+    {
+      "epoch": 0.7839323467230443,
+      "grad_norm": 3.8484349250793457,
+      "learning_rate": 2.7054623719404617e-06,
+      "loss": 0.1907,
+      "step": 618
+    },
+    {
+      "epoch": 0.7852008456659619,
+      "grad_norm": 4.630876541137695,
+      "learning_rate": 2.675224574795123e-06,
+      "loss": 0.2193,
+      "step": 619
+    },
+    {
+      "epoch": 0.7864693446088795,
+      "grad_norm": 5.129254341125488,
+      "learning_rate": 2.645130591554609e-06,
+      "loss": 0.2107,
+      "step": 620
+    },
+    {
+      "epoch": 0.7864693446088795,
+      "eval_accuracy": 0.8642384105960265,
+      "eval_f1": 0.7146171693735499,
+      "eval_loss": 0.2954389750957489,
+      "eval_precision": 0.8700564971751412,
+      "eval_recall": 0.6062992125984252,
+      "eval_runtime": 51.5152,
+      "eval_samples_per_second": 5.377,
+      "eval_steps_per_second": 0.175,
+      "step": 620
+    },
+    {
+      "epoch": 0.787737843551797,
+      "grad_norm": 4.9152750968933105,
+      "learning_rate": 2.615181013081164e-06,
+      "loss": 0.1496,
+      "step": 621
+    },
+    {
+      "epoch": 0.7890063424947146,
+      "grad_norm": 4.203990459442139,
+      "learning_rate": 2.5853764274018024e-06,
+      "loss": 0.1628,
+      "step": 622
+    },
+    {
+      "epoch": 0.7902748414376322,
+      "grad_norm": 4.1775641441345215,
+      "learning_rate": 2.555717419696764e-06,
+      "loss": 0.1943,
+      "step": 623
+    },
+    {
+      "epoch": 0.7915433403805496,
+      "grad_norm": 3.536635398864746,
+      "learning_rate": 2.526204572288029e-06,
+      "loss": 0.1927,
+      "step": 624
+    },
+    {
+      "epoch": 0.7928118393234672,
+      "grad_norm": 3.426269769668579,
+      "learning_rate": 2.4968384646278765e-06,
+      "loss": 0.202,
+      "step": 625
+    },
+    {
+      "epoch": 0.7940803382663848,
+      "grad_norm": 7.433694362640381,
+      "learning_rate": 2.4676196732875147e-06,
+      "loss": 0.2374,
+      "step": 626
+    },
+    {
+      "epoch": 0.7953488372093023,
+      "grad_norm": 4.034791946411133,
+      "learning_rate": 2.4385487719457568e-06,
+      "loss": 0.2249,
+      "step": 627
+    },
+    {
+      "epoch": 0.7966173361522199,
+      "grad_norm": 4.299747467041016,
+      "learning_rate": 2.4096263313777603e-06,
+      "loss": 0.1816,
+      "step": 628
+    },
+    {
+      "epoch": 0.7978858350951374,
+      "grad_norm": 5.804561614990234,
+      "learning_rate": 2.3808529194438156e-06,
+      "loss": 0.3159,
+      "step": 629
+    },
+    {
+      "epoch": 0.7991543340380549,
+      "grad_norm": 4.759912014007568,
+      "learning_rate": 2.352229101078205e-06,
+      "loss": 0.2168,
+      "step": 630
+    },
+    {
+      "epoch": 0.8004228329809725,
+      "grad_norm": 4.604716777801514,
+      "learning_rate": 2.3237554382781004e-06,
+      "loss": 0.2306,
+      "step": 631
+    },
+    {
+      "epoch": 0.8016913319238901,
+      "grad_norm": 4.394404411315918,
+      "learning_rate": 2.2954324900925362e-06,
+      "loss": 0.226,
+      "step": 632
+    },
+    {
+      "epoch": 0.8029598308668076,
+      "grad_norm": 4.407333850860596,
+      "learning_rate": 2.2672608126114337e-06,
+      "loss": 0.2125,
+      "step": 633
+    },
+    {
+      "epoch": 0.8042283298097251,
+      "grad_norm": 4.021424770355225,
+      "learning_rate": 2.239240958954677e-06,
+      "loss": 0.1941,
+      "step": 634
+    },
+    {
+      "epoch": 0.8054968287526427,
+      "grad_norm": 5.0576066970825195,
+      "learning_rate": 2.2113734792612586e-06,
+      "loss": 0.1864,
+      "step": 635
+    },
+    {
+      "epoch": 0.8067653276955603,
+      "grad_norm": 5.43579626083374,
+      "learning_rate": 2.1836589206784742e-06,
+      "loss": 0.2176,
+      "step": 636
+    },
+    {
+      "epoch": 0.8080338266384778,
+      "grad_norm": 4.382997035980225,
+      "learning_rate": 2.15609782735118e-06,
+      "loss": 0.1978,
+      "step": 637
+    },
+    {
+      "epoch": 0.8093023255813954,
+      "grad_norm": 3.2525434494018555,
+      "learning_rate": 2.12869074041112e-06,
+      "loss": 0.1882,
+      "step": 638
+    },
+    {
+      "epoch": 0.810570824524313,
+      "grad_norm": 4.6330790519714355,
+      "learning_rate": 2.1014381979662823e-06,
+      "loss": 0.2146,
+      "step": 639
+    },
+    {
+      "epoch": 0.8118393234672304,
+      "grad_norm": 4.439876079559326,
+      "learning_rate": 2.0743407350903465e-06,
+      "loss": 0.2562,
+      "step": 640
+    },
+    {
+      "epoch": 0.8118393234672304,
+      "eval_accuracy": 0.8642384105960265,
+      "eval_f1": 0.7210884353741497,
+      "eval_loss": 0.293789803981781,
+      "eval_precision": 0.8502673796791443,
+      "eval_recall": 0.6259842519685039,
+      "eval_runtime": 51.7868,
+      "eval_samples_per_second": 5.349,
+      "eval_steps_per_second": 0.174,
+      "step": 640
+    },
+    {
+      "epoch": 0.813107822410148,
+      "grad_norm": 3.350806713104248,
+      "learning_rate": 2.0473988838121783e-06,
+      "loss": 0.1801,
+      "step": 641
+    },
+    {
+      "epoch": 0.8143763213530656,
+      "grad_norm": 3.780141592025757,
+      "learning_rate": 2.020613173105379e-06,
+      "loss": 0.1665,
+      "step": 642
+    },
+    {
+      "epoch": 0.8156448202959831,
+      "grad_norm": 3.851416826248169,
+      "learning_rate": 1.9939841288778996e-06,
+      "loss": 0.1559,
+      "step": 643
+    },
+    {
+      "epoch": 0.8169133192389006,
+      "grad_norm": 3.916234254837036,
+      "learning_rate": 1.96751227396172e-06,
+      "loss": 0.2272,
+      "step": 644
+    },
+    {
+      "epoch": 0.8181818181818182,
+      "grad_norm": 4.235809326171875,
+      "learning_rate": 1.9411981281025818e-06,
+      "loss": 0.2591,
+      "step": 645
+    },
+    {
+      "epoch": 0.8194503171247357,
+      "grad_norm": 3.97944974899292,
+      "learning_rate": 1.9150422079497787e-06,
+      "loss": 0.1772,
+      "step": 646
+    },
+    {
+      "epoch": 0.8207188160676533,
+      "grad_norm": 3.336775064468384,
+      "learning_rate": 1.8890450270460204e-06,
+      "loss": 0.1648,
+      "step": 647
+    },
+    {
+      "epoch": 0.8219873150105709,
+      "grad_norm": 3.8211421966552734,
+      "learning_rate": 1.8632070958173453e-06,
+      "loss": 0.1483,
+      "step": 648
+    },
+    {
+      "epoch": 0.8232558139534883,
+      "grad_norm": 4.630310535430908,
+      "learning_rate": 1.8375289215630998e-06,
+      "loss": 0.232,
+      "step": 649
+    },
+    {
+      "epoch": 0.8245243128964059,
+      "grad_norm": 3.9007372856140137,
+      "learning_rate": 1.8120110084459763e-06,
+      "loss": 0.2163,
+      "step": 650
+    },
+    {
+      "epoch": 0.8257928118393235,
+      "grad_norm": 4.006324291229248,
+      "learning_rate": 1.786653857482118e-06,
+      "loss": 0.2104,
+      "step": 651
+    },
+    {
+      "epoch": 0.827061310782241,
+      "grad_norm": 4.888721942901611,
+      "learning_rate": 1.7614579665312792e-06,
+      "loss": 0.2257,
+      "step": 652
+    },
+    {
+      "epoch": 0.8283298097251586,
+      "grad_norm": 5.345705032348633,
+      "learning_rate": 1.7364238302870517e-06,
+      "loss": 0.2251,
+      "step": 653
+    },
+    {
+      "epoch": 0.8295983086680762,
+      "grad_norm": 3.589813709259033,
+      "learning_rate": 1.711551940267151e-06,
+      "loss": 0.1877,
+      "step": 654
+    },
+    {
+      "epoch": 0.8308668076109936,
+      "grad_norm": 5.65714168548584,
+      "learning_rate": 1.6868427848037672e-06,
+      "loss": 0.2736,
+      "step": 655
+    },
+    {
+      "epoch": 0.8321353065539112,
+      "grad_norm": 5.815731048583984,
+      "learning_rate": 1.6622968490339775e-06,
+      "loss": 0.2564,
+      "step": 656
+    },
+    {
+      "epoch": 0.8334038054968288,
+      "grad_norm": 3.979933738708496,
+      "learning_rate": 1.637914614890217e-06,
+      "loss": 0.1795,
+      "step": 657
+    },
+    {
+      "epoch": 0.8346723044397463,
+      "grad_norm": 4.708816051483154,
+      "learning_rate": 1.613696561090823e-06,
+      "loss": 0.2817,
+      "step": 658
+    },
+    {
+      "epoch": 0.8359408033826639,
+      "grad_norm": 4.505849838256836,
+      "learning_rate": 1.5896431631306298e-06,
+      "loss": 0.2302,
+      "step": 659
+    },
+    {
+      "epoch": 0.8372093023255814,
+      "grad_norm": 4.055660247802734,
+      "learning_rate": 1.565754893271636e-06,
+      "loss": 0.1054,
+      "step": 660
+    },
+    {
+      "epoch": 0.8372093023255814,
+      "eval_accuracy": 0.8642384105960265,
+      "eval_f1": 0.7210884353741497,
+      "eval_loss": 0.29165971279144287,
+      "eval_precision": 0.8502673796791443,
+      "eval_recall": 0.6259842519685039,
+      "eval_runtime": 52.8549,
+      "eval_samples_per_second": 5.241,
+      "eval_steps_per_second": 0.17,
+      "step": 660
+    },
+    {
+      "epoch": 0.8384778012684989,
+      "grad_norm": 3.554976224899292,
+      "learning_rate": 1.5420322205337335e-06,
+      "loss": 0.2036,
+      "step": 661
+    },
+    {
+      "epoch": 0.8397463002114165,
+      "grad_norm": 5.035533905029297,
+      "learning_rate": 1.5184756106854925e-06,
+      "loss": 0.1991,
+      "step": 662
+    },
+    {
+      "epoch": 0.8410147991543341,
+      "grad_norm": 3.7902748584747314,
+      "learning_rate": 1.4950855262350282e-06,
+      "loss": 0.1813,
+      "step": 663
+    },
+    {
+      "epoch": 0.8422832980972516,
+      "grad_norm": 3.7442333698272705,
+      "learning_rate": 1.471862426420908e-06,
+      "loss": 0.2316,
+      "step": 664
+    },
+    {
+      "epoch": 0.8435517970401691,
+      "grad_norm": 3.83044171333313,
+      "learning_rate": 1.4488067672031391e-06,
+      "loss": 0.2185,
+      "step": 665
+    },
+    {
+      "epoch": 0.8448202959830867,
+      "grad_norm": 3.863065719604492,
+      "learning_rate": 1.425919001254219e-06,
+      "loss": 0.2586,
+      "step": 666
+    },
+    {
+      "epoch": 0.8460887949260042,
+      "grad_norm": 4.449268341064453,
+      "learning_rate": 1.403199577950245e-06,
+      "loss": 0.1982,
+      "step": 667
+    },
+    {
+      "epoch": 0.8473572938689218,
+      "grad_norm": 4.1120123863220215,
+      "learning_rate": 1.3806489433620917e-06,
+      "loss": 0.2196,
+      "step": 668
+    },
+    {
+      "epoch": 0.8486257928118394,
+      "grad_norm": 3.667243242263794,
+      "learning_rate": 1.3582675402466538e-06,
+      "loss": 0.1903,
+      "step": 669
+    },
+    {
+      "epoch": 0.8498942917547568,
+      "grad_norm": 4.294753551483154,
+      "learning_rate": 1.336055808038149e-06,
+      "loss": 0.2223,
+      "step": 670
+    },
+    {
+      "epoch": 0.8511627906976744,
+      "grad_norm": 3.5263938903808594,
+      "learning_rate": 1.3140141828394993e-06,
+      "loss": 0.1916,
+      "step": 671
+    },
+    {
+      "epoch": 0.852431289640592,
+      "grad_norm": 4.649272918701172,
+      "learning_rate": 1.2921430974137562e-06,
+      "loss": 0.278,
+      "step": 672
+    },
+    {
+      "epoch": 0.8536997885835095,
+      "grad_norm": 5.0053558349609375,
+      "learning_rate": 1.270442981175617e-06,
+      "loss": 0.2298,
+      "step": 673
+    },
+    {
+      "epoch": 0.8549682875264271,
+      "grad_norm": 6.003551483154297,
+      "learning_rate": 1.2489142601829819e-06,
+      "loss": 0.3026,
+      "step": 674
+    },
+    {
+      "epoch": 0.8562367864693446,
+      "grad_norm": 5.016626834869385,
+      "learning_rate": 1.227557357128597e-06,
+      "loss": 0.234,
+      "step": 675
+    },
+    {
+      "epoch": 0.8575052854122621,
+      "grad_norm": 4.0852251052856445,
+      "learning_rate": 1.2063726913317508e-06,
+      "loss": 0.1984,
+      "step": 676
+    },
+    {
+      "epoch": 0.8587737843551797,
+      "grad_norm": 3.9487900733947754,
+      "learning_rate": 1.185360678730043e-06,
+      "loss": 0.191,
+      "step": 677
+    },
+    {
+      "epoch": 0.8600422832980973,
+      "grad_norm": 5.6874213218688965,
+      "learning_rate": 1.1645217318712187e-06,
+      "loss": 0.2541,
+      "step": 678
+    },
+    {
+      "epoch": 0.8613107822410148,
+      "grad_norm": 4.008146286010742,
+      "learning_rate": 1.1438562599050661e-06,
+      "loss": 0.1698,
+      "step": 679
+    },
+    {
+      "epoch": 0.8625792811839323,
+      "grad_norm": 5.791302680969238,
+      "learning_rate": 1.1233646685753864e-06,
+      "loss": 0.2837,
+      "step": 680
+    },
+    {
+      "epoch": 0.8625792811839323,
+      "eval_accuracy": 0.8664459161147903,
+      "eval_f1": 0.7317073170731707,
+      "eval_loss": 0.2841557264328003,
+      "eval_precision": 0.8375634517766497,
+      "eval_recall": 0.6496062992125984,
+      "eval_runtime": 51.6664,
+      "eval_samples_per_second": 5.361,
+      "eval_steps_per_second": 0.174,
+      "step": 680
+    },
+    {
+      "epoch": 0.8638477801268499,
+      "grad_norm": 4.153045177459717,
+      "learning_rate": 1.103047360212024e-06,
+      "loss": 0.1929,
+      "step": 681
+    },
+    {
+      "epoch": 0.8651162790697674,
+      "grad_norm": 6.1054511070251465,
+      "learning_rate": 1.0829047337229714e-06,
+      "loss": 0.2017,
+      "step": 682
+    },
+    {
+      "epoch": 0.866384778012685,
+      "grad_norm": 4.814021110534668,
+      "learning_rate": 1.0629371845865333e-06,
+      "loss": 0.2109,
+      "step": 683
+    },
+    {
+      "epoch": 0.8676532769556026,
+      "grad_norm": 3.665745258331299,
+      "learning_rate": 1.0431451048435637e-06,
+      "loss": 0.1851,
+      "step": 684
+    },
+    {
+      "epoch": 0.86892177589852,
+      "grad_norm": 4.5687127113342285,
+      "learning_rate": 1.023528883089766e-06,
+      "loss": 0.2229,
+      "step": 685
+    },
+    {
+      "epoch": 0.8701902748414376,
+      "grad_norm": 7.112755298614502,
+      "learning_rate": 1.0040889044680702e-06,
+      "loss": 0.2175,
+      "step": 686
+    },
+    {
+      "epoch": 0.8714587737843552,
+      "grad_norm": 4.810848236083984,
+      "learning_rate": 9.848255506610616e-07,
+      "loss": 0.2445,
+      "step": 687
+    },
+    {
+      "epoch": 0.8727272727272727,
+      "grad_norm": 3.9013190269470215,
+      "learning_rate": 9.657391998834942e-07,
+      "loss": 0.2054,
+      "step": 688
+    },
+    {
+      "epoch": 0.8739957716701903,
+      "grad_norm": 4.112692832946777,
+      "learning_rate": 9.468302268748608e-07,
+      "loss": 0.2084,
+      "step": 689
+    },
+    {
+      "epoch": 0.8752642706131079,
+      "grad_norm": 3.5854508876800537,
+      "learning_rate": 9.2809900289204e-07,
+      "loss": 0.1765,
+      "step": 690
+    },
+    {
+      "epoch": 0.8765327695560253,
+      "grad_norm": 4.269070625305176,
+      "learning_rate": 9.095458957019986e-07,
+      "loss": 0.1872,
+      "step": 691
+    },
+    {
+      "epoch": 0.8778012684989429,
+      "grad_norm": 6.264438152313232,
+      "learning_rate": 8.911712695745823e-07,
+      "loss": 0.1691,
+      "step": 692
+    },
+    {
+      "epoch": 0.8790697674418605,
+      "grad_norm": 4.607624530792236,
+      "learning_rate": 8.729754852753525e-07,
+      "loss": 0.2539,
+      "step": 693
+    },
+    {
+      "epoch": 0.880338266384778,
+      "grad_norm": 3.378829002380371,
+      "learning_rate": 8.549589000585101e-07,
+      "loss": 0.2015,
+      "step": 694
+    },
+    {
+      "epoch": 0.8816067653276956,
+      "grad_norm": 4.111599922180176,
+      "learning_rate": 8.371218676598814e-07,
+      "loss": 0.212,
+      "step": 695
+    },
+    {
+      "epoch": 0.8828752642706131,
+      "grad_norm": 7.777480125427246,
+      "learning_rate": 8.194647382899657e-07,
+      "loss": 0.2435,
+      "step": 696
+    },
+    {
+      "epoch": 0.8841437632135306,
+      "grad_norm": 3.5605111122131348,
+      "learning_rate": 8.019878586270691e-07,
+      "loss": 0.2158,
+      "step": 697
+    },
+    {
+      "epoch": 0.8854122621564482,
+      "grad_norm": 3.6146066188812256,
+      "learning_rate": 7.846915718104897e-07,
+      "loss": 0.2118,
+      "step": 698
+    },
+    {
+      "epoch": 0.8866807610993658,
+      "grad_norm": 3.586723804473877,
+      "learning_rate": 7.675762174337864e-07,
+      "loss": 0.1818,
+      "step": 699
+    },
+    {
+      "epoch": 0.8879492600422833,
+      "grad_norm": 4.1939167976379395,
+      "learning_rate": 7.506421315381074e-07,
+      "loss": 0.1779,
+      "step": 700
+    },
+    {
+      "epoch": 0.8879492600422833,
+      "eval_accuracy": 0.8708609271523179,
+      "eval_f1": 0.7405764966740577,
+      "eval_loss": 0.28408411145210266,
+      "eval_precision": 0.8477157360406091,
+      "eval_recall": 0.65748031496063,
+      "eval_runtime": 51.6724,
+      "eval_samples_per_second": 5.361,
+      "eval_steps_per_second": 0.174,
+      "step": 700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.6256102807044096e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null