Training in progress, step 833, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +816 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f02bb38ebeaf6366d6eb671e156e4bf3e765fdece440cc930c9cfdcd0b64083
 size 2145944

 version https://git-lfs.github.com/spec/v1
+oid sha256:07cefc2581899e9cd81423324de5956c82dd5f731f05187440a982b0d6d05b71
 size 2145944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32e9855b316f434d57ba4467b5b4ef1f8d2f959696403f5e32def6828ad6bef5
 size 4310020

 version https://git-lfs.github.com/spec/v1
+oid sha256:4570e5c4b0ed79e4f5d3b402f6ad2f2549e244175cc54843a5d5f6d813db1532
 size 4310020

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53f71efcffbad4ff9b0400739a9b2811c20050ed7852096fc24fb2eb4c3c091d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:50f87c0ed2d75cb8a451ddff6da6632b673785da1e9fef3dc083d69f65b801bb
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33825bed89719638e2e37f21656a413d50d0dc8cf99d86b4d7152f50e5bbcd6e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:756858fb0f5a27c92f1116791d526a1becaf91fa7110176767537e98ea42bbd8
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f3682dfb503773bdb3a7d4868d8abf3b6eed45d692e22e2299624c46632a667
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7d1a6c204d94ba0bb67bac856dedd2342d34022ad605da33963f9022dc066a7
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cb07e5da45d7c5643fe3179d2cfab1712f94a8c62afddc66fee2e58ea42f700
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3408db92c33886624cd88dac64c08b23fc69f8e188c300a1a0bfe82c164e648
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f024d2f6fb6610551c472834de25d1d904c6aa9a110ea61cc065fb2a17fa713f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:814c5335d071ae07021d1744ec9a6235158c1a31d5d0598e1cda6bddebbe2205
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8599700149925037,
   "eval_steps": 500,
-  "global_step": 717,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5026,6 +5026,818 @@
       "learning_rate": 6.053180944220627e-06,
       "loss": 9.5913,
       "step": 717
     }
   ],
   "logging_steps": 1,
@@ -5040,12 +5852,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 595349320237056.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9991004497751125,
   "eval_steps": 500,
+  "global_step": 833,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.053180944220627e-06,
       "loss": 9.5913,
       "step": 717
+    },
+    {
+      "epoch": 0.8611694152923538,
+      "grad_norm": 0.2777814567089081,
+      "learning_rate": 5.951378333139118e-06,
+      "loss": 9.604,
+      "step": 718
+    },
+    {
+      "epoch": 0.8623688155922039,
+      "grad_norm": 0.27990755438804626,
+      "learning_rate": 5.850384861654329e-06,
+      "loss": 9.5929,
+      "step": 719
+    },
+    {
+      "epoch": 0.863568215892054,
+      "grad_norm": 0.285398006439209,
+      "learning_rate": 5.750202384939313e-06,
+      "loss": 9.5953,
+      "step": 720
+    },
+    {
+      "epoch": 0.864767616191904,
+      "grad_norm": 0.28564396500587463,
+      "learning_rate": 5.650832743269779e-06,
+      "loss": 9.6041,
+      "step": 721
+    },
+    {
+      "epoch": 0.8659670164917541,
+      "grad_norm": 0.29116764664649963,
+      "learning_rate": 5.552277761990294e-06,
+      "loss": 9.594,
+      "step": 722
+    },
+    {
+      "epoch": 0.8671664167916042,
+      "grad_norm": 0.28536704182624817,
+      "learning_rate": 5.454539251480739e-06,
+      "loss": 9.6037,
+      "step": 723
+    },
+    {
+      "epoch": 0.8683658170914542,
+      "grad_norm": 0.2976490259170532,
+      "learning_rate": 5.3576190071230106e-06,
+      "loss": 9.6027,
+      "step": 724
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.3443441390991211,
+      "learning_rate": 5.2615188092681176e-06,
+      "loss": 9.6111,
+      "step": 725
+    },
+    {
+      "epoch": 0.8707646176911544,
+      "grad_norm": 0.27186739444732666,
+      "learning_rate": 5.166240423203428e-06,
+      "loss": 9.5908,
+      "step": 726
+    },
+    {
+      "epoch": 0.8719640179910045,
+      "grad_norm": 0.2679988443851471,
+      "learning_rate": 5.071785599120243e-06,
+      "loss": 9.5937,
+      "step": 727
+    },
+    {
+      "epoch": 0.8731634182908545,
+      "grad_norm": 0.2798680067062378,
+      "learning_rate": 4.978156072081669e-06,
+      "loss": 9.5911,
+      "step": 728
+    },
+    {
+      "epoch": 0.8743628185907046,
+      "grad_norm": 0.27777785062789917,
+      "learning_rate": 4.885353561990752e-06,
+      "loss": 9.5982,
+      "step": 729
+    },
+    {
+      "epoch": 0.8755622188905547,
+      "grad_norm": 0.2682747542858124,
+      "learning_rate": 4.793379773558815e-06,
+      "loss": 9.6045,
+      "step": 730
+    },
+    {
+      "epoch": 0.8767616191904049,
+      "grad_norm": 0.2757691740989685,
+      "learning_rate": 4.7022363962742514e-06,
+      "loss": 9.6068,
+      "step": 731
+    },
+    {
+      "epoch": 0.8779610194902548,
+      "grad_norm": 0.27363264560699463,
+      "learning_rate": 4.6119251043714225e-06,
+      "loss": 9.5998,
+      "step": 732
+    },
+    {
+      "epoch": 0.879160419790105,
+      "grad_norm": 0.28155508637428284,
+      "learning_rate": 4.522447556799875e-06,
+      "loss": 9.5994,
+      "step": 733
+    },
+    {
+      "epoch": 0.8803598200899551,
+      "grad_norm": 0.27953052520751953,
+      "learning_rate": 4.433805397193969e-06,
+      "loss": 9.6041,
+      "step": 734
+    },
+    {
+      "epoch": 0.881559220389805,
+      "grad_norm": 0.28824350237846375,
+      "learning_rate": 4.3460002538425805e-06,
+      "loss": 9.6045,
+      "step": 735
+    },
+    {
+      "epoch": 0.8827586206896552,
+      "grad_norm": 0.29731664061546326,
+      "learning_rate": 4.2590337396592406e-06,
+      "loss": 9.6076,
+      "step": 736
+    },
+    {
+      "epoch": 0.8839580209895053,
+      "grad_norm": 0.2972903847694397,
+      "learning_rate": 4.172907452152519e-06,
+      "loss": 9.608,
+      "step": 737
+    },
+    {
+      "epoch": 0.8851574212893554,
+      "grad_norm": 0.2724793255329132,
+      "learning_rate": 4.087622973396665e-06,
+      "loss": 9.5971,
+      "step": 738
+    },
+    {
+      "epoch": 0.8863568215892054,
+      "grad_norm": 0.2679544985294342,
+      "learning_rate": 4.0031818700025095e-06,
+      "loss": 9.5936,
+      "step": 739
+    },
+    {
+      "epoch": 0.8875562218890555,
+      "grad_norm": 0.2719581425189972,
+      "learning_rate": 3.919585693088751e-06,
+      "loss": 9.592,
+      "step": 740
+    },
+    {
+      "epoch": 0.8887556221889056,
+      "grad_norm": 0.27202773094177246,
+      "learning_rate": 3.836835978253433e-06,
+      "loss": 9.5904,
+      "step": 741
+    },
+    {
+      "epoch": 0.8899550224887556,
+      "grad_norm": 0.2740086615085602,
+      "learning_rate": 3.7549342455457216e-06,
+      "loss": 9.5989,
+      "step": 742
+    },
+    {
+      "epoch": 0.8911544227886057,
+      "grad_norm": 0.2741098999977112,
+      "learning_rate": 3.6738819994379945e-06,
+      "loss": 9.6006,
+      "step": 743
+    },
+    {
+      "epoch": 0.8923538230884558,
+      "grad_norm": 0.2779156565666199,
+      "learning_rate": 3.593680728798238e-06,
+      "loss": 9.5999,
+      "step": 744
+    },
+    {
+      "epoch": 0.8935532233883059,
+      "grad_norm": 0.28172117471694946,
+      "learning_rate": 3.5143319068626225e-06,
+      "loss": 9.6032,
+      "step": 745
+    },
+    {
+      "epoch": 0.8947526236881559,
+      "grad_norm": 0.2854410409927368,
+      "learning_rate": 3.435836991208524e-06,
+      "loss": 9.5996,
+      "step": 746
+    },
+    {
+      "epoch": 0.895952023988006,
+      "grad_norm": 0.2835351824760437,
+      "learning_rate": 3.35819742372771e-06,
+      "loss": 9.6017,
+      "step": 747
+    },
+    {
+      "epoch": 0.8971514242878561,
+      "grad_norm": 0.2815116047859192,
+      "learning_rate": 3.2814146305998107e-06,
+      "loss": 9.605,
+      "step": 748
+    },
+    {
+      "epoch": 0.8983508245877061,
+      "grad_norm": 0.3012433648109436,
+      "learning_rate": 3.2054900222662276e-06,
+      "loss": 9.607,
+      "step": 749
+    },
+    {
+      "epoch": 0.8995502248875562,
+      "grad_norm": 0.3453059792518616,
+      "learning_rate": 3.1304249934041017e-06,
+      "loss": 9.6038,
+      "step": 750
+    },
+    {
+      "epoch": 0.9007496251874063,
+      "grad_norm": 0.2700274586677551,
+      "learning_rate": 3.0562209229008042e-06,
+      "loss": 9.5894,
+      "step": 751
+    },
+    {
+      "epoch": 0.9019490254872564,
+      "grad_norm": 0.26212278008461,
+      "learning_rate": 2.982879173828523e-06,
+      "loss": 9.5959,
+      "step": 752
+    },
+    {
+      "epoch": 0.9031484257871064,
+      "grad_norm": 0.2739808261394501,
+      "learning_rate": 2.9104010934192794e-06,
+      "loss": 9.5937,
+      "step": 753
+    },
+    {
+      "epoch": 0.9043478260869565,
+      "grad_norm": 0.2720181345939636,
+      "learning_rate": 2.838788013040139e-06,
+      "loss": 9.5944,
+      "step": 754
+    },
+    {
+      "epoch": 0.9055472263868066,
+      "grad_norm": 0.2759906053543091,
+      "learning_rate": 2.768041248168801e-06,
+      "loss": 9.5952,
+      "step": 755
+    },
+    {
+      "epoch": 0.9067466266866566,
+      "grad_norm": 0.27012184262275696,
+      "learning_rate": 2.6981620983694057e-06,
+      "loss": 9.5966,
+      "step": 756
+    },
+    {
+      "epoch": 0.9079460269865067,
+      "grad_norm": 0.2913030683994293,
+      "learning_rate": 2.6291518472686404e-06,
+      "loss": 9.5965,
+      "step": 757
+    },
+    {
+      "epoch": 0.9091454272863568,
+      "grad_norm": 0.2893541753292084,
+      "learning_rate": 2.5610117625322118e-06,
+      "loss": 9.5964,
+      "step": 758
+    },
+    {
+      "epoch": 0.9103448275862069,
+      "grad_norm": 0.2874806523323059,
+      "learning_rate": 2.4937430958415278e-06,
+      "loss": 9.5995,
+      "step": 759
+    },
+    {
+      "epoch": 0.9115442278860569,
+      "grad_norm": 0.2814995348453522,
+      "learning_rate": 2.427347082870701e-06,
+      "loss": 9.6001,
+      "step": 760
+    },
+    {
+      "epoch": 0.912743628185907,
+      "grad_norm": 0.28927141427993774,
+      "learning_rate": 2.361824943263874e-06,
+      "loss": 9.6073,
+      "step": 761
+    },
+    {
+      "epoch": 0.9139430284857571,
+      "grad_norm": 0.29837363958358765,
+      "learning_rate": 2.2971778806127996e-06,
+      "loss": 9.6054,
+      "step": 762
+    },
+    {
+      "epoch": 0.9151424287856071,
+      "grad_norm": 0.25863122940063477,
+      "learning_rate": 2.233407082434724e-06,
+      "loss": 9.6017,
+      "step": 763
+    },
+    {
+      "epoch": 0.9163418290854572,
+      "grad_norm": 0.26800212264060974,
+      "learning_rate": 2.1705137201505965e-06,
+      "loss": 9.5951,
+      "step": 764
+    },
+    {
+      "epoch": 0.9175412293853074,
+      "grad_norm": 0.2701495587825775,
+      "learning_rate": 2.1084989490635255e-06,
+      "loss": 9.5911,
+      "step": 765
+    },
+    {
+      "epoch": 0.9187406296851575,
+      "grad_norm": 0.27781182527542114,
+      "learning_rate": 2.0473639083375795e-06,
+      "loss": 9.5949,
+      "step": 766
+    },
+    {
+      "epoch": 0.9199400299850075,
+      "grad_norm": 0.26822102069854736,
+      "learning_rate": 1.9871097209768375e-06,
+      "loss": 9.6018,
+      "step": 767
+    },
+    {
+      "epoch": 0.9211394302848576,
+      "grad_norm": 0.2740313708782196,
+      "learning_rate": 1.9277374938047988e-06,
+      "loss": 9.5969,
+      "step": 768
+    },
+    {
+      "epoch": 0.9223388305847077,
+      "grad_norm": 0.28559255599975586,
+      "learning_rate": 1.8692483174439946e-06,
+      "loss": 9.5933,
+      "step": 769
+    },
+    {
+      "epoch": 0.9235382308845578,
+      "grad_norm": 0.28170379996299744,
+      "learning_rate": 1.8116432662960037e-06,
+      "loss": 9.595,
+      "step": 770
+    },
+    {
+      "epoch": 0.9247376311844078,
+      "grad_norm": 0.2856314182281494,
+      "learning_rate": 1.7549233985217074e-06,
+      "loss": 9.5949,
+      "step": 771
+    },
+    {
+      "epoch": 0.9259370314842579,
+      "grad_norm": 0.28359171748161316,
+      "learning_rate": 1.6990897560218211e-06,
+      "loss": 9.5984,
+      "step": 772
+    },
+    {
+      "epoch": 0.927136431784108,
+      "grad_norm": 0.28927284479141235,
+      "learning_rate": 1.644143364417794e-06,
+      "loss": 9.6003,
+      "step": 773
+    },
+    {
+      "epoch": 0.928335832083958,
+      "grad_norm": 0.28748857975006104,
+      "learning_rate": 1.5900852330329563e-06,
+      "loss": 9.6163,
+      "step": 774
+    },
+    {
+      "epoch": 0.9295352323838081,
+      "grad_norm": 0.32728201150894165,
+      "learning_rate": 1.5369163548739462e-06,
+      "loss": 9.6079,
+      "step": 775
+    },
+    {
+      "epoch": 0.9307346326836582,
+      "grad_norm": 0.2640519440174103,
+      "learning_rate": 1.484637706612535e-06,
+      "loss": 9.5952,
+      "step": 776
+    },
+    {
+      "epoch": 0.9319340329835083,
+      "grad_norm": 0.2757025361061096,
+      "learning_rate": 1.4332502485676358e-06,
+      "loss": 9.5968,
+      "step": 777
+    },
+    {
+      "epoch": 0.9331334332833583,
+      "grad_norm": 0.2660670578479767,
+      "learning_rate": 1.3827549246876625e-06,
+      "loss": 9.5966,
+      "step": 778
+    },
+    {
+      "epoch": 0.9343328335832084,
+      "grad_norm": 0.26621681451797485,
+      "learning_rate": 1.333152662533227e-06,
+      "loss": 9.6007,
+      "step": 779
+    },
+    {
+      "epoch": 0.9355322338830585,
+      "grad_norm": 0.2719038426876068,
+      "learning_rate": 1.2844443732600576e-06,
+      "loss": 9.6027,
+      "step": 780
+    },
+    {
+      "epoch": 0.9367316341829085,
+      "grad_norm": 0.278006911277771,
+      "learning_rate": 1.2366309516022966e-06,
+      "loss": 9.6006,
+      "step": 781
+    },
+    {
+      "epoch": 0.9379310344827586,
+      "grad_norm": 0.2759842574596405,
+      "learning_rate": 1.189713275856047e-06,
+      "loss": 9.6019,
+      "step": 782
+    },
+    {
+      "epoch": 0.9391304347826087,
+      "grad_norm": 0.2800839841365814,
+      "learning_rate": 1.1436922078632394e-06,
+      "loss": 9.6011,
+      "step": 783
+    },
+    {
+      "epoch": 0.9403298350824588,
+      "grad_norm": 0.2854614555835724,
+      "learning_rate": 1.0985685929958134e-06,
+      "loss": 9.6005,
+      "step": 784
+    },
+    {
+      "epoch": 0.9415292353823088,
+      "grad_norm": 0.28942301869392395,
+      "learning_rate": 1.0543432601401615e-06,
+      "loss": 9.5996,
+      "step": 785
+    },
+    {
+      "epoch": 0.9427286356821589,
+      "grad_norm": 0.29389646649360657,
+      "learning_rate": 1.0110170216819316e-06,
+      "loss": 9.6074,
+      "step": 786
+    },
+    {
+      "epoch": 0.943928035982009,
+      "grad_norm": 0.29730501770973206,
+      "learning_rate": 9.685906734910988e-07,
+      "loss": 9.6045,
+      "step": 787
+    },
+    {
+      "epoch": 0.945127436281859,
+      "grad_norm": 0.27036651968955994,
+      "learning_rate": 9.270649949073229e-07,
+      "loss": 9.5922,
+      "step": 788
+    },
+    {
+      "epoch": 0.9463268365817091,
+      "grad_norm": 0.26795369386672974,
+      "learning_rate": 8.864407487256699e-07,
+      "loss": 9.5981,
+      "step": 789
+    },
+    {
+      "epoch": 0.9475262368815592,
+      "grad_norm": 0.27786487340927124,
+      "learning_rate": 8.467186811825623e-07,
+      "loss": 9.5882,
+      "step": 790
+    },
+    {
+      "epoch": 0.9487256371814093,
+      "grad_norm": 0.27581360936164856,
+      "learning_rate": 8.07899521942096e-07,
+      "loss": 9.5986,
+      "step": 791
+    },
+    {
+      "epoch": 0.9499250374812593,
+      "grad_norm": 0.27784955501556396,
+      "learning_rate": 7.69983984082634e-07,
+      "loss": 9.5951,
+      "step": 792
+    },
+    {
+      "epoch": 0.9511244377811094,
+      "grad_norm": 0.2779393196105957,
+      "learning_rate": 7.329727640837058e-07,
+      "loss": 9.5992,
+      "step": 793
+    },
+    {
+      "epoch": 0.9523238380809596,
+      "grad_norm": 0.2856026291847229,
+      "learning_rate": 6.968665418131848e-07,
+      "loss": 9.6011,
+      "step": 794
+    },
+    {
+      "epoch": 0.9535232383808095,
+      "grad_norm": 0.2818286418914795,
+      "learning_rate": 6.616659805148695e-07,
+      "loss": 9.603,
+      "step": 795
+    },
+    {
+      "epoch": 0.9547226386806597,
+      "grad_norm": 0.2779069244861603,
+      "learning_rate": 6.273717267962164e-07,
+      "loss": 9.6057,
+      "step": 796
+    },
+    {
+      "epoch": 0.9559220389805098,
+      "grad_norm": 0.28562232851982117,
+      "learning_rate": 5.93984410616527e-07,
+      "loss": 9.5981,
+      "step": 797
+    },
+    {
+      "epoch": 0.9571214392803599,
+      "grad_norm": 0.2814895510673523,
+      "learning_rate": 5.615046452753403e-07,
+      "loss": 9.6072,
+      "step": 798
+    },
+    {
+      "epoch": 0.9583208395802099,
+      "grad_norm": 0.291547030210495,
+      "learning_rate": 5.299330274011916e-07,
+      "loss": 9.6075,
+      "step": 799
+    },
+    {
+      "epoch": 0.95952023988006,
+      "grad_norm": 0.3199189603328705,
+      "learning_rate": 4.992701369406161e-07,
+      "loss": 9.6069,
+      "step": 800
+    },
+    {
+      "epoch": 0.9607196401799101,
+      "grad_norm": 0.26192960143089294,
+      "learning_rate": 4.695165371475463e-07,
+      "loss": 9.5961,
+      "step": 801
+    },
+    {
+      "epoch": 0.9619190404797601,
+      "grad_norm": 0.27191805839538574,
+      "learning_rate": 4.4067277457292556e-07,
+      "loss": 9.5925,
+      "step": 802
+    },
+    {
+      "epoch": 0.9631184407796102,
+      "grad_norm": 0.2721245288848877,
+      "learning_rate": 4.1273937905467185e-07,
+      "loss": 9.5944,
+      "step": 803
+    },
+    {
+      "epoch": 0.9643178410794603,
+      "grad_norm": 0.27019554376602173,
+      "learning_rate": 3.8571686370797443e-07,
+      "loss": 9.5939,
+      "step": 804
+    },
+    {
+      "epoch": 0.9655172413793104,
+      "grad_norm": 0.27776581048965454,
+      "learning_rate": 3.5960572491583466e-07,
+      "loss": 9.5946,
+      "step": 805
+    },
+    {
+      "epoch": 0.9667166416791604,
+      "grad_norm": 0.27804285287857056,
+      "learning_rate": 3.3440644231995664e-07,
+      "loss": 9.5989,
+      "step": 806
+    },
+    {
+      "epoch": 0.9679160419790105,
+      "grad_norm": 0.27963870763778687,
+      "learning_rate": 3.101194788119599e-07,
+      "loss": 9.5996,
+      "step": 807
+    },
+    {
+      "epoch": 0.9691154422788606,
+      "grad_norm": 0.27757352590560913,
+      "learning_rate": 2.867452805248416e-07,
+      "loss": 9.5986,
+      "step": 808
+    },
+    {
+      "epoch": 0.9703148425787106,
+      "grad_norm": 0.27756595611572266,
+      "learning_rate": 2.642842768248055e-07,
+      "loss": 9.6037,
+      "step": 809
+    },
+    {
+      "epoch": 0.9715142428785607,
+      "grad_norm": 0.2873465418815613,
+      "learning_rate": 2.4273688030336805e-07,
+      "loss": 9.6023,
+      "step": 810
+    },
+    {
+      "epoch": 0.9727136431784108,
+      "grad_norm": 0.29148492217063904,
+      "learning_rate": 2.2210348676977023e-07,
+      "loss": 9.5991,
+      "step": 811
+    },
+    {
+      "epoch": 0.9739130434782609,
+      "grad_norm": 0.30888915061950684,
+      "learning_rate": 2.0238447524372205e-07,
+      "loss": 9.6039,
+      "step": 812
+    },
+    {
+      "epoch": 0.9751124437781109,
+      "grad_norm": 0.2737792730331421,
+      "learning_rate": 1.8358020794843056e-07,
+      "loss": 9.5931,
+      "step": 813
+    },
+    {
+      "epoch": 0.976311844077961,
+      "grad_norm": 0.2680344581604004,
+      "learning_rate": 1.6569103030394938e-07,
+      "loss": 9.5942,
+      "step": 814
+    },
+    {
+      "epoch": 0.9775112443778111,
+      "grad_norm": 0.272061288356781,
+      "learning_rate": 1.48717270920834e-07,
+      "loss": 9.5932,
+      "step": 815
+    },
+    {
+      "epoch": 0.9787106446776612,
+      "grad_norm": 0.273945152759552,
+      "learning_rate": 1.3265924159410192e-07,
+      "loss": 9.5924,
+      "step": 816
+    },
+    {
+      "epoch": 0.9799100449775112,
+      "grad_norm": 0.27954599261283875,
+      "learning_rate": 1.1751723729750974e-07,
+      "loss": 9.5923,
+      "step": 817
+    },
+    {
+      "epoch": 0.9811094452773613,
+      "grad_norm": 0.27977848052978516,
+      "learning_rate": 1.0329153617812947e-07,
+      "loss": 9.5911,
+      "step": 818
+    },
+    {
+      "epoch": 0.9823088455772114,
+      "grad_norm": 0.275766521692276,
+      "learning_rate": 8.998239955124721e-08,
+      "loss": 9.6008,
+      "step": 819
+    },
+    {
+      "epoch": 0.9835082458770614,
+      "grad_norm": 0.2739316523075104,
+      "learning_rate": 7.759007189555579e-08,
+      "loss": 9.6012,
+      "step": 820
+    },
+    {
+      "epoch": 0.9847076461769115,
+      "grad_norm": 0.2775361239910126,
+      "learning_rate": 6.611478084866951e-08,
+      "loss": 9.6039,
+      "step": 821
+    },
+    {
+      "epoch": 0.9859070464767616,
+      "grad_norm": 0.2795866131782532,
+      "learning_rate": 5.555673720292753e-08,
+      "loss": 9.6031,
+      "step": 822
+    },
+    {
+      "epoch": 0.9871064467766117,
+      "grad_norm": 0.29514625668525696,
+      "learning_rate": 4.5916134901552443e-08,
+      "loss": 9.6003,
+      "step": 823
+    },
+    {
+      "epoch": 0.9883058470764617,
+      "grad_norm": 0.29738849401474,
+      "learning_rate": 3.7193151035047616e-08,
+      "loss": 9.6031,
+      "step": 824
+    },
+    {
+      "epoch": 0.9895052473763118,
+      "grad_norm": 0.3434954285621643,
+      "learning_rate": 2.93879458379831e-08,
+      "loss": 9.6087,
+      "step": 825
+    },
+    {
+      "epoch": 0.990704647676162,
+      "grad_norm": 0.26993241906166077,
+      "learning_rate": 2.2500662686025797e-08,
+      "loss": 9.5913,
+      "step": 826
+    },
+    {
+      "epoch": 0.991904047976012,
+      "grad_norm": 0.27204930782318115,
+      "learning_rate": 1.653142809331376e-08,
+      "loss": 9.597,
+      "step": 827
+    },
+    {
+      "epoch": 0.993103448275862,
+      "grad_norm": 0.2699795067310333,
+      "learning_rate": 1.148035171014139e-08,
+      "loss": 9.5989,
+      "step": 828
+    },
+    {
+      "epoch": 0.9943028485757122,
+      "grad_norm": 0.2756272852420807,
+      "learning_rate": 7.347526320927723e-09,
+      "loss": 9.6,
+      "step": 829
+    },
+    {
+      "epoch": 0.9955022488755623,
+      "grad_norm": 0.2937001585960388,
+      "learning_rate": 4.133027842517789e-09,
+      "loss": 9.5987,
+      "step": 830
+    },
+    {
+      "epoch": 0.9967016491754123,
+      "grad_norm": 0.2777741551399231,
+      "learning_rate": 1.8369153228114944e-09,
+      "loss": 9.5984,
+      "step": 831
+    },
+    {
+      "epoch": 0.9979010494752624,
+      "grad_norm": 0.277544766664505,
+      "learning_rate": 4.5923093963118335e-10,
+      "loss": 9.6021,
+      "step": 832
+    },
+    {
+      "epoch": 0.9991004497751125,
+      "grad_norm": 0.2950143814086914,
+      "learning_rate": 0.0,
+      "loss": 9.6099,
+      "step": 833
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 691668038713344.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null