{
  "best_metric": 0.042238425940266514,
  "best_model_checkpoint": "checkpoints/checkpoint-4000",
  "epoch": 10.0,
  "eval_steps": 1000,
  "global_step": 4370,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2288329519450801,
      "grad_norm": 0.8938984274864197,
      "learning_rate": 1e-05,
      "loss": 0.0975,
      "step": 100
    },
    {
      "epoch": 0.4576659038901602,
      "grad_norm": 1.1161267757415771,
      "learning_rate": 2e-05,
      "loss": 0.0613,
      "step": 200
    },
    {
      "epoch": 0.6864988558352403,
      "grad_norm": 1.264156460762024,
      "learning_rate": 3e-05,
      "loss": 0.0533,
      "step": 300
    },
    {
      "epoch": 0.9153318077803204,
      "grad_norm": 2.014840602874756,
      "learning_rate": 4e-05,
      "loss": 0.0528,
      "step": 400
    },
    {
      "epoch": 1.1441647597254005,
      "grad_norm": 0.28405696153640747,
      "learning_rate": 5e-05,
      "loss": 0.0481,
      "step": 500
    },
    {
      "epoch": 1.3729977116704806,
      "grad_norm": 0.4474036395549774,
      "learning_rate": 6e-05,
      "loss": 0.0549,
      "step": 600
    },
    {
      "epoch": 1.6018306636155606,
      "grad_norm": 0.3621448278427124,
      "learning_rate": 7e-05,
      "loss": 0.0592,
      "step": 700
    },
    {
      "epoch": 1.8306636155606406,
      "grad_norm": 1.5040546655654907,
      "learning_rate": 8e-05,
      "loss": 0.0596,
      "step": 800
    },
    {
      "epoch": 2.059496567505721,
      "grad_norm": 0.5771723389625549,
      "learning_rate": 9e-05,
      "loss": 0.0625,
      "step": 900
    },
    {
      "epoch": 2.288329519450801,
      "grad_norm": 0.7228975296020508,
      "learning_rate": 0.0001,
      "loss": 0.0507,
      "step": 1000
    },
    {
      "epoch": 2.288329519450801,
      "eval_loss": 0.05043927580118179,
      "eval_per": 0.05231171437952632,
      "eval_runtime": 73.3314,
      "eval_samples_per_second": 84.752,
      "eval_steps_per_second": 1.336,
      "eval_ter": 0.09057921991660414,
      "step": 1000
    },
    {
      "epoch": 2.517162471395881,
      "grad_norm": 0.6161186695098877,
      "learning_rate": 9.70326409495549e-05,
      "loss": 0.0581,
      "step": 1100
    },
    {
      "epoch": 2.745995423340961,
      "grad_norm": 0.4418635964393616,
      "learning_rate": 9.40652818991098e-05,
      "loss": 0.0578,
      "step": 1200
    },
    {
      "epoch": 2.974828375286041,
      "grad_norm": 1.2202107906341553,
      "learning_rate": 9.10979228486647e-05,
      "loss": 0.0582,
      "step": 1300
    },
    {
      "epoch": 3.203661327231121,
      "grad_norm": 0.6182931065559387,
      "learning_rate": 8.813056379821959e-05,
      "loss": 0.0444,
      "step": 1400
    },
    {
      "epoch": 3.4324942791762014,
      "grad_norm": 0.36747854948043823,
      "learning_rate": 8.516320474777448e-05,
      "loss": 0.0431,
      "step": 1500
    },
    {
      "epoch": 3.6613272311212812,
      "grad_norm": 0.5178420543670654,
      "learning_rate": 8.219584569732938e-05,
      "loss": 0.0379,
      "step": 1600
    },
    {
      "epoch": 3.8901601830663615,
      "grad_norm": 0.4050116539001465,
      "learning_rate": 7.922848664688428e-05,
      "loss": 0.0373,
      "step": 1700
    },
    {
      "epoch": 4.118993135011442,
      "grad_norm": 0.2309502214193344,
      "learning_rate": 7.626112759643917e-05,
      "loss": 0.0336,
      "step": 1800
    },
    {
      "epoch": 4.3478260869565215,
      "grad_norm": 0.7122157216072083,
      "learning_rate": 7.329376854599406e-05,
      "loss": 0.0321,
      "step": 1900
    },
    {
      "epoch": 4.576659038901602,
      "grad_norm": 0.20260649919509888,
      "learning_rate": 7.032640949554896e-05,
      "loss": 0.0327,
      "step": 2000
    },
    {
      "epoch": 4.576659038901602,
      "eval_loss": 0.05170031264424324,
      "eval_per": 0.044530625646617146,
      "eval_runtime": 73.8457,
      "eval_samples_per_second": 84.162,
      "eval_steps_per_second": 1.327,
      "eval_ter": 0.09002570757327888,
      "step": 2000
    },
    {
      "epoch": 4.805491990846682,
      "grad_norm": 0.1853743940591812,
      "learning_rate": 6.735905044510387e-05,
      "loss": 0.0306,
      "step": 2100
    },
    {
      "epoch": 5.034324942791762,
      "grad_norm": 0.26290130615234375,
      "learning_rate": 6.439169139465876e-05,
      "loss": 0.029,
      "step": 2200
    },
    {
      "epoch": 5.2631578947368425,
      "grad_norm": 0.24352087080478668,
      "learning_rate": 6.142433234421366e-05,
      "loss": 0.0238,
      "step": 2300
    },
    {
      "epoch": 5.491990846681922,
      "grad_norm": 0.506681501865387,
      "learning_rate": 5.845697329376855e-05,
      "loss": 0.023,
      "step": 2400
    },
    {
      "epoch": 5.720823798627002,
      "grad_norm": 0.2733093202114105,
      "learning_rate": 5.548961424332344e-05,
      "loss": 0.025,
      "step": 2500
    },
    {
      "epoch": 5.949656750572083,
      "grad_norm": 0.38764065504074097,
      "learning_rate": 5.252225519287835e-05,
      "loss": 0.0257,
      "step": 2600
    },
    {
      "epoch": 6.178489702517163,
      "grad_norm": 0.9044945240020752,
      "learning_rate": 4.9554896142433236e-05,
      "loss": 0.0206,
      "step": 2700
    },
    {
      "epoch": 6.407322654462242,
      "grad_norm": 0.2747916579246521,
      "learning_rate": 4.658753709198813e-05,
      "loss": 0.0175,
      "step": 2800
    },
    {
      "epoch": 6.636155606407323,
      "grad_norm": 0.22902531921863556,
      "learning_rate": 4.362017804154303e-05,
      "loss": 0.0164,
      "step": 2900
    },
    {
      "epoch": 6.864988558352403,
      "grad_norm": 0.28316548466682434,
      "learning_rate": 4.0652818991097924e-05,
      "loss": 0.0167,
      "step": 3000
    },
    {
      "epoch": 6.864988558352403,
      "eval_loss": 0.044352661818265915,
      "eval_per": 0.04722550908516451,
      "eval_runtime": 73.6387,
      "eval_samples_per_second": 84.399,
      "eval_steps_per_second": 1.331,
      "eval_ter": 0.08786085929716232,
      "step": 3000
    },
    {
      "epoch": 7.093821510297483,
      "grad_norm": 0.220920130610466,
      "learning_rate": 3.768545994065282e-05,
      "loss": 0.0149,
      "step": 3100
    },
    {
      "epoch": 7.322654462242563,
      "grad_norm": 2.0292646884918213,
      "learning_rate": 3.4718100890207716e-05,
      "loss": 0.0137,
      "step": 3200
    },
    {
      "epoch": 7.551487414187643,
      "grad_norm": 0.3689746558666229,
      "learning_rate": 3.175074183976261e-05,
      "loss": 0.0131,
      "step": 3300
    },
    {
      "epoch": 7.780320366132723,
      "grad_norm": 0.17288458347320557,
      "learning_rate": 2.878338278931751e-05,
      "loss": 0.0129,
      "step": 3400
    },
    {
      "epoch": 8.009153318077804,
      "grad_norm": 0.13609908521175385,
      "learning_rate": 2.58160237388724e-05,
      "loss": 0.0117,
      "step": 3500
    },
    {
      "epoch": 8.237986270022883,
      "grad_norm": 0.14868062734603882,
      "learning_rate": 2.28486646884273e-05,
      "loss": 0.0099,
      "step": 3600
    },
    {
      "epoch": 8.466819221967963,
      "grad_norm": 0.4655757248401642,
      "learning_rate": 1.9881305637982196e-05,
      "loss": 0.0089,
      "step": 3700
    },
    {
      "epoch": 8.695652173913043,
      "grad_norm": 0.41903799772262573,
      "learning_rate": 1.6913946587537096e-05,
      "loss": 0.009,
      "step": 3800
    },
    {
      "epoch": 8.924485125858123,
      "grad_norm": 0.17405986785888672,
      "learning_rate": 1.394658753709199e-05,
      "loss": 0.0085,
      "step": 3900
    },
    {
      "epoch": 9.153318077803204,
      "grad_norm": 0.16548456251621246,
      "learning_rate": 1.0979228486646884e-05,
      "loss": 0.0076,
      "step": 4000
    },
    {
      "epoch": 9.153318077803204,
      "eval_loss": 0.04819780960679054,
      "eval_per": 0.042238425940266514,
      "eval_runtime": 74.5094,
      "eval_samples_per_second": 83.412,
      "eval_steps_per_second": 1.315,
      "eval_ter": 0.08691373817636133,
      "step": 4000
    },
    {
      "epoch": 9.382151029748284,
      "grad_norm": 0.16761469841003418,
      "learning_rate": 8.011869436201782e-06,
      "loss": 0.0068,
      "step": 4100
    },
    {
      "epoch": 9.610983981693364,
      "grad_norm": 0.23434874415397644,
      "learning_rate": 5.044510385756677e-06,
      "loss": 0.0062,
      "step": 4200
    },
    {
      "epoch": 9.839816933638444,
      "grad_norm": 0.1882612109184265,
      "learning_rate": 2.0771513353115726e-06,
      "loss": 0.0065,
      "step": 4300
    }
  ],
  "logging_steps": 100,
  "max_steps": 4370,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.034289580760073e+19,
  "train_batch_size": 128,
  "trial_name": null,
  "trial_params": null
}