{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.021276595744681,
  "eval_steps": 6,
  "global_step": 71,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0425531914893617,
      "grad_norm": 5.459763526916504,
      "learning_rate": 1e-05,
      "loss": 4.2903,
      "step": 1
    },
    {
      "epoch": 0.0425531914893617,
      "eval_loss": 3.471952438354492,
      "eval_runtime": 2.7118,
      "eval_samples_per_second": 7.375,
      "eval_steps_per_second": 1.106,
      "step": 1
    },
    {
      "epoch": 0.0851063829787234,
      "grad_norm": 3.917149782180786,
      "learning_rate": 2e-05,
      "loss": 3.617,
      "step": 2
    },
    {
      "epoch": 0.1276595744680851,
      "grad_norm": 5.041039943695068,
      "learning_rate": 3e-05,
      "loss": 3.9153,
      "step": 3
    },
    {
      "epoch": 0.1702127659574468,
      "grad_norm": 4.498298645019531,
      "learning_rate": 4e-05,
      "loss": 3.6484,
      "step": 4
    },
    {
      "epoch": 0.2127659574468085,
      "grad_norm": 3.9339277744293213,
      "learning_rate": 5e-05,
      "loss": 3.4647,
      "step": 5
    },
    {
      "epoch": 0.2553191489361702,
      "grad_norm": 4.748612880706787,
      "learning_rate": 6e-05,
      "loss": 3.8634,
      "step": 6
    },
    {
      "epoch": 0.2553191489361702,
      "eval_loss": 3.3051764965057373,
      "eval_runtime": 2.2411,
      "eval_samples_per_second": 8.924,
      "eval_steps_per_second": 1.339,
      "step": 6
    },
    {
      "epoch": 0.2978723404255319,
      "grad_norm": 4.817142963409424,
      "learning_rate": 7e-05,
      "loss": 3.4771,
      "step": 7
    },
    {
      "epoch": 0.3404255319148936,
      "grad_norm": 4.849077224731445,
      "learning_rate": 8e-05,
      "loss": 3.08,
      "step": 8
    },
    {
      "epoch": 0.3829787234042553,
      "grad_norm": 5.077943801879883,
      "learning_rate": 9e-05,
      "loss": 3.2799,
      "step": 9
    },
    {
      "epoch": 0.425531914893617,
      "grad_norm": 4.144843101501465,
      "learning_rate": 0.0001,
      "loss": 2.9178,
      "step": 10
    },
    {
      "epoch": 0.46808510638297873,
      "grad_norm": 3.8266139030456543,
      "learning_rate": 9.993370449424153e-05,
      "loss": 2.9265,
      "step": 11
    },
    {
      "epoch": 0.5106382978723404,
      "grad_norm": 4.5639238357543945,
      "learning_rate": 9.973499378072945e-05,
      "loss": 2.8173,
      "step": 12
    },
    {
      "epoch": 0.5106382978723404,
      "eval_loss": 2.709813117980957,
      "eval_runtime": 2.228,
      "eval_samples_per_second": 8.977,
      "eval_steps_per_second": 1.347,
      "step": 12
    },
    {
      "epoch": 0.5531914893617021,
      "grad_norm": 5.040618419647217,
      "learning_rate": 9.940439480455386e-05,
      "loss": 3.014,
      "step": 13
    },
    {
      "epoch": 0.5957446808510638,
      "grad_norm": 4.853224754333496,
      "learning_rate": 9.89427842547679e-05,
      "loss": 2.851,
      "step": 14
    },
    {
      "epoch": 0.6382978723404256,
      "grad_norm": 5.146262168884277,
      "learning_rate": 9.835138623956603e-05,
      "loss": 2.4404,
      "step": 15
    },
    {
      "epoch": 0.6808510638297872,
      "grad_norm": 4.046046733856201,
      "learning_rate": 9.763176904016913e-05,
      "loss": 2.7643,
      "step": 16
    },
    {
      "epoch": 0.723404255319149,
      "grad_norm": 4.515383720397949,
      "learning_rate": 9.678584095202468e-05,
      "loss": 2.7987,
      "step": 17
    },
    {
      "epoch": 0.7659574468085106,
      "grad_norm": 4.7599077224731445,
      "learning_rate": 9.581584522435024e-05,
      "loss": 2.6571,
      "step": 18
    },
    {
      "epoch": 0.7659574468085106,
      "eval_loss": 2.4885013103485107,
      "eval_runtime": 2.2337,
      "eval_samples_per_second": 8.954,
      "eval_steps_per_second": 1.343,
      "step": 18
    },
    {
      "epoch": 0.8085106382978723,
      "grad_norm": 4.324161052703857,
      "learning_rate": 9.472435411143978e-05,
      "loss": 2.6702,
      "step": 19
    },
    {
      "epoch": 0.851063829787234,
      "grad_norm": 4.819840431213379,
      "learning_rate": 9.351426205150777e-05,
      "loss": 2.6863,
      "step": 20
    },
    {
      "epoch": 0.8936170212765957,
      "grad_norm": 4.657737731933594,
      "learning_rate": 9.218877799115928e-05,
      "loss": 2.8337,
      "step": 21
    },
    {
      "epoch": 0.9361702127659575,
      "grad_norm": 4.485058784484863,
      "learning_rate": 9.075141687584057e-05,
      "loss": 2.5593,
      "step": 22
    },
    {
      "epoch": 0.9787234042553191,
      "grad_norm": 4.627413272857666,
      "learning_rate": 8.920599032883554e-05,
      "loss": 2.3298,
      "step": 23
    },
    {
      "epoch": 1.0212765957446808,
      "grad_norm": 6.626729965209961,
      "learning_rate": 8.755659654352599e-05,
      "loss": 3.4283,
      "step": 24
    },
    {
      "epoch": 1.0212765957446808,
      "eval_loss": 2.3800294399261475,
      "eval_runtime": 2.2309,
      "eval_samples_per_second": 8.965,
      "eval_steps_per_second": 1.345,
      "step": 24
    },
    {
      "epoch": 1.0638297872340425,
      "grad_norm": 4.13759708404541,
      "learning_rate": 8.580760941571967e-05,
      "loss": 2.1707,
      "step": 25
    },
    {
      "epoch": 1.1063829787234043,
      "grad_norm": 3.4080007076263428,
      "learning_rate": 8.396366694486466e-05,
      "loss": 1.9899,
      "step": 26
    },
    {
      "epoch": 1.148936170212766,
      "grad_norm": 3.8221523761749268,
      "learning_rate": 8.202965893490878e-05,
      "loss": 2.1952,
      "step": 27
    },
    {
      "epoch": 1.1914893617021276,
      "grad_norm": 3.4024007320404053,
      "learning_rate": 8.001071402741842e-05,
      "loss": 2.1681,
      "step": 28
    },
    {
      "epoch": 1.2340425531914894,
      "grad_norm": 3.575551748275757,
      "learning_rate": 7.791218610134323e-05,
      "loss": 2.2188,
      "step": 29
    },
    {
      "epoch": 1.2765957446808511,
      "grad_norm": 3.513150691986084,
      "learning_rate": 7.573964007549155e-05,
      "loss": 2.151,
      "step": 30
    },
    {
      "epoch": 1.2765957446808511,
      "eval_loss": 2.3683934211730957,
      "eval_runtime": 2.2274,
      "eval_samples_per_second": 8.979,
      "eval_steps_per_second": 1.347,
      "step": 30
    },
    {
      "epoch": 1.3191489361702127,
      "grad_norm": 3.2805087566375732,
      "learning_rate": 7.3498837151366e-05,
      "loss": 1.9599,
      "step": 31
    },
    {
      "epoch": 1.3617021276595744,
      "grad_norm": 4.179283142089844,
      "learning_rate": 7.119571953549305e-05,
      "loss": 2.0139,
      "step": 32
    },
    {
      "epoch": 1.4042553191489362,
      "grad_norm": 3.9999680519104004,
      "learning_rate": 6.883639468175927e-05,
      "loss": 2.0877,
      "step": 33
    },
    {
      "epoch": 1.4468085106382977,
      "grad_norm": 4.304896831512451,
      "learning_rate": 6.642711909554174e-05,
      "loss": 2.0309,
      "step": 34
    },
    {
      "epoch": 1.4893617021276595,
      "grad_norm": 5.074006080627441,
      "learning_rate": 6.397428174258047e-05,
      "loss": 2.037,
      "step": 35
    },
    {
      "epoch": 1.5319148936170213,
      "grad_norm": 4.077316761016846,
      "learning_rate": 6.14843871065898e-05,
      "loss": 2.4736,
      "step": 36
    },
    {
      "epoch": 1.5319148936170213,
      "eval_loss": 2.3549792766571045,
      "eval_runtime": 2.2311,
      "eval_samples_per_second": 8.964,
      "eval_steps_per_second": 1.345,
      "step": 36
    },
    {
      "epoch": 1.574468085106383,
      "grad_norm": 3.5572543144226074,
      "learning_rate": 5.896403794053679e-05,
      "loss": 2.1472,
      "step": 37
    },
    {
      "epoch": 1.6170212765957448,
      "grad_norm": 4.10029411315918,
      "learning_rate": 5.6419917757327555e-05,
      "loss": 1.8617,
      "step": 38
    },
    {
      "epoch": 1.6595744680851063,
      "grad_norm": 4.42141580581665,
      "learning_rate": 5.385877310633233e-05,
      "loss": 2.1676,
      "step": 39
    },
    {
      "epoch": 1.702127659574468,
      "grad_norm": 3.26680850982666,
      "learning_rate": 5.128739568274944e-05,
      "loss": 2.2175,
      "step": 40
    },
    {
      "epoch": 1.7446808510638299,
      "grad_norm": 3.8512306213378906,
      "learning_rate": 4.8712604317250576e-05,
      "loss": 1.8992,
      "step": 41
    },
    {
      "epoch": 1.7872340425531914,
      "grad_norm": 3.9825119972229004,
      "learning_rate": 4.6141226893667684e-05,
      "loss": 2.2559,
      "step": 42
    },
    {
      "epoch": 1.7872340425531914,
      "eval_loss": 2.334648370742798,
      "eval_runtime": 2.2287,
      "eval_samples_per_second": 8.974,
      "eval_steps_per_second": 1.346,
      "step": 42
    },
    {
      "epoch": 1.8297872340425532,
      "grad_norm": 4.559070587158203,
      "learning_rate": 4.358008224267245e-05,
      "loss": 2.1762,
      "step": 43
    },
    {
      "epoch": 1.872340425531915,
      "grad_norm": 4.338398456573486,
      "learning_rate": 4.103596205946323e-05,
      "loss": 2.2676,
      "step": 44
    },
    {
      "epoch": 1.9148936170212765,
      "grad_norm": 4.255253314971924,
      "learning_rate": 3.851561289341023e-05,
      "loss": 1.8739,
      "step": 45
    },
    {
      "epoch": 1.9574468085106385,
      "grad_norm": 4.928769588470459,
      "learning_rate": 3.602571825741953e-05,
      "loss": 2.1488,
      "step": 46
    },
    {
      "epoch": 2.0,
      "grad_norm": 6.579207897186279,
      "learning_rate": 3.357288090445827e-05,
      "loss": 3.1568,
      "step": 47
    },
    {
      "epoch": 2.0425531914893615,
      "grad_norm": 3.1918604373931885,
      "learning_rate": 3.116360531824074e-05,
      "loss": 1.7977,
      "step": 48
    },
    {
      "epoch": 2.0425531914893615,
      "eval_loss": 2.301907539367676,
      "eval_runtime": 2.2325,
      "eval_samples_per_second": 8.959,
      "eval_steps_per_second": 1.344,
      "step": 48
    },
    {
      "epoch": 2.0851063829787235,
      "grad_norm": 3.817690134048462,
      "learning_rate": 2.8804280464506973e-05,
      "loss": 1.8944,
      "step": 49
    },
    {
      "epoch": 2.127659574468085,
      "grad_norm": 3.952306032180786,
      "learning_rate": 2.650116284863402e-05,
      "loss": 1.7862,
      "step": 50
    },
    {
      "epoch": 2.1702127659574466,
      "grad_norm": 3.1009395122528076,
      "learning_rate": 2.426035992450848e-05,
      "loss": 1.5236,
      "step": 51
    },
    {
      "epoch": 2.2127659574468086,
      "grad_norm": 3.100109577178955,
      "learning_rate": 2.2087813898656774e-05,
      "loss": 1.7312,
      "step": 52
    },
    {
      "epoch": 2.25531914893617,
      "grad_norm": 2.772387981414795,
      "learning_rate": 1.9989285972581595e-05,
      "loss": 1.8003,
      "step": 53
    },
    {
      "epoch": 2.297872340425532,
      "grad_norm": 2.9776549339294434,
      "learning_rate": 1.7970341065091245e-05,
      "loss": 1.6636,
      "step": 54
    },
    {
      "epoch": 2.297872340425532,
      "eval_loss": 2.307121753692627,
      "eval_runtime": 2.2327,
      "eval_samples_per_second": 8.958,
      "eval_steps_per_second": 1.344,
      "step": 54
    },
    {
      "epoch": 2.3404255319148937,
      "grad_norm": 2.711627960205078,
      "learning_rate": 1.6036333055135344e-05,
      "loss": 1.7249,
      "step": 55
    },
    {
      "epoch": 2.382978723404255,
      "grad_norm": 2.998987913131714,
      "learning_rate": 1.4192390584280346e-05,
      "loss": 1.7655,
      "step": 56
    },
    {
      "epoch": 2.425531914893617,
      "grad_norm": 3.725801706314087,
      "learning_rate": 1.2443403456474017e-05,
      "loss": 1.8057,
      "step": 57
    },
    {
      "epoch": 2.4680851063829787,
      "grad_norm": 3.7398223876953125,
      "learning_rate": 1.0794009671164484e-05,
      "loss": 1.79,
      "step": 58
    },
    {
      "epoch": 2.5106382978723403,
      "grad_norm": 2.811511993408203,
      "learning_rate": 9.248583124159438e-06,
      "loss": 1.7487,
      "step": 59
    },
    {
      "epoch": 2.5531914893617023,
      "grad_norm": 3.29445219039917,
      "learning_rate": 7.81122200884072e-06,
      "loss": 1.617,
      "step": 60
    },
    {
      "epoch": 2.5531914893617023,
      "eval_loss": 2.3166096210479736,
      "eval_runtime": 2.2287,
      "eval_samples_per_second": 8.974,
      "eval_steps_per_second": 1.346,
      "step": 60
    },
    {
      "epoch": 2.595744680851064,
      "grad_norm": 4.6789445877075195,
      "learning_rate": 6.4857379484922375e-06,
      "loss": 2.0944,
      "step": 61
    },
    {
      "epoch": 2.6382978723404253,
      "grad_norm": 3.2288119792938232,
      "learning_rate": 5.275645888560232e-06,
      "loss": 1.6808,
      "step": 62
    },
    {
      "epoch": 2.6808510638297873,
      "grad_norm": 4.059349536895752,
      "learning_rate": 4.184154775649768e-06,
      "loss": 2.0006,
      "step": 63
    },
    {
      "epoch": 2.723404255319149,
      "grad_norm": 2.783024549484253,
      "learning_rate": 3.2141590479753236e-06,
      "loss": 1.7605,
      "step": 64
    },
    {
      "epoch": 2.7659574468085104,
      "grad_norm": 3.785507917404175,
      "learning_rate": 2.3682309598308747e-06,
      "loss": 1.8019,
      "step": 65
    },
    {
      "epoch": 2.8085106382978724,
      "grad_norm": 3.3201539516448975,
      "learning_rate": 1.6486137604339813e-06,
      "loss": 1.7181,
      "step": 66
    },
    {
      "epoch": 2.8085106382978724,
      "eval_loss": 2.3182761669158936,
      "eval_runtime": 2.2303,
      "eval_samples_per_second": 8.967,
      "eval_steps_per_second": 1.345,
      "step": 66
    },
    {
      "epoch": 2.851063829787234,
      "grad_norm": 3.517794370651245,
      "learning_rate": 1.0572157452321097e-06,
      "loss": 1.4794,
      "step": 67
    },
    {
      "epoch": 2.8936170212765955,
      "grad_norm": 3.758125066757202,
      "learning_rate": 5.956051954461472e-07,
      "loss": 1.526,
      "step": 68
    },
    {
      "epoch": 2.9361702127659575,
      "grad_norm": 2.9481680393218994,
      "learning_rate": 2.6500621927054715e-07,
      "loss": 1.5486,
      "step": 69
    },
    {
      "epoch": 2.978723404255319,
      "grad_norm": 3.1529266834259033,
      "learning_rate": 6.629550575847354e-08,
      "loss": 1.6324,
      "step": 70
    },
    {
      "epoch": 3.021276595744681,
      "grad_norm": 5.245131492614746,
      "learning_rate": 0.0,
      "loss": 2.7132,
      "step": 71
    }
  ],
  "logging_steps": 1,
  "max_steps": 71,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.267399713279181e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}