{
  "best_metric": 4.583011150360107,
  "best_model_checkpoint": "/home/p318482/babyLM_controlled/models_trained/de_clm/childes_30/checkpoint-32000",
  "epoch": 83.85744234800839,
  "eval_steps": 2000,
  "global_step": 80000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0964360587002098,
      "eval_loss": 7.102903366088867,
      "eval_runtime": 0.9708,
      "eval_samples_per_second": 1416.286,
      "eval_steps_per_second": 88.582,
      "step": 2000
    },
    {
      "epoch": 4.1928721174004195,
      "grad_norm": 1.3964662551879883,
      "learning_rate": 1e-05,
      "loss": 6.9987,
      "step": 4000
    },
    {
      "epoch": 4.1928721174004195,
      "eval_loss": 5.884151935577393,
      "eval_runtime": 0.966,
      "eval_samples_per_second": 1423.408,
      "eval_steps_per_second": 89.028,
      "step": 4000
    },
    {
      "epoch": 6.289308176100629,
      "eval_loss": 5.54873514175415,
      "eval_runtime": 0.9657,
      "eval_samples_per_second": 1423.84,
      "eval_steps_per_second": 89.055,
      "step": 6000
    },
    {
      "epoch": 8.385744234800839,
      "grad_norm": 2.7172107696533203,
      "learning_rate": 2e-05,
      "loss": 5.2204,
      "step": 8000
    },
    {
      "epoch": 8.385744234800839,
      "eval_loss": 5.2793288230896,
      "eval_runtime": 0.9644,
      "eval_samples_per_second": 1425.779,
      "eval_steps_per_second": 89.176,
      "step": 8000
    },
    {
      "epoch": 10.482180293501049,
      "eval_loss": 5.10486364364624,
      "eval_runtime": 0.9641,
      "eval_samples_per_second": 1426.204,
      "eval_steps_per_second": 89.203,
      "step": 10000
    },
    {
      "epoch": 12.578616352201259,
      "grad_norm": 2.500443458557129,
      "learning_rate": 2.99925e-05,
      "loss": 4.7358,
      "step": 12000
    },
    {
      "epoch": 12.578616352201259,
      "eval_loss": 4.983631134033203,
      "eval_runtime": 0.9644,
      "eval_samples_per_second": 1425.809,
      "eval_steps_per_second": 89.178,
      "step": 12000
    },
    {
      "epoch": 14.675052410901468,
      "eval_loss": 4.882917404174805,
      "eval_runtime": 0.9686,
      "eval_samples_per_second": 1419.612,
      "eval_steps_per_second": 88.79,
      "step": 14000
    },
    {
      "epoch": 16.771488469601678,
      "grad_norm": 2.400749444961548,
      "learning_rate": 3.999e-05,
      "loss": 4.4216,
      "step": 16000
    },
    {
      "epoch": 16.771488469601678,
      "eval_loss": 4.802889823913574,
      "eval_runtime": 0.9763,
      "eval_samples_per_second": 1408.393,
      "eval_steps_per_second": 88.089,
      "step": 16000
    },
    {
      "epoch": 18.867924528301888,
      "eval_loss": 4.74226188659668,
      "eval_runtime": 0.976,
      "eval_samples_per_second": 1408.882,
      "eval_steps_per_second": 88.119,
      "step": 18000
    },
    {
      "epoch": 20.964360587002098,
      "grad_norm": 2.2613022327423096,
      "learning_rate": 4.9985e-05,
      "loss": 4.1842,
      "step": 20000
    },
    {
      "epoch": 20.964360587002098,
      "eval_loss": 4.690371513366699,
      "eval_runtime": 0.9669,
      "eval_samples_per_second": 1422.037,
      "eval_steps_per_second": 88.942,
      "step": 20000
    },
    {
      "epoch": 23.060796645702307,
      "eval_loss": 4.645771503448486,
      "eval_runtime": 0.966,
      "eval_samples_per_second": 1423.404,
      "eval_steps_per_second": 89.027,
      "step": 22000
    },
    {
      "epoch": 25.157232704402517,
      "grad_norm": 2.2588465213775635,
      "learning_rate": 5.9980000000000005e-05,
      "loss": 3.9858,
      "step": 24000
    },
    {
      "epoch": 25.157232704402517,
      "eval_loss": 4.623382568359375,
      "eval_runtime": 0.9666,
      "eval_samples_per_second": 1422.538,
      "eval_steps_per_second": 88.973,
      "step": 24000
    },
    {
      "epoch": 27.253668763102727,
      "eval_loss": 4.6056084632873535,
      "eval_runtime": 0.9825,
      "eval_samples_per_second": 1399.422,
      "eval_steps_per_second": 87.527,
      "step": 26000
    },
    {
      "epoch": 29.350104821802937,
      "grad_norm": 2.1845760345458984,
      "learning_rate": 6.997500000000001e-05,
      "loss": 3.8189,
      "step": 28000
    },
    {
      "epoch": 29.350104821802937,
      "eval_loss": 4.590851783752441,
      "eval_runtime": 1.0367,
      "eval_samples_per_second": 1326.293,
      "eval_steps_per_second": 82.954,
      "step": 28000
    },
    {
      "epoch": 31.446540880503143,
      "eval_loss": 4.586838245391846,
      "eval_runtime": 0.9705,
      "eval_samples_per_second": 1416.743,
      "eval_steps_per_second": 88.611,
      "step": 30000
    },
    {
      "epoch": 33.542976939203356,
      "grad_norm": 2.2118289470672607,
      "learning_rate": 7.997e-05,
      "loss": 3.6763,
      "step": 32000
    },
    {
      "epoch": 33.542976939203356,
      "eval_loss": 4.583011150360107,
      "eval_runtime": 0.9706,
      "eval_samples_per_second": 1416.604,
      "eval_steps_per_second": 88.602,
      "step": 32000
    },
    {
      "epoch": 35.63941299790356,
      "eval_loss": 4.57816743850708,
      "eval_runtime": 0.9657,
      "eval_samples_per_second": 1423.818,
      "eval_steps_per_second": 89.053,
      "step": 34000
    },
    {
      "epoch": 37.735849056603776,
      "grad_norm": 2.189404010772705,
      "learning_rate": 8.9965e-05,
      "loss": 3.5493,
      "step": 36000
    },
    {
      "epoch": 37.735849056603776,
      "eval_loss": 4.585381031036377,
      "eval_runtime": 0.9726,
      "eval_samples_per_second": 1413.783,
      "eval_steps_per_second": 88.426,
      "step": 36000
    },
    {
      "epoch": 39.83228511530398,
      "eval_loss": 4.596414566040039,
      "eval_runtime": 0.971,
      "eval_samples_per_second": 1416.025,
      "eval_steps_per_second": 88.566,
      "step": 38000
    },
    {
      "epoch": 41.928721174004195,
      "grad_norm": 2.1832594871520996,
      "learning_rate": 9.996000000000001e-05,
      "loss": 3.4327,
      "step": 40000
    },
    {
      "epoch": 41.928721174004195,
      "eval_loss": 4.610367774963379,
      "eval_runtime": 0.9687,
      "eval_samples_per_second": 1419.473,
      "eval_steps_per_second": 88.782,
      "step": 40000
    },
    {
      "epoch": 44.0251572327044,
      "eval_loss": 4.636893272399902,
      "eval_runtime": 0.9651,
      "eval_samples_per_second": 1424.742,
      "eval_steps_per_second": 89.111,
      "step": 42000
    },
    {
      "epoch": 46.121593291404615,
      "grad_norm": 2.1686387062072754,
      "learning_rate": 9.336333333333334e-05,
      "loss": 3.3112,
      "step": 44000
    },
    {
      "epoch": 46.121593291404615,
      "eval_loss": 4.66969108581543,
      "eval_runtime": 0.9642,
      "eval_samples_per_second": 1426.082,
      "eval_steps_per_second": 89.195,
      "step": 44000
    },
    {
      "epoch": 48.21802935010482,
      "eval_loss": 4.69525146484375,
      "eval_runtime": 0.966,
      "eval_samples_per_second": 1423.408,
      "eval_steps_per_second": 89.028,
      "step": 46000
    },
    {
      "epoch": 50.314465408805034,
      "grad_norm": 2.3040497303009033,
      "learning_rate": 8.67e-05,
      "loss": 3.1908,
      "step": 48000
    },
    {
      "epoch": 50.314465408805034,
      "eval_loss": 4.727965831756592,
      "eval_runtime": 0.9829,
      "eval_samples_per_second": 1398.863,
      "eval_steps_per_second": 87.493,
      "step": 48000
    },
    {
      "epoch": 52.41090146750524,
      "eval_loss": 4.762918472290039,
      "eval_runtime": 1.0048,
      "eval_samples_per_second": 1368.397,
      "eval_steps_per_second": 85.587,
      "step": 50000
    },
    {
      "epoch": 54.507337526205454,
      "grad_norm": 2.491647720336914,
      "learning_rate": 8.003666666666667e-05,
      "loss": 3.0857,
      "step": 52000
    },
    {
      "epoch": 54.507337526205454,
      "eval_loss": 4.792750835418701,
      "eval_runtime": 0.9654,
      "eval_samples_per_second": 1424.262,
      "eval_steps_per_second": 89.081,
      "step": 52000
    },
    {
      "epoch": 56.60377358490566,
      "eval_loss": 4.819573879241943,
      "eval_runtime": 0.9679,
      "eval_samples_per_second": 1420.61,
      "eval_steps_per_second": 88.853,
      "step": 54000
    },
    {
      "epoch": 58.700209643605874,
      "grad_norm": 2.5555057525634766,
      "learning_rate": 7.337333333333334e-05,
      "loss": 2.9936,
      "step": 56000
    },
    {
      "epoch": 58.700209643605874,
      "eval_loss": 4.8564348220825195,
      "eval_runtime": 0.9696,
      "eval_samples_per_second": 1418.079,
      "eval_steps_per_second": 88.694,
      "step": 56000
    },
    {
      "epoch": 60.79664570230608,
      "eval_loss": 4.8890299797058105,
      "eval_runtime": 0.9965,
      "eval_samples_per_second": 1379.79,
      "eval_steps_per_second": 86.3,
      "step": 58000
    },
    {
      "epoch": 62.893081761006286,
      "grad_norm": 2.6957740783691406,
      "learning_rate": 6.671e-05,
      "loss": 2.9113,
      "step": 60000
    },
    {
      "epoch": 62.893081761006286,
      "eval_loss": 4.919983386993408,
      "eval_runtime": 0.9752,
      "eval_samples_per_second": 1409.972,
      "eval_steps_per_second": 88.187,
      "step": 60000
    },
    {
      "epoch": 64.98951781970649,
      "eval_loss": 4.953897476196289,
      "eval_runtime": 0.9752,
      "eval_samples_per_second": 1409.961,
      "eval_steps_per_second": 88.187,
      "step": 62000
    },
    {
      "epoch": 67.08595387840671,
      "grad_norm": 2.9121437072753906,
      "learning_rate": 6.0046666666666676e-05,
      "loss": 2.8353,
      "step": 64000
    },
    {
      "epoch": 67.08595387840671,
      "eval_loss": 4.993447303771973,
      "eval_runtime": 0.9908,
      "eval_samples_per_second": 1387.752,
      "eval_steps_per_second": 86.798,
      "step": 64000
    },
    {
      "epoch": 69.18238993710692,
      "eval_loss": 5.029664993286133,
      "eval_runtime": 0.9686,
      "eval_samples_per_second": 1419.546,
      "eval_steps_per_second": 88.786,
      "step": 66000
    },
    {
      "epoch": 71.27882599580713,
      "grad_norm": 2.9727697372436523,
      "learning_rate": 5.338333333333334e-05,
      "loss": 2.7673,
      "step": 68000
    },
    {
      "epoch": 71.27882599580713,
      "eval_loss": 5.061018943786621,
      "eval_runtime": 0.976,
      "eval_samples_per_second": 1408.755,
      "eval_steps_per_second": 88.111,
      "step": 68000
    },
    {
      "epoch": 73.37526205450733,
      "eval_loss": 5.080495834350586,
      "eval_runtime": 0.9731,
      "eval_samples_per_second": 1413.053,
      "eval_steps_per_second": 88.38,
      "step": 70000
    },
    {
      "epoch": 75.47169811320755,
      "grad_norm": 3.07655930519104,
      "learning_rate": 4.672e-05,
      "loss": 2.7091,
      "step": 72000
    },
    {
      "epoch": 75.47169811320755,
      "eval_loss": 5.105360984802246,
      "eval_runtime": 0.9653,
      "eval_samples_per_second": 1424.397,
      "eval_steps_per_second": 89.09,
      "step": 72000
    },
    {
      "epoch": 77.56813417190776,
      "eval_loss": 5.1282548904418945,
      "eval_runtime": 0.9738,
      "eval_samples_per_second": 1412.066,
      "eval_steps_per_second": 88.318,
      "step": 74000
    },
    {
      "epoch": 79.66457023060796,
      "grad_norm": 3.3577957153320312,
      "learning_rate": 4.005666666666667e-05,
      "loss": 2.6563,
      "step": 76000
    },
    {
      "epoch": 79.66457023060796,
      "eval_loss": 5.159351348876953,
      "eval_runtime": 0.9725,
      "eval_samples_per_second": 1413.916,
      "eval_steps_per_second": 88.434,
      "step": 76000
    },
    {
      "epoch": 81.76100628930817,
      "eval_loss": 5.183588027954102,
      "eval_runtime": 0.9642,
      "eval_samples_per_second": 1426.112,
      "eval_steps_per_second": 89.197,
      "step": 78000
    },
    {
      "epoch": 83.85744234800839,
      "grad_norm": 3.3268089294433594,
      "learning_rate": 3.339333333333334e-05,
      "loss": 2.6077,
      "step": 80000
    },
    {
      "epoch": 83.85744234800839,
      "eval_loss": 5.200902462005615,
      "eval_runtime": 0.963,
      "eval_samples_per_second": 1427.864,
      "eval_steps_per_second": 89.306,
      "step": 80000
    }
  ],
  "logging_steps": 4000,
  "max_steps": 100000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 105,
  "save_steps": 4000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.0685298674991104e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}