{
  "best_metric": 0.04927213117480278,
  "best_model_checkpoint": "deberta-v3-xsmall-zyda-2-sentiment/checkpoint-6286",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 9429,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1590836780146357,
      "grad_norm": 1.8468247652053833,
      "learning_rate": 4.7348605366422736e-05,
      "loss": 0.2115,
      "step": 500
    },
    {
      "epoch": 0.3181673560292714,
      "grad_norm": 1.7370903491973877,
      "learning_rate": 4.4697210732845476e-05,
      "loss": 0.101,
      "step": 1000
    },
    {
      "epoch": 0.4772510340439071,
      "grad_norm": 1.7206146717071533,
      "learning_rate": 4.2045816099268216e-05,
      "loss": 0.0846,
      "step": 1500
    },
    {
      "epoch": 0.6363347120585428,
      "grad_norm": 1.1373802423477173,
      "learning_rate": 3.9394421465690956e-05,
      "loss": 0.0748,
      "step": 2000
    },
    {
      "epoch": 0.7954183900731785,
      "grad_norm": 0.9603880047798157,
      "learning_rate": 3.674302683211369e-05,
      "loss": 0.0691,
      "step": 2500
    },
    {
      "epoch": 0.9545020680878142,
      "grad_norm": 1.0165342092514038,
      "learning_rate": 3.409163219853643e-05,
      "loss": 0.0627,
      "step": 3000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.06652908027172089,
      "eval_mse": 0.06652908171153529,
      "eval_runtime": 10.5244,
      "eval_samples_per_second": 950.17,
      "eval_steps_per_second": 118.771,
      "step": 3143
    },
    {
      "epoch": 1.1135857461024499,
      "grad_norm": 0.9926055073738098,
      "learning_rate": 3.144023756495917e-05,
      "loss": 0.0522,
      "step": 3500
    },
    {
      "epoch": 1.2726694241170855,
      "grad_norm": 1.247205376625061,
      "learning_rate": 2.878884293138191e-05,
      "loss": 0.0485,
      "step": 4000
    },
    {
      "epoch": 1.4317531021317214,
      "grad_norm": 1.7589031457901,
      "learning_rate": 2.6137448297804644e-05,
      "loss": 0.0463,
      "step": 4500
    },
    {
      "epoch": 1.590836780146357,
      "grad_norm": 0.7484694719314575,
      "learning_rate": 2.3486053664227384e-05,
      "loss": 0.0443,
      "step": 5000
    },
    {
      "epoch": 1.7499204581609926,
      "grad_norm": 1.5068027973175049,
      "learning_rate": 2.083465903065012e-05,
      "loss": 0.0421,
      "step": 5500
    },
    {
      "epoch": 1.9090041361756285,
      "grad_norm": 0.832625150680542,
      "learning_rate": 1.818326439707286e-05,
      "loss": 0.0411,
      "step": 6000
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.04927213117480278,
      "eval_mse": 0.049272132016595305,
      "eval_runtime": 11.3101,
      "eval_samples_per_second": 884.162,
      "eval_steps_per_second": 110.52,
      "step": 6286
    },
    {
      "epoch": 2.068087814190264,
      "grad_norm": 0.6708300709724426,
      "learning_rate": 1.5531869763495598e-05,
      "loss": 0.0387,
      "step": 6500
    },
    {
      "epoch": 2.2271714922048997,
      "grad_norm": 0.6490187644958496,
      "learning_rate": 1.2880475129918337e-05,
      "loss": 0.0337,
      "step": 7000
    },
    {
      "epoch": 2.3862551702195356,
      "grad_norm": 0.7127770185470581,
      "learning_rate": 1.0229080496341075e-05,
      "loss": 0.0324,
      "step": 7500
    },
    {
      "epoch": 2.545338848234171,
      "grad_norm": 0.6604452133178711,
      "learning_rate": 7.5776858627638146e-06,
      "loss": 0.0326,
      "step": 8000
    },
    {
      "epoch": 2.704422526248807,
      "grad_norm": 0.5042712092399597,
      "learning_rate": 4.926291229186552e-06,
      "loss": 0.0323,
      "step": 8500
    },
    {
      "epoch": 2.8635062042634427,
      "grad_norm": 0.573316752910614,
      "learning_rate": 2.2748965956092908e-06,
      "loss": 0.0321,
      "step": 9000
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.05235280096530914,
      "eval_mse": 0.05235280389813637,
      "eval_runtime": 10.3984,
      "eval_samples_per_second": 961.689,
      "eval_steps_per_second": 120.211,
      "step": 9429
    },
    {
      "epoch": 3.0,
      "step": 9429,
      "total_flos": 9935679003367680.0,
      "train_loss": 0.05866297316179509,
      "train_runtime": 1207.603,
      "train_samples_per_second": 499.597,
      "train_steps_per_second": 7.808
    }
  ],
  "logging_steps": 500,
  "max_steps": 9429,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9935679003367680.0,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}