File size: 3,329 Bytes

fd9b971
fb00fc9
 
fd9b971
 
 
 
 
 
 
 
 
fb00fc9
 
 
fd9b971
 
 
 
fb00fc9
 
 
 
 
fd9b971
 
 
 
fb00fc9
 
 
fd9b971
 
 
 
fb00fc9
 
 
 
 
fd9b971
 
 
 
fb00fc9
 
 
fd9b971
 
 
 
fb00fc9
 
 
 
 
fd9b971
 
 
 
fb00fc9
 
 
fd9b971
 
 
 
fb00fc9
 
 
 
 
fd9b971
 
 
 
fb00fc9
 
 
fd9b971
 
 
 
fb00fc9
 
 
 
 
fd9b971
 
 
 
fb00fc9
 
 
fd9b971
 
 
 
fb00fc9
 
 
 
 
fd9b971
 
 
 
fb00fc9
fd9b971
fb00fc9
fd9b971
 
 
 
 
 
 
 
fb00fc9
fd9b971
 
 
 
 
 
 
 
fb00fc9
 
 
 
fd9b971

{
  "best_metric": 0.801605504587156,
  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-2108",
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 3162,
  "is_hyper_param_search": true,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 12.377176284790039,
      "learning_rate": 1.5980854192157344e-05,
      "loss": 3.0218,
      "step": 527
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.7672018348623854,
      "eval_loss": 2.191861391067505,
      "eval_runtime": 2.5906,
      "eval_samples_per_second": 336.603,
      "eval_steps_per_second": 2.702,
      "step": 527
    },
    {
      "epoch": 2.0,
      "grad_norm": Infinity,
      "learning_rate": 1.2796813034327135e-05,
      "loss": 2.0797,
      "step": 1054
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.7809633027522935,
      "eval_loss": 1.8230279684066772,
      "eval_runtime": 2.5719,
      "eval_samples_per_second": 339.043,
      "eval_steps_per_second": 2.722,
      "step": 1054
    },
    {
      "epoch": 3.0,
      "grad_norm": 40.96967315673828,
      "learning_rate": 9.600642195895665e-06,
      "loss": 1.697,
      "step": 1581
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.786697247706422,
      "eval_loss": 1.7212010622024536,
      "eval_runtime": 2.549,
      "eval_samples_per_second": 342.099,
      "eval_steps_per_second": 2.746,
      "step": 1581
    },
    {
      "epoch": 4.0,
      "grad_norm": 35.09682846069336,
      "learning_rate": 6.4044713574641965e-06,
      "loss": 1.5166,
      "step": 2108
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.801605504587156,
      "eval_loss": 1.6234298944473267,
      "eval_runtime": 2.5722,
      "eval_samples_per_second": 339.013,
      "eval_steps_per_second": 2.721,
      "step": 2108
    },
    {
      "epoch": 5.0,
      "grad_norm": 10.431685447692871,
      "learning_rate": 3.208300519032727e-06,
      "loss": 1.4053,
      "step": 2635
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.7993119266055045,
      "eval_loss": 1.5793094635009766,
      "eval_runtime": 2.5626,
      "eval_samples_per_second": 340.279,
      "eval_steps_per_second": 2.732,
      "step": 2635
    },
    {
      "epoch": 6.0,
      "grad_norm": 31.159494400024414,
      "learning_rate": 1.2129680601257947e-08,
      "loss": 1.3567,
      "step": 3162
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8004587155963303,
      "eval_loss": 1.5706629753112793,
      "eval_runtime": 2.5683,
      "eval_samples_per_second": 339.518,
      "eval_steps_per_second": 2.725,
      "step": 3162
    }
  ],
  "logging_steps": 500,
  "max_steps": 3162,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 48527917525620.0,
  "train_batch_size": 128,
  "trial_name": null,
  "trial_params": {
    "alpha": 0.275210688972374,
    "learning_rate": 1.9177025030588814e-05,
    "num_train_epochs": 6,
    "temperature": 6
  }
}