File size: 3,084 Bytes

7a880dc
f98097a
 
 
7a880dc
 
 
 
 
 
 
f98097a
 
4609af2
f98097a
4609af2
 
 
f98097a
 
4609af2
f98097a
7a880dc
 
 
f98097a
 
4609af2
f98097a
4609af2
 
 
f98097a
 
4609af2
f98097a
7a880dc
 
 
f98097a
 
4609af2
f98097a
4609af2
 
 
f98097a
 
4609af2
f98097a
7a880dc
 
 
f98097a
 
4609af2
f98097a
4609af2
 
 
f98097a
 
4609af2
f98097a
7a880dc
 
 
f98097a
 
4609af2
f98097a
4609af2
 
 
f98097a
 
4609af2
f98097a
7a880dc
 
 
f98097a
4609af2
 
 
 
f98097a
4609af2
 
 
 
 
 
f98097a
 
 
7a880dc
 
 
4609af2
 
7a880dc
f98097a
7a880dc
4609af2
 
 
 
 
 
 
 
 
 
 
 
f98097a
4609af2
7a880dc

{
  "best_metric": 0.5742923021316528,
  "best_model_checkpoint": "./llama3/30-08-24-Weni-Pipeline_test_Experiment with SFT and Llama3 70b-2_max_steps-1362_batch_8_2024-08-30/checkpoint-100",
  "epoch": 0.44004400440044006,
  "eval_steps": 100,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04400440044004401,
      "grad_norm": 0.5568628907203674,
      "learning_rate": 7.5e-05,
      "loss": 2.0875,
      "step": 10
    },
    {
      "epoch": 0.08800880088008801,
      "grad_norm": 0.2537558972835541,
      "learning_rate": 0.00015,
      "loss": 0.9378,
      "step": 20
    },
    {
      "epoch": 0.132013201320132,
      "grad_norm": 0.24558919668197632,
      "learning_rate": 0.000225,
      "loss": 0.7,
      "step": 30
    },
    {
      "epoch": 0.17601760176017603,
      "grad_norm": 0.13937097787857056,
      "learning_rate": 0.0003,
      "loss": 0.6298,
      "step": 40
    },
    {
      "epoch": 0.22002200220022003,
      "grad_norm": 0.1871194988489151,
      "learning_rate": 0.00029995764763563235,
      "loss": 0.6321,
      "step": 50
    },
    {
      "epoch": 0.264026402640264,
      "grad_norm": 0.14626263082027435,
      "learning_rate": 0.00029983061445883305,
      "loss": 0.6403,
      "step": 60
    },
    {
      "epoch": 0.30803080308030806,
      "grad_norm": 0.12049665302038193,
      "learning_rate": 0.0002996189722050073,
      "loss": 0.5998,
      "step": 70
    },
    {
      "epoch": 0.35203520352035206,
      "grad_norm": 0.13617923855781555,
      "learning_rate": 0.0002993228403881531,
      "loss": 0.5942,
      "step": 80
    },
    {
      "epoch": 0.39603960396039606,
      "grad_norm": 0.1271793246269226,
      "learning_rate": 0.00029894238623337174,
      "loss": 0.5647,
      "step": 90
    },
    {
      "epoch": 0.44004400440044006,
      "grad_norm": 0.18757876753807068,
      "learning_rate": 0.00029847782458243663,
      "loss": 0.5619,
      "step": 100
    },
    {
      "epoch": 0.44004400440044006,
      "eval_accuracy": 1.0,
      "eval_f1": 1.0,
      "eval_f1_macro": 1.0,
      "eval_f1_micro": 1.0,
      "eval_loss": 0.5742923021316528,
      "eval_precision": 1.0,
      "eval_precision_macro": 1.0,
      "eval_precision_micro": 1.0,
      "eval_recall": 1.0,
      "eval_recall_macro": 1.0,
      "eval_recall_micro": 1.0,
      "eval_runtime": 90.5857,
      "eval_samples_per_second": 4.46,
      "eval_steps_per_second": 1.115,
      "step": 100
    }
  ],
  "logging_steps": 10,
  "max_steps": 1362,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3925298981778227e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}