{
  "best_metric": 0.935483870967742,
  "best_model_checkpoint": "/scratch/camembertv2/runs/results/ftb_ner/camembertv2-base-bf16-p2-17000/max_seq_length-192-gradient_accumulation_steps-2-precision-fp32-learning_rate-5.000000000000001e-05-epochs-8-lr_scheduler-linear-warmup_steps-0.1/SEED-1337/checkpoint-4326",
  "epoch": 8.0,
  "eval_steps": 500,
  "global_step": 4944,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.16181229773462782,
      "grad_norm": 9.89955997467041,
      "learning_rate": 1.0101010101010103e-05,
      "loss": 1.8738,
      "step": 100
    },
    {
      "epoch": 0.32362459546925565,
      "grad_norm": 2.3764805793762207,
      "learning_rate": 2.0202020202020206e-05,
      "loss": 0.6979,
      "step": 200
    },
    {
      "epoch": 0.4854368932038835,
      "grad_norm": 1.3664543628692627,
      "learning_rate": 3.030303030303031e-05,
      "loss": 0.5111,
      "step": 300
    },
    {
      "epoch": 0.6472491909385113,
      "grad_norm": 0.6372264623641968,
      "learning_rate": 4.040404040404041e-05,
      "loss": 0.2666,
      "step": 400
    },
    {
      "epoch": 0.8090614886731392,
      "grad_norm": 0.5098221302032471,
      "learning_rate": 4.9943807597212865e-05,
      "loss": 0.1199,
      "step": 500
    },
    {
      "epoch": 0.970873786407767,
      "grad_norm": 0.5974541902542114,
      "learning_rate": 4.8819959541470004e-05,
      "loss": 0.0775,
      "step": 600
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.9852635038895584,
      "eval_f1": 0.7820512820512822,
      "eval_loss": 0.0750068947672844,
      "eval_precision": 0.7514492753623189,
      "eval_recall": 0.815251572327044,
      "eval_runtime": 3.2799,
      "eval_samples_per_second": 376.537,
      "eval_steps_per_second": 47.258,
      "step": 618
    },
    {
      "epoch": 1.132686084142395,
      "grad_norm": 0.15989889204502106,
      "learning_rate": 4.7696111485727136e-05,
      "loss": 0.0648,
      "step": 700
    },
    {
      "epoch": 1.2944983818770226,
      "grad_norm": 0.28292131423950195,
      "learning_rate": 4.6572263429984275e-05,
      "loss": 0.0555,
      "step": 800
    },
    {
      "epoch": 1.4563106796116505,
      "grad_norm": 0.09367953985929489,
      "learning_rate": 4.544841537424141e-05,
      "loss": 0.0485,
      "step": 900
    },
    {
      "epoch": 1.6181229773462782,
      "grad_norm": 0.3826428949832916,
      "learning_rate": 4.4324567318498546e-05,
      "loss": 0.0401,
      "step": 1000
    },
    {
      "epoch": 1.779935275080906,
      "grad_norm": 0.18068315088748932,
      "learning_rate": 4.3200719262755685e-05,
      "loss": 0.0369,
      "step": 1100
    },
    {
      "epoch": 1.941747572815534,
      "grad_norm": 0.23946309089660645,
      "learning_rate": 4.207687120701282e-05,
      "loss": 0.0387,
      "step": 1200
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.9903582776377781,
      "eval_f1": 0.8799067236688691,
      "eval_loss": 0.04682581126689911,
      "eval_precision": 0.8700999231360492,
      "eval_recall": 0.889937106918239,
      "eval_runtime": 2.8072,
      "eval_samples_per_second": 439.943,
      "eval_steps_per_second": 55.215,
      "step": 1236
    },
    {
      "epoch": 2.103559870550162,
      "grad_norm": 0.8596442937850952,
      "learning_rate": 4.0953023151269956e-05,
      "loss": 0.0285,
      "step": 1300
    },
    {
      "epoch": 2.26537216828479,
      "grad_norm": 0.03754520043730736,
      "learning_rate": 3.9829175095527095e-05,
      "loss": 0.0322,
      "step": 1400
    },
    {
      "epoch": 2.4271844660194173,
      "grad_norm": 0.6684575080871582,
      "learning_rate": 3.870532703978423e-05,
      "loss": 0.023,
      "step": 1500
    },
    {
      "epoch": 2.588996763754045,
      "grad_norm": 0.03833441436290741,
      "learning_rate": 3.758147898404136e-05,
      "loss": 0.0268,
      "step": 1600
    },
    {
      "epoch": 2.750809061488673,
      "grad_norm": 0.3890291452407837,
      "learning_rate": 3.6457630928298505e-05,
      "loss": 0.0217,
      "step": 1700
    },
    {
      "epoch": 2.912621359223301,
      "grad_norm": 0.4564450681209564,
      "learning_rate": 3.533378287255564e-05,
      "loss": 0.0295,
      "step": 1800
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.9906869727183083,
      "eval_f1": 0.8855799373040752,
      "eval_loss": 0.039505813270807266,
      "eval_precision": 0.8828125,
      "eval_recall": 0.8883647798742138,
      "eval_runtime": 2.8133,
      "eval_samples_per_second": 438.979,
      "eval_steps_per_second": 55.095,
      "step": 1854
    },
    {
      "epoch": 3.074433656957929,
      "grad_norm": 0.027059998363256454,
      "learning_rate": 3.420993481681277e-05,
      "loss": 0.0166,
      "step": 1900
    },
    {
      "epoch": 3.236245954692557,
      "grad_norm": 0.030333412811160088,
      "learning_rate": 3.308608676106991e-05,
      "loss": 0.0174,
      "step": 2000
    },
    {
      "epoch": 3.3980582524271843,
      "grad_norm": 0.13804250955581665,
      "learning_rate": 3.196223870532705e-05,
      "loss": 0.0153,
      "step": 2100
    },
    {
      "epoch": 3.559870550161812,
      "grad_norm": 0.2849176824092865,
      "learning_rate": 3.083839064958418e-05,
      "loss": 0.0152,
      "step": 2200
    },
    {
      "epoch": 3.72168284789644,
      "grad_norm": 0.14825651049613953,
      "learning_rate": 2.971454259384132e-05,
      "loss": 0.0171,
      "step": 2300
    },
    {
      "epoch": 3.883495145631068,
      "grad_norm": 0.045380860567092896,
      "learning_rate": 2.8590694538098453e-05,
      "loss": 0.0255,
      "step": 2400
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.9920565355538512,
      "eval_f1": 0.8999999999999999,
      "eval_loss": 0.03599809855222702,
      "eval_precision": 0.9014195583596214,
      "eval_recall": 0.8985849056603774,
      "eval_runtime": 2.8186,
      "eval_samples_per_second": 438.161,
      "eval_steps_per_second": 54.992,
      "step": 2472
    },
    {
      "epoch": 4.0453074433656955,
      "grad_norm": 0.5658661723136902,
      "learning_rate": 2.746684648235559e-05,
      "loss": 0.0228,
      "step": 2500
    },
    {
      "epoch": 4.207119741100324,
      "grad_norm": 0.11415175348520279,
      "learning_rate": 2.6342998426612728e-05,
      "loss": 0.0162,
      "step": 2600
    },
    {
      "epoch": 4.368932038834951,
      "grad_norm": 0.1993759125471115,
      "learning_rate": 2.5219150370869863e-05,
      "loss": 0.0135,
      "step": 2700
    },
    {
      "epoch": 4.53074433656958,
      "grad_norm": 0.11497118324041367,
      "learning_rate": 2.4095302315127e-05,
      "loss": 0.0159,
      "step": 2800
    },
    {
      "epoch": 4.692556634304207,
      "grad_norm": 0.2147281914949417,
      "learning_rate": 2.2971454259384134e-05,
      "loss": 0.0156,
      "step": 2900
    },
    {
      "epoch": 4.854368932038835,
      "grad_norm": 0.1083710715174675,
      "learning_rate": 2.1847606203641273e-05,
      "loss": 0.0094,
      "step": 3000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.9922756656075381,
      "eval_f1": 0.9050980392156862,
      "eval_loss": 0.03369523212313652,
      "eval_precision": 0.9029733959311425,
      "eval_recall": 0.9072327044025157,
      "eval_runtime": 2.8037,
      "eval_samples_per_second": 440.494,
      "eval_steps_per_second": 55.285,
      "step": 3090
    },
    {
      "epoch": 5.016181229773463,
      "grad_norm": 0.013677417300641537,
      "learning_rate": 2.072375814789841e-05,
      "loss": 0.016,
      "step": 3100
    },
    {
      "epoch": 5.17799352750809,
      "grad_norm": 0.08207657188177109,
      "learning_rate": 1.9599910092155544e-05,
      "loss": 0.0133,
      "step": 3200
    },
    {
      "epoch": 5.339805825242719,
      "grad_norm": 0.02103651873767376,
      "learning_rate": 1.847606203641268e-05,
      "loss": 0.0092,
      "step": 3300
    },
    {
      "epoch": 5.501618122977346,
      "grad_norm": 1.4357458353042603,
      "learning_rate": 1.735221398066982e-05,
      "loss": 0.0122,
      "step": 3400
    },
    {
      "epoch": 5.663430420711974,
      "grad_norm": 0.16999904811382294,
      "learning_rate": 1.622836592492695e-05,
      "loss": 0.0086,
      "step": 3500
    },
    {
      "epoch": 5.825242718446602,
      "grad_norm": 0.09043747931718826,
      "learning_rate": 1.510451786918409e-05,
      "loss": 0.0093,
      "step": 3600
    },
    {
      "epoch": 5.9870550161812295,
      "grad_norm": 0.06608462333679199,
      "learning_rate": 1.3980669813441227e-05,
      "loss": 0.0067,
      "step": 3700
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.9932617508491289,
      "eval_f1": 0.9301960784313724,
      "eval_loss": 0.033360060304403305,
      "eval_precision": 0.9280125195618153,
      "eval_recall": 0.9323899371069182,
      "eval_runtime": 2.8189,
      "eval_samples_per_second": 438.116,
      "eval_steps_per_second": 54.986,
      "step": 3708
    },
    {
      "epoch": 6.148867313915858,
      "grad_norm": 0.2284722775220871,
      "learning_rate": 1.285682175769836e-05,
      "loss": 0.0107,
      "step": 3800
    },
    {
      "epoch": 6.310679611650485,
      "grad_norm": 0.02673812210559845,
      "learning_rate": 1.1732973701955498e-05,
      "loss": 0.0052,
      "step": 3900
    },
    {
      "epoch": 6.472491909385114,
      "grad_norm": 0.33707210421562195,
      "learning_rate": 1.0609125646212633e-05,
      "loss": 0.0072,
      "step": 4000
    },
    {
      "epoch": 6.634304207119741,
      "grad_norm": 0.0059865182265639305,
      "learning_rate": 9.48527759046977e-06,
      "loss": 0.0049,
      "step": 4100
    },
    {
      "epoch": 6.796116504854369,
      "grad_norm": 0.2759881615638733,
      "learning_rate": 8.361429534726907e-06,
      "loss": 0.016,
      "step": 4200
    },
    {
      "epoch": 6.957928802588997,
      "grad_norm": 0.18257270753383636,
      "learning_rate": 7.237581478984042e-06,
      "loss": 0.0069,
      "step": 4300
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.9937000109565027,
      "eval_f1": 0.935483870967742,
      "eval_loss": 0.0347304567694664,
      "eval_precision": 0.9362204724409449,
      "eval_recall": 0.934748427672956,
      "eval_runtime": 2.8106,
      "eval_samples_per_second": 439.402,
      "eval_steps_per_second": 55.148,
      "step": 4326
    },
    {
      "epoch": 7.119741100323624,
      "grad_norm": 0.007623529061675072,
      "learning_rate": 6.113733423241179e-06,
      "loss": 0.0046,
      "step": 4400
    },
    {
      "epoch": 7.281553398058253,
      "grad_norm": 0.043167050927877426,
      "learning_rate": 4.989885367498316e-06,
      "loss": 0.009,
      "step": 4500
    },
    {
      "epoch": 7.44336569579288,
      "grad_norm": 0.009674232453107834,
      "learning_rate": 3.866037311755451e-06,
      "loss": 0.0046,
      "step": 4600
    },
    {
      "epoch": 7.605177993527509,
      "grad_norm": 0.05575043708086014,
      "learning_rate": 2.742189256012588e-06,
      "loss": 0.0052,
      "step": 4700
    },
    {
      "epoch": 7.766990291262136,
      "grad_norm": 0.006715767551213503,
      "learning_rate": 1.6183412002697239e-06,
      "loss": 0.0044,
      "step": 4800
    },
    {
      "epoch": 7.9288025889967635,
      "grad_norm": 0.009280543774366379,
      "learning_rate": 4.9449314452686e-07,
      "loss": 0.0054,
      "step": 4900
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.9936726196997918,
      "eval_f1": 0.93401413982718,
      "eval_loss": 0.03279910609126091,
      "eval_precision": 0.9332810047095761,
      "eval_recall": 0.934748427672956,
      "eval_runtime": 2.829,
      "eval_samples_per_second": 436.551,
      "eval_steps_per_second": 54.79,
      "step": 4944
    },
    {
      "epoch": 8.0,
      "step": 4944,
      "total_flos": 2833132740217920.0,
      "train_loss": 0.08807948804957774,
      "train_runtime": 679.3683,
      "train_samples_per_second": 116.355,
      "train_steps_per_second": 7.277
    }
  ],
  "logging_steps": 100,
  "max_steps": 4944,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2833132740217920.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}