{
  "best_metric": 0.28438833355903625,
  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-produttoria_binary-binary-large-2024_11_03-batch-size64_freeze/checkpoint-14118",
  "epoch": 88.0,
  "eval_steps": 500,
  "global_step": 15928,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "eval_accuracy": 0.2630072840790843,
      "eval_f1_macro": 0.5774239185038708,
      "eval_f1_micro": 0.8262109753225342,
      "eval_loss": 0.3235681354999542,
      "eval_runtime": 79.5924,
      "eval_samples_per_second": 48.296,
      "eval_steps_per_second": 0.766,
      "learning_rate": 0.001,
      "step": 181
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.24115504682622269,
      "eval_f1_macro": 0.6199165901601139,
      "eval_f1_micro": 0.8378565084377776,
      "eval_loss": 0.3146470785140991,
      "eval_runtime": 78.3589,
      "eval_samples_per_second": 49.056,
      "eval_steps_per_second": 0.778,
      "learning_rate": 0.001,
      "step": 362
    },
    {
      "epoch": 2.7624309392265194,
      "grad_norm": 0.39133042097091675,
      "learning_rate": 0.001,
      "loss": 0.3995,
      "step": 500
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.2554630593132154,
      "eval_f1_macro": 0.6043570009634397,
      "eval_f1_micro": 0.8398465111582348,
      "eval_loss": 0.3090434670448303,
      "eval_runtime": 77.1271,
      "eval_samples_per_second": 49.84,
      "eval_steps_per_second": 0.791,
      "learning_rate": 0.001,
      "step": 543
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.25624349635796045,
      "eval_f1_macro": 0.600278483167516,
      "eval_f1_micro": 0.8348980169243037,
      "eval_loss": 0.30735355615615845,
      "eval_runtime": 77.9527,
      "eval_samples_per_second": 49.312,
      "eval_steps_per_second": 0.783,
      "learning_rate": 0.001,
      "step": 724
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.2515608740894901,
      "eval_f1_macro": 0.6247746971203368,
      "eval_f1_micro": 0.8405948994360434,
      "eval_loss": 0.30385810136795044,
      "eval_runtime": 79.3747,
      "eval_samples_per_second": 48.429,
      "eval_steps_per_second": 0.769,
      "learning_rate": 0.001,
      "step": 905
    },
    {
      "epoch": 5.524861878453039,
      "grad_norm": 0.30673518776893616,
      "learning_rate": 0.001,
      "loss": 0.3299,
      "step": 1000
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.2596253902185224,
      "eval_f1_macro": 0.6225111439021958,
      "eval_f1_micro": 0.841987466427932,
      "eval_loss": 0.3059956729412079,
      "eval_runtime": 78.3475,
      "eval_samples_per_second": 49.063,
      "eval_steps_per_second": 0.779,
      "learning_rate": 0.001,
      "step": 1086
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.28199791883454733,
      "eval_f1_macro": 0.5954695621655504,
      "eval_f1_micro": 0.8387498056289846,
      "eval_loss": 0.3013758361339569,
      "eval_runtime": 77.8519,
      "eval_samples_per_second": 49.376,
      "eval_steps_per_second": 0.784,
      "learning_rate": 0.001,
      "step": 1267
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.2702913631633715,
      "eval_f1_macro": 0.5974832028652961,
      "eval_f1_micro": 0.8390550208451284,
      "eval_loss": 0.30131709575653076,
      "eval_runtime": 76.3356,
      "eval_samples_per_second": 50.357,
      "eval_steps_per_second": 0.799,
      "learning_rate": 0.001,
      "step": 1448
    },
    {
      "epoch": 8.287292817679559,
      "grad_norm": 0.2473623901605606,
      "learning_rate": 0.001,
      "loss": 0.3216,
      "step": 1500
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.28407908428720086,
      "eval_f1_macro": 0.5974259992816957,
      "eval_f1_micro": 0.8406665130922214,
      "eval_loss": 0.30098479986190796,
      "eval_runtime": 76.6263,
      "eval_samples_per_second": 50.166,
      "eval_steps_per_second": 0.796,
      "learning_rate": 0.001,
      "step": 1629
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.27107180020811655,
      "eval_f1_macro": 0.5937940362628795,
      "eval_f1_micro": 0.8376187886791475,
      "eval_loss": 0.30072343349456787,
      "eval_runtime": 78.1999,
      "eval_samples_per_second": 49.156,
      "eval_steps_per_second": 0.78,
      "learning_rate": 0.001,
      "step": 1810
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.277315296566077,
      "eval_f1_macro": 0.5761905737205768,
      "eval_f1_micro": 0.8348592565387339,
      "eval_loss": 0.3035621643066406,
      "eval_runtime": 77.9385,
      "eval_samples_per_second": 49.321,
      "eval_steps_per_second": 0.783,
      "learning_rate": 0.001,
      "step": 1991
    },
    {
      "epoch": 11.049723756906078,
      "grad_norm": 0.24565815925598145,
      "learning_rate": 0.001,
      "loss": 0.3167,
      "step": 2000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.26742976066597296,
      "eval_f1_macro": 0.6114755503631268,
      "eval_f1_micro": 0.838466245156027,
      "eval_loss": 0.3012838363647461,
      "eval_runtime": 77.6902,
      "eval_samples_per_second": 49.479,
      "eval_steps_per_second": 0.785,
      "learning_rate": 0.001,
      "step": 2172
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.2648283038501561,
      "eval_f1_macro": 0.6145726431106396,
      "eval_f1_micro": 0.8421213122252433,
      "eval_loss": 0.29778778553009033,
      "eval_runtime": 77.1253,
      "eval_samples_per_second": 49.841,
      "eval_steps_per_second": 0.791,
      "learning_rate": 0.001,
      "step": 2353
    },
    {
      "epoch": 13.812154696132596,
      "grad_norm": 0.2421799898147583,
      "learning_rate": 0.001,
      "loss": 0.315,
      "step": 2500
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.27341311134235174,
      "eval_f1_macro": 0.605884177295118,
      "eval_f1_micro": 0.8399742101869762,
      "eval_loss": 0.29774588346481323,
      "eval_runtime": 76.619,
      "eval_samples_per_second": 50.17,
      "eval_steps_per_second": 0.796,
      "learning_rate": 0.001,
      "step": 2534
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.2666493236212279,
      "eval_f1_macro": 0.6074624445346274,
      "eval_f1_micro": 0.8433503513117323,
      "eval_loss": 0.29809942841529846,
      "eval_runtime": 77.2846,
      "eval_samples_per_second": 49.738,
      "eval_steps_per_second": 0.789,
      "learning_rate": 0.001,
      "step": 2715
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.27471383975026015,
      "eval_f1_macro": 0.5932952143692389,
      "eval_f1_micro": 0.8394100355835181,
      "eval_loss": 0.29744812846183777,
      "eval_runtime": 77.1329,
      "eval_samples_per_second": 49.836,
      "eval_steps_per_second": 0.791,
      "learning_rate": 0.001,
      "step": 2896
    },
    {
      "epoch": 16.574585635359117,
      "grad_norm": 0.2012377828359604,
      "learning_rate": 0.001,
      "loss": 0.3147,
      "step": 3000
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.2663891779396462,
      "eval_f1_macro": 0.6146867059353278,
      "eval_f1_micro": 0.8437578624264077,
      "eval_loss": 0.2983638644218445,
      "eval_runtime": 77.7728,
      "eval_samples_per_second": 49.426,
      "eval_steps_per_second": 0.784,
      "learning_rate": 0.001,
      "step": 3077
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.2762747138397503,
      "eval_f1_macro": 0.5803903225868541,
      "eval_f1_micro": 0.8356339535005088,
      "eval_loss": 0.3023049235343933,
      "eval_runtime": 77.2379,
      "eval_samples_per_second": 49.768,
      "eval_steps_per_second": 0.79,
      "learning_rate": 0.001,
      "step": 3258
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.2739334027055151,
      "eval_f1_macro": 0.6158875389283108,
      "eval_f1_micro": 0.8423529411764706,
      "eval_loss": 0.2984697222709656,
      "eval_runtime": 76.7734,
      "eval_samples_per_second": 50.069,
      "eval_steps_per_second": 0.795,
      "learning_rate": 0.001,
      "step": 3439
    },
    {
      "epoch": 19.337016574585636,
      "grad_norm": 0.20086592435836792,
      "learning_rate": 0.001,
      "loss": 0.3122,
      "step": 3500
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.28069719042663893,
      "eval_f1_macro": 0.5984147849283556,
      "eval_f1_micro": 0.8411767731317183,
      "eval_loss": 0.29680272936820984,
      "eval_runtime": 77.2197,
      "eval_samples_per_second": 49.78,
      "eval_steps_per_second": 0.79,
      "learning_rate": 0.001,
      "step": 3620
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.2702913631633715,
      "eval_f1_macro": 0.6060492619397649,
      "eval_f1_micro": 0.8418969323285377,
      "eval_loss": 0.30051520466804504,
      "eval_runtime": 76.7663,
      "eval_samples_per_second": 50.074,
      "eval_steps_per_second": 0.795,
      "learning_rate": 0.001,
      "step": 3801
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.27471383975026015,
      "eval_f1_macro": 0.580353532272699,
      "eval_f1_micro": 0.8374817746302854,
      "eval_loss": 0.29818177223205566,
      "eval_runtime": 77.0688,
      "eval_samples_per_second": 49.877,
      "eval_steps_per_second": 0.792,
      "learning_rate": 0.001,
      "step": 3982
    },
    {
      "epoch": 22.099447513812155,
      "grad_norm": 0.21317744255065918,
      "learning_rate": 0.001,
      "loss": 0.3149,
      "step": 4000
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.27809573361082207,
      "eval_f1_macro": 0.615237110287355,
      "eval_f1_micro": 0.8436262061960386,
      "eval_loss": 0.29393449425697327,
      "eval_runtime": 76.8217,
      "eval_samples_per_second": 50.038,
      "eval_steps_per_second": 0.794,
      "learning_rate": 0.001,
      "step": 4163
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.27601456815816855,
      "eval_f1_macro": 0.6228721497006335,
      "eval_f1_micro": 0.8453232862164007,
      "eval_loss": 0.2948347330093384,
      "eval_runtime": 77.3517,
      "eval_samples_per_second": 49.695,
      "eval_steps_per_second": 0.789,
      "learning_rate": 0.001,
      "step": 4344
    },
    {
      "epoch": 24.861878453038674,
      "grad_norm": 0.17206734418869019,
      "learning_rate": 0.001,
      "loss": 0.3118,
      "step": 4500
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.2736732570239334,
      "eval_f1_macro": 0.610255370235793,
      "eval_f1_micro": 0.8427456149244652,
      "eval_loss": 0.29676035046577454,
      "eval_runtime": 77.1567,
      "eval_samples_per_second": 49.821,
      "eval_steps_per_second": 0.791,
      "learning_rate": 0.001,
      "step": 4525
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.2754942767950052,
      "eval_f1_macro": 0.6045462014226007,
      "eval_f1_micro": 0.8420542140997499,
      "eval_loss": 0.2955995500087738,
      "eval_runtime": 77.6213,
      "eval_samples_per_second": 49.522,
      "eval_steps_per_second": 0.786,
      "learning_rate": 0.001,
      "step": 4706
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.27653485952133194,
      "eval_f1_macro": 0.6115221375683754,
      "eval_f1_micro": 0.8437684356323902,
      "eval_loss": 0.29585039615631104,
      "eval_runtime": 76.6184,
      "eval_samples_per_second": 50.171,
      "eval_steps_per_second": 0.796,
      "learning_rate": 0.001,
      "step": 4887
    },
    {
      "epoch": 27.624309392265193,
      "grad_norm": 0.1697782576084137,
      "learning_rate": 0.001,
      "loss": 0.3126,
      "step": 5000
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.26925078043704476,
      "eval_f1_macro": 0.6191186747828321,
      "eval_f1_micro": 0.8446938104986479,
      "eval_loss": 0.295540988445282,
      "eval_runtime": 76.9629,
      "eval_samples_per_second": 49.946,
      "eval_steps_per_second": 0.793,
      "learning_rate": 0.001,
      "step": 5068
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.2663891779396462,
      "eval_f1_macro": 0.6215750043898619,
      "eval_f1_micro": 0.8437664387164651,
      "eval_loss": 0.3010655343532562,
      "eval_runtime": 77.7511,
      "eval_samples_per_second": 49.44,
      "eval_steps_per_second": 0.785,
      "learning_rate": 0.001,
      "step": 5249
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.2809573361082206,
      "eval_f1_macro": 0.6025311078598518,
      "eval_f1_micro": 0.8437435686355217,
      "eval_loss": 0.29214760661125183,
      "eval_runtime": 76.285,
      "eval_samples_per_second": 50.39,
      "eval_steps_per_second": 0.8,
      "learning_rate": 0.0001,
      "step": 5430
    },
    {
      "epoch": 30.386740331491712,
      "grad_norm": 0.15570667386054993,
      "learning_rate": 0.0001,
      "loss": 0.3093,
      "step": 5500
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.28121748178980227,
      "eval_f1_macro": 0.6071651131848005,
      "eval_f1_micro": 0.8439103638567266,
      "eval_loss": 0.29040178656578064,
      "eval_runtime": 80.1919,
      "eval_samples_per_second": 47.935,
      "eval_steps_per_second": 0.761,
      "learning_rate": 0.0001,
      "step": 5611
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.2809573361082206,
      "eval_f1_macro": 0.6111569473926136,
      "eval_f1_micro": 0.8437194965322373,
      "eval_loss": 0.29034462571144104,
      "eval_runtime": 76.5731,
      "eval_samples_per_second": 50.2,
      "eval_steps_per_second": 0.797,
      "learning_rate": 0.0001,
      "step": 5792
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.28537981269510926,
      "eval_f1_macro": 0.6202495870793918,
      "eval_f1_micro": 0.8461617038663874,
      "eval_loss": 0.2888760268688202,
      "eval_runtime": 78.8612,
      "eval_samples_per_second": 48.744,
      "eval_steps_per_second": 0.774,
      "learning_rate": 0.0001,
      "step": 5973
    },
    {
      "epoch": 33.149171270718234,
      "grad_norm": 0.16711881756782532,
      "learning_rate": 0.0001,
      "loss": 0.3049,
      "step": 6000
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.2861602497398543,
      "eval_f1_macro": 0.6150504150317478,
      "eval_f1_micro": 0.8446023671361742,
      "eval_loss": 0.28964364528656006,
      "eval_runtime": 78.2568,
      "eval_samples_per_second": 49.12,
      "eval_steps_per_second": 0.779,
      "learning_rate": 0.0001,
      "step": 6154
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.2866805411030177,
      "eval_f1_macro": 0.611180048847438,
      "eval_f1_micro": 0.8449244728566273,
      "eval_loss": 0.28874215483665466,
      "eval_runtime": 78.411,
      "eval_samples_per_second": 49.024,
      "eval_steps_per_second": 0.778,
      "learning_rate": 0.0001,
      "step": 6335
    },
    {
      "epoch": 35.91160220994475,
      "grad_norm": 0.1489323228597641,
      "learning_rate": 0.0001,
      "loss": 0.3012,
      "step": 6500
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.28355879292403746,
      "eval_f1_macro": 0.6119874534823754,
      "eval_f1_micro": 0.8447173058645225,
      "eval_loss": 0.2888963222503662,
      "eval_runtime": 80.9886,
      "eval_samples_per_second": 47.463,
      "eval_steps_per_second": 0.753,
      "learning_rate": 0.0001,
      "step": 6516
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.2866805411030177,
      "eval_f1_macro": 0.6255767175486281,
      "eval_f1_micro": 0.8475834540970686,
      "eval_loss": 0.288282573223114,
      "eval_runtime": 78.5643,
      "eval_samples_per_second": 48.928,
      "eval_steps_per_second": 0.776,
      "learning_rate": 0.0001,
      "step": 6697
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.28251821019771073,
      "eval_f1_macro": 0.6057239934398935,
      "eval_f1_micro": 0.8452536426724028,
      "eval_loss": 0.29050976037979126,
      "eval_runtime": 79.802,
      "eval_samples_per_second": 48.169,
      "eval_steps_per_second": 0.764,
      "learning_rate": 0.0001,
      "step": 6878
    },
    {
      "epoch": 38.67403314917127,
      "grad_norm": 0.1844823658466339,
      "learning_rate": 0.0001,
      "loss": 0.299,
      "step": 7000
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.28537981269510926,
      "eval_f1_macro": 0.625366961909805,
      "eval_f1_micro": 0.8470600182796791,
      "eval_loss": 0.28778275847435,
      "eval_runtime": 78.7507,
      "eval_samples_per_second": 48.812,
      "eval_steps_per_second": 0.775,
      "learning_rate": 0.0001,
      "step": 7059
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.2809573361082206,
      "eval_f1_macro": 0.622337777946806,
      "eval_f1_micro": 0.8468000302716884,
      "eval_loss": 0.2885717749595642,
      "eval_runtime": 79.0959,
      "eval_samples_per_second": 48.599,
      "eval_steps_per_second": 0.771,
      "learning_rate": 0.0001,
      "step": 7240
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.2843392299687825,
      "eval_f1_macro": 0.6260539681026288,
      "eval_f1_micro": 0.847323400258903,
      "eval_loss": 0.28773826360702515,
      "eval_runtime": 81.7413,
      "eval_samples_per_second": 47.026,
      "eval_steps_per_second": 0.746,
      "learning_rate": 0.0001,
      "step": 7421
    },
    {
      "epoch": 41.43646408839779,
      "grad_norm": 0.16540081799030304,
      "learning_rate": 0.0001,
      "loss": 0.2989,
      "step": 7500
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.28563995837669093,
      "eval_f1_macro": 0.6199392946357273,
      "eval_f1_micro": 0.8476613005450627,
      "eval_loss": 0.28776827454566956,
      "eval_runtime": 78.9339,
      "eval_samples_per_second": 48.699,
      "eval_steps_per_second": 0.773,
      "learning_rate": 0.0001,
      "step": 7602
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.28303850156087407,
      "eval_f1_macro": 0.6287571427217789,
      "eval_f1_micro": 0.8479237095716232,
      "eval_loss": 0.28717148303985596,
      "eval_runtime": 77.7099,
      "eval_samples_per_second": 49.466,
      "eval_steps_per_second": 0.785,
      "learning_rate": 0.0001,
      "step": 7783
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.28407908428720086,
      "eval_f1_macro": 0.6189979239207937,
      "eval_f1_micro": 0.8463665693654939,
      "eval_loss": 0.28678667545318604,
      "eval_runtime": 78.2343,
      "eval_samples_per_second": 49.134,
      "eval_steps_per_second": 0.78,
      "learning_rate": 0.0001,
      "step": 7964
    },
    {
      "epoch": 44.19889502762431,
      "grad_norm": 0.17522749304771423,
      "learning_rate": 0.0001,
      "loss": 0.2983,
      "step": 8000
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.28381893860561913,
      "eval_f1_macro": 0.6235508782461164,
      "eval_f1_micro": 0.8462928555066304,
      "eval_loss": 0.28698909282684326,
      "eval_runtime": 78.0653,
      "eval_samples_per_second": 49.241,
      "eval_steps_per_second": 0.781,
      "learning_rate": 0.0001,
      "step": 8145
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.28251821019771073,
      "eval_f1_macro": 0.6151318511304835,
      "eval_f1_micro": 0.8459846547314578,
      "eval_loss": 0.2868472635746002,
      "eval_runtime": 77.6178,
      "eval_samples_per_second": 49.525,
      "eval_steps_per_second": 0.786,
      "learning_rate": 0.0001,
      "step": 8326
    },
    {
      "epoch": 46.96132596685083,
      "grad_norm": 0.20419611036777496,
      "learning_rate": 0.0001,
      "loss": 0.298,
      "step": 8500
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.2845993756503642,
      "eval_f1_macro": 0.6211457155619424,
      "eval_f1_micro": 0.8462129359348595,
      "eval_loss": 0.28715068101882935,
      "eval_runtime": 77.3289,
      "eval_samples_per_second": 49.71,
      "eval_steps_per_second": 0.789,
      "learning_rate": 0.0001,
      "step": 8507
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.28355879292403746,
      "eval_f1_macro": 0.6231150403485404,
      "eval_f1_micro": 0.8466852933705867,
      "eval_loss": 0.28661593794822693,
      "eval_runtime": 76.7641,
      "eval_samples_per_second": 50.075,
      "eval_steps_per_second": 0.795,
      "learning_rate": 0.0001,
      "step": 8688
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.28590010405827265,
      "eval_f1_macro": 0.616055362439494,
      "eval_f1_micro": 0.8460415439387342,
      "eval_loss": 0.28633347153663635,
      "eval_runtime": 76.5745,
      "eval_samples_per_second": 50.199,
      "eval_steps_per_second": 0.797,
      "learning_rate": 0.0001,
      "step": 8869
    },
    {
      "epoch": 49.72375690607735,
      "grad_norm": 0.2103131115436554,
      "learning_rate": 0.0001,
      "loss": 0.2965,
      "step": 9000
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.2845993756503642,
      "eval_f1_macro": 0.625458075101288,
      "eval_f1_micro": 0.8482882700250868,
      "eval_loss": 0.28642749786376953,
      "eval_runtime": 76.3371,
      "eval_samples_per_second": 50.356,
      "eval_steps_per_second": 0.799,
      "learning_rate": 0.0001,
      "step": 9050
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.28485952133194586,
      "eval_f1_macro": 0.6278100779578839,
      "eval_f1_micro": 0.848592785832539,
      "eval_loss": 0.2890762686729431,
      "eval_runtime": 77.0258,
      "eval_samples_per_second": 49.905,
      "eval_steps_per_second": 0.792,
      "learning_rate": 0.0001,
      "step": 9231
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.2851196670135276,
      "eval_f1_macro": 0.6255462096645672,
      "eval_f1_micro": 0.8464228285561143,
      "eval_loss": 0.2855978012084961,
      "eval_runtime": 76.6781,
      "eval_samples_per_second": 50.132,
      "eval_steps_per_second": 0.796,
      "learning_rate": 0.0001,
      "step": 9412
    },
    {
      "epoch": 52.48618784530387,
      "grad_norm": 0.24192312359809875,
      "learning_rate": 0.0001,
      "loss": 0.2956,
      "step": 9500
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.27887617065556713,
      "eval_f1_macro": 0.6457587856102145,
      "eval_f1_micro": 0.8489991514001897,
      "eval_loss": 0.2872205674648285,
      "eval_runtime": 76.6479,
      "eval_samples_per_second": 50.151,
      "eval_steps_per_second": 0.796,
      "learning_rate": 0.0001,
      "step": 9593
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.2903225806451613,
      "eval_f1_macro": 0.6243869856844756,
      "eval_f1_micro": 0.8476844874709444,
      "eval_loss": 0.2855803072452545,
      "eval_runtime": 77.582,
      "eval_samples_per_second": 49.548,
      "eval_steps_per_second": 0.786,
      "learning_rate": 0.0001,
      "step": 9774
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.2845993756503642,
      "eval_f1_macro": 0.6339630509281279,
      "eval_f1_micro": 0.8475136716266056,
      "eval_loss": 0.28568968176841736,
      "eval_runtime": 77.102,
      "eval_samples_per_second": 49.856,
      "eval_steps_per_second": 0.791,
      "learning_rate": 0.0001,
      "step": 9955
    },
    {
      "epoch": 55.248618784530386,
      "grad_norm": 0.21083500981330872,
      "learning_rate": 0.0001,
      "loss": 0.2958,
      "step": 10000
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.2866805411030177,
      "eval_f1_macro": 0.6241465491773776,
      "eval_f1_micro": 0.8465597622829039,
      "eval_loss": 0.28617897629737854,
      "eval_runtime": 76.1445,
      "eval_samples_per_second": 50.483,
      "eval_steps_per_second": 0.801,
      "learning_rate": 0.0001,
      "step": 10136
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.2861602497398543,
      "eval_f1_macro": 0.6249269702519318,
      "eval_f1_micro": 0.845436853426201,
      "eval_loss": 0.2870914936065674,
      "eval_runtime": 77.4556,
      "eval_samples_per_second": 49.628,
      "eval_steps_per_second": 0.788,
      "learning_rate": 0.0001,
      "step": 10317
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.28121748178980227,
      "eval_f1_macro": 0.6333866717026029,
      "eval_f1_micro": 0.8491941382702348,
      "eval_loss": 0.2857914865016937,
      "eval_runtime": 77.2551,
      "eval_samples_per_second": 49.757,
      "eval_steps_per_second": 0.79,
      "learning_rate": 0.0001,
      "step": 10498
    },
    {
      "epoch": 58.011049723756905,
      "grad_norm": 0.22250542044639587,
      "learning_rate": 1e-05,
      "loss": 0.2954,
      "step": 10500
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.2887617065556712,
      "eval_f1_macro": 0.6178461796051926,
      "eval_f1_micro": 0.8468232576049287,
      "eval_loss": 0.28617140650749207,
      "eval_runtime": 76.6548,
      "eval_samples_per_second": 50.147,
      "eval_steps_per_second": 0.796,
      "learning_rate": 1e-05,
      "step": 10679
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.28537981269510926,
      "eval_f1_macro": 0.6275748058546806,
      "eval_f1_micro": 0.8485033598045205,
      "eval_loss": 0.2846605181694031,
      "eval_runtime": 76.2984,
      "eval_samples_per_second": 50.381,
      "eval_steps_per_second": 0.799,
      "learning_rate": 1e-05,
      "step": 10860
    },
    {
      "epoch": 60.773480662983424,
      "grad_norm": 0.25101110339164734,
      "learning_rate": 1e-05,
      "loss": 0.2923,
      "step": 11000
    },
    {
      "epoch": 61.0,
      "eval_accuracy": 0.28303850156087407,
      "eval_f1_macro": 0.6223888517425455,
      "eval_f1_micro": 0.8479865171982329,
      "eval_loss": 0.2848633825778961,
      "eval_runtime": 76.6322,
      "eval_samples_per_second": 50.162,
      "eval_steps_per_second": 0.796,
      "learning_rate": 1e-05,
      "step": 11041
    },
    {
      "epoch": 62.0,
      "eval_accuracy": 0.2843392299687825,
      "eval_f1_macro": 0.6247632003821695,
      "eval_f1_micro": 0.8469200122586577,
      "eval_loss": 0.28548601269721985,
      "eval_runtime": 77.5636,
      "eval_samples_per_second": 49.559,
      "eval_steps_per_second": 0.786,
      "learning_rate": 1e-05,
      "step": 11222
    },
    {
      "epoch": 63.0,
      "eval_accuracy": 0.2827783558792924,
      "eval_f1_macro": 0.6274806463168713,
      "eval_f1_micro": 0.8488979777323336,
      "eval_loss": 0.28493326902389526,
      "eval_runtime": 77.2321,
      "eval_samples_per_second": 49.772,
      "eval_steps_per_second": 0.79,
      "learning_rate": 1e-05,
      "step": 11403
    },
    {
      "epoch": 63.53591160220994,
      "grad_norm": 0.23796355724334717,
      "learning_rate": 1e-05,
      "loss": 0.2918,
      "step": 11500
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.28225806451612906,
      "eval_f1_macro": 0.6370787064578803,
      "eval_f1_micro": 0.8475187206498287,
      "eval_loss": 0.28459736704826355,
      "eval_runtime": 77.0797,
      "eval_samples_per_second": 49.87,
      "eval_steps_per_second": 0.791,
      "learning_rate": 1e-05,
      "step": 11584
    },
    {
      "epoch": 65.0,
      "eval_accuracy": 0.2869406867845994,
      "eval_f1_macro": 0.6240984315849201,
      "eval_f1_micro": 0.8467700785794469,
      "eval_loss": 0.2860054671764374,
      "eval_runtime": 76.4904,
      "eval_samples_per_second": 50.255,
      "eval_steps_per_second": 0.797,
      "learning_rate": 1e-05,
      "step": 11765
    },
    {
      "epoch": 66.0,
      "eval_accuracy": 0.28407908428720086,
      "eval_f1_macro": 0.6346693986906206,
      "eval_f1_micro": 0.8481340441736481,
      "eval_loss": 0.2847185730934143,
      "eval_runtime": 77.2653,
      "eval_samples_per_second": 49.751,
      "eval_steps_per_second": 0.789,
      "learning_rate": 1e-05,
      "step": 11946
    },
    {
      "epoch": 66.29834254143647,
      "grad_norm": 0.25470152497291565,
      "learning_rate": 1e-05,
      "loss": 0.2906,
      "step": 12000
    },
    {
      "epoch": 67.0,
      "eval_accuracy": 0.28537981269510926,
      "eval_f1_macro": 0.6287121285420982,
      "eval_f1_micro": 0.8487528745798691,
      "eval_loss": 0.28529325127601624,
      "eval_runtime": 79.9065,
      "eval_samples_per_second": 48.106,
      "eval_steps_per_second": 0.763,
      "learning_rate": 1e-05,
      "step": 12127
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.2866805411030177,
      "eval_f1_macro": 0.6321379394582358,
      "eval_f1_micro": 0.8480251642525557,
      "eval_loss": 0.2852926254272461,
      "eval_runtime": 78.4728,
      "eval_samples_per_second": 48.985,
      "eval_steps_per_second": 0.777,
      "learning_rate": 1e-05,
      "step": 12308
    },
    {
      "epoch": 69.0,
      "eval_accuracy": 0.28355879292403746,
      "eval_f1_macro": 0.6397237492354447,
      "eval_f1_micro": 0.847692190707931,
      "eval_loss": 0.284834623336792,
      "eval_runtime": 77.7721,
      "eval_samples_per_second": 49.426,
      "eval_steps_per_second": 0.784,
      "learning_rate": 1e-05,
      "step": 12489
    },
    {
      "epoch": 69.06077348066299,
      "grad_norm": 0.19653503596782684,
      "learning_rate": 1e-05,
      "loss": 0.2918,
      "step": 12500
    },
    {
      "epoch": 70.0,
      "eval_accuracy": 0.28225806451612906,
      "eval_f1_macro": 0.6381143671040704,
      "eval_f1_micro": 0.8492167101827677,
      "eval_loss": 0.28527727723121643,
      "eval_runtime": 76.6607,
      "eval_samples_per_second": 50.143,
      "eval_steps_per_second": 0.796,
      "learning_rate": 1e-05,
      "step": 12670
    },
    {
      "epoch": 71.0,
      "eval_accuracy": 0.2882414151925078,
      "eval_f1_macro": 0.6325489300082728,
      "eval_f1_micro": 0.8475971370143149,
      "eval_loss": 0.28507113456726074,
      "eval_runtime": 76.9731,
      "eval_samples_per_second": 49.94,
      "eval_steps_per_second": 0.792,
      "learning_rate": 1.0000000000000002e-06,
      "step": 12851
    },
    {
      "epoch": 71.8232044198895,
      "grad_norm": 0.19946995377540588,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.2918,
      "step": 13000
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.28485952133194586,
      "eval_f1_macro": 0.6236352127811986,
      "eval_f1_micro": 0.8474255781269963,
      "eval_loss": 0.28452861309051514,
      "eval_runtime": 79.7463,
      "eval_samples_per_second": 48.203,
      "eval_steps_per_second": 0.765,
      "learning_rate": 1.0000000000000002e-06,
      "step": 13032
    },
    {
      "epoch": 73.0,
      "eval_accuracy": 0.28121748178980227,
      "eval_f1_macro": 0.6333277250193455,
      "eval_f1_micro": 0.847641772858811,
      "eval_loss": 0.28448227047920227,
      "eval_runtime": 76.9059,
      "eval_samples_per_second": 49.983,
      "eval_steps_per_second": 0.793,
      "learning_rate": 1.0000000000000002e-06,
      "step": 13213
    },
    {
      "epoch": 74.0,
      "eval_accuracy": 0.2827783558792924,
      "eval_f1_macro": 0.6300187593616763,
      "eval_f1_micro": 0.8465770953294945,
      "eval_loss": 0.28447526693344116,
      "eval_runtime": 77.6657,
      "eval_samples_per_second": 49.494,
      "eval_steps_per_second": 0.785,
      "learning_rate": 1.0000000000000002e-06,
      "step": 13394
    },
    {
      "epoch": 74.58563535911603,
      "grad_norm": 0.251558780670166,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.2913,
      "step": 13500
    },
    {
      "epoch": 75.0,
      "eval_accuracy": 0.28199791883454733,
      "eval_f1_macro": 0.6235297745568456,
      "eval_f1_micro": 0.8473772748126625,
      "eval_loss": 0.2851284146308899,
      "eval_runtime": 77.914,
      "eval_samples_per_second": 49.336,
      "eval_steps_per_second": 0.783,
      "learning_rate": 1.0000000000000002e-06,
      "step": 13575
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.2879812695109261,
      "eval_f1_macro": 0.6186062513830065,
      "eval_f1_micro": 0.847320835674516,
      "eval_loss": 0.2859683036804199,
      "eval_runtime": 77.7414,
      "eval_samples_per_second": 49.446,
      "eval_steps_per_second": 0.785,
      "learning_rate": 1.0000000000000002e-06,
      "step": 13756
    },
    {
      "epoch": 77.0,
      "eval_accuracy": 0.28563995837669093,
      "eval_f1_macro": 0.6172786558676017,
      "eval_f1_micro": 0.8459046737621472,
      "eval_loss": 0.2858298718929291,
      "eval_runtime": 79.1015,
      "eval_samples_per_second": 48.596,
      "eval_steps_per_second": 0.771,
      "learning_rate": 1.0000000000000002e-06,
      "step": 13937
    },
    {
      "epoch": 77.34806629834254,
      "grad_norm": 0.22088366746902466,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.2913,
      "step": 14000
    },
    {
      "epoch": 78.0,
      "eval_accuracy": 0.2843392299687825,
      "eval_f1_macro": 0.6325947858436887,
      "eval_f1_micro": 0.8480547459130655,
      "eval_loss": 0.28438833355903625,
      "eval_runtime": 77.2562,
      "eval_samples_per_second": 49.757,
      "eval_steps_per_second": 0.79,
      "learning_rate": 1.0000000000000002e-06,
      "step": 14118
    },
    {
      "epoch": 79.0,
      "eval_accuracy": 0.2874609781477627,
      "eval_f1_macro": 0.617917490234713,
      "eval_f1_micro": 0.8472353346431579,
      "eval_loss": 0.2870919704437256,
      "eval_runtime": 76.5647,
      "eval_samples_per_second": 50.206,
      "eval_steps_per_second": 0.797,
      "learning_rate": 1.0000000000000002e-06,
      "step": 14299
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.28381893860561913,
      "eval_f1_macro": 0.6286567457369128,
      "eval_f1_micro": 0.8477330616403465,
      "eval_loss": 0.28482332825660706,
      "eval_runtime": 76.83,
      "eval_samples_per_second": 50.033,
      "eval_steps_per_second": 0.794,
      "learning_rate": 1.0000000000000002e-06,
      "step": 14480
    },
    {
      "epoch": 80.11049723756906,
      "grad_norm": 0.21530944108963013,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.2915,
      "step": 14500
    },
    {
      "epoch": 81.0,
      "eval_accuracy": 0.28537981269510926,
      "eval_f1_macro": 0.6304525529970205,
      "eval_f1_micro": 0.8489678202792957,
      "eval_loss": 0.2847617268562317,
      "eval_runtime": 77.26,
      "eval_samples_per_second": 49.754,
      "eval_steps_per_second": 0.79,
      "learning_rate": 1.0000000000000002e-06,
      "step": 14661
    },
    {
      "epoch": 82.0,
      "eval_accuracy": 0.28590010405827265,
      "eval_f1_macro": 0.6394217270135759,
      "eval_f1_micro": 0.8480416961845967,
      "eval_loss": 0.28511229157447815,
      "eval_runtime": 78.9926,
      "eval_samples_per_second": 48.663,
      "eval_steps_per_second": 0.772,
      "learning_rate": 1.0000000000000002e-06,
      "step": 14842
    },
    {
      "epoch": 82.87292817679558,
      "grad_norm": 0.2371624857187271,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.2913,
      "step": 15000
    },
    {
      "epoch": 83.0,
      "eval_accuracy": 0.28563995837669093,
      "eval_f1_macro": 0.6255055774993536,
      "eval_f1_micro": 0.8488055562622434,
      "eval_loss": 0.284644216299057,
      "eval_runtime": 76.4754,
      "eval_samples_per_second": 50.265,
      "eval_steps_per_second": 0.798,
      "learning_rate": 1.0000000000000002e-06,
      "step": 15023
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.2832986472424558,
      "eval_f1_macro": 0.6457553263622914,
      "eval_f1_micro": 0.848188643119867,
      "eval_loss": 0.2857225835323334,
      "eval_runtime": 77.2675,
      "eval_samples_per_second": 49.749,
      "eval_steps_per_second": 0.789,
      "learning_rate": 1.0000000000000002e-06,
      "step": 15204
    },
    {
      "epoch": 85.0,
      "eval_accuracy": 0.28121748178980227,
      "eval_f1_macro": 0.6339586571635658,
      "eval_f1_micro": 0.848818698673405,
      "eval_loss": 0.28550758957862854,
      "eval_runtime": 77.3218,
      "eval_samples_per_second": 49.714,
      "eval_steps_per_second": 0.789,
      "learning_rate": 1.0000000000000002e-07,
      "step": 15385
    },
    {
      "epoch": 85.6353591160221,
      "grad_norm": 0.22222235798835754,
      "learning_rate": 1.0000000000000002e-07,
      "loss": 0.2922,
      "step": 15500
    },
    {
      "epoch": 86.0,
      "eval_accuracy": 0.28590010405827265,
      "eval_f1_macro": 0.6362631688004041,
      "eval_f1_micro": 0.8479890588592848,
      "eval_loss": 0.284895658493042,
      "eval_runtime": 76.6317,
      "eval_samples_per_second": 50.162,
      "eval_steps_per_second": 0.796,
      "learning_rate": 1.0000000000000002e-07,
      "step": 15566
    },
    {
      "epoch": 87.0,
      "eval_accuracy": 0.2851196670135276,
      "eval_f1_macro": 0.6327749126527296,
      "eval_f1_micro": 0.8473590201582036,
      "eval_loss": 0.2845035493373871,
      "eval_runtime": 77.1171,
      "eval_samples_per_second": 49.846,
      "eval_steps_per_second": 0.791,
      "learning_rate": 1.0000000000000002e-07,
      "step": 15747
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.28121748178980227,
      "eval_f1_macro": 0.6370893160624239,
      "eval_f1_micro": 0.8477551536613127,
      "eval_loss": 0.28541097044944763,
      "eval_runtime": 76.6873,
      "eval_samples_per_second": 50.126,
      "eval_steps_per_second": 0.795,
      "learning_rate": 1.0000000000000002e-07,
      "step": 15928
    },
    {
      "epoch": 88.0,
      "learning_rate": 1.0000000000000002e-07,
      "step": 15928,
      "total_flos": 1.500719176717825e+20,
      "train_loss": 0.3047179739897961,
      "train_runtime": 30841.8451,
      "train_samples_per_second": 56.038,
      "train_steps_per_second": 0.88
    }
  ],
  "logging_steps": 500,
  "max_steps": 27150,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 150,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 10,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.500719176717825e+20,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}