{
  "best_metric": 0.1725098043680191,
  "best_model_checkpoint": "frost-mobile-apple/mobilevit-xx-small-v2024-10-22/checkpoint-1500",
  "epoch": 30.0,
  "eval_steps": 100,
  "global_step": 1710,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.17543859649122806,
      "grad_norm": 0.2625730037689209,
      "learning_rate": 1.1695906432748537e-05,
      "loss": 0.6928,
      "step": 10
    },
    {
      "epoch": 0.3508771929824561,
      "grad_norm": 0.2961116135120392,
      "learning_rate": 2.3391812865497074e-05,
      "loss": 0.6936,
      "step": 20
    },
    {
      "epoch": 0.5263157894736842,
      "grad_norm": 0.24333663284778595,
      "learning_rate": 3.508771929824561e-05,
      "loss": 0.6917,
      "step": 30
    },
    {
      "epoch": 0.7017543859649122,
      "grad_norm": 0.2218523770570755,
      "learning_rate": 4.678362573099415e-05,
      "loss": 0.6887,
      "step": 40
    },
    {
      "epoch": 0.8771929824561403,
      "grad_norm": 0.23965124785900116,
      "learning_rate": 5.847953216374269e-05,
      "loss": 0.685,
      "step": 50
    },
    {
      "epoch": 1.0526315789473684,
      "grad_norm": 0.23081418871879578,
      "learning_rate": 7.017543859649122e-05,
      "loss": 0.6815,
      "step": 60
    },
    {
      "epoch": 1.2280701754385965,
      "grad_norm": 0.23212119936943054,
      "learning_rate": 8.187134502923976e-05,
      "loss": 0.676,
      "step": 70
    },
    {
      "epoch": 1.4035087719298245,
      "grad_norm": 0.2775309383869171,
      "learning_rate": 9.35672514619883e-05,
      "loss": 0.6711,
      "step": 80
    },
    {
      "epoch": 1.5789473684210527,
      "grad_norm": 0.38230618834495544,
      "learning_rate": 0.00010526315789473685,
      "loss": 0.6617,
      "step": 90
    },
    {
      "epoch": 1.7543859649122808,
      "grad_norm": 0.29050251841545105,
      "learning_rate": 0.00011695906432748539,
      "loss": 0.6549,
      "step": 100
    },
    {
      "epoch": 1.7543859649122808,
      "eval_accuracy": 0.82,
      "eval_f1": 0.6260387811634349,
      "eval_loss": 0.6288657784461975,
      "eval_precision": 0.5191424196018377,
      "eval_recall": 0.7883720930232558,
      "eval_runtime": 2.6915,
      "eval_samples_per_second": 83.597,
      "eval_steps_per_second": 10.775,
      "step": 100
    },
    {
      "epoch": 1.9298245614035088,
      "grad_norm": 0.3310299217700958,
      "learning_rate": 0.0001286549707602339,
      "loss": 0.6389,
      "step": 110
    },
    {
      "epoch": 2.1052631578947367,
      "grad_norm": 0.35385212302207947,
      "learning_rate": 0.00014035087719298245,
      "loss": 0.6276,
      "step": 120
    },
    {
      "epoch": 2.280701754385965,
      "grad_norm": 0.31887122988700867,
      "learning_rate": 0.00015204678362573098,
      "loss": 0.6068,
      "step": 130
    },
    {
      "epoch": 2.456140350877193,
      "grad_norm": 0.38656044006347656,
      "learning_rate": 0.00016374269005847952,
      "loss": 0.5876,
      "step": 140
    },
    {
      "epoch": 2.6315789473684212,
      "grad_norm": 0.40553656220436096,
      "learning_rate": 0.00017543859649122806,
      "loss": 0.5782,
      "step": 150
    },
    {
      "epoch": 2.807017543859649,
      "grad_norm": 0.5055739879608154,
      "learning_rate": 0.0001871345029239766,
      "loss": 0.546,
      "step": 160
    },
    {
      "epoch": 2.982456140350877,
      "grad_norm": 0.6473321318626404,
      "learning_rate": 0.00019883040935672513,
      "loss": 0.5322,
      "step": 170
    },
    {
      "epoch": 3.1578947368421053,
      "grad_norm": 0.5542100667953491,
      "learning_rate": 0.00019883040935672513,
      "loss": 0.5081,
      "step": 180
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.525965690612793,
      "learning_rate": 0.00019753086419753085,
      "loss": 0.4906,
      "step": 190
    },
    {
      "epoch": 3.5087719298245617,
      "grad_norm": 0.6686927676200867,
      "learning_rate": 0.00019623131903833657,
      "loss": 0.4616,
      "step": 200
    },
    {
      "epoch": 3.5087719298245617,
      "eval_accuracy": 0.8866666666666667,
      "eval_f1": 0.7295864262990456,
      "eval_loss": 0.41918542981147766,
      "eval_precision": 0.6705653021442495,
      "eval_recall": 0.8,
      "eval_runtime": 2.7897,
      "eval_samples_per_second": 80.654,
      "eval_steps_per_second": 10.395,
      "step": 200
    },
    {
      "epoch": 3.6842105263157894,
      "grad_norm": 1.5412182807922363,
      "learning_rate": 0.0001949317738791423,
      "loss": 0.4506,
      "step": 210
    },
    {
      "epoch": 3.8596491228070176,
      "grad_norm": 0.4173012375831604,
      "learning_rate": 0.00019363222871994802,
      "loss": 0.4371,
      "step": 220
    },
    {
      "epoch": 4.035087719298246,
      "grad_norm": 0.42248570919036865,
      "learning_rate": 0.00019233268356075374,
      "loss": 0.4064,
      "step": 230
    },
    {
      "epoch": 4.2105263157894735,
      "grad_norm": 0.5491617918014526,
      "learning_rate": 0.00019103313840155946,
      "loss": 0.3724,
      "step": 240
    },
    {
      "epoch": 4.385964912280702,
      "grad_norm": 0.35062703490257263,
      "learning_rate": 0.00018973359324236518,
      "loss": 0.3671,
      "step": 250
    },
    {
      "epoch": 4.56140350877193,
      "grad_norm": 0.40491071343421936,
      "learning_rate": 0.0001884340480831709,
      "loss": 0.3683,
      "step": 260
    },
    {
      "epoch": 4.7368421052631575,
      "grad_norm": 0.9965174794197083,
      "learning_rate": 0.0001871345029239766,
      "loss": 0.3402,
      "step": 270
    },
    {
      "epoch": 4.912280701754386,
      "grad_norm": 0.7184051275253296,
      "learning_rate": 0.00018583495776478232,
      "loss": 0.3348,
      "step": 280
    },
    {
      "epoch": 5.087719298245614,
      "grad_norm": 1.8915038108825684,
      "learning_rate": 0.00018453541260558804,
      "loss": 0.32,
      "step": 290
    },
    {
      "epoch": 5.2631578947368425,
      "grad_norm": 0.5761589407920837,
      "learning_rate": 0.00018323586744639376,
      "loss": 0.3101,
      "step": 300
    },
    {
      "epoch": 5.2631578947368425,
      "eval_accuracy": 0.9035555555555556,
      "eval_f1": 0.7317676143386898,
      "eval_loss": 0.30708780884742737,
      "eval_precision": 0.7810026385224275,
      "eval_recall": 0.6883720930232559,
      "eval_runtime": 2.8811,
      "eval_samples_per_second": 78.095,
      "eval_steps_per_second": 10.066,
      "step": 300
    },
    {
      "epoch": 5.43859649122807,
      "grad_norm": 1.1592423915863037,
      "learning_rate": 0.00018193632228719948,
      "loss": 0.3258,
      "step": 310
    },
    {
      "epoch": 5.614035087719298,
      "grad_norm": 0.8307028412818909,
      "learning_rate": 0.0001806367771280052,
      "loss": 0.3149,
      "step": 320
    },
    {
      "epoch": 5.7894736842105265,
      "grad_norm": 0.9469823837280273,
      "learning_rate": 0.00017933723196881092,
      "loss": 0.3033,
      "step": 330
    },
    {
      "epoch": 5.964912280701754,
      "grad_norm": 2.199500322341919,
      "learning_rate": 0.00017803768680961664,
      "loss": 0.3164,
      "step": 340
    },
    {
      "epoch": 6.140350877192983,
      "grad_norm": 0.6772398948669434,
      "learning_rate": 0.00017673814165042236,
      "loss": 0.2806,
      "step": 350
    },
    {
      "epoch": 6.315789473684211,
      "grad_norm": 0.4862241744995117,
      "learning_rate": 0.00017543859649122806,
      "loss": 0.2817,
      "step": 360
    },
    {
      "epoch": 6.491228070175438,
      "grad_norm": 1.2349482774734497,
      "learning_rate": 0.00017413905133203378,
      "loss": 0.288,
      "step": 370
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 2.9781813621520996,
      "learning_rate": 0.00017296946068875895,
      "loss": 0.3039,
      "step": 380
    },
    {
      "epoch": 6.842105263157895,
      "grad_norm": 0.7632750272750854,
      "learning_rate": 0.00017166991552956468,
      "loss": 0.2836,
      "step": 390
    },
    {
      "epoch": 7.017543859649122,
      "grad_norm": 1.2420198917388916,
      "learning_rate": 0.00017037037037037037,
      "loss": 0.2932,
      "step": 400
    },
    {
      "epoch": 7.017543859649122,
      "eval_accuracy": 0.908,
      "eval_f1": 0.7460122699386503,
      "eval_loss": 0.24856920540332794,
      "eval_precision": 0.7896103896103897,
      "eval_recall": 0.7069767441860465,
      "eval_runtime": 2.8347,
      "eval_samples_per_second": 79.373,
      "eval_steps_per_second": 10.23,
      "step": 400
    },
    {
      "epoch": 7.192982456140351,
      "grad_norm": 0.8554529547691345,
      "learning_rate": 0.0001690708252111761,
      "loss": 0.2583,
      "step": 410
    },
    {
      "epoch": 7.368421052631579,
      "grad_norm": 0.5736662745475769,
      "learning_rate": 0.0001677712800519818,
      "loss": 0.2809,
      "step": 420
    },
    {
      "epoch": 7.543859649122807,
      "grad_norm": 0.7552086114883423,
      "learning_rate": 0.00016647173489278753,
      "loss": 0.2774,
      "step": 430
    },
    {
      "epoch": 7.719298245614035,
      "grad_norm": 0.6094131469726562,
      "learning_rate": 0.00016517218973359325,
      "loss": 0.2771,
      "step": 440
    },
    {
      "epoch": 7.894736842105263,
      "grad_norm": 0.5392113924026489,
      "learning_rate": 0.00016387264457439898,
      "loss": 0.2755,
      "step": 450
    },
    {
      "epoch": 8.070175438596491,
      "grad_norm": 0.4927959740161896,
      "learning_rate": 0.0001625730994152047,
      "loss": 0.2572,
      "step": 460
    },
    {
      "epoch": 8.24561403508772,
      "grad_norm": 0.9484465718269348,
      "learning_rate": 0.00016127355425601042,
      "loss": 0.2354,
      "step": 470
    },
    {
      "epoch": 8.421052631578947,
      "grad_norm": 0.71286940574646,
      "learning_rate": 0.0001599740090968161,
      "loss": 0.2611,
      "step": 480
    },
    {
      "epoch": 8.596491228070175,
      "grad_norm": 1.9641995429992676,
      "learning_rate": 0.00015867446393762183,
      "loss": 0.2547,
      "step": 490
    },
    {
      "epoch": 8.771929824561404,
      "grad_norm": 1.1893583536148071,
      "learning_rate": 0.00015737491877842755,
      "loss": 0.2652,
      "step": 500
    },
    {
      "epoch": 8.771929824561404,
      "eval_accuracy": 0.9137777777777778,
      "eval_f1": 0.7673860911270983,
      "eval_loss": 0.22792504727840424,
      "eval_precision": 0.7920792079207921,
      "eval_recall": 0.7441860465116279,
      "eval_runtime": 1.8141,
      "eval_samples_per_second": 124.03,
      "eval_steps_per_second": 15.986,
      "step": 500
    },
    {
      "epoch": 8.947368421052632,
      "grad_norm": 1.0071460008621216,
      "learning_rate": 0.00015607537361923327,
      "loss": 0.244,
      "step": 510
    },
    {
      "epoch": 9.12280701754386,
      "grad_norm": 1.22650146484375,
      "learning_rate": 0.000154775828460039,
      "loss": 0.2377,
      "step": 520
    },
    {
      "epoch": 9.298245614035087,
      "grad_norm": 2.428567886352539,
      "learning_rate": 0.00015347628330084472,
      "loss": 0.2494,
      "step": 530
    },
    {
      "epoch": 9.473684210526315,
      "grad_norm": 1.8254860639572144,
      "learning_rate": 0.00015217673814165044,
      "loss": 0.2603,
      "step": 540
    },
    {
      "epoch": 9.649122807017545,
      "grad_norm": 0.6592786908149719,
      "learning_rate": 0.00015087719298245616,
      "loss": 0.2597,
      "step": 550
    },
    {
      "epoch": 9.824561403508772,
      "grad_norm": 1.3194756507873535,
      "learning_rate": 0.00014957764782326188,
      "loss": 0.2313,
      "step": 560
    },
    {
      "epoch": 10.0,
      "grad_norm": 2.1871612071990967,
      "learning_rate": 0.00014827810266406757,
      "loss": 0.282,
      "step": 570
    },
    {
      "epoch": 10.175438596491228,
      "grad_norm": 0.759860098361969,
      "learning_rate": 0.0001469785575048733,
      "loss": 0.2319,
      "step": 580
    },
    {
      "epoch": 10.350877192982455,
      "grad_norm": 1.447387933731079,
      "learning_rate": 0.00014567901234567902,
      "loss": 0.2457,
      "step": 590
    },
    {
      "epoch": 10.526315789473685,
      "grad_norm": 0.9954220056533813,
      "learning_rate": 0.00014437946718648474,
      "loss": 0.2253,
      "step": 600
    },
    {
      "epoch": 10.526315789473685,
      "eval_accuracy": 0.9217777777777778,
      "eval_f1": 0.7858880778588808,
      "eval_loss": 0.21004962921142578,
      "eval_precision": 0.8239795918367347,
      "eval_recall": 0.7511627906976744,
      "eval_runtime": 4.2925,
      "eval_samples_per_second": 52.417,
      "eval_steps_per_second": 6.756,
      "step": 600
    },
    {
      "epoch": 10.701754385964913,
      "grad_norm": 0.715815544128418,
      "learning_rate": 0.00014307992202729046,
      "loss": 0.2391,
      "step": 610
    },
    {
      "epoch": 10.87719298245614,
      "grad_norm": 0.6449007391929626,
      "learning_rate": 0.00014178037686809618,
      "loss": 0.2516,
      "step": 620
    },
    {
      "epoch": 11.052631578947368,
      "grad_norm": 0.9613096117973328,
      "learning_rate": 0.0001404808317089019,
      "loss": 0.2157,
      "step": 630
    },
    {
      "epoch": 11.228070175438596,
      "grad_norm": 2.206623077392578,
      "learning_rate": 0.00013918128654970762,
      "loss": 0.2365,
      "step": 640
    },
    {
      "epoch": 11.403508771929825,
      "grad_norm": 1.8694980144500732,
      "learning_rate": 0.00013788174139051334,
      "loss": 0.2263,
      "step": 650
    },
    {
      "epoch": 11.578947368421053,
      "grad_norm": 0.7060205340385437,
      "learning_rate": 0.00013658219623131904,
      "loss": 0.2173,
      "step": 660
    },
    {
      "epoch": 11.75438596491228,
      "grad_norm": 0.8581671714782715,
      "learning_rate": 0.00013528265107212476,
      "loss": 0.2204,
      "step": 670
    },
    {
      "epoch": 11.929824561403509,
      "grad_norm": 1.196590781211853,
      "learning_rate": 0.00013398310591293048,
      "loss": 0.2519,
      "step": 680
    },
    {
      "epoch": 12.105263157894736,
      "grad_norm": 1.0726817846298218,
      "learning_rate": 0.0001326835607537362,
      "loss": 0.2184,
      "step": 690
    },
    {
      "epoch": 12.280701754385966,
      "grad_norm": 0.6241493821144104,
      "learning_rate": 0.00013138401559454192,
      "loss": 0.2257,
      "step": 700
    },
    {
      "epoch": 12.280701754385966,
      "eval_accuracy": 0.9248888888888889,
      "eval_f1": 0.8018757327080891,
      "eval_loss": 0.19510744512081146,
      "eval_precision": 0.8085106382978723,
      "eval_recall": 0.7953488372093023,
      "eval_runtime": 2.9139,
      "eval_samples_per_second": 77.217,
      "eval_steps_per_second": 9.952,
      "step": 700
    },
    {
      "epoch": 12.456140350877194,
      "grad_norm": 1.382541298866272,
      "learning_rate": 0.00013008447043534764,
      "loss": 0.217,
      "step": 710
    },
    {
      "epoch": 12.631578947368421,
      "grad_norm": 0.7372106909751892,
      "learning_rate": 0.00012878492527615336,
      "loss": 0.2209,
      "step": 720
    },
    {
      "epoch": 12.807017543859649,
      "grad_norm": 1.3437495231628418,
      "learning_rate": 0.00012748538011695908,
      "loss": 0.2215,
      "step": 730
    },
    {
      "epoch": 12.982456140350877,
      "grad_norm": 0.8328105807304382,
      "learning_rate": 0.0001261858349577648,
      "loss": 0.247,
      "step": 740
    },
    {
      "epoch": 13.157894736842104,
      "grad_norm": 1.166037917137146,
      "learning_rate": 0.0001248862897985705,
      "loss": 0.2362,
      "step": 750
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 1.8687838315963745,
      "learning_rate": 0.00012358674463937622,
      "loss": 0.2247,
      "step": 760
    },
    {
      "epoch": 13.508771929824562,
      "grad_norm": 1.2782139778137207,
      "learning_rate": 0.00012228719948018194,
      "loss": 0.2134,
      "step": 770
    },
    {
      "epoch": 13.68421052631579,
      "grad_norm": 1.114933967590332,
      "learning_rate": 0.00012098765432098766,
      "loss": 0.1965,
      "step": 780
    },
    {
      "epoch": 13.859649122807017,
      "grad_norm": 1.7937145233154297,
      "learning_rate": 0.00011968810916179338,
      "loss": 0.2124,
      "step": 790
    },
    {
      "epoch": 14.035087719298245,
      "grad_norm": 1.6698014736175537,
      "learning_rate": 0.0001183885640025991,
      "loss": 0.2468,
      "step": 800
    },
    {
      "epoch": 14.035087719298245,
      "eval_accuracy": 0.9306666666666666,
      "eval_f1": 0.8198614318706697,
      "eval_loss": 0.19064003229141235,
      "eval_precision": 0.8142201834862385,
      "eval_recall": 0.8255813953488372,
      "eval_runtime": 2.8315,
      "eval_samples_per_second": 79.464,
      "eval_steps_per_second": 10.242,
      "step": 800
    },
    {
      "epoch": 14.210526315789474,
      "grad_norm": 0.6950424313545227,
      "learning_rate": 0.00011708901884340481,
      "loss": 0.2004,
      "step": 810
    },
    {
      "epoch": 14.385964912280702,
      "grad_norm": 1.5043634176254272,
      "learning_rate": 0.00011578947368421053,
      "loss": 0.2317,
      "step": 820
    },
    {
      "epoch": 14.56140350877193,
      "grad_norm": 1.2491843700408936,
      "learning_rate": 0.00011448992852501626,
      "loss": 0.2027,
      "step": 830
    },
    {
      "epoch": 14.736842105263158,
      "grad_norm": 0.6502349376678467,
      "learning_rate": 0.00011319038336582198,
      "loss": 0.2112,
      "step": 840
    },
    {
      "epoch": 14.912280701754385,
      "grad_norm": 0.40061789751052856,
      "learning_rate": 0.0001118908382066277,
      "loss": 0.1756,
      "step": 850
    },
    {
      "epoch": 15.087719298245615,
      "grad_norm": 2.8378994464874268,
      "learning_rate": 0.0001105912930474334,
      "loss": 0.2216,
      "step": 860
    },
    {
      "epoch": 15.263157894736842,
      "grad_norm": 1.7187498807907104,
      "learning_rate": 0.00010929174788823913,
      "loss": 0.2072,
      "step": 870
    },
    {
      "epoch": 15.43859649122807,
      "grad_norm": 1.774376392364502,
      "learning_rate": 0.00010799220272904485,
      "loss": 0.239,
      "step": 880
    },
    {
      "epoch": 15.614035087719298,
      "grad_norm": 1.5812989473342896,
      "learning_rate": 0.00010669265756985057,
      "loss": 0.2191,
      "step": 890
    },
    {
      "epoch": 15.789473684210526,
      "grad_norm": 0.9877386689186096,
      "learning_rate": 0.00010539311241065628,
      "loss": 0.1796,
      "step": 900
    },
    {
      "epoch": 15.789473684210526,
      "eval_accuracy": 0.9275555555555556,
      "eval_f1": 0.81199538638985,
      "eval_loss": 0.19485591351985931,
      "eval_precision": 0.8054919908466819,
      "eval_recall": 0.8186046511627907,
      "eval_runtime": 1.8216,
      "eval_samples_per_second": 123.517,
      "eval_steps_per_second": 15.92,
      "step": 900
    },
    {
      "epoch": 15.964912280701755,
      "grad_norm": 1.059669017791748,
      "learning_rate": 0.000104093567251462,
      "loss": 0.1838,
      "step": 910
    },
    {
      "epoch": 16.140350877192983,
      "grad_norm": 1.4218086004257202,
      "learning_rate": 0.00010279402209226772,
      "loss": 0.2281,
      "step": 920
    },
    {
      "epoch": 16.31578947368421,
      "grad_norm": 1.2070213556289673,
      "learning_rate": 0.00010149447693307344,
      "loss": 0.1997,
      "step": 930
    },
    {
      "epoch": 16.49122807017544,
      "grad_norm": 2.351250410079956,
      "learning_rate": 0.00010019493177387915,
      "loss": 0.1843,
      "step": 940
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.8852570056915283,
      "learning_rate": 9.889538661468485e-05,
      "loss": 0.2357,
      "step": 950
    },
    {
      "epoch": 16.842105263157894,
      "grad_norm": 2.0466091632843018,
      "learning_rate": 9.759584145549058e-05,
      "loss": 0.2277,
      "step": 960
    },
    {
      "epoch": 17.017543859649123,
      "grad_norm": 5.798379898071289,
      "learning_rate": 9.62962962962963e-05,
      "loss": 0.2246,
      "step": 970
    },
    {
      "epoch": 17.19298245614035,
      "grad_norm": 1.6754958629608154,
      "learning_rate": 9.499675113710202e-05,
      "loss": 0.1904,
      "step": 980
    },
    {
      "epoch": 17.36842105263158,
      "grad_norm": 0.6962611675262451,
      "learning_rate": 9.369720597790773e-05,
      "loss": 0.202,
      "step": 990
    },
    {
      "epoch": 17.54385964912281,
      "grad_norm": 0.5351881384849548,
      "learning_rate": 9.239766081871345e-05,
      "loss": 0.1888,
      "step": 1000
    },
    {
      "epoch": 17.54385964912281,
      "eval_accuracy": 0.9306666666666666,
      "eval_f1": 0.8177570093457944,
      "eval_loss": 0.18066002428531647,
      "eval_precision": 0.8215962441314554,
      "eval_recall": 0.813953488372093,
      "eval_runtime": 1.8596,
      "eval_samples_per_second": 120.996,
      "eval_steps_per_second": 15.595,
      "step": 1000
    },
    {
      "epoch": 17.719298245614034,
      "grad_norm": 1.2162110805511475,
      "learning_rate": 9.109811565951917e-05,
      "loss": 0.1789,
      "step": 1010
    },
    {
      "epoch": 17.894736842105264,
      "grad_norm": 1.2040334939956665,
      "learning_rate": 8.979857050032489e-05,
      "loss": 0.2109,
      "step": 1020
    },
    {
      "epoch": 18.07017543859649,
      "grad_norm": 0.8599823117256165,
      "learning_rate": 8.849902534113061e-05,
      "loss": 0.2113,
      "step": 1030
    },
    {
      "epoch": 18.24561403508772,
      "grad_norm": 1.0291296243667603,
      "learning_rate": 8.719948018193632e-05,
      "loss": 0.1981,
      "step": 1040
    },
    {
      "epoch": 18.42105263157895,
      "grad_norm": 3.214996576309204,
      "learning_rate": 8.589993502274204e-05,
      "loss": 0.1903,
      "step": 1050
    },
    {
      "epoch": 18.596491228070175,
      "grad_norm": 1.1698780059814453,
      "learning_rate": 8.460038986354776e-05,
      "loss": 0.192,
      "step": 1060
    },
    {
      "epoch": 18.771929824561404,
      "grad_norm": 3.0040793418884277,
      "learning_rate": 8.330084470435348e-05,
      "loss": 0.2062,
      "step": 1070
    },
    {
      "epoch": 18.94736842105263,
      "grad_norm": 1.365694522857666,
      "learning_rate": 8.200129954515919e-05,
      "loss": 0.1885,
      "step": 1080
    },
    {
      "epoch": 19.12280701754386,
      "grad_norm": 0.5183665156364441,
      "learning_rate": 8.070175438596491e-05,
      "loss": 0.2089,
      "step": 1090
    },
    {
      "epoch": 19.29824561403509,
      "grad_norm": 0.6474595069885254,
      "learning_rate": 7.940220922677063e-05,
      "loss": 0.202,
      "step": 1100
    },
    {
      "epoch": 19.29824561403509,
      "eval_accuracy": 0.9342222222222222,
      "eval_f1": 0.8287037037037037,
      "eval_loss": 0.1772110015153885,
      "eval_precision": 0.8248847926267281,
      "eval_recall": 0.8325581395348837,
      "eval_runtime": 2.2017,
      "eval_samples_per_second": 102.193,
      "eval_steps_per_second": 13.171,
      "step": 1100
    },
    {
      "epoch": 19.473684210526315,
      "grad_norm": 0.7569323778152466,
      "learning_rate": 7.810266406757635e-05,
      "loss": 0.2037,
      "step": 1110
    },
    {
      "epoch": 19.649122807017545,
      "grad_norm": 1.068310260772705,
      "learning_rate": 7.680311890838207e-05,
      "loss": 0.1842,
      "step": 1120
    },
    {
      "epoch": 19.82456140350877,
      "grad_norm": 1.1388903856277466,
      "learning_rate": 7.550357374918778e-05,
      "loss": 0.2057,
      "step": 1130
    },
    {
      "epoch": 20.0,
      "grad_norm": 5.906609535217285,
      "learning_rate": 7.42040285899935e-05,
      "loss": 0.2088,
      "step": 1140
    },
    {
      "epoch": 20.17543859649123,
      "grad_norm": 0.9702988862991333,
      "learning_rate": 7.290448343079922e-05,
      "loss": 0.1939,
      "step": 1150
    },
    {
      "epoch": 20.350877192982455,
      "grad_norm": 3.627027988433838,
      "learning_rate": 7.160493827160494e-05,
      "loss": 0.1953,
      "step": 1160
    },
    {
      "epoch": 20.526315789473685,
      "grad_norm": 1.11257004737854,
      "learning_rate": 7.030539311241065e-05,
      "loss": 0.1908,
      "step": 1170
    },
    {
      "epoch": 20.70175438596491,
      "grad_norm": 1.626079797744751,
      "learning_rate": 6.900584795321637e-05,
      "loss": 0.2011,
      "step": 1180
    },
    {
      "epoch": 20.87719298245614,
      "grad_norm": 1.8711522817611694,
      "learning_rate": 6.770630279402209e-05,
      "loss": 0.2106,
      "step": 1190
    },
    {
      "epoch": 21.05263157894737,
      "grad_norm": 2.9188010692596436,
      "learning_rate": 6.640675763482781e-05,
      "loss": 0.1824,
      "step": 1200
    },
    {
      "epoch": 21.05263157894737,
      "eval_accuracy": 0.9275555555555556,
      "eval_f1": 0.8080094228504122,
      "eval_loss": 0.18258829414844513,
      "eval_precision": 0.8186157517899761,
      "eval_recall": 0.7976744186046512,
      "eval_runtime": 1.8368,
      "eval_samples_per_second": 122.496,
      "eval_steps_per_second": 15.788,
      "step": 1200
    },
    {
      "epoch": 21.228070175438596,
      "grad_norm": 1.2156211137771606,
      "learning_rate": 6.510721247563352e-05,
      "loss": 0.1926,
      "step": 1210
    },
    {
      "epoch": 21.403508771929825,
      "grad_norm": 0.5184522271156311,
      "learning_rate": 6.380766731643924e-05,
      "loss": 0.1695,
      "step": 1220
    },
    {
      "epoch": 21.57894736842105,
      "grad_norm": 1.8020312786102295,
      "learning_rate": 6.250812215724496e-05,
      "loss": 0.2222,
      "step": 1230
    },
    {
      "epoch": 21.75438596491228,
      "grad_norm": 1.808860421180725,
      "learning_rate": 6.120857699805068e-05,
      "loss": 0.2026,
      "step": 1240
    },
    {
      "epoch": 21.92982456140351,
      "grad_norm": 0.5891908407211304,
      "learning_rate": 5.99090318388564e-05,
      "loss": 0.1861,
      "step": 1250
    },
    {
      "epoch": 22.105263157894736,
      "grad_norm": 0.7829120755195618,
      "learning_rate": 5.860948667966212e-05,
      "loss": 0.1911,
      "step": 1260
    },
    {
      "epoch": 22.280701754385966,
      "grad_norm": 0.8304038643836975,
      "learning_rate": 5.7309941520467835e-05,
      "loss": 0.1595,
      "step": 1270
    },
    {
      "epoch": 22.45614035087719,
      "grad_norm": 0.9477715492248535,
      "learning_rate": 5.6010396361273556e-05,
      "loss": 0.2207,
      "step": 1280
    },
    {
      "epoch": 22.63157894736842,
      "grad_norm": 1.6679517030715942,
      "learning_rate": 5.471085120207927e-05,
      "loss": 0.1885,
      "step": 1290
    },
    {
      "epoch": 22.80701754385965,
      "grad_norm": 1.945037603378296,
      "learning_rate": 5.341130604288499e-05,
      "loss": 0.1808,
      "step": 1300
    },
    {
      "epoch": 22.80701754385965,
      "eval_accuracy": 0.9346666666666666,
      "eval_f1": 0.8296639629200464,
      "eval_loss": 0.16815528273582458,
      "eval_precision": 0.8267898383371824,
      "eval_recall": 0.8325581395348837,
      "eval_runtime": 2.4881,
      "eval_samples_per_second": 90.429,
      "eval_steps_per_second": 11.655,
      "step": 1300
    },
    {
      "epoch": 22.982456140350877,
      "grad_norm": 0.7030972242355347,
      "learning_rate": 5.2111760883690706e-05,
      "loss": 0.1717,
      "step": 1310
    },
    {
      "epoch": 23.157894736842106,
      "grad_norm": 1.0622111558914185,
      "learning_rate": 5.081221572449643e-05,
      "loss": 0.2162,
      "step": 1320
    },
    {
      "epoch": 23.333333333333332,
      "grad_norm": 1.3687249422073364,
      "learning_rate": 4.951267056530214e-05,
      "loss": 0.197,
      "step": 1330
    },
    {
      "epoch": 23.50877192982456,
      "grad_norm": 1.218827724456787,
      "learning_rate": 4.821312540610786e-05,
      "loss": 0.1811,
      "step": 1340
    },
    {
      "epoch": 23.68421052631579,
      "grad_norm": 3.9379024505615234,
      "learning_rate": 4.691358024691358e-05,
      "loss": 0.1896,
      "step": 1350
    },
    {
      "epoch": 23.859649122807017,
      "grad_norm": 0.9299766421318054,
      "learning_rate": 4.56140350877193e-05,
      "loss": 0.1663,
      "step": 1360
    },
    {
      "epoch": 24.035087719298247,
      "grad_norm": 4.373446941375732,
      "learning_rate": 4.431448992852502e-05,
      "loss": 0.1883,
      "step": 1370
    },
    {
      "epoch": 24.210526315789473,
      "grad_norm": 1.0416285991668701,
      "learning_rate": 4.301494476933073e-05,
      "loss": 0.1884,
      "step": 1380
    },
    {
      "epoch": 24.385964912280702,
      "grad_norm": 1.9816950559616089,
      "learning_rate": 4.1715399610136454e-05,
      "loss": 0.1949,
      "step": 1390
    },
    {
      "epoch": 24.56140350877193,
      "grad_norm": 1.6888455152511597,
      "learning_rate": 4.041585445094217e-05,
      "loss": 0.1792,
      "step": 1400
    },
    {
      "epoch": 24.56140350877193,
      "eval_accuracy": 0.9364444444444444,
      "eval_f1": 0.8323563892145369,
      "eval_loss": 0.16882646083831787,
      "eval_precision": 0.8392434988179669,
      "eval_recall": 0.8255813953488372,
      "eval_runtime": 1.8209,
      "eval_samples_per_second": 123.562,
      "eval_steps_per_second": 15.926,
      "step": 1400
    },
    {
      "epoch": 24.736842105263158,
      "grad_norm": 0.6522326469421387,
      "learning_rate": 3.911630929174789e-05,
      "loss": 0.149,
      "step": 1410
    },
    {
      "epoch": 24.912280701754387,
      "grad_norm": 1.053612470626831,
      "learning_rate": 3.7816764132553604e-05,
      "loss": 0.1983,
      "step": 1420
    },
    {
      "epoch": 25.087719298245613,
      "grad_norm": 1.025525689125061,
      "learning_rate": 3.664717348927875e-05,
      "loss": 0.1973,
      "step": 1430
    },
    {
      "epoch": 25.263157894736842,
      "grad_norm": 2.1537649631500244,
      "learning_rate": 3.534762833008447e-05,
      "loss": 0.1797,
      "step": 1440
    },
    {
      "epoch": 25.43859649122807,
      "grad_norm": 2.6327617168426514,
      "learning_rate": 3.404808317089019e-05,
      "loss": 0.1693,
      "step": 1450
    },
    {
      "epoch": 25.614035087719298,
      "grad_norm": 1.1369807720184326,
      "learning_rate": 3.274853801169591e-05,
      "loss": 0.1826,
      "step": 1460
    },
    {
      "epoch": 25.789473684210527,
      "grad_norm": 2.0842247009277344,
      "learning_rate": 3.1448992852501624e-05,
      "loss": 0.1778,
      "step": 1470
    },
    {
      "epoch": 25.964912280701753,
      "grad_norm": 0.8993640542030334,
      "learning_rate": 3.014944769330734e-05,
      "loss": 0.1688,
      "step": 1480
    },
    {
      "epoch": 26.140350877192983,
      "grad_norm": 0.9640088677406311,
      "learning_rate": 2.8979857050032487e-05,
      "loss": 0.2139,
      "step": 1490
    },
    {
      "epoch": 26.31578947368421,
      "grad_norm": 1.134974718093872,
      "learning_rate": 2.7680311890838205e-05,
      "loss": 0.1852,
      "step": 1500
    },
    {
      "epoch": 26.31578947368421,
      "eval_accuracy": 0.9337777777777778,
      "eval_f1": 0.826945412311266,
      "eval_loss": 0.1725098043680191,
      "eval_precision": 0.8259860788863109,
      "eval_recall": 0.827906976744186,
      "eval_runtime": 1.8397,
      "eval_samples_per_second": 122.305,
      "eval_steps_per_second": 15.764,
      "step": 1500
    },
    {
      "epoch": 26.49122807017544,
      "grad_norm": 0.3995600640773773,
      "learning_rate": 2.6380766731643926e-05,
      "loss": 0.1703,
      "step": 1510
    },
    {
      "epoch": 26.666666666666668,
      "grad_norm": 1.8065487146377563,
      "learning_rate": 2.5081221572449644e-05,
      "loss": 0.2017,
      "step": 1520
    },
    {
      "epoch": 26.842105263157894,
      "grad_norm": 2.3725926876068115,
      "learning_rate": 2.378167641325536e-05,
      "loss": 0.1926,
      "step": 1530
    },
    {
      "epoch": 27.017543859649123,
      "grad_norm": 1.9128490686416626,
      "learning_rate": 2.248213125406108e-05,
      "loss": 0.1771,
      "step": 1540
    },
    {
      "epoch": 27.19298245614035,
      "grad_norm": 1.2254141569137573,
      "learning_rate": 2.1182586094866797e-05,
      "loss": 0.1791,
      "step": 1550
    },
    {
      "epoch": 27.36842105263158,
      "grad_norm": 1.3266674280166626,
      "learning_rate": 1.9883040935672515e-05,
      "loss": 0.1671,
      "step": 1560
    },
    {
      "epoch": 27.54385964912281,
      "grad_norm": 1.2818776369094849,
      "learning_rate": 1.8583495776478232e-05,
      "loss": 0.17,
      "step": 1570
    },
    {
      "epoch": 27.719298245614034,
      "grad_norm": 1.0659555196762085,
      "learning_rate": 1.728395061728395e-05,
      "loss": 0.1712,
      "step": 1580
    },
    {
      "epoch": 27.894736842105264,
      "grad_norm": 1.0451716184616089,
      "learning_rate": 1.5984405458089668e-05,
      "loss": 0.1854,
      "step": 1590
    },
    {
      "epoch": 28.07017543859649,
      "grad_norm": 2.3844401836395264,
      "learning_rate": 1.4684860298895387e-05,
      "loss": 0.177,
      "step": 1600
    },
    {
      "epoch": 28.07017543859649,
      "eval_accuracy": 0.9351111111111111,
      "eval_f1": 0.8282352941176471,
      "eval_loss": 0.16903221607208252,
      "eval_precision": 0.8380952380952381,
      "eval_recall": 0.8186046511627907,
      "eval_runtime": 2.2907,
      "eval_samples_per_second": 98.225,
      "eval_steps_per_second": 12.66,
      "step": 1600
    },
    {
      "epoch": 28.24561403508772,
      "grad_norm": 1.8458149433135986,
      "learning_rate": 1.3385315139701105e-05,
      "loss": 0.2091,
      "step": 1610
    },
    {
      "epoch": 28.42105263157895,
      "grad_norm": 0.7621822953224182,
      "learning_rate": 1.2085769980506823e-05,
      "loss": 0.1626,
      "step": 1620
    },
    {
      "epoch": 28.596491228070175,
      "grad_norm": 0.9533030986785889,
      "learning_rate": 1.078622482131254e-05,
      "loss": 0.1872,
      "step": 1630
    },
    {
      "epoch": 28.771929824561404,
      "grad_norm": 1.495856761932373,
      "learning_rate": 9.486679662118258e-06,
      "loss": 0.1816,
      "step": 1640
    },
    {
      "epoch": 28.94736842105263,
      "grad_norm": 1.397376537322998,
      "learning_rate": 8.187134502923977e-06,
      "loss": 0.1821,
      "step": 1650
    },
    {
      "epoch": 29.12280701754386,
      "grad_norm": 2.07928729057312,
      "learning_rate": 6.887589343729694e-06,
      "loss": 0.1801,
      "step": 1660
    },
    {
      "epoch": 29.29824561403509,
      "grad_norm": 1.2872428894042969,
      "learning_rate": 5.588044184535413e-06,
      "loss": 0.1835,
      "step": 1670
    },
    {
      "epoch": 29.473684210526315,
      "grad_norm": 0.40397679805755615,
      "learning_rate": 4.2884990253411305e-06,
      "loss": 0.1597,
      "step": 1680
    },
    {
      "epoch": 29.649122807017545,
      "grad_norm": 1.12138032913208,
      "learning_rate": 2.9889538661468487e-06,
      "loss": 0.1771,
      "step": 1690
    },
    {
      "epoch": 29.82456140350877,
      "grad_norm": 1.8918460607528687,
      "learning_rate": 1.6894087069525666e-06,
      "loss": 0.1857,
      "step": 1700
    },
    {
      "epoch": 29.82456140350877,
      "eval_accuracy": 0.9297777777777778,
      "eval_f1": 0.8175519630484989,
      "eval_loss": 0.17081834375858307,
      "eval_precision": 0.8119266055045872,
      "eval_recall": 0.8232558139534883,
      "eval_runtime": 1.7795,
      "eval_samples_per_second": 126.443,
      "eval_steps_per_second": 16.297,
      "step": 1700
    },
    {
      "epoch": 30.0,
      "grad_norm": 1.7220489978790283,
      "learning_rate": 3.898635477582846e-07,
      "loss": 0.166,
      "step": 1710
    },
    {
      "epoch": 30.0,
      "step": 1710,
      "total_flos": 3.8465920659456e+16,
      "train_loss": 0.2702594916025797,
      "train_runtime": 403.8981,
      "train_samples_per_second": 66.849,
      "train_steps_per_second": 4.234
    }
  ],
  "logging_steps": 10,
  "max_steps": 1710,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 30,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.8465920659456e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}