{
  "best_metric": 0.39055171608924866,
  "best_model_checkpoint": "/home/stephan/code/molreactgen/checkpoints/2023-11-07_18-29-28_experiment/checkpoint-6895",
  "epoch": 30.996954314720814,
  "eval_steps": 500,
  "global_step": 7633,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.41,
      "learning_rate": 4.065040650406504e-05,
      "loss": 6.0993,
      "step": 100
    },
    {
      "epoch": 0.81,
      "learning_rate": 8.130081300813008e-05,
      "loss": 5.0338,
      "step": 200
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.2072072072072072,
      "eval_loss": 3.800293445587158,
      "eval_runtime": 1.7789,
      "eval_samples_per_second": 1357.054,
      "eval_steps_per_second": 84.886,
      "step": 246
    },
    {
      "epoch": 1.22,
      "learning_rate": 0.00012195121951219512,
      "loss": 3.8428,
      "step": 300
    },
    {
      "epoch": 1.62,
      "learning_rate": 0.00016260162601626016,
      "loss": 2.8076,
      "step": 400
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.25823462236055444,
      "eval_loss": 1.976719856262207,
      "eval_runtime": 1.774,
      "eval_samples_per_second": 1360.786,
      "eval_steps_per_second": 85.12,
      "step": 492
    },
    {
      "epoch": 2.03,
      "learning_rate": 0.0002032520325203252,
      "loss": 2.2493,
      "step": 500
    },
    {
      "epoch": 2.44,
      "learning_rate": 0.00024390243902439024,
      "loss": 1.9599,
      "step": 600
    },
    {
      "epoch": 2.84,
      "learning_rate": 0.0002845528455284553,
      "loss": 1.7151,
      "step": 700
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.2894563992327041,
      "eval_loss": 1.4048570394515991,
      "eval_runtime": 1.775,
      "eval_samples_per_second": 1360.028,
      "eval_steps_per_second": 85.072,
      "step": 738
    },
    {
      "epoch": 3.25,
      "learning_rate": 0.0003252032520325203,
      "loss": 1.5375,
      "step": 800
    },
    {
      "epoch": 3.65,
      "learning_rate": 0.00036585365853658537,
      "loss": 1.3954,
      "step": 900
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.312210304753801,
      "eval_loss": 1.0894988775253296,
      "eval_runtime": 1.8067,
      "eval_samples_per_second": 1336.115,
      "eval_steps_per_second": 83.576,
      "step": 985
    },
    {
      "epoch": 4.06,
      "learning_rate": 0.0004065040650406504,
      "loss": 1.2718,
      "step": 1000
    },
    {
      "epoch": 4.47,
      "learning_rate": 0.00044715447154471545,
      "loss": 1.1709,
      "step": 1100
    },
    {
      "epoch": 4.87,
      "learning_rate": 0.0004878048780487805,
      "loss": 1.0895,
      "step": 1200
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.3280339162692104,
      "eval_loss": 0.8805840015411377,
      "eval_runtime": 1.7957,
      "eval_samples_per_second": 1344.309,
      "eval_steps_per_second": 84.089,
      "step": 1231
    },
    {
      "epoch": 5.28,
      "learning_rate": 0.0004999506716812021,
      "loss": 0.9914,
      "step": 1300
    },
    {
      "epoch": 5.69,
      "learning_rate": 0.0004997091104496882,
      "loss": 0.9375,
      "step": 1400
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.3402263075005411,
      "eval_loss": 0.7313582301139832,
      "eval_runtime": 1.7974,
      "eval_samples_per_second": 1343.047,
      "eval_steps_per_second": 84.01,
      "step": 1477
    },
    {
      "epoch": 6.09,
      "learning_rate": 0.0004992664502959351,
      "loss": 0.8598,
      "step": 1500
    },
    {
      "epoch": 6.5,
      "learning_rate": 0.0004986230477086575,
      "loss": 0.8097,
      "step": 1600
    },
    {
      "epoch": 6.9,
      "learning_rate": 0.0004977794208410241,
      "loss": 0.7668,
      "step": 1700
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.3481269173067019,
      "eval_loss": 0.6367093324661255,
      "eval_runtime": 1.8149,
      "eval_samples_per_second": 1330.094,
      "eval_steps_per_second": 83.2,
      "step": 1723
    },
    {
      "epoch": 7.31,
      "learning_rate": 0.0004967362490933723,
      "loss": 0.716,
      "step": 1800
    },
    {
      "epoch": 7.72,
      "learning_rate": 0.0004954943725660643,
      "loss": 0.6978,
      "step": 1900
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.35578121617889635,
      "eval_loss": 0.5603917241096497,
      "eval_runtime": 1.8199,
      "eval_samples_per_second": 1326.454,
      "eval_steps_per_second": 82.972,
      "step": 1970
    },
    {
      "epoch": 8.12,
      "learning_rate": 0.0004940547913829275,
      "loss": 0.6556,
      "step": 2000
    },
    {
      "epoch": 8.53,
      "learning_rate": 0.0004924186648858207,
      "loss": 0.627,
      "step": 2100
    },
    {
      "epoch": 8.93,
      "learning_rate": 0.0004905873107009799,
      "loss": 0.6133,
      "step": 2200
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.3603864842472962,
      "eval_loss": 0.5122300386428833,
      "eval_runtime": 1.8088,
      "eval_samples_per_second": 1334.561,
      "eval_steps_per_second": 83.479,
      "step": 2216
    },
    {
      "epoch": 9.34,
      "learning_rate": 0.0004885622036778897,
      "loss": 0.5846,
      "step": 2300
    },
    {
      "epoch": 9.75,
      "learning_rate": 0.0004863449747015384,
      "loss": 0.5681,
      "step": 2400
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.36240548750905005,
      "eval_loss": 0.48733416199684143,
      "eval_runtime": 1.781,
      "eval_samples_per_second": 1355.443,
      "eval_steps_per_second": 84.785,
      "step": 2462
    },
    {
      "epoch": 10.15,
      "learning_rate": 0.0004839374093790139,
      "loss": 0.5537,
      "step": 2500
    },
    {
      "epoch": 10.56,
      "learning_rate": 0.00048134144660149535,
      "loss": 0.5314,
      "step": 2600
    },
    {
      "epoch": 10.96,
      "learning_rate": 0.0004785591769828005,
      "loss": 0.536,
      "step": 2700
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.36355120655037804,
      "eval_loss": 0.47042036056518555,
      "eval_runtime": 1.8486,
      "eval_samples_per_second": 1305.878,
      "eval_steps_per_second": 81.685,
      "step": 2708
    },
    {
      "epoch": 11.37,
      "learning_rate": 0.00047559284117574613,
      "loss": 0.5126,
      "step": 2800
    },
    {
      "epoch": 11.78,
      "learning_rate": 0.0004724448280676768,
      "loss": 0.511,
      "step": 2900
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.3647827612202094,
      "eval_loss": 0.4570145606994629,
      "eval_runtime": 1.8132,
      "eval_samples_per_second": 1331.315,
      "eval_steps_per_second": 83.276,
      "step": 2955
    },
    {
      "epoch": 12.18,
      "learning_rate": 0.00046911767285661587,
      "loss": 0.4918,
      "step": 3000
    },
    {
      "epoch": 12.59,
      "learning_rate": 0.0004656140550095876,
      "loss": 0.4883,
      "step": 3100
    },
    {
      "epoch": 12.99,
      "learning_rate": 0.00046193679610475414,
      "loss": 0.4929,
      "step": 3200
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.3655067660867164,
      "eval_loss": 0.4465464651584625,
      "eval_runtime": 1.8353,
      "eval_samples_per_second": 1315.328,
      "eval_steps_per_second": 82.276,
      "step": 3201
    },
    {
      "epoch": 13.4,
      "learning_rate": 0.0004580888575591068,
      "loss": 0.4634,
      "step": 3300
    },
    {
      "epoch": 13.81,
      "learning_rate": 0.00045407333824353966,
      "loss": 0.4757,
      "step": 3400
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.36605909969621653,
      "eval_loss": 0.43762096762657166,
      "eval_runtime": 1.8426,
      "eval_samples_per_second": 1310.127,
      "eval_steps_per_second": 81.951,
      "step": 3447
    },
    {
      "epoch": 14.21,
      "learning_rate": 0.00044989347198722777,
      "loss": 0.4605,
      "step": 3500
    },
    {
      "epoch": 14.62,
      "learning_rate": 0.00044555262497331783,
      "loss": 0.4507,
      "step": 3600
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.3666450211603484,
      "eval_loss": 0.42967188358306885,
      "eval_runtime": 1.7693,
      "eval_samples_per_second": 1364.379,
      "eval_steps_per_second": 85.344,
      "step": 3693
    },
    {
      "epoch": 15.03,
      "learning_rate": 0.0004410542930280316,
      "loss": 0.4591,
      "step": 3700
    },
    {
      "epoch": 15.43,
      "learning_rate": 0.0004364020988053623,
      "loss": 0.4366,
      "step": 3800
    },
    {
      "epoch": 15.84,
      "learning_rate": 0.00043159978886963223,
      "loss": 0.4449,
      "step": 3900
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.3675183053807743,
      "eval_loss": 0.4223393499851227,
      "eval_runtime": 1.82,
      "eval_samples_per_second": 1326.352,
      "eval_steps_per_second": 82.966,
      "step": 3940
    },
    {
      "epoch": 16.24,
      "learning_rate": 0.0004266512306782628,
      "loss": 0.4323,
      "step": 4000
    },
    {
      "epoch": 16.65,
      "learning_rate": 0.00042156040946718344,
      "loss": 0.4312,
      "step": 4100
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.36820125842495355,
      "eval_loss": 0.4195675849914551,
      "eval_runtime": 1.8599,
      "eval_samples_per_second": 1297.945,
      "eval_steps_per_second": 81.189,
      "step": 4186
    },
    {
      "epoch": 17.06,
      "learning_rate": 0.00041633142504139133,
      "loss": 0.4315,
      "step": 4200
    },
    {
      "epoch": 17.46,
      "learning_rate": 0.00041096848847324417,
      "loss": 0.4158,
      "step": 4300
    },
    {
      "epoch": 17.87,
      "learning_rate": 0.0004054759187111451,
      "loss": 0.4252,
      "step": 4400
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.36844383737507186,
      "eval_loss": 0.41086554527282715,
      "eval_runtime": 1.8281,
      "eval_samples_per_second": 1320.494,
      "eval_steps_per_second": 82.599,
      "step": 4432
    },
    {
      "epoch": 18.27,
      "learning_rate": 0.00039985813910135305,
      "loss": 0.4129,
      "step": 4500
    },
    {
      "epoch": 18.68,
      "learning_rate": 0.00039411967382571643,
      "loss": 0.4102,
      "step": 4600
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.3685520649066631,
      "eval_loss": 0.40959808230400085,
      "eval_runtime": 1.835,
      "eval_samples_per_second": 1315.545,
      "eval_steps_per_second": 82.29,
      "step": 4678
    },
    {
      "epoch": 19.09,
      "learning_rate": 0.0003882651442582019,
      "loss": 0.4104,
      "step": 4700
    },
    {
      "epoch": 19.49,
      "learning_rate": 0.00038229926524315015,
      "loss": 0.3982,
      "step": 4800
    },
    {
      "epoch": 19.9,
      "learning_rate": 0.0003762268412982577,
      "loss": 0.4092,
      "step": 4900
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.3690036349522679,
      "eval_loss": 0.4085357189178467,
      "eval_runtime": 1.7636,
      "eval_samples_per_second": 1368.753,
      "eval_steps_per_second": 85.618,
      "step": 4925
    },
    {
      "epoch": 20.3,
      "learning_rate": 0.00037005276274534144,
      "loss": 0.3863,
      "step": 5000
    },
    {
      "epoch": 20.71,
      "learning_rate": 0.0003637820017720022,
      "loss": 0.3941,
      "step": 5100
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.36924248191853826,
      "eval_loss": 0.4053109884262085,
      "eval_runtime": 1.7869,
      "eval_samples_per_second": 1350.961,
      "eval_steps_per_second": 84.505,
      "step": 5171
    },
    {
      "epoch": 21.12,
      "learning_rate": 0.00035741960842735953,
      "loss": 0.3992,
      "step": 5200
    },
    {
      "epoch": 21.52,
      "learning_rate": 0.0003509707065550817,
      "loss": 0.3846,
      "step": 5300
    },
    {
      "epoch": 21.93,
      "learning_rate": 0.00034444048966698643,
      "loss": 0.3882,
      "step": 5400
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.3694365450786329,
      "eval_loss": 0.40214401483535767,
      "eval_runtime": 1.8091,
      "eval_samples_per_second": 1334.335,
      "eval_steps_per_second": 83.465,
      "step": 5417
    },
    {
      "epoch": 22.34,
      "learning_rate": 0.0003378342167605362,
      "loss": 0.3787,
      "step": 5500
    },
    {
      "epoch": 22.74,
      "learning_rate": 0.00033115720808359495,
      "loss": 0.3821,
      "step": 5600
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.3694477410301768,
      "eval_loss": 0.4013039767742157,
      "eval_runtime": 1.8106,
      "eval_samples_per_second": 1333.273,
      "eval_steps_per_second": 83.399,
      "step": 5663
    },
    {
      "epoch": 23.15,
      "learning_rate": 0.0003244148408498587,
      "loss": 0.3724,
      "step": 5700
    },
    {
      "epoch": 23.55,
      "learning_rate": 0.000317612544908409,
      "loss": 0.372,
      "step": 5800
    },
    {
      "epoch": 23.96,
      "learning_rate": 0.000310755798370878,
      "loss": 0.3769,
      "step": 5900
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.36991797099502155,
      "eval_loss": 0.399305135011673,
      "eval_runtime": 1.7971,
      "eval_samples_per_second": 1343.28,
      "eval_steps_per_second": 84.025,
      "step": 5910
    },
    {
      "epoch": 24.37,
      "learning_rate": 0.00030385012319974537,
      "loss": 0.3671,
      "step": 6000
    },
    {
      "epoch": 24.77,
      "learning_rate": 0.00029690108076132154,
      "loss": 0.3696,
      "step": 6100
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.3692051620800585,
      "eval_loss": 0.3980158865451813,
      "eval_runtime": 1.8534,
      "eval_samples_per_second": 1302.488,
      "eval_steps_per_second": 81.473,
      "step": 6156
    },
    {
      "epoch": 25.18,
      "learning_rate": 0.0002899142673469971,
      "loss": 0.3577,
      "step": 6200
    },
    {
      "epoch": 25.58,
      "learning_rate": 0.00028289530966636625,
      "loss": 0.3604,
      "step": 6300
    },
    {
      "epoch": 25.99,
      "learning_rate": 0.000275849860315853,
      "loss": 0.3628,
      "step": 6400
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.36994782686580535,
      "eval_loss": 0.39616090059280396,
      "eval_runtime": 1.7695,
      "eval_samples_per_second": 1364.248,
      "eval_steps_per_second": 85.336,
      "step": 6402
    },
    {
      "epoch": 26.4,
      "learning_rate": 0.0002687835932264908,
      "loss": 0.3498,
      "step": 6500
    },
    {
      "epoch": 26.8,
      "learning_rate": 0.0002617021990945197,
      "loss": 0.3587,
      "step": 6600
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.37061958395844063,
      "eval_loss": 0.3926030397415161,
      "eval_runtime": 1.8394,
      "eval_samples_per_second": 1312.376,
      "eval_steps_per_second": 82.091,
      "step": 6648
    },
    {
      "epoch": 27.21,
      "learning_rate": 0.0002546113807984821,
      "loss": 0.3534,
      "step": 6700
    },
    {
      "epoch": 27.61,
      "learning_rate": 0.00024751684880650884,
      "loss": 0.3492,
      "step": 6800
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.37057106816841695,
      "eval_loss": 0.39055171608924866,
      "eval_runtime": 1.8305,
      "eval_samples_per_second": 1318.747,
      "eval_steps_per_second": 82.49,
      "step": 6895
    },
    {
      "epoch": 28.02,
      "learning_rate": 0.00024042431657749118,
      "loss": 0.3534,
      "step": 6900
    },
    {
      "epoch": 28.43,
      "learning_rate": 0.0002333394959598461,
      "loss": 0.3418,
      "step": 7000
    },
    {
      "epoch": 28.83,
      "learning_rate": 0.00022626809259157726,
      "loss": 0.3461,
      "step": 7100
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.3706457078453764,
      "eval_loss": 0.3932913541793823,
      "eval_runtime": 1.7675,
      "eval_samples_per_second": 1365.756,
      "eval_steps_per_second": 85.43,
      "step": 7141
    },
    {
      "epoch": 29.24,
      "learning_rate": 0.00021921580130533828,
      "loss": 0.3412,
      "step": 7200
    },
    {
      "epoch": 29.64,
      "learning_rate": 0.0002121883015421973,
      "loss": 0.3363,
      "step": 7300
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.3706942236354001,
      "eval_loss": 0.39353010058403015,
      "eval_runtime": 1.8169,
      "eval_samples_per_second": 1328.629,
      "eval_steps_per_second": 83.108,
      "step": 7387
    },
    {
      "epoch": 30.05,
      "learning_rate": 0.00020519125277779733,
      "loss": 0.3422,
      "step": 7400
    },
    {
      "epoch": 30.46,
      "learning_rate": 0.00019823028996459485,
      "loss": 0.3356,
      "step": 7500
    },
    {
      "epoch": 30.86,
      "learning_rate": 0.00019131101899384867,
      "loss": 0.3337,
      "step": 7600
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.3702277256544034,
      "eval_loss": 0.3950214684009552,
      "eval_runtime": 1.7977,
      "eval_samples_per_second": 1342.849,
      "eval_steps_per_second": 83.998,
      "step": 7633
    },
    {
      "epoch": 31.0,
      "step": 7633,
      "total_flos": 564540063409152.0,
      "train_loss": 0.7912082670869731,
      "train_runtime": 664.7096,
      "train_samples_per_second": 592.59,
      "train_steps_per_second": 18.504
    }
  ],
  "logging_steps": 100,
  "max_steps": 12300,
  "num_train_epochs": 50,
  "save_steps": 500,
  "total_flos": 564540063409152.0,
  "trial_name": null,
  "trial_params": null
}