{ "best_metric": 0.4875, "best_model_checkpoint": "./results\\checkpoint-2880", "epoch": 3.0, "eval_steps": 500, "global_step": 2880, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.052083333333333336, "grad_norm": 155.7015838623047, "learning_rate": 1.96875e-05, "loss": 1.7323, "step": 50 }, { "epoch": 0.10416666666666667, "grad_norm": 153.36297607421875, "learning_rate": 1.9340277777777777e-05, "loss": 1.7687, "step": 100 }, { "epoch": 0.15625, "grad_norm": 97.84998321533203, "learning_rate": 1.8993055555555557e-05, "loss": 1.5166, "step": 150 }, { "epoch": 0.20833333333333334, "grad_norm": 87.25718688964844, "learning_rate": 1.8645833333333334e-05, "loss": 1.4955, "step": 200 }, { "epoch": 0.2604166666666667, "grad_norm": 125.15475463867188, "learning_rate": 1.8298611111111114e-05, "loss": 1.4829, "step": 250 }, { "epoch": 0.3125, "grad_norm": 134.1583709716797, "learning_rate": 1.795138888888889e-05, "loss": 1.4193, "step": 300 }, { "epoch": 0.3645833333333333, "grad_norm": 131.859375, "learning_rate": 1.760416666666667e-05, "loss": 1.452, "step": 350 }, { "epoch": 0.4166666666666667, "grad_norm": 138.31675720214844, "learning_rate": 1.7256944444444446e-05, "loss": 1.3007, "step": 400 }, { "epoch": 0.46875, "grad_norm": 157.62069702148438, "learning_rate": 1.6909722222222223e-05, "loss": 1.4118, "step": 450 }, { "epoch": 0.5208333333333334, "grad_norm": 54.530174255371094, "learning_rate": 1.6562500000000003e-05, "loss": 1.3227, "step": 500 }, { "epoch": 0.5729166666666666, "grad_norm": 171.06533813476562, "learning_rate": 1.621527777777778e-05, "loss": 1.2604, "step": 550 }, { "epoch": 0.625, "grad_norm": 39.52677536010742, "learning_rate": 1.5868055555555556e-05, "loss": 1.5804, "step": 600 }, { "epoch": 0.6770833333333334, "grad_norm": 108.43389129638672, "learning_rate": 1.5520833333333332e-05, "loss": 1.4102, "step": 650 }, { "epoch": 0.7291666666666666, "grad_norm": 18.957843780517578, "learning_rate": 1.5173611111111112e-05, "loss": 1.4766, "step": 700 }, { "epoch": 0.78125, "grad_norm": 89.05490112304688, "learning_rate": 1.482638888888889e-05, "loss": 1.4893, "step": 750 }, { "epoch": 0.8333333333333334, "grad_norm": 168.27105712890625, "learning_rate": 1.4479166666666669e-05, "loss": 1.2101, "step": 800 }, { "epoch": 0.8854166666666666, "grad_norm": 91.1783447265625, "learning_rate": 1.4131944444444445e-05, "loss": 1.2243, "step": 850 }, { "epoch": 0.9375, "grad_norm": 149.9921112060547, "learning_rate": 1.3784722222222225e-05, "loss": 1.4776, "step": 900 }, { "epoch": 0.9895833333333334, "grad_norm": 82.460205078125, "learning_rate": 1.3437500000000001e-05, "loss": 1.3782, "step": 950 }, { "epoch": 1.0, "eval_accuracy": 0.3875, "eval_loss": 1.3083277940750122, "eval_runtime": 44.6625, "eval_samples_per_second": 5.374, "eval_steps_per_second": 5.374, "step": 960 }, { "epoch": 1.0416666666666667, "grad_norm": 123.17823791503906, "learning_rate": 1.3090277777777778e-05, "loss": 1.3116, "step": 1000 }, { "epoch": 1.09375, "grad_norm": 49.70926284790039, "learning_rate": 1.2743055555555556e-05, "loss": 1.2184, "step": 1050 }, { "epoch": 1.1458333333333333, "grad_norm": 153.35614013671875, "learning_rate": 1.2395833333333334e-05, "loss": 1.3477, "step": 1100 }, { "epoch": 1.1979166666666667, "grad_norm": 62.75331497192383, "learning_rate": 1.2048611111111112e-05, "loss": 1.2826, "step": 1150 }, { "epoch": 1.25, "grad_norm": 79.40390014648438, "learning_rate": 1.1701388888888889e-05, "loss": 1.2922, "step": 1200 }, { "epoch": 1.3020833333333333, "grad_norm": 181.26205444335938, "learning_rate": 1.1354166666666669e-05, "loss": 1.316, "step": 1250 }, { "epoch": 1.3541666666666667, "grad_norm": 149.93280029296875, "learning_rate": 1.1006944444444445e-05, "loss": 1.4199, "step": 1300 }, { "epoch": 1.40625, "grad_norm": 155.1587677001953, "learning_rate": 1.0659722222222223e-05, "loss": 1.2123, "step": 1350 }, { "epoch": 1.4583333333333333, "grad_norm": 146.17555236816406, "learning_rate": 1.0312500000000002e-05, "loss": 1.335, "step": 1400 }, { "epoch": 1.5104166666666665, "grad_norm": 4.901557922363281, "learning_rate": 9.965277777777778e-06, "loss": 1.2311, "step": 1450 }, { "epoch": 1.5625, "grad_norm": 82.2793197631836, "learning_rate": 9.618055555555556e-06, "loss": 1.355, "step": 1500 }, { "epoch": 1.6145833333333335, "grad_norm": 149.9713134765625, "learning_rate": 9.270833333333334e-06, "loss": 1.2959, "step": 1550 }, { "epoch": 1.6666666666666665, "grad_norm": 31.172189712524414, "learning_rate": 8.923611111111113e-06, "loss": 1.1895, "step": 1600 }, { "epoch": 1.71875, "grad_norm": 101.80203247070312, "learning_rate": 8.57638888888889e-06, "loss": 1.1713, "step": 1650 }, { "epoch": 1.7708333333333335, "grad_norm": 78.40554809570312, "learning_rate": 8.229166666666667e-06, "loss": 1.2715, "step": 1700 }, { "epoch": 1.8229166666666665, "grad_norm": 141.534423828125, "learning_rate": 7.881944444444446e-06, "loss": 1.4267, "step": 1750 }, { "epoch": 1.875, "grad_norm": 11.576106071472168, "learning_rate": 7.534722222222223e-06, "loss": 1.2104, "step": 1800 }, { "epoch": 1.9270833333333335, "grad_norm": 115.15353393554688, "learning_rate": 7.1875e-06, "loss": 1.3666, "step": 1850 }, { "epoch": 1.9791666666666665, "grad_norm": 135.0023193359375, "learning_rate": 6.840277777777778e-06, "loss": 1.4864, "step": 1900 }, { "epoch": 2.0, "eval_accuracy": 0.42916666666666664, "eval_loss": 1.2844825983047485, "eval_runtime": 45.4978, "eval_samples_per_second": 5.275, "eval_steps_per_second": 5.275, "step": 1920 }, { "epoch": 2.03125, "grad_norm": 189.46316528320312, "learning_rate": 6.493055555555557e-06, "loss": 1.1535, "step": 1950 }, { "epoch": 2.0833333333333335, "grad_norm": 67.3314437866211, "learning_rate": 6.145833333333334e-06, "loss": 1.3638, "step": 2000 }, { "epoch": 2.1354166666666665, "grad_norm": 93.1375503540039, "learning_rate": 5.798611111111112e-06, "loss": 1.2812, "step": 2050 }, { "epoch": 2.1875, "grad_norm": 136.60032653808594, "learning_rate": 5.458333333333333e-06, "loss": 1.1984, "step": 2100 }, { "epoch": 2.2395833333333335, "grad_norm": 153.8768768310547, "learning_rate": 5.1111111111111115e-06, "loss": 1.1768, "step": 2150 }, { "epoch": 2.2916666666666665, "grad_norm": 82.70931243896484, "learning_rate": 4.763888888888889e-06, "loss": 1.1306, "step": 2200 }, { "epoch": 2.34375, "grad_norm": 105.9932861328125, "learning_rate": 4.416666666666667e-06, "loss": 1.2059, "step": 2250 }, { "epoch": 2.3958333333333335, "grad_norm": 189.60964965820312, "learning_rate": 4.069444444444444e-06, "loss": 1.3351, "step": 2300 }, { "epoch": 2.4479166666666665, "grad_norm": 26.440898895263672, "learning_rate": 3.7222222222222225e-06, "loss": 1.0397, "step": 2350 }, { "epoch": 2.5, "grad_norm": 85.09593200683594, "learning_rate": 3.3750000000000003e-06, "loss": 0.9869, "step": 2400 }, { "epoch": 2.5520833333333335, "grad_norm": 128.60325622558594, "learning_rate": 3.0277777777777776e-06, "loss": 1.2672, "step": 2450 }, { "epoch": 2.6041666666666665, "grad_norm": 79.84228515625, "learning_rate": 2.680555555555556e-06, "loss": 1.2467, "step": 2500 }, { "epoch": 2.65625, "grad_norm": 94.4609375, "learning_rate": 2.3333333333333336e-06, "loss": 1.3397, "step": 2550 }, { "epoch": 2.7083333333333335, "grad_norm": 141.47027587890625, "learning_rate": 1.9861111111111113e-06, "loss": 1.2617, "step": 2600 }, { "epoch": 2.7604166666666665, "grad_norm": 100.57274627685547, "learning_rate": 1.638888888888889e-06, "loss": 1.2989, "step": 2650 }, { "epoch": 2.8125, "grad_norm": 142.5128936767578, "learning_rate": 1.2916666666666669e-06, "loss": 1.3327, "step": 2700 }, { "epoch": 2.8645833333333335, "grad_norm": 34.203887939453125, "learning_rate": 9.444444444444445e-07, "loss": 1.2494, "step": 2750 }, { "epoch": 2.9166666666666665, "grad_norm": 116.69619750976562, "learning_rate": 5.972222222222223e-07, "loss": 1.1185, "step": 2800 }, { "epoch": 2.96875, "grad_norm": 90.93894958496094, "learning_rate": 2.5000000000000004e-07, "loss": 1.1924, "step": 2850 }, { "epoch": 3.0, "eval_accuracy": 0.4875, "eval_loss": 1.2382519245147705, "eval_runtime": 45.0307, "eval_samples_per_second": 5.33, "eval_steps_per_second": 5.33, "step": 2880 } ], "logging_steps": 50, "max_steps": 2880, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }