{ "best_metric": 0.31634724140167236, "best_model_checkpoint": "finetuned-bangladeshi-traditional-food/checkpoint-192", "epoch": 4.0, "eval_steps": 500, "global_step": 192, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.20833333333333334, "grad_norm": 733914.25, "learning_rate": 0.00018958333333333332, "loss": 0.0903, "step": 10 }, { "epoch": 0.4166666666666667, "grad_norm": 165444.109375, "learning_rate": 0.0001791666666666667, "loss": 0.1926, "step": 20 }, { "epoch": 0.625, "grad_norm": 491501.1875, "learning_rate": 0.00016875, "loss": 0.498, "step": 30 }, { "epoch": 0.8333333333333334, "grad_norm": 181531.828125, "learning_rate": 0.00015833333333333332, "loss": 0.2997, "step": 40 }, { "epoch": 1.0, "eval_accuracy": 0.8167539267015707, "eval_loss": 0.7613248825073242, "eval_runtime": 6.5218, "eval_samples_per_second": 58.573, "eval_steps_per_second": 3.68, "step": 48 }, { "epoch": 1.0416666666666667, "grad_norm": 390060.03125, "learning_rate": 0.0001479166666666667, "loss": 0.3007, "step": 50 }, { "epoch": 1.25, "grad_norm": 374682.71875, "learning_rate": 0.0001375, "loss": 0.2778, "step": 60 }, { "epoch": 1.4583333333333333, "grad_norm": 104593.75, "learning_rate": 0.00012708333333333332, "loss": 0.2456, "step": 70 }, { "epoch": 1.6666666666666665, "grad_norm": 156420.5625, "learning_rate": 0.00011666666666666668, "loss": 0.1309, "step": 80 }, { "epoch": 1.875, "grad_norm": 30851.041015625, "learning_rate": 0.00010625000000000001, "loss": 0.1109, "step": 90 }, { "epoch": 2.0, "eval_accuracy": 0.9083769633507853, "eval_loss": 0.3246798515319824, "eval_runtime": 6.5686, "eval_samples_per_second": 58.155, "eval_steps_per_second": 3.654, "step": 96 }, { "epoch": 2.0833333333333335, "grad_norm": 2772.370361328125, "learning_rate": 9.583333333333334e-05, "loss": 0.1209, "step": 100 }, { "epoch": 2.2916666666666665, "grad_norm": 162168.65625, "learning_rate": 8.541666666666666e-05, "loss": 0.1226, "step": 110 }, { "epoch": 2.5, "grad_norm": 229507.6875, "learning_rate": 7.500000000000001e-05, "loss": 0.1504, "step": 120 }, { "epoch": 2.7083333333333335, "grad_norm": 226514.609375, "learning_rate": 6.458333333333334e-05, "loss": 0.1271, "step": 130 }, { "epoch": 2.9166666666666665, "grad_norm": 7009.35693359375, "learning_rate": 5.4166666666666664e-05, "loss": 0.0943, "step": 140 }, { "epoch": 3.0, "eval_accuracy": 0.9162303664921466, "eval_loss": 0.3683938980102539, "eval_runtime": 6.5149, "eval_samples_per_second": 58.635, "eval_steps_per_second": 3.684, "step": 144 }, { "epoch": 3.125, "grad_norm": 25972.21875, "learning_rate": 4.375e-05, "loss": 0.0418, "step": 150 }, { "epoch": 3.3333333333333335, "grad_norm": 133353.5625, "learning_rate": 3.3333333333333335e-05, "loss": 0.0497, "step": 160 }, { "epoch": 3.5416666666666665, "grad_norm": 229467.96875, "learning_rate": 2.2916666666666667e-05, "loss": 0.0402, "step": 170 }, { "epoch": 3.75, "grad_norm": 85779.9921875, "learning_rate": 1.25e-05, "loss": 0.1172, "step": 180 }, { "epoch": 3.9583333333333335, "grad_norm": 188882.28125, "learning_rate": 2.0833333333333334e-06, "loss": 0.0368, "step": 190 }, { "epoch": 4.0, "eval_accuracy": 0.9293193717277487, "eval_loss": 0.31634724140167236, "eval_runtime": 6.6575, "eval_samples_per_second": 57.379, "eval_steps_per_second": 3.605, "step": 192 }, { "epoch": 4.0, "step": 192, "total_flos": 4.72760450039808e+17, "train_loss": 0.15895162567418689, "train_runtime": 211.1483, "train_samples_per_second": 28.89, "train_steps_per_second": 0.909 } ], "logging_steps": 10, "max_steps": 192, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 4.72760450039808e+17, "train_batch_size": 32, "trial_name": null, "trial_params": null }