Training in progress, epoch 1

Browse files

Files changed (9) hide show

all_results.json +58 -0
eval_results.json +53 -0
pytorch_model.bin +1 -1
runs/Mar02_00-52-19_home-3090/events.out.tfevents.1677698625.home-3090.10497.2 +3 -0
runs/Mar03_01-20-39_home-3090/1677784859.1870086/events.out.tfevents.1677784859.home-3090.52004.1 +3 -0
runs/Mar03_01-20-39_home-3090/events.out.tfevents.1677784859.home-3090.52004.0 +3 -0
train_results.json +8 -0
trainer_state.json +1795 -0
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+    "epoch": 30.0,
+    "eval_5_err_f1": 0.9850746268656716,
+    "eval_5_err_number": 34,
+    "eval_5_err_precision": 1.0,
+    "eval_5_err_recall": 0.9705882352941176,
+    "eval___f1": 0.9912903388209234,
+    "eval___number": 9934,
+    "eval___precision": 0.9915399335280491,
+    "eval___recall": 0.9910408697402859,
+    "eval__err_f1": 0.9808695652173912,
+    "eval__err_number": 285,
+    "eval__err_precision": 0.9724137931034482,
+    "eval__err_recall": 0.9894736842105263,
+    "eval_egin_err_f1": 0.9933598937583,
+    "eval_egin_err_number": 1126,
+    "eval_egin_err_precision": 0.9902912621359223,
+    "eval_egin_err_recall": 0.9964476021314387,
+    "eval_el_err_f1": 0.9956584659913169,
+    "eval_el_err_number": 1380,
+    "eval_el_err_precision": 0.9942196531791907,
+    "eval_el_err_recall": 0.9971014492753624,
+    "eval_loss": 0.0013192046899348497,
+    "eval_macro_avg_f1": 0.9912800394235617,
+    "eval_macro_avg_number": 23096,
+    "eval_macro_avg_precision": 0.991795835558829,
+    "eval_macro_avg_recall": 0.990841420701172,
+    "eval_micro_avg_f1": 0.993373754872239,
+    "eval_micro_avg_number": 23096,
+    "eval_micro_avg_precision": 0.9936319528677872,
+    "eval_micro_avg_recall": 0.9931156910287495,
+    "eval_nd_err_f1": 0.9919932574799832,
+    "eval_nd_err_number": 1188,
+    "eval_nd_err_precision": 0.9932489451476794,
+    "eval_nd_err_recall": 0.9907407407407407,
+    "eval_ne_word_err_f1": 0.9958722835983974,
+    "eval_ne_word_err_number": 8247,
+    "eval_ne_word_err_precision": 0.9970827762246263,
+    "eval_ne_word_err_recall": 0.9946647265672366,
+    "eval_overall_accuracy": 0.9993957202777317,
+    "eval_runtime": 11.3466,
+    "eval_samples": 18388,
+    "eval_samples_per_second": 1620.567,
+    "eval_steps_per_second": 101.352,
+    "eval_unc_insert_err_f1": 0.9961218836565098,
+    "eval_unc_insert_err_number": 902,
+    "eval_unc_insert_err_precision": 0.9955703211517165,
+    "eval_unc_insert_err_recall": 0.9966740576496674,
+    "eval_weighted_avg_f1": 0.993375440096453,
+    "eval_weighted_avg_number": 23096,
+    "eval_weighted_avg_precision": 0.9936401344515604,
+    "eval_weighted_avg_recall": 0.9931156910287495,
+    "train_loss": 0.06519987745561462,
+    "train_runtime": 1743.5904,
+    "train_samples": 18388,
+    "train_samples_per_second": 316.382,
+    "train_steps_per_second": 9.893
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+    "epoch": 30.0,
+    "eval_5_err_f1": 0.9850746268656716,
+    "eval_5_err_number": 34,
+    "eval_5_err_precision": 1.0,
+    "eval_5_err_recall": 0.9705882352941176,
+    "eval___f1": 0.9912903388209234,
+    "eval___number": 9934,
+    "eval___precision": 0.9915399335280491,
+    "eval___recall": 0.9910408697402859,
+    "eval__err_f1": 0.9808695652173912,
+    "eval__err_number": 285,
+    "eval__err_precision": 0.9724137931034482,
+    "eval__err_recall": 0.9894736842105263,
+    "eval_egin_err_f1": 0.9933598937583,
+    "eval_egin_err_number": 1126,
+    "eval_egin_err_precision": 0.9902912621359223,
+    "eval_egin_err_recall": 0.9964476021314387,
+    "eval_el_err_f1": 0.9956584659913169,
+    "eval_el_err_number": 1380,
+    "eval_el_err_precision": 0.9942196531791907,
+    "eval_el_err_recall": 0.9971014492753624,
+    "eval_loss": 0.0013192046899348497,
+    "eval_macro_avg_f1": 0.9912800394235617,
+    "eval_macro_avg_number": 23096,
+    "eval_macro_avg_precision": 0.991795835558829,
+    "eval_macro_avg_recall": 0.990841420701172,
+    "eval_micro_avg_f1": 0.993373754872239,
+    "eval_micro_avg_number": 23096,
+    "eval_micro_avg_precision": 0.9936319528677872,
+    "eval_micro_avg_recall": 0.9931156910287495,
+    "eval_nd_err_f1": 0.9919932574799832,
+    "eval_nd_err_number": 1188,
+    "eval_nd_err_precision": 0.9932489451476794,
+    "eval_nd_err_recall": 0.9907407407407407,
+    "eval_ne_word_err_f1": 0.9958722835983974,
+    "eval_ne_word_err_number": 8247,
+    "eval_ne_word_err_precision": 0.9970827762246263,
+    "eval_ne_word_err_recall": 0.9946647265672366,
+    "eval_overall_accuracy": 0.9993957202777317,
+    "eval_runtime": 11.3466,
+    "eval_samples": 18388,
+    "eval_samples_per_second": 1620.567,
+    "eval_steps_per_second": 101.352,
+    "eval_unc_insert_err_f1": 0.9961218836565098,
+    "eval_unc_insert_err_number": 902,
+    "eval_unc_insert_err_precision": 0.9955703211517165,
+    "eval_unc_insert_err_recall": 0.9966740576496674,
+    "eval_weighted_avg_f1": 0.993375440096453,
+    "eval_weighted_avg_number": 23096,
+    "eval_weighted_avg_precision": 0.9936401344515604,
+    "eval_weighted_avg_recall": 0.9931156910287495
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb8de0288b5a6e76feea0bd3fc8fd584ac1e2b3cae7999f2b363d2d1f1869015
 size 440204333

 version https://git-lfs.github.com/spec/v1
+oid sha256:f97a01ef0c9cf5ab55573541c020f69350a7193a786138e1d42112eb77868c8c
 size 440204333

runs/Mar02_00-52-19_home-3090/events.out.tfevents.1677698625.home-3090.10497.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f80bf45c97d4bf7f9cd5f5b54374434516b794b4b6e0a1fb5c00b642fd552a87
+size 2994

runs/Mar03_01-20-39_home-3090/1677784859.1870086/events.out.tfevents.1677784859.home-3090.52004.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be276b4ce297fe687e5ab6dc08cbfbc7b8e3ef647e3f55ee0ea58bac5371c68b
+size 5523

runs/Mar03_01-20-39_home-3090/events.out.tfevents.1677784859.home-3090.52004.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00b7d5cc1bc54910f4e653ce177391178c3000bb10858458c2b6da0b017509f4
+size 7325

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 30.0,
+    "train_loss": 0.06519987745561462,
+    "train_runtime": 1743.5904,
+    "train_samples": 18388,
+    "train_samples_per_second": 316.382,
+    "train_steps_per_second": 9.893
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1795 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 30.0,
+  "global_step": 17250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.7818,
+      "step": 575
+    },
+    {
+      "epoch": 1.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.15277177825773938,
+      "eval___number": 9934,
+      "eval___precision": 0.26820020222446916,
+      "eval___recall": 0.1068049124219851,
+      "eval__err_f1": 0.0,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.0,
+      "eval__err_recall": 0.0,
+      "eval_egin_err_f1": 0.0,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.0,
+      "eval_egin_err_recall": 0.0,
+      "eval_el_err_f1": 0.0,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.0,
+      "eval_el_err_recall": 0.0,
+      "eval_loss": 0.283189594745636,
+      "eval_macro_avg_f1": 0.07410438993859113,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.11278010170972645,
+      "eval_macro_avg_recall": 0.055471991523343506,
+      "eval_micro_avg_f1": 0.24431366311436298,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.4604868689291282,
+      "eval_micro_avg_recall": 0.16626255628680292,
+      "eval_nd_err_f1": 0.0,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.0,
+      "eval_nd_err_recall": 0.0,
+      "eval_ne_word_err_f1": 0.44006334125098967,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.6340406114533425,
+      "eval_ne_word_err_recall": 0.33697101976476296,
+      "eval_overall_accuracy": 0.9313016896134979,
+      "eval_runtime": 11.4511,
+      "eval_samples_per_second": 1605.79,
+      "eval_steps_per_second": 100.427,
+      "eval_unc_insert_err_f1": 0.0,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.0,
+      "eval_unc_insert_err_recall": 0.0,
+      "eval_weighted_avg_f1": 0.22284539402967157,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.3417576087440939,
+      "eval_weighted_avg_recall": 0.16626255628680292,
+      "step": 575
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2475,
+      "step": 1150
+    },
+    {
+      "epoch": 2.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.2921747656106379,
+      "eval___number": 9934,
+      "eval___precision": 0.3733750978856695,
+      "eval___recall": 0.2399838936984095,
+      "eval__err_f1": 0.0,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.0,
+      "eval__err_recall": 0.0,
+      "eval_egin_err_f1": 0.4211180124223602,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.7004132231404959,
+      "eval_egin_err_recall": 0.30106571936056836,
+      "eval_el_err_f1": 0.23684210526315788,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.875,
+      "eval_el_err_recall": 0.13695652173913042,
+      "eval_loss": 0.1883164346218109,
+      "eval_macro_avg_f1": 0.25811167808226654,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.5382361502619613,
+      "eval_macro_avg_recall": 0.2033771848028768,
+      "eval_micro_avg_f1": 0.42355211320451314,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.5558134627558556,
+      "eval_micro_avg_recall": 0.3421371666089366,
+      "eval_nd_err_f1": 0.49635036496350365,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.6520547945205479,
+      "eval_nd_err_recall": 0.4006734006734007,
+      "eval_ne_word_err_f1": 0.616193336974331,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.7050460865489767,
+      "eval_ne_word_err_recall": 0.5472292955013944,
+      "eval_overall_accuracy": 0.9455378089528188,
+      "eval_runtime": 12.2219,
+      "eval_samples_per_second": 1504.512,
+      "eval_steps_per_second": 94.093,
+      "eval_unc_insert_err_f1": 0.0022148394241417496,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 1.0,
+      "eval_unc_insert_err_recall": 0.0011086474501108647,
+      "eval_weighted_avg_f1": 0.40599643131240637,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.571372951303787,
+      "eval_weighted_avg_recall": 0.3421371666089366,
+      "step": 1150
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2e-05,
+      "loss": 0.1897,
+      "step": 1725
+    },
+    {
+      "epoch": 3.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.4270756692512309,
+      "eval___number": 9934,
+      "eval___precision": 0.48778280542986424,
+      "eval___recall": 0.379806724380914,
+      "eval__err_f1": 0.0,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.0,
+      "eval__err_recall": 0.0,
+      "eval_egin_err_f1": 0.6587155963302753,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.681214421252372,
+      "eval_egin_err_recall": 0.6376554174067496,
+      "eval_el_err_f1": 0.39977851605758585,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.8474178403755869,
+      "eval_el_err_recall": 0.26159420289855073,
+      "eval_loss": 0.1407451629638672,
+      "eval_macro_avg_f1": 0.393737200401998,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.4998071399685999,
+      "eval_macro_avg_recall": 0.3484017162866866,
+      "eval_micro_avg_f1": 0.5544212726654028,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.6319960101961654,
+      "eval_micro_avg_recall": 0.4938084516799446,
+      "eval_nd_err_f1": 0.6383909051158723,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.6642402183803457,
+      "eval_nd_err_recall": 0.6144781144781145,
+      "eval_ne_word_err_f1": 0.7204706785188976,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.7622462787550744,
+      "eval_ne_word_err_recall": 0.6830362556080999,
+      "eval_overall_accuracy": 0.9567288324367876,
+      "eval_runtime": 11.5134,
+      "eval_samples_per_second": 1597.097,
+      "eval_steps_per_second": 99.884,
+      "eval_unc_insert_err_f1": 0.3054662379421222,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.5555555555555556,
+      "eval_unc_insert_err_recall": 0.2106430155210643,
+      "eval_weighted_avg_f1": 0.541723174559053,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.6216917214508492,
+      "eval_weighted_avg_recall": 0.4938084516799446,
+      "step": 1725
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 1.925925925925926e-05,
+      "loss": 0.1506,
+      "step": 2300
+    },
+    {
+      "epoch": 4.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.5822524859489839,
+      "eval___number": 9934,
+      "eval___precision": 0.6285880980163361,
+      "eval___recall": 0.5422790416750554,
+      "eval__err_f1": 0.10526315789473685,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.8421052631578947,
+      "eval__err_recall": 0.056140350877192984,
+      "eval_egin_err_f1": 0.7867298578199051,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.8434959349593496,
+      "eval_egin_err_recall": 0.7371225577264654,
+      "eval_el_err_f1": 0.5848513902205178,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.8640226628895185,
+      "eval_el_err_recall": 0.4420289855072464,
+      "eval_loss": 0.10146419703960419,
+      "eval_macro_avg_f1": 0.5028590528776729,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.6915397433751863,
+      "eval_macro_avg_recall": 0.4461313799008184,
+      "eval_micro_avg_f1": 0.6814043606144078,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.7392867997163408,
+      "eval_micro_avg_recall": 0.6319276065119501,
+      "eval_nd_err_f1": 0.7756925826630922,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.8266666666666667,
+      "eval_nd_err_recall": 0.7306397306397306,
+      "eval_ne_word_err_f1": 0.8148148148148148,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.8228239366963402,
+      "eval_ne_word_err_recall": 0.8069601067054687,
+      "eval_overall_accuracy": 0.9701177753027322,
+      "eval_runtime": 11.6132,
+      "eval_samples_per_second": 1583.375,
+      "eval_steps_per_second": 99.026,
+      "eval_unc_insert_err_f1": 0.37326813365933176,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.7046153846153846,
+      "eval_unc_insert_err_recall": 0.25388026607538805,
+      "eval_weighted_avg_f1": 0.6704640351735791,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.7373568559968757,
+      "eval_weighted_avg_recall": 0.6319276065119501,
+      "step": 2300
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.851851851851852e-05,
+      "loss": 0.1156,
+      "step": 2875
+    },
+    {
+      "epoch": 5.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.7171141287446875,
+      "eval___number": 9934,
+      "eval___precision": 0.7391025641025641,
+      "eval___recall": 0.6963962150191262,
+      "eval__err_f1": 0.3314917127071823,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.7792207792207793,
+      "eval__err_recall": 0.21052631578947367,
+      "eval_egin_err_f1": 0.853273137697517,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.8677685950413223,
+      "eval_egin_err_recall": 0.8392539964476021,
+      "eval_el_err_f1": 0.7756132756132756,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.7722701149425287,
+      "eval_el_err_recall": 0.7789855072463768,
+      "eval_loss": 0.07168415188789368,
+      "eval_macro_avg_f1": 0.6164482191003791,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.7024262910397409,
+      "eval_macro_avg_recall": 0.5800476084892296,
+      "eval_micro_avg_f1": 0.7831352220931272,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.8090951061865189,
+      "eval_micro_avg_recall": 0.7587894007620367,
+      "eval_nd_err_f1": 0.841511072514112,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.8690582959641255,
+      "eval_nd_err_recall": 0.8156565656565656,
+      "eval_ne_word_err_f1": 0.8785149788641794,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.887815750371471,
+      "eval_ne_word_err_recall": 0.869407057111677,
+      "eval_overall_accuracy": 0.9797270077489988,
+      "eval_runtime": 11.582,
+      "eval_samples_per_second": 1587.637,
+      "eval_steps_per_second": 99.292,
+      "eval_unc_insert_err_f1": 0.5340674466620785,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.7041742286751361,
+      "eval_unc_insert_err_recall": 0.43015521064301554,
+      "eval_weighted_avg_f1": 0.7783155433059336,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.8051864346074598,
+      "eval_weighted_avg_recall": 0.7587894007620367,
+      "step": 2875
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 0.0872,
+      "step": 3450
+    },
+    {
+      "epoch": 6.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.8336382113821139,
+      "eval___number": 9934,
+      "eval___precision": 0.8416786373896984,
+      "eval___recall": 0.8257499496678076,
+      "eval__err_f1": 0.5062034739454094,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.864406779661017,
+      "eval__err_recall": 0.35789473684210527,
+      "eval_egin_err_f1": 0.8927116342236305,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9104339796860572,
+      "eval_egin_err_recall": 0.8756660746003553,
+      "eval_el_err_f1": 0.8574585635359115,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.8719101123595505,
+      "eval_el_err_recall": 0.8434782608695652,
+      "eval_loss": 0.048479896038770676,
+      "eval_macro_avg_f1": 0.7046115753196951,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.7584152991122148,
+      "eval_macro_avg_recall": 0.677463811561773,
+      "eval_micro_avg_f1": 0.8668196219818638,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.8749834575852485,
+      "eval_micro_avg_recall": 0.8588067197783166,
+      "eval_nd_err_f1": 0.8641655886157827,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.8859416445623343,
+      "eval_nd_err_recall": 0.8434343434343434,
+      "eval_ne_word_err_f1": 0.9267559935107854,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.918532634587899,
+      "eval_ne_word_err_recall": 0.935127925306172,
+      "eval_overall_accuracy": 0.9874049148084078,
+      "eval_runtime": 11.5539,
+      "eval_samples_per_second": 1591.493,
+      "eval_steps_per_second": 99.533,
+      "eval_unc_insert_err_f1": 0.7559591373439274,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.7744186046511627,
+      "eval_unc_insert_err_recall": 0.738359201773836,
+      "eval_weighted_avg_f1": 0.8644603671372942,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.872971035018927,
+      "eval_weighted_avg_recall": 0.8588067197783166,
+      "step": 3450
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 1.7037037037037038e-05,
+      "loss": 0.0675,
+      "step": 4025
+    },
+    {
+      "epoch": 7.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.8946004977904202,
+      "eval___number": 9934,
+      "eval___precision": 0.9029016712806316,
+      "eval___recall": 0.8864505737869942,
+      "eval__err_f1": 0.6258503401360545,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.8846153846153846,
+      "eval__err_recall": 0.4842105263157895,
+      "eval_egin_err_f1": 0.8920105355575065,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.8819444444444444,
+      "eval_egin_err_recall": 0.9023090586145648,
+      "eval_el_err_f1": 0.8992424242424242,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.942063492063492,
+      "eval_el_err_recall": 0.8601449275362318,
+      "eval_loss": 0.035397969186306,
+      "eval_macro_avg_f1": 0.7470366372560805,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.7838431031789916,
+      "eval_macro_avg_recall": 0.7255447092342178,
+      "eval_micro_avg_f1": 0.9088604829017808,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9174202655608982,
+      "eval_micro_avg_recall": 0.9004589539314167,
+      "eval_nd_err_f1": 0.8717948717948718,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.8854166666666666,
+      "eval_nd_err_recall": 0.8585858585858586,
+      "eval_ne_word_err_f1": 0.9520577004666949,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9517692680562287,
+      "eval_ne_word_err_recall": 0.9523463077482721,
+      "eval_overall_accuracy": 0.9913860518021754,
+      "eval_runtime": 11.6281,
+      "eval_samples_per_second": 1581.339,
+      "eval_steps_per_second": 98.898,
+      "eval_unc_insert_err_f1": 0.8407367280606717,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.8220338983050848,
+      "eval_unc_insert_err_recall": 0.8603104212860311,
+      "eval_weighted_avg_f1": 0.9073581482781856,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9160568228498506,
+      "eval_weighted_avg_recall": 0.9004589539314167,
+      "step": 4025
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.6296296296296297e-05,
+      "loss": 0.0532,
+      "step": 4600
+    },
+    {
+      "epoch": 8.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.9236796580848683,
+      "eval___number": 9934,
+      "eval___precision": 0.9338477366255145,
+      "eval___recall": 0.913730622105899,
+      "eval__err_f1": 0.7455621301775148,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.8513513513513513,
+      "eval__err_recall": 0.6631578947368421,
+      "eval_egin_err_f1": 0.929652715939448,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9321428571428572,
+      "eval_egin_err_recall": 0.9271758436944938,
+      "eval_el_err_f1": 0.9120669965740388,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9607056936647955,
+      "eval_el_err_recall": 0.8681159420289855,
+      "eval_loss": 0.02567952871322632,
+      "eval_macro_avg_f1": 0.7841691959478824,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.805945865713128,
+      "eval_macro_avg_recall": 0.7659910981441609,
+      "eval_micro_avg_f1": 0.9342174369747899,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9444690265486726,
+      "eval_micro_avg_recall": 0.9241860062348458,
+      "eval_nd_err_f1": 0.8971404182671789,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.90995670995671,
+      "eval_nd_err_recall": 0.8846801346801347,
+      "eval_ne_word_err_f1": 0.9680553868577675,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9697043435941112,
+      "eval_ne_word_err_recall": 0.9664120286164666,
+      "eval_overall_accuracy": 0.9938387165572644,
+      "eval_runtime": 11.5399,
+      "eval_samples_per_second": 1593.424,
+      "eval_steps_per_second": 99.654,
+      "eval_unc_insert_err_f1": 0.897196261682243,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.8898582333696837,
+      "eval_unc_insert_err_recall": 0.9046563192904656,
+      "eval_weighted_avg_f1": 0.9331653517617972,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9428332908175411,
+      "eval_weighted_avg_recall": 0.9241860062348458,
+      "step": 4600
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.0418,
+      "step": 5175
+    },
+    {
+      "epoch": 9.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.9510765187506318,
+      "eval___number": 9934,
+      "eval___precision": 0.9550345107592367,
+      "eval___recall": 0.9471511979061807,
+      "eval__err_f1": 0.8208955223880597,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.8764940239043825,
+      "eval__err_recall": 0.7719298245614035,
+      "eval_egin_err_f1": 0.9310954063604241,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9261862917398945,
+      "eval_egin_err_recall": 0.9360568383658969,
+      "eval_el_err_f1": 0.9391495601173021,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9502967359050445,
+      "eval_el_err_recall": 0.9282608695652174,
+      "eval_loss": 0.01935717649757862,
+      "eval_macro_avg_f1": 0.8072644057238675,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.8132706801082134,
+      "eval_macro_avg_recall": 0.8022721637436516,
+      "eval_micro_avg_f1": 0.9534545296583481,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9565918500762693,
+      "eval_micro_avg_recall": 0.9503377208174576,
+      "eval_nd_err_f1": 0.9040980143641741,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.90754877014419,
+      "eval_nd_err_recall": 0.9006734006734006,
+      "eval_ne_word_err_f1": 0.9772410026096984,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9782503037667072,
+      "eval_ne_word_err_recall": 0.9762337819813266,
+      "eval_overall_accuracy": 0.9954619777719851,
+      "eval_runtime": 11.5934,
+      "eval_samples_per_second": 1586.069,
+      "eval_steps_per_second": 99.194,
+      "eval_unc_insert_err_f1": 0.934559221200649,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9123548046462513,
+      "eval_unc_insert_err_recall": 0.9578713968957872,
+      "eval_weighted_avg_f1": 0.9526643829573475,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9551502907269372,
+      "eval_weighted_avg_recall": 0.9503377208174576,
+      "step": 5175
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0329,
+      "step": 5750
+    },
+    {
+      "epoch": 10.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.9608594774538484,
+      "eval___number": 9934,
+      "eval___precision": 0.9628993125758188,
+      "eval___recall": 0.9588282665592913,
+      "eval__err_f1": 0.8358208955223881,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.7924528301886793,
+      "eval__err_recall": 0.8842105263157894,
+      "eval_egin_err_f1": 0.9470899470899471,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9404553415061296,
+      "eval_egin_err_recall": 0.9538188277087034,
+      "eval_el_err_f1": 0.9549150036954914,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9743589743589743,
+      "eval_el_err_recall": 0.936231884057971,
+      "eval_loss": 0.015092139132320881,
+      "eval_macro_avg_f1": 0.8193214504048429,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.8139063162203923,
+      "eval_macro_avg_recall": 0.8255497795620286,
+      "eval_micro_avg_f1": 0.961947919602784,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9634310532030401,
+      "eval_micro_avg_recall": 0.9604693453411847,
+      "eval_nd_err_f1": 0.9224936815501265,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9232715008431703,
+      "eval_nd_err_recall": 0.9217171717171717,
+      "eval_ne_word_err_f1": 0.9796636921022278,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9809141745684415,
+      "eval_ne_word_err_recall": 0.9784163938401843,
+      "eval_overall_accuracy": 0.9963387758003744,
+      "eval_runtime": 11.5919,
+      "eval_samples_per_second": 1586.275,
+      "eval_steps_per_second": 99.207,
+      "eval_unc_insert_err_f1": 0.9537289058247141,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9368983957219251,
+      "eval_unc_insert_err_recall": 0.9711751662971175,
+      "eval_weighted_avg_f1": 0.9613381289087282,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9623478966267772,
+      "eval_weighted_avg_recall": 0.9604693453411847,
+      "step": 5750
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 1.4074074074074075e-05,
+      "loss": 0.027,
+      "step": 6325
+    },
+    {
+      "epoch": 11.0,
+      "eval_5_err_f1": 0.0,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.0,
+      "eval_5_err_recall": 0.0,
+      "eval___f1": 0.9646227605349483,
+      "eval___number": 9934,
+      "eval___precision": 0.9672097965792936,
+      "eval___recall": 0.9620495268773908,
+      "eval__err_f1": 0.8822495606326889,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.8838028169014085,
+      "eval__err_recall": 0.8807017543859649,
+      "eval_egin_err_f1": 0.9626998223801065,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9626998223801065,
+      "eval_egin_err_recall": 0.9626998223801065,
+      "eval_el_err_f1": 0.9632623071271125,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9769001490312966,
+      "eval_el_err_recall": 0.95,
+      "eval_loss": 0.012891112826764584,
+      "eval_macro_avg_f1": 0.8290086444888856,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.8267544902067143,
+      "eval_macro_avg_recall": 0.8317541650077346,
+      "eval_micro_avg_f1": 0.967199947901969,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9698315267075879,
+      "eval_micro_avg_recall": 0.964582611707655,
+      "eval_nd_err_f1": 0.9370277078085643,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9346733668341709,
+      "eval_nd_err_recall": 0.9393939393939394,
+      "eval_ne_word_err_f1": 0.9842759629449049,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.989462075726014,
+      "eval_ne_word_err_recall": 0.9791439311264702,
+      "eval_overall_accuracy": 0.9968541908576033,
+      "eval_runtime": 11.5138,
+      "eval_samples_per_second": 1597.044,
+      "eval_steps_per_second": 99.88,
+      "eval_unc_insert_err_f1": 0.9379310344827587,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.8992878942014242,
+      "eval_unc_insert_err_recall": 0.9800443458980045,
+      "eval_weighted_avg_f1": 0.9665670327397197,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9687353440673672,
+      "eval_weighted_avg_recall": 0.964582611707655,
+      "step": 6325
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0228,
+      "step": 6900
+    },
+    {
+      "epoch": 12.0,
+      "eval_5_err_f1": 0.05714285714285715,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.029411764705882353,
+      "eval___f1": 0.9747602221100454,
+      "eval___number": 9934,
+      "eval___precision": 0.9776225192385581,
+      "eval___recall": 0.9719146366015704,
+      "eval__err_f1": 0.9033391915641477,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9049295774647887,
+      "eval__err_recall": 0.9017543859649123,
+      "eval_egin_err_f1": 0.957931638913234,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9455017301038062,
+      "eval_egin_err_recall": 0.9706927175843695,
+      "eval_el_err_f1": 0.9700292397660818,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9786135693215339,
+      "eval_el_err_recall": 0.9615942028985507,
+      "eval_loss": 0.00973260123282671,
+      "eval_macro_avg_f1": 0.8465241770192731,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9626461351075175,
+      "eval_macro_avg_recall": 0.8448949158929412,
+      "eval_micro_avg_f1": 0.9757070969980912,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9775730180806675,
+      "eval_micro_avg_recall": 0.9738482854173883,
+      "eval_nd_err_f1": 0.9432387312186977,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9354304635761589,
+      "eval_nd_err_recall": 0.9511784511784511,
+      "eval_ne_word_err_f1": 0.989364934670313,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9917153996101364,
+      "eval_ne_word_err_recall": 0.9870255850612344,
+      "eval_overall_accuracy": 0.9976184269769426,
+      "eval_runtime": 11.5829,
+      "eval_samples_per_second": 1587.51,
+      "eval_steps_per_second": 99.284,
+      "eval_unc_insert_err_f1": 0.9763866007688083,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9673558215451578,
+      "eval_unc_insert_err_recall": 0.9855875831485588,
+      "eval_weighted_avg_f1": 0.9750820441756441,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9777126754330147,
+      "eval_weighted_avg_recall": 0.9738482854173883,
+      "step": 6900
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 1.2592592592592593e-05,
+      "loss": 0.0187,
+      "step": 7475
+    },
+    {
+      "epoch": 13.0,
+      "eval_5_err_f1": 0.1111111111111111,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.058823529411764705,
+      "eval___f1": 0.9772773177135933,
+      "eval___number": 9934,
+      "eval___precision": 0.9804457953394123,
+      "eval___recall": 0.9741292530702638,
+      "eval__err_f1": 0.9159212880143113,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9343065693430657,
+      "eval__err_recall": 0.8982456140350877,
+      "eval_egin_err_f1": 0.9725420726306466,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9699646643109541,
+      "eval_egin_err_recall": 0.9751332149200711,
+      "eval_el_err_f1": 0.9773391812865497,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9859882005899705,
+      "eval_el_err_recall": 0.9688405797101449,
+      "eval_loss": 0.00791421253234148,
+      "eval_macro_avg_f1": 0.860476059382429,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9740798854231898,
+      "eval_macro_avg_recall": 0.8515739437144252,
+      "eval_micro_avg_f1": 0.9794606800121586,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9823186133612055,
+      "eval_micro_avg_recall": 0.9766193280221683,
+      "eval_nd_err_f1": 0.9596977329974811,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.957286432160804,
+      "eval_nd_err_recall": 0.9621212121212122,
+      "eval_ne_word_err_f1": 0.9902830074092069,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.991969826012897,
+      "eval_ne_word_err_recall": 0.9886019158481872,
+      "eval_overall_accuracy": 0.9980627503021399,
+      "eval_runtime": 11.6079,
+      "eval_samples_per_second": 1584.097,
+      "eval_steps_per_second": 99.071,
+      "eval_unc_insert_err_f1": 0.9796367638965328,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9726775956284153,
+      "eval_unc_insert_err_recall": 0.9866962305986696,
+      "eval_weighted_avg_f1": 0.9788498394927975,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9823457074725067,
+      "eval_weighted_avg_recall": 0.9766193280221683,
+      "step": 7475
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 1.1851851851851852e-05,
+      "loss": 0.0164,
+      "step": 8050
+    },
+    {
+      "epoch": 14.0,
+      "eval_5_err_f1": 0.21052631578947367,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.11764705882352941,
+      "eval___f1": 0.9825428859737638,
+      "eval___number": 9934,
+      "eval___precision": 0.9849281812664374,
+      "eval___recall": 0.9801691161667002,
+      "eval__err_f1": 0.9261261261261261,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9518518518518518,
+      "eval__err_recall": 0.9017543859649123,
+      "eval_egin_err_f1": 0.9721362229102167,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9682819383259912,
+      "eval_egin_err_recall": 0.9760213143872114,
+      "eval_el_err_f1": 0.9807762060210373,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9818445896877269,
+      "eval_el_err_recall": 0.9797101449275363,
+      "eval_loss": 0.006334466394037008,
+      "eval_macro_avg_f1": 0.876297239717871,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9777358109471072,
+      "eval_macro_avg_recall": 0.8621140989407539,
+      "eval_micro_avg_f1": 0.9830074437379284,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9854240090501675,
+      "eval_micro_avg_recall": 0.9806027017665396,
+      "eval_nd_err_f1": 0.9622799664710813,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9582637729549248,
+      "eval_nd_err_recall": 0.9663299663299664,
+      "eval_ne_word_err_f1": 0.9920388939532057,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9943957115009746,
+      "eval_ne_word_err_recall": 0.9896932217776161,
+      "eval_overall_accuracy": 0.9983589658522714,
+      "eval_runtime": 11.6047,
+      "eval_samples_per_second": 1584.53,
+      "eval_steps_per_second": 99.098,
+      "eval_unc_insert_err_f1": 0.9839513004980631,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9823204419889503,
+      "eval_unc_insert_err_recall": 0.9855875831485588,
+      "eval_weighted_avg_f1": 0.9825008162842519,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9854536352829805,
+      "eval_weighted_avg_recall": 0.9806027017665396,
+      "step": 8050
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 0.014,
+      "step": 8625
+    },
+    {
+      "epoch": 15.0,
+      "eval_5_err_f1": 0.45454545454545453,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.29411764705882354,
+      "eval___f1": 0.9852837415583107,
+      "eval___number": 9934,
+      "eval___precision": 0.9865765038352846,
+      "eval___recall": 0.9839943627944433,
+      "eval__err_f1": 0.9288135593220339,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.898360655737705,
+      "eval__err_recall": 0.9614035087719298,
+      "eval_egin_err_f1": 0.9774635439681837,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9727352682497801,
+      "eval_egin_err_recall": 0.9822380106571936,
+      "eval_el_err_f1": 0.9829524845846935,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9840232389251997,
+      "eval_el_err_recall": 0.9818840579710145,
+      "eval_loss": 0.0052265021950006485,
+      "eval_macro_avg_f1": 0.9105764259707885,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9749927361731852,
+      "eval_macro_avg_recall": 0.8945651087172118,
+      "eval_micro_avg_f1": 0.9858025360355478,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9870220061634619,
+      "eval_micro_avg_recall": 0.9845860755109109,
+      "eval_nd_err_f1": 0.9714285714285714,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9697986577181208,
+      "eval_nd_err_recall": 0.9730639730639731,
+      "eval_ne_word_err_f1": 0.9930129412479494,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9951290793960058,
+      "eval_ne_word_err_recall": 0.9909057839214259,
+      "eval_overall_accuracy": 0.9986137112253844,
+      "eval_runtime": 11.5772,
+      "eval_samples_per_second": 1588.3,
+      "eval_steps_per_second": 99.334,
+      "eval_unc_insert_err_f1": 0.991111111111111,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9933184855233853,
+      "eval_unc_insert_err_recall": 0.9889135254988913,
+      "eval_weighted_avg_f1": 0.9855598618500103,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9871345408226997,
+      "eval_weighted_avg_recall": 0.9845860755109109,
+      "step": 8625
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 1.037037037037037e-05,
+      "loss": 0.0123,
+      "step": 9200
+    },
+    {
+      "epoch": 16.0,
+      "eval_5_err_f1": 0.6,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.9375,
+      "eval_5_err_recall": 0.4411764705882353,
+      "eval___f1": 0.9873099002920738,
+      "eval___number": 9934,
+      "eval___precision": 0.987807335751713,
+      "eval___recall": 0.9868129655727803,
+      "eval__err_f1": 0.9515570934256056,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9385665529010239,
+      "eval__err_recall": 0.9649122807017544,
+      "eval_egin_err_f1": 0.9800973020787261,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9762114537444934,
+      "eval_egin_err_recall": 0.9840142095914742,
+      "eval_el_err_f1": 0.988056460369164,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9869848156182213,
+      "eval_el_err_recall": 0.9891304347826086,
+      "eval_loss": 0.004177143797278404,
+      "eval_macro_avg_f1": 0.9331542372543383,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9724010687109472,
+      "eval_macro_avg_recall": 0.9162982831050877,
+      "eval_micro_avg_f1": 0.9880050231671935,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9881333910783889,
+      "eval_micro_avg_recall": 0.9878766886040873,
+      "eval_nd_err_f1": 0.9739714525608731,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9715242881072027,
+      "eval_nd_err_recall": 0.9764309764309764,
+      "eval_ne_word_err_f1": 0.9941754641427012,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9948998178506375,
+      "eval_ne_word_err_recall": 0.9934521644234267,
+      "eval_overall_accuracy": 0.998862532287495,
+      "eval_runtime": 12.719,
+      "eval_samples_per_second": 1445.712,
+      "eval_steps_per_second": 90.416,
+      "eval_unc_insert_err_f1": 0.9900662251655629,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9857142857142858,
+      "eval_unc_insert_err_recall": 0.9944567627494457,
+      "eval_weighted_avg_f1": 0.9878645943931573,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9881244207310185,
+      "eval_weighted_avg_recall": 0.9878766886040873,
+      "step": 9200
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 9.62962962962963e-06,
+      "loss": 0.0105,
+      "step": 9775
+    },
+    {
+      "epoch": 17.0,
+      "eval_5_err_f1": 0.6909090909090908,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.9047619047619048,
+      "eval_5_err_recall": 0.5588235294117647,
+      "eval___f1": 0.9881665743491614,
+      "eval___number": 9934,
+      "eval___precision": 0.9886146095717884,
+      "eval___recall": 0.9877189450372458,
+      "eval__err_f1": 0.9619377162629758,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9488054607508533,
+      "eval__err_recall": 0.9754385964912281,
+      "eval_egin_err_f1": 0.983111111111111,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9839857651245552,
+      "eval_egin_err_recall": 0.9822380106571936,
+      "eval_el_err_f1": 0.9902491874322861,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9870410367170627,
+      "eval_el_err_recall": 0.9934782608695653,
+      "eval_loss": 0.0035622185096144676,
+      "eval_macro_avg_f1": 0.9477625393802664,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9727147980473216,
+      "eval_macro_avg_recall": 0.9330802536387749,
+      "eval_micro_avg_f1": 0.989477330792881,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9896058899956691,
+      "eval_micro_avg_recall": 0.9893488049878767,
+      "eval_nd_err_f1": 0.9802105263157895,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9806234203875316,
+      "eval_nd_err_recall": 0.9797979797979798,
+      "eval_ne_word_err_f1": 0.99472631387525,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9945454545454545,
+      "eval_ne_word_err_recall": 0.9949072389959985,
+      "eval_overall_accuracy": 0.9990106400625607,
+      "eval_runtime": 11.5897,
+      "eval_samples_per_second": 1586.578,
+      "eval_steps_per_second": 99.226,
+      "eval_unc_insert_err_f1": 0.9927897947864671,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9933407325194229,
+      "eval_unc_insert_err_recall": 0.9922394678492239,
+      "eval_weighted_avg_f1": 0.9893969219028329,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9895715241838893,
+      "eval_weighted_avg_recall": 0.9893488049878767,
+      "step": 9775
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.0093,
+      "step": 10350
+    },
+    {
+      "epoch": 18.0,
+      "eval_5_err_f1": 0.7169811320754718,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.5588235294117647,
+      "eval___f1": 0.9897851356111308,
+      "eval___number": 9934,
+      "eval___precision": 0.9895361706409096,
+      "eval___recall": 0.9900342258908799,
+      "eval__err_f1": 0.9686411149825784,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9619377162629758,
+      "eval__err_recall": 0.9754385964912281,
+      "eval_egin_err_f1": 0.984982332155477,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9797891036906854,
+      "eval_egin_err_recall": 0.9902309058614565,
+      "eval_el_err_f1": 0.993128390596745,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9913357400722022,
+      "eval_el_err_recall": 0.994927536231884,
+      "eval_loss": 0.003151776734739542,
+      "eval_macro_avg_f1": 0.9528278117999003,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9858378283192721,
+      "eval_macro_avg_recall": 0.9354523140152433,
+      "eval_micro_avg_f1": 0.9907613751920207,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9901829347403018,
+      "eval_micro_avg_recall": 0.9913404918600623,
+      "eval_nd_err_f1": 0.981163666806195,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9758534554537885,
+      "eval_nd_err_recall": 0.9865319865319865,
+      "eval_ne_word_err_f1": 0.9951509273851376,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9949097079141922,
+      "eval_ne_word_err_recall": 0.9953922638535225,
+      "eval_overall_accuracy": 0.9991054290386028,
+      "eval_runtime": 11.5456,
+      "eval_samples_per_second": 1592.643,
+      "eval_steps_per_second": 99.605,
+      "eval_unc_insert_err_f1": 0.9927897947864671,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9933407325194229,
+      "eval_unc_insert_err_recall": 0.9922394678492239,
+      "eval_weighted_avg_f1": 0.9906781013015472,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9902068768322245,
+      "eval_weighted_avg_recall": 0.9913404918600623,
+      "step": 10350
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 8.148148148148148e-06,
+      "loss": 0.0077,
+      "step": 10925
+    },
+    {
+      "epoch": 19.0,
+      "eval_5_err_f1": 0.8135593220338982,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 0.96,
+      "eval_5_err_recall": 0.7058823529411765,
+      "eval___f1": 0.9900820621255602,
+      "eval___number": 9934,
+      "eval___precision": 0.9903313526034847,
+      "eval___recall": 0.9898328971209986,
+      "eval__err_f1": 0.9705372616984402,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.958904109589041,
+      "eval__err_recall": 0.9824561403508771,
+      "eval_egin_err_f1": 0.9897913892587662,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9893522626441881,
+      "eval_egin_err_recall": 0.9902309058614565,
+      "eval_el_err_f1": 0.9934829833454019,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9927641099855282,
+      "eval_el_err_recall": 0.9942028985507246,
+      "eval_loss": 0.0027081461157649755,
+      "eval_macro_avg_f1": 0.9666657167263342,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9826479575258772,
+      "eval_macro_avg_recall": 0.9555704329460621,
+      "eval_micro_avg_f1": 0.9915788106423051,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9915573451097545,
+      "eval_micro_avg_recall": 0.9916002771042605,
+      "eval_nd_err_f1": 0.9874161073825503,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9841137123745819,
+      "eval_nd_err_recall": 0.9907407407407407,
+      "eval_ne_word_err_f1": 0.9950864422202002,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9956300072833212,
+      "eval_ne_word_err_recall": 0.9945434703528556,
+      "eval_overall_accuracy": 0.9992179909476527,
+      "eval_runtime": 11.6822,
+      "eval_samples_per_second": 1574.022,
+      "eval_steps_per_second": 98.441,
+      "eval_unc_insert_err_f1": 0.9933701657458565,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9900881057268722,
+      "eval_unc_insert_err_recall": 0.9966740576496674,
+      "eval_weighted_avg_f1": 0.9915482800949849,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9915592171477948,
+      "eval_weighted_avg_recall": 0.9916002771042605,
+      "step": 10925
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.0072,
+      "step": 11500
+    },
+    {
+      "epoch": 20.0,
+      "eval_5_err_f1": 0.8474576271186441,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.7352941176470589,
+      "eval___f1": 0.9909347300564061,
+      "eval___number": 9934,
+      "eval___precision": 0.9915339649264261,
+      "eval___recall": 0.9903362190457017,
+      "eval__err_f1": 0.9738219895287958,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.96875,
+      "eval__err_recall": 0.9789473684210527,
+      "eval_egin_err_f1": 0.9871738168951791,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9832599118942731,
+      "eval_egin_err_recall": 0.9911190053285968,
+      "eval_el_err_f1": 0.9942154736080984,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9920634920634921,
+      "eval_el_err_recall": 0.9963768115942029,
+      "eval_loss": 0.0023903592955321074,
+      "eval_macro_avg_f1": 0.97173084894704,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9894635604667124,
+      "eval_macro_avg_recall": 0.9590607777684785,
+      "eval_micro_avg_f1": 0.9922698828573284,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9924632910295837,
+      "eval_micro_avg_recall": 0.992076550051957,
+      "eval_nd_err_f1": 0.9903483004616032,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9874476987447699,
+      "eval_nd_err_recall": 0.9932659932659933,
+      "eval_ne_word_err_f1": 0.9954504094631482,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9959941733430444,
+      "eval_ne_word_err_recall": 0.9949072389959985,
+      "eval_overall_accuracy": 0.9992594611246712,
+      "eval_runtime": 11.3322,
+      "eval_samples_per_second": 1622.634,
+      "eval_steps_per_second": 101.481,
+      "eval_unc_insert_err_f1": 0.9944444444444444,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9966592427616926,
+      "eval_unc_insert_err_recall": 0.9922394678492239,
+      "eval_weighted_avg_f1": 0.9922443584517268,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9924761382083309,
+      "eval_weighted_avg_recall": 0.992076550051957,
+      "step": 11500
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0065,
+      "step": 12075
+    },
+    {
+      "epoch": 21.0,
+      "eval_5_err_f1": 0.9206349206349206,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.8529411764705882,
+      "eval___f1": 0.9908903316724545,
+      "eval___number": 9934,
+      "eval___precision": 0.9908404630095622,
+      "eval___recall": 0.9909402053553453,
+      "eval__err_f1": 0.979020979020979,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.975609756097561,
+      "eval__err_recall": 0.9824561403508771,
+      "eval_egin_err_f1": 0.9907038512616202,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9876434245366285,
+      "eval_egin_err_recall": 0.9937833037300178,
+      "eval_el_err_f1": 0.9934876989869754,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9920520231213873,
+      "eval_el_err_recall": 0.994927536231884,
+      "eval_loss": 0.002177101792767644,
+      "eval_macro_avg_f1": 0.981866119540616,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9905676481148733,
+      "eval_macro_avg_recall": 0.9746318418196954,
+      "eval_micro_avg_f1": 0.9925117950049778,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9922111639982691,
+      "eval_micro_avg_recall": 0.9928126082438518,
+      "eval_nd_err_f1": 0.9903483004616032,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9874476987447699,
+      "eval_nd_err_recall": 0.9932659932659933,
+      "eval_ne_word_err_f1": 0.9953922638535225,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9953922638535225,
+      "eval_ne_word_err_recall": 0.9953922638535225,
+      "eval_overall_accuracy": 0.999295006990687,
+      "eval_runtime": 11.5781,
+      "eval_samples_per_second": 1588.177,
+      "eval_steps_per_second": 99.326,
+      "eval_unc_insert_err_f1": 0.9944506104328523,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9955555555555555,
+      "eval_unc_insert_err_recall": 0.9933481152993349,
+      "eval_weighted_avg_f1": 0.9925052352718289,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9922174924307435,
+      "eval_weighted_avg_recall": 0.9928126082438518,
+      "step": 12075
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 5.925925925925926e-06,
+      "loss": 0.0056,
+      "step": 12650
+    },
+    {
+      "epoch": 22.0,
+      "eval_5_err_f1": 0.9032258064516129,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.8235294117647058,
+      "eval___f1": 0.9906862004732417,
+      "eval___number": 9934,
+      "eval___precision": 0.990935643065767,
+      "eval___recall": 0.9904368834306423,
+      "eval__err_f1": 0.9791666666666666,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9690721649484536,
+      "eval__err_recall": 0.9894736842105263,
+      "eval_egin_err_f1": 0.9915817456801064,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9893899204244032,
+      "eval_egin_err_recall": 0.9937833037300178,
+      "eval_el_err_f1": 0.9942154736080984,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9920634920634921,
+      "eval_el_err_recall": 0.9963768115942029,
+      "eval_loss": 0.0019981798250228167,
+      "eval_macro_avg_f1": 0.9798494009715082,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9901473342025248,
+      "eval_macro_avg_recall": 0.9717161526744847,
+      "eval_micro_avg_f1": 0.9925730247060607,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9927664919651752,
+      "eval_micro_avg_recall": 0.9923796328368548,
+      "eval_nd_err_f1": 0.9903157894736843,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9907329401853412,
+      "eval_nd_err_recall": 0.98989898989899,
+      "eval_ne_word_err_f1": 0.9956909631607697,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.996719319562576,
+      "eval_ne_word_err_recall": 0.9946647265672366,
+      "eval_overall_accuracy": 0.9993127799236948,
+      "eval_runtime": 11.7025,
+      "eval_samples_per_second": 1571.285,
+      "eval_steps_per_second": 98.269,
+      "eval_unc_insert_err_f1": 0.9939125622578859,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9922651933701657,
+      "eval_unc_insert_err_recall": 0.9955654101995566,
+      "eval_weighted_avg_f1": 0.9925638618970269,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9927779303976348,
+      "eval_weighted_avg_recall": 0.9923796328368548,
+      "step": 12650
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 5.185185185185185e-06,
+      "loss": 0.005,
+      "step": 13225
+    },
+    {
+      "epoch": 23.0,
+      "eval_5_err_f1": 0.9375,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.8823529411764706,
+      "eval___f1": 0.9914409425032725,
+      "eval___number": 9934,
+      "eval___precision": 0.99174053182917,
+      "eval___recall": 0.9911415341252265,
+      "eval__err_f1": 0.9791666666666666,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9690721649484536,
+      "eval__err_recall": 0.9894736842105263,
+      "eval_egin_err_f1": 0.9924745462594068,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9894086496028244,
+      "eval_egin_err_recall": 0.9955595026642984,
+      "eval_el_err_f1": 0.9945828819068254,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9913606911447084,
+      "eval_el_err_recall": 0.9978260869565218,
+      "eval_loss": 0.0018450135830789804,
+      "eval_macro_avg_f1": 0.9846004015975137,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9903043479501087,
+      "eval_macro_avg_recall": 0.9798487500093644,
+      "eval_micro_avg_f1": 0.9931357051601308,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9933723196881091,
+      "eval_micro_avg_recall": 0.9928992033252512,
+      "eval_nd_err_f1": 0.9907485281749369,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9899159663865547,
+      "eval_nd_err_recall": 0.9915824915824916,
+      "eval_ne_word_err_f1": 0.9958702781489128,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9975666139433021,
+      "eval_ne_word_err_recall": 0.9941797017097126,
+      "eval_overall_accuracy": 0.9993601744117159,
+      "eval_runtime": 11.5685,
+      "eval_samples_per_second": 1589.49,
+      "eval_steps_per_second": 99.408,
+      "eval_unc_insert_err_f1": 0.9950193691200886,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9933701657458563,
+      "eval_unc_insert_err_recall": 0.9966740576496674,
+      "eval_weighted_avg_f1": 0.9931339385720146,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9933867261081645,
+      "eval_weighted_avg_recall": 0.9928992033252512,
+      "step": 13225
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.0044,
+      "step": 13800
+    },
+    {
+      "epoch": 24.0,
+      "eval_5_err_f1": 0.9538461538461539,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9117647058823529,
+      "eval___f1": 0.9912947214814068,
+      "eval___number": 9934,
+      "eval___precision": 0.9910453767984707,
+      "eval___recall": 0.991544191664989,
+      "eval__err_f1": 0.9807355516637477,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9790209790209791,
+      "eval__err_recall": 0.9824561403508771,
+      "eval_egin_err_f1": 0.9924745462594068,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9894086496028244,
+      "eval_egin_err_recall": 0.9955595026642984,
+      "eval_el_err_f1": 0.9953051643192489,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9920806335493161,
+      "eval_el_err_recall": 0.9985507246376811,
+      "eval_loss": 0.0016574990004301071,
+      "eval_macro_avg_f1": 0.9870548052559327,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9915974009252017,
+      "eval_macro_avg_recall": 0.9830275235917065,
+      "eval_micro_avg_f1": 0.9931834411720154,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9927752541639628,
+      "eval_micro_avg_recall": 0.9935919639764461,
+      "eval_nd_err_f1": 0.9920134510298445,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9907640638119227,
+      "eval_nd_err_recall": 0.9932659932659933,
+      "eval_ne_word_err_f1": 0.9957550030321406,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9959966031784544,
+      "eval_ne_word_err_recall": 0.9955135200679035,
+      "eval_overall_accuracy": 0.9993720230337212,
+      "eval_runtime": 11.5823,
+      "eval_samples_per_second": 1587.59,
+      "eval_steps_per_second": 99.289,
+      "eval_unc_insert_err_f1": 0.9950138504155125,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9944629014396457,
+      "eval_unc_insert_err_recall": 0.9955654101995566,
+      "eval_weighted_avg_f1": 0.9931813133618028,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9927791997405465,
+      "eval_weighted_avg_recall": 0.9935919639764461,
+      "step": 13800
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0042,
+      "step": 14375
+    },
+    {
+      "epoch": 25.0,
+      "eval_5_err_f1": 0.9538461538461539,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9117647058823529,
+      "eval___f1": 0.9912404349577124,
+      "eval___number": 9934,
+      "eval___precision": 0.9914400805639476,
+      "eval___recall": 0.9910408697402859,
+      "eval__err_f1": 0.9792387543252596,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9658703071672355,
+      "eval__err_recall": 0.9929824561403509,
+      "eval_egin_err_f1": 0.9920141969831411,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9911347517730497,
+      "eval_egin_err_recall": 0.9928952042628775,
+      "eval_el_err_f1": 0.9956521739130435,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9956521739130435,
+      "eval_el_err_recall": 0.9956521739130435,
+      "eval_loss": 0.0016160767991095781,
+      "eval_macro_avg_f1": 0.9869810337461777,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9912198213891408,
+      "eval_macro_avg_recall": 0.9832988188396197,
+      "eval_micro_avg_f1": 0.9932217337635619,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.993544473809627,
+      "eval_micro_avg_recall": 0.9928992033252512,
+      "eval_nd_err_f1": 0.9924178601516429,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9932546374367622,
+      "eval_nd_err_recall": 0.9915824915824916,
+      "eval_ne_word_err_f1": 0.9958732855929119,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9968412100595311,
+      "eval_ne_word_err_recall": 0.9949072389959985,
+      "eval_overall_accuracy": 0.9993720230337212,
+      "eval_runtime": 11.6443,
+      "eval_samples_per_second": 1579.141,
+      "eval_steps_per_second": 98.761,
+      "eval_unc_insert_err_f1": 0.9955654101995566,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9955654101995566,
+      "eval_unc_insert_err_recall": 0.9955654101995566,
+      "eval_weighted_avg_f1": 0.9932223625316633,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.993557001082317,
+      "eval_weighted_avg_recall": 0.9928992033252512,
+      "step": 14375
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 2.962962962962963e-06,
+      "loss": 0.0037,
+      "step": 14950
+    },
+    {
+      "epoch": 26.0,
+      "eval_5_err_f1": 0.9696969696969697,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9411764705882353,
+      "eval___f1": 0.9912990997334405,
+      "eval___number": 9934,
+      "eval___precision": 0.9905518142526887,
+      "eval___recall": 0.992047513589692,
+      "eval__err_f1": 0.9808695652173912,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9724137931034482,
+      "eval__err_recall": 0.9894736842105263,
+      "eval_egin_err_f1": 0.9924678777137793,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9902740937223696,
+      "eval_egin_err_recall": 0.9946714031971581,
+      "eval_el_err_f1": 0.9956616052060738,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9935064935064936,
+      "eval_el_err_recall": 0.9978260869565218,
+      "eval_loss": 0.0014384619425982237,
+      "eval_macro_avg_f1": 0.9891194437273718,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9911404335392073,
+      "eval_macro_avg_recall": 0.9873442677814935,
+      "eval_micro_avg_f1": 0.9932499675479209,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.992605725157831,
+      "eval_micro_avg_recall": 0.993895046761344,
+      "eval_nd_err_f1": 0.9915682967959528,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9932432432432432,
+      "eval_nd_err_recall": 0.98989898989899,
+      "eval_ne_word_err_f1": 0.9958169142164293,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9957565470417071,
+      "eval_ne_word_err_recall": 0.9958772887110464,
+      "eval_overall_accuracy": 0.9993779473447238,
+      "eval_runtime": 11.6017,
+      "eval_samples_per_second": 1584.944,
+      "eval_steps_per_second": 99.124,
+      "eval_unc_insert_err_f1": 0.995575221238938,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9933774834437086,
+      "eval_unc_insert_err_recall": 0.9977827050997783,
+      "eval_weighted_avg_f1": 0.9932502902231016,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9926121818013163,
+      "eval_weighted_avg_recall": 0.993895046761344,
+      "step": 14950
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.0034,
+      "step": 15525
+    },
+    {
+      "epoch": 27.0,
+      "eval_5_err_f1": 0.9696969696969697,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9411764705882353,
+      "eval___f1": 0.9911379657603223,
+      "eval___number": 9934,
+      "eval___precision": 0.9915373765867419,
+      "eval___recall": 0.9907388765854641,
+      "eval__err_f1": 0.9808695652173912,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9724137931034482,
+      "eval__err_recall": 0.9894736842105263,
+      "eval_egin_err_f1": 0.9924611973392462,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9911426040744021,
+      "eval_egin_err_recall": 0.9937833037300178,
+      "eval_el_err_f1": 0.9956521739130435,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9956521739130435,
+      "eval_el_err_recall": 0.9956521739130435,
+      "eval_loss": 0.0014439761871472,
+      "eval_macro_avg_f1": 0.9890904534081543,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9916594889334467,
+      "eval_macro_avg_recall": 0.9867636941837281,
+      "eval_micro_avg_f1": 0.9931572109138155,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.993415352625195,
+      "eval_micro_avg_recall": 0.9928992033252512,
+      "eval_nd_err_f1": 0.9915824915824916,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9915824915824916,
+      "eval_nd_err_recall": 0.9915824915824916,
+      "eval_ne_word_err_f1": 0.9957529426040529,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9964784456587735,
+      "eval_ne_word_err_recall": 0.9950284952103795,
+      "eval_overall_accuracy": 0.9993720230337212,
+      "eval_runtime": 11.6586,
+      "eval_samples_per_second": 1577.202,
+      "eval_steps_per_second": 98.639,
+      "eval_unc_insert_err_f1": 0.9955703211517165,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9944690265486725,
+      "eval_unc_insert_err_recall": 0.9966740576496674,
+      "eval_weighted_avg_f1": 0.9931577905463351,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9934216143717426,
+      "eval_weighted_avg_recall": 0.9928992033252512,
+      "step": 15525
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 1.4814814814814815e-06,
+      "loss": 0.0034,
+      "step": 16100
+    },
+    {
+      "epoch": 28.0,
+      "eval_5_err_f1": 0.9696969696969697,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9411764705882353,
+      "eval___f1": 0.9912947214814068,
+      "eval___number": 9934,
+      "eval___precision": 0.9910453767984707,
+      "eval___recall": 0.991544191664989,
+      "eval__err_f1": 0.9808695652173912,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9724137931034482,
+      "eval__err_recall": 0.9894736842105263,
+      "eval_egin_err_f1": 0.9924678777137793,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9902740937223696,
+      "eval_egin_err_recall": 0.9946714031971581,
+      "eval_el_err_f1": 0.9956584659913169,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9942196531791907,
+      "eval_el_err_recall": 0.9971014492753624,
+      "eval_loss": 0.0013684964505955577,
+      "eval_macro_avg_f1": 0.9892169526969239,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9914005103836372,
+      "eval_macro_avg_recall": 0.9872769063043677,
+      "eval_micro_avg_f1": 0.9932685439709097,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9930750919714347,
+      "eval_micro_avg_recall": 0.993462071354347,
+      "eval_nd_err_f1": 0.9924242424242424,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9924242424242424,
+      "eval_nd_err_recall": 0.9924242424242424,
+      "eval_ne_word_err_f1": 0.9957534578985683,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9963578972927036,
+      "eval_ne_word_err_recall": 0.9951497514247605,
+      "eval_overall_accuracy": 0.9993838716557264,
+      "eval_runtime": 11.7106,
+      "eval_samples_per_second": 1570.205,
+      "eval_steps_per_second": 98.202,
+      "eval_unc_insert_err_f1": 0.9955703211517165,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9944690265486725,
+      "eval_unc_insert_err_recall": 0.9966740576496674,
+      "eval_weighted_avg_f1": 0.9932693971508063,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9930823127809575,
+      "eval_weighted_avg_recall": 0.993462071354347,
+      "step": 16100
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 7.407407407407407e-07,
+      "loss": 0.0032,
+      "step": 16675
+    },
+    {
+      "epoch": 29.0,
+      "eval_5_err_f1": 0.9850746268656716,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9705882352941176,
+      "eval___f1": 0.9913936282651367,
+      "eval___number": 9934,
+      "eval___precision": 0.991343734272773,
+      "eval___recall": 0.9914435272800484,
+      "eval__err_f1": 0.9808027923211169,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9756944444444444,
+      "eval__err_recall": 0.9859649122807017,
+      "eval_egin_err_f1": 0.9933598937583,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9902912621359223,
+      "eval_egin_err_recall": 0.9964476021314387,
+      "eval_el_err_f1": 0.9956584659913169,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9942196531791907,
+      "eval_el_err_recall": 0.9971014492753624,
+      "eval_loss": 0.0013222108827903867,
+      "eval_macro_avg_f1": 0.9913746293199734,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.9923187118435777,
+      "eval_macro_avg_recall": 0.9904955794603574,
+      "eval_micro_avg_f1": 0.9934190587522189,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.993376049874448,
+      "eval_micro_avg_recall": 0.993462071354347,
+      "eval_nd_err_f1": 0.9928360724820903,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9940928270042194,
+      "eval_nd_err_recall": 0.9915824915824916,
+      "eval_ne_word_err_f1": 0.9957539730680578,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9962374074523607,
+      "eval_ne_word_err_recall": 0.9952710076391416,
+      "eval_overall_accuracy": 0.9993957202777317,
+      "eval_runtime": 11.6052,
+      "eval_samples_per_second": 1584.462,
+      "eval_steps_per_second": 99.094,
+      "eval_unc_insert_err_f1": 0.9961175818080976,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9966703662597114,
+      "eval_unc_insert_err_recall": 0.9955654101995566,
+      "eval_weighted_avg_f1": 0.9934199813189548,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9933807370796509,
+      "eval_weighted_avg_recall": 0.993462071354347,
+      "step": 16675
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 0.0,
+      "loss": 0.003,
+      "step": 17250
+    },
+    {
+      "epoch": 30.0,
+      "eval_5_err_f1": 0.9850746268656716,
+      "eval_5_err_number": 34,
+      "eval_5_err_precision": 1.0,
+      "eval_5_err_recall": 0.9705882352941176,
+      "eval___f1": 0.9912903388209234,
+      "eval___number": 9934,
+      "eval___precision": 0.9915399335280491,
+      "eval___recall": 0.9910408697402859,
+      "eval__err_f1": 0.9808695652173912,
+      "eval__err_number": 285,
+      "eval__err_precision": 0.9724137931034482,
+      "eval__err_recall": 0.9894736842105263,
+      "eval_egin_err_f1": 0.9933598937583,
+      "eval_egin_err_number": 1126,
+      "eval_egin_err_precision": 0.9902912621359223,
+      "eval_egin_err_recall": 0.9964476021314387,
+      "eval_el_err_f1": 0.9956584659913169,
+      "eval_el_err_number": 1380,
+      "eval_el_err_precision": 0.9942196531791907,
+      "eval_el_err_recall": 0.9971014492753624,
+      "eval_loss": 0.0013192046899348497,
+      "eval_macro_avg_f1": 0.9912800394235617,
+      "eval_macro_avg_number": 23096,
+      "eval_macro_avg_precision": 0.991795835558829,
+      "eval_macro_avg_recall": 0.990841420701172,
+      "eval_micro_avg_f1": 0.993373754872239,
+      "eval_micro_avg_number": 23096,
+      "eval_micro_avg_precision": 0.9936319528677872,
+      "eval_micro_avg_recall": 0.9931156910287495,
+      "eval_nd_err_f1": 0.9919932574799832,
+      "eval_nd_err_number": 1188,
+      "eval_nd_err_precision": 0.9932489451476794,
+      "eval_nd_err_recall": 0.9907407407407407,
+      "eval_ne_word_err_f1": 0.9958722835983974,
+      "eval_ne_word_err_number": 8247,
+      "eval_ne_word_err_precision": 0.9970827762246263,
+      "eval_ne_word_err_recall": 0.9946647265672366,
+      "eval_overall_accuracy": 0.9993957202777317,
+      "eval_runtime": 11.623,
+      "eval_samples_per_second": 1582.033,
+      "eval_steps_per_second": 98.942,
+      "eval_unc_insert_err_f1": 0.9961218836565098,
+      "eval_unc_insert_err_number": 902,
+      "eval_unc_insert_err_precision": 0.9955703211517165,
+      "eval_unc_insert_err_recall": 0.9966740576496674,
+      "eval_weighted_avg_f1": 0.993375440096453,
+      "eval_weighted_avg_number": 23096,
+      "eval_weighted_avg_precision": 0.9936401344515604,
+      "eval_weighted_avg_recall": 0.9931156910287495,
+      "step": 17250
+    },
+    {
+      "epoch": 30.0,
+      "step": 17250,
+      "total_flos": 7911429330344064.0,
+      "train_loss": 0.06519987745561462,
+      "train_runtime": 1743.5904,
+      "train_samples_per_second": 316.382,
+      "train_steps_per_second": 9.893
+    }
+  ],
+  "max_steps": 17250,
+  "num_train_epochs": 30,
+  "total_flos": 7911429330344064.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12bde5271ad8217a9a362972db9ad2e96ed8d1769894d3a041c4e9d7e28af643
 size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4c6b5e11b5bd25aac69af9ca386e301fbfbec9996b7dd5cb1ba740476d0951a
 size 3387