The following values were not passed to `accelerate launch` and had defaults used instead:
	`--num_processes` was set to a value of `4`
		More than one GPU was found, enabling multi-GPU training.
		If this was unintended please pass in `--num_processes=1`.
	`--num_machines` was set to a value of `1`
	`--mixed_precision` was set to a value of `'no'`
	`--dynamo_backend` was set to a value of `'no'`
To avoid this warning pass in values for each of the problematic parameters or run `accelerate config`.
gradient_accumulation_steps:  4
gradient_accumulation_steps:  4
gradient_accumulation_steps:  4
Params using prompt template alpaca:
base_model: baichuan-inc/Baichuan2-7B-Base
data_path: ../../data/belle_dolphine/p11.jsonl
output_dir: ../out/lora/p11
batch_size: 32
micro_batch_size: 2
num_epochs: 1
learning_rate: 0.0004
cutoff_len: 4096
val_set_size: 0
lr_scheduler: cosine
warmup_steps: 100
lora_r: 16
lora_alpha: 16
lora_dropout: 0.05
lora_target_modules: ['gate_proj', 'down_proj', 'up_proj']
train_on_inputs: False
add_eos_token: False
group_by_length: False
wandb_project: lora-moe
wandb_run_name: belle_dolphine-p11
wandb_watch: 
wandb_log_model: 
resume_from_checkpoint: False

gradient_accumulation_steps:  4
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:13<00:13, 13.61s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:13<00:13, 13.66s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:15<00:15, 15.33s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:15<00:15, 15.57s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:19<00:00,  9.12s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:19<00:00,  9.80s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:19<00:00,  9.22s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:19<00:00,  9.88s/it]
pre-trained model's BOS EOS and PAD token id: 1 2 0  => It should be 1 2 None
Loading checkpoint shards: 100%|██████████| 2/2 [00:20<00:00,  9.49s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:20<00:00, 10.36s/it]
pre-trained model's BOS EOS and PAD token id: 1 2 0  => It should be 1 2 None
pre-trained model's BOS EOS and PAD token id: 1 2 0  => It should be 1 2 None
Loading checkpoint shards: 100%|██████████| 2/2 [00:21<00:00, 10.00s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:21<00:00, 10.84s/it]
trainable params: 23,199,744 || all params: 7,529,172,992 || trainable%: 0.30813137146205183
trainable params: 23,199,744 || all params: 7,529,172,992 || trainable%: 0.30813137146205183
Map:   0%|          | 0/67764 [00:00<?, ? examples/s]Map:   0%|          | 0/67764 [00:00<?, ? examples/s]Map:   0%|          | 97/67764 [00:00<01:10, 963.73 examples/s]Map:   0%|          | 106/67764 [00:00<01:04, 1047.98 examples/s]Map:   0%|          | 204/67764 [00:00<01:06, 1019.19 examples/s]Map:   0%|          | 217/67764 [00:00<01:03, 1068.74 examples/s]Map:   0%|          | 316/67764 [00:00<01:03, 1059.96 examples/s]Map:   0%|          | 325/67764 [00:00<01:03, 1069.08 examples/s]pre-trained model's BOS EOS and PAD token id: 1 2 0  => It should be 1 2 None
Map:   1%|          | 422/67764 [00:00<01:03, 1056.59 examples/s]Map:   1%|          | 440/67764 [00:00<01:01, 1097.70 examples/s]Map:   1%|          | 535/67764 [00:00<01:02, 1078.32 examples/s]Map:   1%|          | 556/67764 [00:00<01:00, 1118.47 examples/s]trainable params: 23,199,744 || all params: 7,529,172,992 || trainable%: 0.30813137146205183
Map:   1%|          | 647/67764 [00:00<01:01, 1089.71 examples/s]Map:   1%|          | 675/67764 [00:00<00:58, 1137.23 examples/s]Map:   0%|          | 0/67764 [00:00<?, ? examples/s]Map:   1%|          | 791/67764 [00:00<01:04, 1032.83 examples/s]Map:   1%|          | 839/67764 [00:00<01:00, 1113.55 examples/s]Map:   0%|          | 94/67764 [00:00<01:12, 930.51 examples/s]Map:   1%|▏         | 897/67764 [00:00<01:04, 1035.65 examples/s]Map:   0%|          | 203/67764 [00:00<01:06, 1016.71 examples/s]Map:   1%|▏         | 995/67764 [00:00<01:01, 1082.44 examples/s]Map:   0%|          | 310/67764 [00:00<01:05, 1032.87 examples/s]Map:   2%|▏         | 1045/67764 [00:01<01:15, 883.06 examples/s]Map:   2%|▏         | 1113/67764 [00:01<01:10, 940.86 examples/s]Map:   1%|          | 415/67764 [00:00<01:05, 1031.30 examples/s]Map:   2%|▏         | 1155/67764 [00:01<01:11, 931.45 examples/s]Map:   2%|▏         | 1223/67764 [00:01<01:08, 976.47 examples/s]Map:   1%|          | 520/67764 [00:00<01:05, 1033.66 examples/s]Map:   2%|▏         | 1269/67764 [00:01<01:07, 980.34 examples/s]Map:   2%|▏         | 1346/67764 [00:01<01:04, 1037.59 examples/s]Map:   1%|          | 676/67764 [00:00<01:05, 1029.71 examples/s]Map:   2%|▏         | 1380/67764 [00:01<01:05, 1010.99 examples/s]Map:   2%|▏         | 1465/67764 [00:01<01:01, 1074.93 examples/s]Map:   1%|          | 782/67764 [00:00<01:04, 1035.91 examples/s]Map:   2%|▏         | 1489/67764 [00:01<01:04, 1030.86 examples/s]Map:   2%|▏         | 1582/67764 [00:01<01:00, 1095.31 examples/s]Map:   1%|▏         | 888/67764 [00:00<01:04, 1039.14 examples/s]Map:   2%|▏         | 1599/67764 [00:01<01:03, 1047.25 examples/s]Map:   3%|▎         | 1742/67764 [00:01<01:01, 1081.04 examples/s]Map:   1%|▏         | 999/67764 [00:00<01:03, 1055.40 examples/s]Map:   3%|▎         | 1752/67764 [00:01<01:03, 1033.84 examples/s]Map:   3%|▎         | 1862/67764 [00:01<00:59, 1108.64 examples/s]trainable params: 23,199,744 || all params: 7,529,172,992 || trainable%: 0.30813137146205183
Map:   2%|▏         | 1111/67764 [00:01<01:14, 894.16 examples/s]Map:   0%|          | 0/67764 [00:00<?, ? examples/s]Map:   3%|▎         | 1976/67764 [00:01<00:59, 1114.30 examples/s]Map:   3%|▎         | 1913/67764 [00:01<01:02, 1047.23 examples/s]Map:   2%|▏         | 1222/67764 [00:01<01:10, 947.06 examples/s]Map:   0%|          | 106/67764 [00:00<01:04, 1049.60 examples/s]Map:   3%|▎         | 2105/67764 [00:02<01:08, 953.12 examples/s] Map:   2%|▏         | 1332/67764 [00:01<01:07, 983.63 examples/s]Map:   0%|          | 216/67764 [00:00<01:03, 1070.26 examples/s]Map:   3%|▎         | 2053/67764 [00:02<01:10, 929.11 examples/s] Map:   3%|▎         | 2219/67764 [00:02<01:05, 996.78 examples/s]Map:   2%|▏         | 1446/67764 [00:01<01:04, 1024.11 examples/s]Map:   0%|          | 327/67764 [00:00<01:02, 1079.31 examples/s]Map:   3%|▎         | 2153/67764 [00:02<01:09, 943.60 examples/s]Map:   3%|▎         | 2331/67764 [00:02<01:03, 1026.36 examples/s]Map:   2%|▏         | 1559/67764 [00:01<01:03, 1048.49 examples/s]Map:   1%|          | 439/67764 [00:00<01:01, 1092.40 examples/s]Map:   3%|▎         | 2258/67764 [00:02<01:07, 966.70 examples/s]Map:   4%|▎         | 2443/67764 [00:02<01:02, 1049.48 examples/s]Map:   2%|▏         | 1671/67764 [00:01<01:02, 1064.07 examples/s]Map:   1%|          | 551/67764 [00:00<01:01, 1096.47 examples/s]Map:   3%|▎         | 2368/67764 [00:02<01:05, 995.45 examples/s]Map:   4%|▍         | 2553/67764 [00:02<01:01, 1060.21 examples/s]Map:   1%|          | 661/67764 [00:00<01:01, 1094.39 examples/s]Map:   4%|▎         | 2470/67764 [00:02<01:05, 999.10 examples/s]Map:   3%|▎         | 1831/67764 [00:01<01:02, 1059.56 examples/s]Map:   4%|▍         | 2664/67764 [00:02<01:00, 1070.34 examples/s]Map:   1%|          | 774/67764 [00:00<01:00, 1102.90 examples/s]Map:   4%|▍         | 2579/67764 [00:02<01:03, 1022.62 examples/s]Map:   3%|▎         | 1941/67764 [00:01<01:01, 1066.03 examples/s]Map:   4%|▍         | 2776/67764 [00:02<00:59, 1083.23 examples/s]Map:   1%|▏         | 893/67764 [00:00<00:59, 1126.56 examples/s]Map:   4%|▍         | 2690/67764 [00:02<01:02, 1044.70 examples/s]Map:   3%|▎         | 2058/67764 [00:02<01:11, 923.92 examples/s] Map:   4%|▍         | 2944/67764 [00:02<00:59, 1094.02 examples/s]Map:   2%|▏         | 1058/67764 [00:01<01:08, 976.53 examples/s]Map:   3%|▎         | 2172/67764 [00:02<01:07, 975.98 examples/s]Map:   4%|▍         | 2831/67764 [00:02<01:13, 885.00 examples/s] Map:   5%|▍         | 3054/67764 [00:02<01:08, 940.72 examples/s] Map:   2%|▏         | 1164/67764 [00:01<01:07, 992.80 examples/s]Map:   3%|▎         | 2285/67764 [00:02<01:04, 1013.16 examples/s]Map:   4%|▍         | 2939/67764 [00:02<01:09, 929.56 examples/s]Map:   5%|▍         | 3174/67764 [00:03<01:04, 1002.83 examples/s]Map:   2%|▏         | 1279/67764 [00:01<01:04, 1032.07 examples/s]Map:   4%|▎         | 2392/67764 [00:02<01:03, 1025.60 examples/s]Map:   5%|▍         | 3291/67764 [00:03<01:01, 1043.70 examples/s]Map:   5%|▍         | 3055/67764 [00:03<01:17, 838.50 examples/s]Map:   4%|▎         | 2507/67764 [00:02<01:01, 1059.82 examples/s]Map:   2%|▏         | 1440/67764 [00:01<01:03, 1043.58 examples/s]Map:   5%|▌         | 3409/67764 [00:03<00:59, 1077.79 examples/s]Map:   5%|▍         | 3168/67764 [00:03<01:11, 905.46 examples/s]Map:   4%|▍         | 2616/67764 [00:02<01:01, 1065.83 examples/s]Map:   2%|▏         | 1556/67764 [00:01<01:01, 1070.36 examples/s]Map:   5%|▌         | 3522/67764 [00:03<00:58, 1090.71 examples/s]Map:   5%|▍         | 3277/67764 [00:03<01:07, 949.86 examples/s]Map:   4%|▍         | 2725/67764 [00:02<01:00, 1068.80 examples/s]Map:   2%|▏         | 1679/67764 [00:01<00:59, 1109.51 examples/s]Map:   5%|▍         | 3384/67764 [00:03<01:05, 978.12 examples/s]Map:   4%|▍         | 2840/67764 [00:02<00:59, 1085.68 examples/s]Map:   5%|▌         | 3690/67764 [00:03<00:58, 1095.31 examples/s]Map:   5%|▌         | 3494/67764 [00:03<01:03, 1007.47 examples/s]Map:   3%|▎         | 1850/67764 [00:01<00:58, 1118.34 examples/s]Map:   4%|▍         | 2951/67764 [00:02<00:59, 1089.82 examples/s]Map:   6%|▌         | 3853/67764 [00:03<00:58, 1087.77 examples/s]Map:   5%|▌         | 3602/67764 [00:03<01:02, 1024.40 examples/s]Map:   6%|▌         | 3968/67764 [00:03<00:57, 1100.51 examples/s]Map:   3%|▎         | 2000/67764 [00:01<01:07, 972.77 examples/s] Map:   5%|▌         | 3712/67764 [00:03<01:01, 1044.10 examples/s]Map:   5%|▍         | 3111/67764 [00:03<01:09, 936.39 examples/s] Map:   3%|▎         | 2111/67764 [00:02<01:05, 1001.77 examples/s]Map:   6%|▌         | 3822/67764 [00:03<01:00, 1056.53 examples/s]Map:   5%|▍         | 3217/67764 [00:03<01:06, 964.30 examples/s]Map:   6%|▌         | 4113/67764 [00:03<01:05, 970.38 examples/s] Map:   3%|▎         | 2230/67764 [00:02<01:02, 1046.40 examples/s]Map:   6%|▌         | 3930/67764 [00:03<01:00, 1060.04 examples/s]Map:   5%|▍         | 3331/67764 [00:03<01:03, 1006.84 examples/s]Map:   6%|▌         | 4225/67764 [00:04<01:03, 1001.45 examples/s]Map:   3%|▎         | 2346/67764 [00:02<01:00, 1073.37 examples/s]Map:   5%|▌         | 3443/67764 [00:03<01:02, 1031.53 examples/s]Map:   6%|▌         | 4054/67764 [00:04<01:09, 913.80 examples/s] Map:   6%|▋         | 4342/67764 [00:04<01:00, 1041.20 examples/s]Map:   4%|▎         | 2466/67764 [00:02<00:58, 1107.01 examples/s]Map:   5%|▌         | 3562/67764 [00:03<00:59, 1072.24 examples/s]Map:   6%|▌         | 4163/67764 [00:04<01:06, 954.77 examples/s]Map:   7%|▋         | 4451/67764 [00:04<01:00, 1053.25 examples/s]Map:   4%|▍         | 2585/67764 [00:02<00:57, 1128.23 examples/s]Map:   5%|▌         | 3727/67764 [00:03<00:59, 1078.63 examples/s]Map:   6%|▋         | 4270/67764 [00:04<01:04, 982.50 examples/s]Map:   7%|▋         | 4568/67764 [00:04<00:58, 1081.89 examples/s]Map:   4%|▍         | 2701/67764 [00:02<00:57, 1131.38 examples/s]Map:   6%|▌         | 3848/67764 [00:03<00:57, 1108.16 examples/s]Map:   6%|▋         | 4383/67764 [00:04<01:02, 1020.94 examples/s]Map:   4%|▍         | 2822/67764 [00:02<00:56, 1148.00 examples/s]Map:   7%|▋         | 4734/67764 [00:04<00:58, 1083.79 examples/s]Map:   6%|▌         | 3961/67764 [00:03<00:57, 1110.62 examples/s]Map:   7%|▋         | 4497/67764 [00:04<01:00, 1049.12 examples/s]Map:   7%|▋         | 4848/67764 [00:04<00:57, 1095.15 examples/s]Map:   4%|▍         | 2994/67764 [00:02<00:56, 1141.02 examples/s]Map:   7%|▋         | 4608/67764 [00:04<00:59, 1063.11 examples/s]Map:   7%|▋         | 4966/67764 [00:04<00:56, 1112.09 examples/s]Map:   6%|▌         | 4105/67764 [00:04<01:07, 938.24 examples/s] Map:   7%|▋         | 4716/67764 [00:04<00:59, 1066.59 examples/s]Map:   5%|▍         | 3117/67764 [00:02<01:05, 993.23 examples/s] Map:   6%|▌         | 4224/67764 [00:04<01:03, 995.52 examples/s]Map:   7%|▋         | 4864/67764 [00:04<01:00, 1032.07 examples/s]Map:   8%|▊         | 5107/67764 [00:04<01:06, 937.03 examples/s] Map:   5%|▍         | 3272/67764 [00:03<01:04, 1002.09 examples/s]Map:   6%|▋         | 4335/67764 [00:04<01:02, 1021.15 examples/s]Map:   7%|▋         | 4972/67764 [00:04<01:00, 1041.98 examples/s]Map:   8%|▊         | 5221/67764 [00:04<01:03, 983.61 examples/s]Map:   5%|▍         | 3388/67764 [00:03<01:01, 1038.40 examples/s]Map:   7%|▋         | 4449/67764 [00:04<01:00, 1050.84 examples/s]Map:   8%|▊         | 5341/67764 [00:05<01:00, 1036.08 examples/s]Map:   5%|▌         | 3502/67764 [00:03<01:00, 1062.26 examples/s]Map:   7%|▋         | 4565/67764 [00:04<00:58, 1078.56 examples/s]Map:   8%|▊         | 5110/67764 [00:05<01:08, 921.14 examples/s] Map:   8%|▊         | 5458/67764 [00:05<00:58, 1070.75 examples/s]Map:   5%|▌         | 3613/67764 [00:03<00:59, 1073.06 examples/s]Map:   8%|▊         | 5219/67764 [00:05<01:05, 955.68 examples/s]Map:   7%|▋         | 4728/67764 [00:04<00:58, 1076.62 examples/s]Map:   5%|▌         | 3725/67764 [00:03<00:59, 1083.89 examples/s]Map:   8%|▊         | 5622/67764 [00:05<00:57, 1075.69 examples/s]Map:   8%|▊         | 5332/67764 [00:05<01:02, 997.11 examples/s]Map:   7%|▋         | 4845/67764 [00:04<00:57, 1095.51 examples/s]Map:   6%|▌         | 3842/67764 [00:03<00:57, 1106.83 examples/s]Map:   8%|▊         | 5440/67764 [00:05<01:01, 1016.39 examples/s]Map:   7%|▋         | 4957/67764 [00:04<00:57, 1099.08 examples/s]Map:   9%|▊         | 5783/67764 [00:05<00:57, 1070.69 examples/s]Map:   6%|▌         | 3960/67764 [00:03<00:56, 1125.20 examples/s]Map:   8%|▊         | 5546/67764 [00:05<01:00, 1024.25 examples/s]Map:   9%|▊         | 5892/67764 [00:05<00:57, 1073.79 examples/s]Map:   8%|▊         | 5657/67764 [00:05<00:59, 1045.56 examples/s]Map:   8%|▊         | 5108/67764 [00:04<01:06, 948.11 examples/s] Map:   6%|▌         | 4113/67764 [00:03<01:05, 973.11 examples/s] Map:   9%|▊         | 5768/67764 [00:05<00:58, 1059.45 examples/s]Map:   8%|▊         | 5219/67764 [00:05<01:03, 983.78 examples/s]Map:   9%|▉         | 6055/67764 [00:05<01:05, 944.28 examples/s] Map:   6%|▌         | 4223/67764 [00:03<01:03, 1000.84 examples/s]Map:   9%|▊         | 5878/67764 [00:05<00:58, 1065.71 examples/s]Map:   8%|▊         | 5331/67764 [00:05<01:01, 1015.49 examples/s]Map:   9%|▉         | 6166/67764 [00:05<01:02, 979.91 examples/s]Map:   6%|▋         | 4330/67764 [00:04<01:02, 1015.63 examples/s]Map:   9%|▉         | 5987/67764 [00:05<00:57, 1071.69 examples/s]Map:   8%|▊         | 5452/67764 [00:05<00:58, 1061.51 examples/s]Map:   9%|▉         | 6282/67764 [00:06<01:00, 1019.92 examples/s]Map:   7%|▋         | 4441/67764 [00:04<01:00, 1039.78 examples/s]Map:   8%|▊         | 5565/67764 [00:05<00:57, 1077.29 examples/s]Map:  10%|▉         | 6445/67764 [00:06<00:58, 1039.80 examples/s]Map:   9%|▉         | 6113/67764 [00:06<01:06, 920.38 examples/s] Map:   7%|▋         | 4603/67764 [00:04<01:00, 1049.30 examples/s]Map:   8%|▊         | 5677/67764 [00:05<00:57, 1086.61 examples/s]Map:  10%|▉         | 6562/67764 [00:06<00:57, 1068.61 examples/s]Map:   9%|▉         | 6228/67764 [00:06<01:03, 975.60 examples/s]Map:   7%|▋         | 4719/67764 [00:04<00:58, 1074.97 examples/s]Map:   9%|▊         | 5793/67764 [00:05<00:56, 1105.84 examples/s]Map:   9%|▉         | 6335/67764 [00:06<01:01, 998.04 examples/s]Map:   7%|▋         | 4834/67764 [00:04<00:57, 1092.02 examples/s]Map:  10%|▉         | 6718/67764 [00:06<00:57, 1053.10 examples/s]Map:   9%|▉         | 5966/67764 [00:05<00:55, 1117.53 examples/s]Map:  10%|▉         | 6446/67764 [00:06<00:59, 1027.49 examples/s]Map:  10%|█         | 6881/67764 [00:06<00:57, 1062.09 examples/s]Map:  10%|▉         | 6555/67764 [00:06<00:58, 1040.80 examples/s]Map:   7%|▋         | 5000/67764 [00:04<01:05, 959.85 examples/s] Map:   9%|▉         | 6118/67764 [00:05<01:03, 967.56 examples/s] Map:  10%|█         | 6999/67764 [00:06<00:55, 1086.89 examples/s]Map:   8%|▊         | 5118/67764 [00:04<01:02, 1010.35 examples/s]Map:  10%|▉         | 6714/67764 [00:06<00:58, 1043.47 examples/s]Map:   9%|▉         | 6231/67764 [00:06<01:01, 1003.61 examples/s]Map:   8%|▊         | 5231/67764 [00:04<01:00, 1038.39 examples/s]Map:  11%|█         | 7116/67764 [00:06<01:03, 955.69 examples/s] Map:   9%|▉         | 6353/67764 [00:06<00:58, 1054.42 examples/s]Map:  10%|█         | 6863/67764 [00:06<00:59, 1023.33 examples/s]Map:   8%|▊         | 5346/67764 [00:05<00:58, 1065.87 examples/s]Map:  11%|█         | 7225/67764 [00:06<01:01, 984.22 examples/s]Map:  10%|█         | 6968/67764 [00:06<00:59, 1028.10 examples/s]Map:  10%|▉         | 6519/67764 [00:06<00:57, 1069.34 examples/s]Map:  11%|█         | 7346/67764 [00:07<00:58, 1035.74 examples/s]Map:   8%|▊         | 5518/67764 [00:05<00:57, 1090.71 examples/s]Map:  11%|█         | 7453/67764 [00:07<00:57, 1041.87 examples/s]Map:  10%|▉         | 6682/67764 [00:06<00:57, 1070.17 examples/s]Map:  10%|█         | 7107/67764 [00:07<01:07, 897.01 examples/s] Map:   8%|▊         | 5681/67764 [00:05<00:57, 1084.55 examples/s]Map:  11%|█         | 7561/67764 [00:07<00:57, 1049.91 examples/s]Map:  10%|█         | 6794/67764 [00:06<00:56, 1080.53 examples/s]Map:  11%|█         | 7212/67764 [00:07<01:05, 929.60 examples/s]Map:   9%|▊         | 5791/67764 [00:05<00:57, 1084.83 examples/s]Map:  11%|█▏        | 7677/67764 [00:07<00:55, 1077.62 examples/s]Map:  10%|█         | 6912/67764 [00:06<00:55, 1100.80 examples/s]Map:  11%|█         | 7324/67764 [00:07<01:02, 973.17 examples/s]Map:   9%|▊         | 5906/67764 [00:05<00:56, 1098.91 examples/s]Map:  11%|█         | 7437/67764 [00:07<00:59, 1009.96 examples/s]Map:  12%|█▏        | 7839/67764 [00:07<00:55, 1076.93 examples/s]Map:  10%|█         | 7062/67764 [00:06<01:02, 977.84 examples/s] Map:  11%|█         | 7542/67764 [00:07<00:59, 1018.95 examples/s]Map:  12%|█▏        | 7952/67764 [00:07<00:55, 1085.94 examples/s]Map:   9%|▉         | 6054/67764 [00:05<01:03, 965.38 examples/s] Map:  11%|█         | 7179/67764 [00:06<00:59, 1020.02 examples/s]Map:  11%|█▏        | 7652/67764 [00:07<00:57, 1038.96 examples/s]Map:   9%|▉         | 6169/67764 [00:05<01:01, 1008.04 examples/s]Map:  11%|█         | 7288/67764 [00:07<00:58, 1035.37 examples/s]Map:  11%|█▏        | 7760/67764 [00:07<00:57, 1047.50 examples/s]Map:   9%|▉         | 6280/67764 [00:05<00:59, 1031.10 examples/s]Map:  12%|█▏        | 8101/67764 [00:07<01:05, 913.60 examples/s] Map:  11%|█         | 7398/67764 [00:07<00:57, 1050.93 examples/s]Map:  12%|█▏        | 7870/67764 [00:07<00:56, 1061.05 examples/s]Map:   9%|▉         | 6396/67764 [00:06<00:57, 1063.17 examples/s]Map:  12%|█▏        | 8209/67764 [00:07<01:02, 949.57 examples/s]Map:  11%|█         | 7514/67764 [00:07<00:56, 1074.76 examples/s]Map:  12%|█▏        | 7980/67764 [00:07<00:55, 1070.82 examples/s]Map:  10%|▉         | 6510/67764 [00:06<00:56, 1082.50 examples/s]Map:  12%|█▏        | 8326/67764 [00:08<00:59, 1000.81 examples/s]Map:  11%|█▏        | 7630/67764 [00:07<00:55, 1093.03 examples/s]Map:  10%|▉         | 6623/67764 [00:06<00:55, 1093.15 examples/s]Map:  12%|█▏        | 8431/67764 [00:08<00:58, 1011.75 examples/s]Map:  11%|█▏        | 7745/67764 [00:07<00:54, 1105.52 examples/s]Map:  12%|█▏        | 8108/67764 [00:08<01:04, 925.33 examples/s] Map:  13%|█▎        | 8546/67764 [00:08<00:56, 1046.06 examples/s]Map:  10%|█         | 6791/67764 [00:06<00:55, 1099.36 examples/s]Map:  12%|█▏        | 7866/67764 [00:07<00:52, 1130.99 examples/s]Map:  12%|█▏        | 8216/67764 [00:08<01:01, 963.01 examples/s]Map:  13%|█▎        | 8659/67764 [00:08<00:55, 1067.73 examples/s]Map:  10%|█         | 6903/67764 [00:06<00:55, 1100.70 examples/s]Map:  12%|█▏        | 8325/67764 [00:08<00:59, 994.43 examples/s]Map:  12%|█▏        | 8000/67764 [00:07<01:03, 938.23 examples/s] Map:  13%|█▎        | 8818/67764 [00:08<00:55, 1062.08 examples/s]Map:  13%|█▎        | 8476/67764 [00:08<00:59, 995.03 examples/s]Map:  12%|█▏        | 8108/67764 [00:07<01:01, 970.65 examples/s]Map:  10%|█         | 7058/67764 [00:06<01:04, 944.13 examples/s] Map:  13%|█▎        | 8585/67764 [00:08<00:58, 1018.78 examples/s]Map:  13%|█▎        | 8974/67764 [00:08<00:55, 1050.25 examples/s]Map:  12%|█▏        | 8224/67764 [00:07<00:58, 1017.46 examples/s]Map:  11%|█         | 7169/67764 [00:06<01:01, 980.57 examples/s]Map:  13%|█▎        | 8698/67764 [00:08<00:56, 1048.18 examples/s]Map:  12%|█▏        | 8332/67764 [00:08<00:57, 1031.60 examples/s]Map:  11%|█         | 7283/67764 [00:06<00:59, 1019.62 examples/s]Map:  13%|█▎        | 9102/67764 [00:08<01:04, 906.74 examples/s] Map:  13%|█▎        | 8808/67764 [00:08<00:55, 1061.34 examples/s]Map:  12%|█▏        | 8452/67764 [00:08<00:55, 1077.25 examples/s]Map:  11%|█         | 7394/67764 [00:07<00:58, 1040.38 examples/s]Map:  14%|█▎        | 9213/67764 [00:08<01:01, 951.03 examples/s]Map:  13%|█▎        | 8923/67764 [00:08<00:54, 1084.19 examples/s]Map:  13%|█▎        | 8569/67764 [00:08<00:53, 1099.09 examples/s]Map:  11%|█         | 7506/67764 [00:07<00:56, 1061.62 examples/s]Map:  14%|█▍        | 9321/67764 [00:08<00:59, 980.63 examples/s]Map:  11%|█▏        | 7625/67764 [00:07<00:54, 1093.61 examples/s]Map:  13%|█▎        | 9055/67764 [00:09<01:02, 945.71 examples/s] Map:  14%|█▍        | 9427/67764 [00:09<00:58, 1000.19 examples/s]Map:  13%|█▎        | 8740/67764 [00:08<00:53, 1108.94 examples/s]Map:  11%|█▏        | 7743/67764 [00:07<00:53, 1114.19 examples/s]Map:  14%|█▎        | 9170/67764 [00:09<00:58, 994.63 examples/s]Map:  14%|█▍        | 9534/67764 [00:09<00:57, 1018.30 examples/s]Map:  13%|█▎        | 8856/67764 [00:08<00:52, 1118.86 examples/s]Map:  12%|█▏        | 7858/67764 [00:07<00:53, 1121.61 examples/s]Map:  14%|█▎        | 9283/67764 [00:09<00:56, 1027.64 examples/s]Map:  14%|█▍        | 9655/67764 [00:09<00:54, 1067.74 examples/s]Map:  12%|█▏        | 7973/67764 [00:07<00:53, 1126.25 examples/s]Map:  14%|█▍        | 9392/67764 [00:09<00:56, 1041.58 examples/s]Map:  13%|█▎        | 9000/67764 [00:08<01:00, 966.19 examples/s] Map:  14%|█▍        | 9764/67764 [00:09<00:54, 1070.96 examples/s]Map:  13%|█▎        | 9109/67764 [00:08<00:59, 992.10 examples/s]Map:  15%|█▍        | 9874/67764 [00:09<00:53, 1076.35 examples/s]Map:  14%|█▍        | 9552/67764 [00:09<00:55, 1047.27 examples/s]Map:  12%|█▏        | 8112/67764 [00:07<01:01, 967.62 examples/s] Map:  14%|█▎        | 9221/67764 [00:08<00:57, 1022.12 examples/s]Map:  15%|█▍        | 9989/67764 [00:09<00:52, 1091.43 examples/s]Map:  14%|█▍        | 9664/67764 [00:09<00:54, 1062.28 examples/s]Map:  12%|█▏        | 8220/67764 [00:07<00:59, 993.57 examples/s]Map:  14%|█▍        | 9330/67764 [00:09<00:56, 1039.03 examples/s]Map:  15%|█▍        | 10104/67764 [00:09<01:02, 915.32 examples/s]Map:  14%|█▍        | 9814/67764 [00:09<00:55, 1035.33 examples/s]Map:  12%|█▏        | 8373/67764 [00:07<00:59, 1000.73 examples/s]Map:  14%|█▍        | 9490/67764 [00:09<00:55, 1044.81 examples/s]Map:  15%|█▌        | 10208/67764 [00:09<01:00, 944.71 examples/s]Map:  15%|█▍        | 9932/67764 [00:09<00:53, 1071.33 examples/s]Map:  13%|█▎        | 8484/67764 [00:08<00:57, 1026.73 examples/s]Map:  14%|█▍        | 9599/67764 [00:09<00:55, 1051.87 examples/s]Map:  15%|█▌        | 10308/67764 [00:09<00:59, 958.12 examples/s]Map:  13%|█▎        | 8591/67764 [00:08<00:57, 1036.25 examples/s]Map:  14%|█▍        | 9716/67764 [00:09<00:53, 1079.98 examples/s]Map:  15%|█▍        | 10052/67764 [00:10<01:01, 939.14 examples/s]Map:  15%|█▌        | 10429/67764 [00:10<00:56, 1021.67 examples/s]Map:  13%|█▎        | 8703/67764 [00:08<00:55, 1055.23 examples/s]Map:  15%|█▍        | 9832/67764 [00:09<00:52, 1096.75 examples/s]Map:  15%|█▍        | 10164/67764 [00:10<00:58, 981.66 examples/s]Map:  16%|█▌        | 10540/67764 [00:10<00:54, 1044.82 examples/s]Map:  13%|█▎        | 8822/67764 [00:08<00:54, 1090.39 examples/s]Map:  15%|█▍        | 9952/67764 [00:09<00:51, 1123.18 examples/s]Map:  15%|█▌        | 10276/67764 [00:10<00:56, 1011.70 examples/s]Map:  16%|█▌        | 10647/67764 [00:10<00:54, 1049.84 examples/s]Map:  13%|█▎        | 8990/67764 [00:08<00:53, 1096.09 examples/s]Map:  15%|█▌        | 10431/67764 [00:10<00:56, 1013.34 examples/s]Map:  16%|█▌        | 10802/67764 [00:10<00:54, 1042.30 examples/s]Map:  15%|█▍        | 10114/67764 [00:09<00:59, 966.13 examples/s]Map:  16%|█▌        | 10539/67764 [00:10<00:55, 1028.30 examples/s]Map:  13%|█▎        | 9110/67764 [00:08<01:01, 948.56 examples/s] Map:  16%|█▌        | 10917/67764 [00:10<00:53, 1067.88 examples/s]Map:  15%|█▌        | 10225/67764 [00:09<00:57, 998.59 examples/s]Map:  16%|█▌        | 10644/67764 [00:10<00:55, 1032.03 examples/s]Map:  14%|█▎        | 9230/67764 [00:08<00:58, 1007.49 examples/s]Map:  15%|█▌        | 10338/67764 [00:09<00:55, 1027.34 examples/s]Map:  16%|█▌        | 10757/67764 [00:10<00:53, 1057.54 examples/s]Map:  16%|█▋        | 11054/67764 [00:10<01:01, 922.34 examples/s] Map:  14%|█▍        | 9344/67764 [00:08<00:56, 1038.14 examples/s]Map:  15%|█▌        | 10448/67764 [00:10<00:54, 1044.45 examples/s]Map:  16%|█▌        | 10874/67764 [00:10<00:52, 1084.19 examples/s]Map:  16%|█▋        | 11161/67764 [00:10<00:59, 955.38 examples/s]Map:  14%|█▍        | 9457/67764 [00:08<00:54, 1060.48 examples/s]Map:  16%|█▌        | 10563/67764 [00:10<00:53, 1070.29 examples/s]Map:  16%|█▌        | 10984/67764 [00:10<00:52, 1084.25 examples/s]Map:  14%|█▍        | 9572/67764 [00:09<00:53, 1082.25 examples/s]Map:  17%|█▋        | 11269/67764 [00:10<00:57, 983.17 examples/s]Map:  16%|█▌        | 10717/67764 [00:10<00:54, 1053.41 examples/s]Map:  14%|█▍        | 9686/67764 [00:09<00:53, 1093.61 examples/s]Map:  17%|█▋        | 11376/67764 [00:11<00:56, 1002.37 examples/s]Map:  16%|█▋        | 11110/67764 [00:11<01:03, 899.23 examples/s] Map:  16%|█▌        | 10832/67764 [00:10<00:52, 1077.04 examples/s]Map:  14%|█▍        | 9800/67764 [00:09<00:52, 1103.70 examples/s]Map:  17%|█▋        | 11483/67764 [00:11<00:55, 1017.13 examples/s]Map:  17%|█▋        | 11218/67764 [00:11<00:59, 942.46 examples/s]Map:  16%|█▌        | 10947/67764 [00:10<00:51, 1095.80 examples/s]Map:  17%|█▋        | 11589/67764 [00:11<00:54, 1026.75 examples/s]Map:  15%|█▍        | 9962/67764 [00:09<00:52, 1092.69 examples/s]Map:  17%|█▋        | 11325/67764 [00:11<00:57, 973.58 examples/s]Map:  17%|█▋        | 11700/67764 [00:11<00:53, 1049.66 examples/s]Map:  17%|█▋        | 11441/67764 [00:11<00:55, 1022.54 examples/s]Map:  16%|█▋        | 11111/67764 [00:10<00:59, 950.69 examples/s] Map:  17%|█▋        | 11815/67764 [00:11<00:52, 1074.65 examples/s]Map:  15%|█▍        | 10105/67764 [00:09<01:00, 947.66 examples/s]Map:  17%|█▋        | 11562/67764 [00:11<00:52, 1073.25 examples/s]Map:  17%|█▋        | 11231/67764 [00:10<00:56, 1005.96 examples/s]Map:  18%|█▊        | 11929/67764 [00:11<00:51, 1090.98 examples/s]Map:  15%|█▌        | 10220/67764 [00:09<00:58, 991.18 examples/s]Map:  17%|█▋        | 11343/67764 [00:10<00:54, 1033.36 examples/s]Map:  17%|█▋        | 11723/67764 [00:11<00:52, 1071.43 examples/s]Map:  15%|█▌        | 10337/67764 [00:09<00:55, 1034.64 examples/s]Map:  18%|█▊        | 12051/67764 [00:11<01:00, 923.54 examples/s] Map:  17%|█▋        | 11456/67764 [00:11<00:53, 1056.71 examples/s]Map:  15%|█▌        | 10451/67764 [00:09<00:54, 1060.81 examples/s]Map:  18%|█▊        | 12157/67764 [00:11<00:58, 957.41 examples/s]Map:  18%|█▊        | 11886/67764 [00:11<00:51, 1075.19 examples/s]Map:  17%|█▋        | 11577/67764 [00:11<00:51, 1094.93 examples/s]Map:  16%|█▌        | 10561/67764 [00:10<00:53, 1068.54 examples/s]Map:  18%|█▊        | 12270/67764 [00:11<00:55, 998.20 examples/s]Map:  17%|█▋        | 11691/67764 [00:11<00:50, 1105.11 examples/s]Map:  18%|█▊        | 12000/67764 [00:11<00:59, 934.89 examples/s] Map:  18%|█▊        | 12377/67764 [00:12<00:54, 1015.33 examples/s]Map:  16%|█▌        | 10733/67764 [00:10<00:52, 1094.73 examples/s]Map:  18%|█▊        | 12108/67764 [00:12<00:57, 964.36 examples/s]Map:  18%|█▊        | 11859/67764 [00:11<00:50, 1108.92 examples/s]Map:  18%|█▊        | 12490/67764 [00:12<00:52, 1043.29 examples/s]Map:  16%|█▌        | 10845/67764 [00:10<00:51, 1100.22 examples/s]Map:  18%|█▊        | 12218/67764 [00:12<00:55, 992.53 examples/s]Map:  19%|█▊        | 12604/67764 [00:12<00:51, 1068.67 examples/s]Map:  18%|█▊        | 12000/67764 [00:11<00:59, 937.80 examples/s] Map:  18%|█▊        | 12372/67764 [00:12<00:55, 1001.72 examples/s]Map:  16%|█▌        | 11000/67764 [00:10<01:00, 942.59 examples/s] Map:  19%|█▉        | 12765/67764 [00:12<00:51, 1070.13 examples/s]Map:  18%|█▊        | 12109/67764 [00:11<00:57, 970.23 examples/s]Map:  18%|█▊        | 12477/67764 [00:12<00:54, 1011.20 examples/s]Map:  16%|█▋        | 11116/67764 [00:10<00:57, 990.86 examples/s]Map:  18%|█▊        | 12223/67764 [00:11<00:54, 1010.81 examples/s]Map:  19%|█▉        | 12926/67764 [00:12<00:51, 1068.65 examples/s]Map:  19%|█▊        | 12591/67764 [00:12<00:52, 1042.78 examples/s]Map:  17%|█▋        | 11228/67764 [00:10<00:55, 1020.32 examples/s]Map:  18%|█▊        | 12336/67764 [00:11<00:53, 1038.85 examples/s]Map:  19%|█▊        | 12698/67764 [00:12<00:52, 1048.85 examples/s]Map:  17%|█▋        | 11340/67764 [00:10<00:54, 1039.72 examples/s]Map:  18%|█▊        | 12448/67764 [00:11<00:52, 1058.87 examples/s]Map:  19%|█▉        | 13051/67764 [00:12<00:58, 931.45 examples/s] Map:  19%|█▉        | 12808/67764 [00:12<00:51, 1060.77 examples/s]Map:  17%|█▋        | 11451/67764 [00:10<00:53, 1055.33 examples/s]Map:  19%|█▊        | 12568/67764 [00:12<00:50, 1094.77 examples/s]Map:  19%|█▉        | 13166/67764 [00:12<00:55, 977.47 examples/s]Map:  17%|█▋        | 11571/67764 [00:11<00:51, 1091.86 examples/s]Map:  19%|█▉        | 12967/67764 [00:12<00:51, 1057.34 examples/s]Map:  19%|█▊        | 12687/67764 [00:12<00:49, 1117.50 examples/s]Map:  20%|█▉        | 13271/67764 [00:12<00:54, 991.01 examples/s]Map:  17%|█▋        | 11688/67764 [00:11<00:50, 1112.35 examples/s]Map:  19%|█▉        | 12808/67764 [00:12<00:48, 1140.37 examples/s]Map:  20%|█▉        | 13373/67764 [00:12<00:54, 996.20 examples/s]Map:  17%|█▋        | 11802/67764 [00:11<00:50, 1119.03 examples/s]Map:  19%|█▉        | 13107/67764 [00:13<00:58, 930.41 examples/s] Map:  20%|█▉        | 13476/67764 [00:13<00:54, 1004.17 examples/s]Map:  19%|█▉        | 12975/67764 [00:12<00:48, 1125.68 examples/s]Map:  18%|█▊        | 11917/67764 [00:11<00:49, 1123.12 examples/s]Map:  20%|█▉        | 13217/67764 [00:13<00:56, 967.60 examples/s]Map:  20%|██        | 13583/67764 [00:13<00:53, 1019.93 examples/s]Map:  20%|█▉        | 13329/67764 [00:13<00:54, 1002.79 examples/s]Map:  20%|██        | 13692/67764 [00:13<00:52, 1037.15 examples/s]Map:  19%|█▉        | 13108/67764 [00:12<00:56, 960.24 examples/s] Map:  18%|█▊        | 12054/67764 [00:11<00:58, 959.08 examples/s] Map:  20%|█▉        | 13434/67764 [00:13<00:53, 1011.40 examples/s]Map:  20%|█▉        | 13219/67764 [00:12<00:54, 995.25 examples/s]Map:  18%|█▊        | 12163/67764 [00:11<00:56, 990.64 examples/s]Map:  20%|██        | 13849/67764 [00:13<00:51, 1037.18 examples/s]Map:  20%|█▉        | 13545/67764 [00:13<00:52, 1034.88 examples/s]Map:  20%|█▉        | 13333/67764 [00:12<00:52, 1028.39 examples/s]Map:  18%|█▊        | 12275/67764 [00:11<00:54, 1023.48 examples/s]Map:  21%|██        | 13961/67764 [00:13<00:51, 1052.75 examples/s]Map:  20%|██        | 13705/67764 [00:13<00:51, 1042.22 examples/s]Map:  18%|█▊        | 12390/67764 [00:11<00:52, 1054.88 examples/s]Map:  20%|█▉        | 13501/67764 [00:12<00:51, 1058.41 examples/s]Map:  18%|█▊        | 12505/67764 [00:11<00:51, 1080.08 examples/s]Map:  21%|██        | 14109/67764 [00:13<00:58, 916.72 examples/s] Map:  20%|██        | 13615/67764 [00:13<00:50, 1077.16 examples/s]Map:  20%|██        | 13865/67764 [00:13<00:51, 1048.11 examples/s]Map:  19%|█▊        | 12620/67764 [00:12<00:50, 1097.65 examples/s]Map:  21%|██        | 14216/67764 [00:13<00:56, 950.62 examples/s]Map:  20%|██        | 13725/67764 [00:13<00:49, 1082.69 examples/s]Map:  21%|██        | 13972/67764 [00:13<00:51, 1049.42 examples/s]Map:  19%|█▉        | 12734/67764 [00:12<00:49, 1104.58 examples/s]Map:  21%|██        | 14324/67764 [00:13<00:54, 981.91 examples/s]Map:  20%|██        | 13838/67764 [00:13<00:49, 1093.20 examples/s]Map:  19%|█▉        | 12851/67764 [00:12<00:49, 1115.19 examples/s]Map:  21%|██▏       | 14439/67764 [00:14<00:52, 1022.74 examples/s]Map:  21%|██        | 14110/67764 [00:14<00:57, 927.54 examples/s] Map:  21%|██        | 13950/67764 [00:13<00:49, 1098.17 examples/s]Map:  19%|█▉        | 12967/67764 [00:12<00:48, 1125.77 examples/s]Map:  21%|██▏       | 14549/67764 [00:14<00:51, 1042.01 examples/s]Map:  21%|██        | 14220/67764 [00:14<00:55, 964.02 examples/s]Map:  22%|██▏       | 14661/67764 [00:14<00:49, 1062.89 examples/s]Map:  21%|██        | 14329/67764 [00:14<00:53, 991.67 examples/s]Map:  21%|██        | 14110/67764 [00:13<00:56, 948.14 examples/s] Map:  19%|█▉        | 13115/67764 [00:12<00:56, 974.33 examples/s] Map:  21%|██▏       | 14442/67764 [00:14<00:52, 1024.89 examples/s]Map:  21%|██        | 14232/67764 [00:13<00:53, 1009.51 examples/s]Map:  22%|██▏       | 14824/67764 [00:14<00:49, 1068.00 examples/s]Map:  20%|█▉        | 13230/67764 [00:12<00:53, 1014.76 examples/s]Map:  21%|██▏       | 14550/67764 [00:14<00:51, 1037.72 examples/s]Map:  21%|██        | 14348/67764 [00:13<00:51, 1045.90 examples/s]Map:  22%|██▏       | 14935/67764 [00:14<00:49, 1076.79 examples/s]Map:  20%|█▉        | 13345/67764 [00:12<00:51, 1046.93 examples/s]Map:  22%|██▏       | 14664/67764 [00:14<00:49, 1064.15 examples/s]Map:  21%|██▏       | 14460/67764 [00:13<00:50, 1060.95 examples/s]Map:  20%|█▉        | 13455/67764 [00:12<00:51, 1059.12 examples/s]Map:  22%|██▏       | 15050/67764 [00:14<00:57, 917.52 examples/s] Map:  22%|██▏       | 14575/67764 [00:14<00:49, 1084.29 examples/s]Map:  22%|██▏       | 14827/67764 [00:14<00:49, 1069.73 examples/s]Map:  20%|██        | 13577/67764 [00:12<00:49, 1102.03 examples/s]Map:  22%|██▏       | 15162/67764 [00:14<00:54, 965.56 examples/s]Map:  22%|██▏       | 14693/67764 [00:14<00:48, 1104.24 examples/s]Map:  22%|██▏       | 14938/67764 [00:14<00:49, 1078.06 examples/s]Map:  20%|██        | 13697/67764 [00:12<00:48, 1126.09 examples/s]Map:  23%|██▎       | 15272/67764 [00:14<00:52, 996.54 examples/s]Map:  22%|██▏       | 14815/67764 [00:14<00:46, 1133.84 examples/s]Map:  20%|██        | 13813/67764 [00:13<00:47, 1132.67 examples/s]Map:  23%|██▎       | 15379/67764 [00:14<00:51, 1012.37 examples/s]Map:  22%|██▏       | 15055/67764 [00:14<00:56, 934.95 examples/s] Map:  22%|██▏       | 14930/67764 [00:14<00:46, 1138.04 examples/s]Map:  21%|██        | 13929/67764 [00:13<00:47, 1136.32 examples/s]Map:  23%|██▎       | 15484/67764 [00:15<00:51, 1020.19 examples/s]Map:  22%|██▏       | 15167/67764 [00:15<00:53, 977.47 examples/s]Map:  22%|██▏       | 15061/67764 [00:14<00:53, 979.21 examples/s] Map:  23%|██▎       | 15592/67764 [00:15<00:50, 1034.89 examples/s]Map:  23%|██▎       | 15276/67764 [00:15<00:52, 1003.74 examples/s]Map:  21%|██        | 14056/67764 [00:13<00:54, 984.62 examples/s] Map:  22%|██▏       | 15179/67764 [00:14<00:51, 1026.90 examples/s]Map:  23%|██▎       | 15700/67764 [00:15<00:49, 1042.21 examples/s]Map:  23%|██▎       | 15384/67764 [00:15<00:51, 1020.76 examples/s]Map:  21%|██        | 14172/67764 [00:13<00:52, 1029.24 examples/s]Map:  23%|██▎       | 15293/67764 [00:14<00:49, 1052.45 examples/s]Map:  23%|██▎       | 15815/67764 [00:15<00:48, 1070.20 examples/s]Map:  23%|██▎       | 15493/67764 [00:15<00:50, 1037.51 examples/s]Map:  21%|██        | 14281/67764 [00:13<00:51, 1044.74 examples/s]Map:  23%|██▎       | 15408/67764 [00:14<00:48, 1077.34 examples/s]Map:  23%|██▎       | 15600/67764 [00:15<00:49, 1044.80 examples/s]Map:  21%|██        | 14394/67764 [00:13<00:50, 1065.17 examples/s]Map:  24%|██▎       | 15978/67764 [00:15<00:48, 1071.52 examples/s]Map:  23%|██▎       | 15530/67764 [00:14<00:46, 1112.73 examples/s]Map:  23%|██▎       | 15713/67764 [00:15<00:48, 1064.59 examples/s]Map:  21%|██▏       | 14507/67764 [00:13<00:49, 1082.04 examples/s]Map:  23%|██▎       | 15824/67764 [00:15<00:48, 1075.70 examples/s]Map:  22%|██▏       | 14619/67764 [00:13<00:48, 1089.61 examples/s]Map:  24%|██▍       | 16104/67764 [00:15<00:56, 908.14 examples/s] Map:  23%|██▎       | 15701/67764 [00:15<00:46, 1114.25 examples/s]Map:  24%|██▍       | 16214/67764 [00:15<00:54, 951.32 examples/s]Map:  24%|██▎       | 15982/67764 [00:15<00:48, 1061.75 examples/s]Map:  22%|██▏       | 14785/67764 [00:14<00:48, 1093.55 examples/s]Map:  23%|██▎       | 15872/67764 [00:15<00:46, 1121.97 examples/s]Map:  24%|██▍       | 16320/67764 [00:15<00:52, 976.24 examples/s]Map:  22%|██▏       | 14953/67764 [00:14<00:48, 1099.51 examples/s]Map:  24%|██▍       | 16112/67764 [00:16<00:55, 936.03 examples/s] Map:  24%|██▍       | 16424/67764 [00:16<00:51, 990.39 examples/s]Map:  24%|██▎       | 16000/67764 [00:15<00:52, 976.74 examples/s] Map:  24%|██▍       | 16217/67764 [00:16<00:53, 960.43 examples/s]Map:  24%|██▍       | 16539/67764 [00:16<00:49, 1031.88 examples/s]Map:  24%|██▍       | 16115/67764 [00:15<00:50, 1014.78 examples/s]Map:  22%|██▏       | 15114/67764 [00:14<00:53, 977.32 examples/s] Map:  24%|██▍       | 16334/67764 [00:16<00:50, 1010.81 examples/s]Map:  25%|██▍       | 16647/67764 [00:16<00:49, 1042.93 examples/s]Map:  24%|██▍       | 16225/67764 [00:15<00:49, 1034.55 examples/s]Map:  22%|██▏       | 15229/67764 [00:14<00:51, 1014.85 examples/s]Map:  25%|██▍       | 16753/67764 [00:16<00:48, 1045.44 examples/s]Map:  24%|██▍       | 16335/67764 [00:15<00:48, 1050.87 examples/s]Map:  24%|██▍       | 16495/67764 [00:16<00:49, 1029.15 examples/s]Map:  23%|██▎       | 15339/67764 [00:14<00:50, 1031.81 examples/s]Map:  24%|██▍       | 16450/67764 [00:15<00:47, 1075.85 examples/s]Map:  25%|██▍       | 16607/67764 [00:16<00:48, 1049.49 examples/s]Map:  25%|██▍       | 16912/67764 [00:16<00:48, 1045.90 examples/s]Map:  23%|██▎       | 15451/67764 [00:14<00:49, 1052.65 examples/s]Map:  24%|██▍       | 16561/67764 [00:15<00:47, 1083.18 examples/s]Map:  23%|██▎       | 15562/67764 [00:14<00:49, 1065.21 examples/s]Map:  25%|██▍       | 16767/67764 [00:16<00:48, 1050.83 examples/s]Map:  25%|██▍       | 16676/67764 [00:15<00:46, 1099.63 examples/s]Map:  25%|██▌       | 17049/67764 [00:16<00:57, 888.43 examples/s] Map:  23%|██▎       | 15677/67764 [00:14<00:48, 1084.74 examples/s]Map:  25%|██▍       | 16878/67764 [00:16<00:47, 1063.17 examples/s]Map:  25%|██▌       | 17152/67764 [00:16<00:55, 918.97 examples/s]Map:  25%|██▍       | 16837/67764 [00:16<00:46, 1086.60 examples/s]Map:  23%|██▎       | 15796/67764 [00:14<00:46, 1109.02 examples/s]Map:  25%|██▌       | 16986/67764 [00:16<00:47, 1066.10 examples/s]Map:  25%|██▌       | 17265/67764 [00:16<00:52, 967.83 examples/s]Map:  25%|██▌       | 16953/67764 [00:16<00:46, 1102.94 examples/s]Map:  23%|██▎       | 15914/67764 [00:15<00:46, 1125.72 examples/s]Map:  26%|██▌       | 17370/67764 [00:16<00:51, 987.67 examples/s]Map:  25%|██▌       | 17099/67764 [00:17<00:56, 902.25 examples/s] Map:  26%|██▌       | 17477/67764 [00:17<00:49, 1008.45 examples/s]Map:  24%|██▎       | 16060/67764 [00:15<00:52, 976.65 examples/s] Map:  25%|██▌       | 17200/67764 [00:17<00:54, 928.01 examples/s]Map:  25%|██▌       | 17111/67764 [00:16<00:53, 938.66 examples/s] Map:  26%|██▌       | 17587/67764 [00:17<00:48, 1031.57 examples/s]Map:  24%|██▍       | 16171/67764 [00:15<00:51, 1006.58 examples/s]Map:  26%|██▌       | 17317/67764 [00:17<00:51, 988.22 examples/s]Map:  25%|██▌       | 17226/67764 [00:16<00:51, 985.00 examples/s]Map:  26%|██▌       | 17698/67764 [00:17<00:47, 1050.63 examples/s]Map:  24%|██▍       | 16287/67764 [00:15<00:49, 1045.06 examples/s]Map:  26%|██▌       | 17428/67764 [00:17<00:49, 1018.60 examples/s]Map:  26%|██▌       | 17338/67764 [00:16<00:49, 1016.69 examples/s]Map:  26%|██▋       | 17806/67764 [00:17<00:47, 1056.77 examples/s]Map:  26%|██▌       | 17538/67764 [00:17<00:48, 1037.38 examples/s]Map:  26%|██▌       | 17454/67764 [00:16<00:47, 1049.87 examples/s]Map:  24%|██▍       | 16451/67764 [00:15<00:48, 1056.03 examples/s]Map:  26%|██▌       | 17647/67764 [00:17<00:47, 1048.40 examples/s]Map:  26%|██▌       | 17567/67764 [00:16<00:47, 1067.79 examples/s]Map:  27%|██▋       | 17960/67764 [00:17<00:47, 1040.20 examples/s]Map:  24%|██▍       | 16567/67764 [00:15<00:47, 1078.72 examples/s]Map:  26%|██▌       | 17759/67764 [00:17<00:46, 1067.23 examples/s]Map:  26%|██▌       | 17682/67764 [00:16<00:46, 1088.09 examples/s]Map:  25%|██▍       | 16731/67764 [00:15<00:47, 1079.55 examples/s]Map:  26%|██▋       | 17870/67764 [00:17<00:46, 1077.99 examples/s]Map:  26%|██▋       | 17800/67764 [00:17<00:45, 1109.17 examples/s]Map:  27%|██▋       | 18117/67764 [00:17<00:53, 935.01 examples/s] Map:  25%|██▍       | 16848/67764 [00:15<00:46, 1099.35 examples/s]Map:  26%|██▋       | 17916/67764 [00:17<00:44, 1121.08 examples/s]Map:  27%|██▋       | 18231/67764 [00:17<00:50, 976.95 examples/s]Map:  27%|██▋       | 18000/67764 [00:17<00:54, 914.56 examples/s] Map:  25%|██▌       | 16962/67764 [00:16<00:45, 1106.83 examples/s]Map:  27%|██▋       | 18350/67764 [00:17<00:48, 1027.26 examples/s]Map:  27%|██▋       | 18110/67764 [00:18<00:51, 958.51 examples/s]Map:  27%|██▋       | 18056/67764 [00:17<00:52, 955.87 examples/s] Map:  27%|██▋       | 18459/67764 [00:18<00:47, 1042.22 examples/s]Map:  27%|██▋       | 18220/67764 [00:18<00:49, 993.84 examples/s]Map:  25%|██▌       | 17114/67764 [00:16<00:52, 972.40 examples/s] Map:  27%|██▋       | 18167/67764 [00:17<00:50, 989.72 examples/s]Map:  27%|██▋       | 18620/67764 [00:18<00:46, 1049.38 examples/s]Map:  27%|██▋       | 18330/67764 [00:18<00:48, 1017.16 examples/s]Map:  25%|██▌       | 17232/67764 [00:16<00:49, 1019.30 examples/s]Map:  27%|██▋       | 18280/67764 [00:17<00:48, 1025.44 examples/s]Map:  28%|██▊       | 18733/67764 [00:18<00:45, 1069.11 examples/s]Map:  27%|██▋       | 18437/67764 [00:18<00:47, 1029.20 examples/s]Map:  26%|██▌       | 17344/67764 [00:16<00:48, 1042.13 examples/s]Map:  27%|██▋       | 18396/67764 [00:17<00:46, 1057.22 examples/s]Map:  28%|██▊       | 18848/67764 [00:18<00:44, 1088.95 examples/s]Map:  26%|██▌       | 17465/67764 [00:16<00:46, 1084.41 examples/s]Map:  27%|██▋       | 18544/67764 [00:18<00:47, 1036.19 examples/s]Map:  27%|██▋       | 18507/67764 [00:17<00:46, 1069.67 examples/s]Map:  28%|██▊       | 18960/67764 [00:18<00:44, 1093.65 examples/s]Map:  26%|██▌       | 17585/67764 [00:16<00:45, 1112.10 examples/s]Map:  28%|██▊       | 18654/67764 [00:18<00:46, 1046.14 examples/s]Map:  27%|██▋       | 18625/67764 [00:17<00:44, 1093.80 examples/s]Map:  26%|██▌       | 17702/67764 [00:16<00:44, 1122.42 examples/s]Map:  28%|██▊       | 18764/67764 [00:18<00:46, 1055.35 examples/s]Map:  28%|██▊       | 18738/67764 [00:17<00:44, 1102.01 examples/s]Map:  28%|██▊       | 19112/67764 [00:18<00:51, 943.21 examples/s] Map:  28%|██▊       | 18872/67764 [00:18<00:46, 1058.56 examples/s]Map:  26%|██▋       | 17863/67764 [00:16<00:45, 1094.63 examples/s]Map:  28%|██▊       | 18904/67764 [00:18<00:44, 1097.48 examples/s]Map:  28%|██▊       | 19222/67764 [00:18<00:49, 977.08 examples/s]Map:  28%|██▊       | 18984/67764 [00:18<00:45, 1074.53 examples/s]Map:  27%|██▋       | 17978/67764 [00:17<00:45, 1105.96 examples/s]Map:  29%|██▊       | 19333/67764 [00:18<00:48, 1008.92 examples/s]Map:  28%|██▊       | 19059/67764 [00:18<00:49, 974.73 examples/s] Map:  28%|██▊       | 19108/67764 [00:18<00:52, 919.81 examples/s] Map:  29%|██▊       | 19443/67764 [00:19<00:46, 1029.90 examples/s]Map:  27%|██▋       | 18108/67764 [00:17<00:51, 957.78 examples/s] Map:  28%|██▊       | 19175/67764 [00:18<00:47, 1015.05 examples/s]Map:  28%|██▊       | 19219/67764 [00:19<00:50, 966.53 examples/s]Map:  29%|██▉       | 19556/67764 [00:19<00:45, 1054.86 examples/s]Map:  27%|██▋       | 18223/67764 [00:17<00:49, 1001.55 examples/s]Map:  28%|██▊       | 19292/67764 [00:18<00:46, 1052.23 examples/s]Map:  29%|██▊       | 19323/67764 [00:19<00:49, 984.23 examples/s]Map:  29%|██▉       | 19664/67764 [00:19<00:45, 1057.94 examples/s]Map:  27%|██▋       | 18339/67764 [00:17<00:47, 1039.17 examples/s]Map:  29%|██▊       | 19430/67764 [00:19<00:48, 1002.70 examples/s]Map:  29%|██▉       | 19774/67764 [00:19<00:44, 1066.52 examples/s]Map:  29%|██▊       | 19459/67764 [00:18<00:45, 1070.29 examples/s]Map:  27%|██▋       | 18453/67764 [00:17<00:46, 1061.36 examples/s]Map:  29%|██▉       | 19542/67764 [00:19<00:46, 1032.95 examples/s]Map:  29%|██▉       | 19887/67764 [00:19<00:44, 1081.66 examples/s]Map:  29%|██▉       | 19573/67764 [00:18<00:44, 1086.15 examples/s]Map:  27%|██▋       | 18567/67764 [00:17<00:45, 1080.36 examples/s]Map:  29%|██▉       | 19656/67764 [00:19<00:45, 1062.91 examples/s]Map:  28%|██▊       | 18687/67764 [00:17<00:44, 1110.40 examples/s]Map:  30%|██▉       | 20000/67764 [00:19<00:51, 931.12 examples/s] Map:  29%|██▉       | 19746/67764 [00:18<00:43, 1105.13 examples/s]Map:  29%|██▉       | 19771/67764 [00:19<00:44, 1086.04 examples/s]Map:  28%|██▊       | 18801/67764 [00:17<00:43, 1116.58 examples/s]Map:  30%|██▉       | 20108/67764 [00:19<00:49, 967.46 examples/s]Map:  29%|██▉       | 19865/67764 [00:18<00:42, 1122.78 examples/s]Map:  29%|██▉       | 19934/67764 [00:19<00:44, 1083.57 examples/s]Map:  28%|██▊       | 18920/67764 [00:17<00:43, 1133.94 examples/s]Map:  30%|██▉       | 20212/67764 [00:19<00:48, 981.90 examples/s]Map:  30%|██▉       | 20000/67764 [00:19<00:49, 961.49 examples/s] Map:  30%|██▉       | 20313/67764 [00:19<00:48, 987.16 examples/s]Map:  30%|██▉       | 20053/67764 [00:19<00:50, 935.53 examples/s] Map:  28%|██▊       | 19052/67764 [00:18<00:50, 965.58 examples/s] Map:  30%|██▉       | 20111/67764 [00:19<00:47, 994.62 examples/s]Map:  30%|██▉       | 20158/67764 [00:20<00:49, 959.61 examples/s]Map:  28%|██▊       | 19165/67764 [00:18<00:48, 1004.93 examples/s]Map:  30%|███       | 20470/67764 [00:20<00:47, 1004.21 examples/s]Map:  30%|██▉       | 20223/67764 [00:19<00:46, 1022.64 examples/s]Map:  30%|██▉       | 20261/67764 [00:20<00:48, 975.47 examples/s]Map:  30%|███       | 20588/67764 [00:20<00:44, 1048.51 examples/s]Map:  28%|██▊       | 19282/67764 [00:18<00:46, 1044.90 examples/s]Map:  30%|███       | 20337/67764 [00:19<00:45, 1050.83 examples/s]Map:  30%|███       | 20373/67764 [00:20<00:46, 1012.88 examples/s]Map:  31%|███       | 20699/67764 [00:20<00:44, 1061.96 examples/s]Map:  29%|██▊       | 19393/67764 [00:18<00:45, 1059.29 examples/s]Map:  30%|███       | 20449/67764 [00:19<00:44, 1064.53 examples/s]Map:  30%|███       | 20487/67764 [00:20<00:45, 1043.74 examples/s]Map:  29%|██▉       | 19511/67764 [00:18<00:44, 1088.44 examples/s]Map:  30%|███       | 20562/67764 [00:19<00:43, 1079.49 examples/s]Map:  31%|███       | 20862/67764 [00:20<00:43, 1066.24 examples/s]Map:  30%|███       | 20601/67764 [00:20<00:44, 1065.69 examples/s]Map:  29%|██▉       | 19622/67764 [00:18<00:44, 1091.66 examples/s]Map:  31%|███       | 20672/67764 [00:19<00:43, 1082.36 examples/s]Map:  31%|███       | 20722/67764 [00:20<00:42, 1104.43 examples/s]Map:  31%|███       | 21000/67764 [00:20<00:51, 916.13 examples/s] Map:  29%|██▉       | 19792/67764 [00:18<00:43, 1104.83 examples/s]Map:  31%|███       | 20836/67764 [00:20<00:42, 1110.30 examples/s]Map:  31%|███       | 20835/67764 [00:19<00:43, 1079.30 examples/s]Map:  31%|███       | 21105/67764 [00:20<00:49, 944.16 examples/s]Map:  29%|██▉       | 19907/67764 [00:18<00:42, 1114.14 examples/s]Map:  31%|███       | 20951/67764 [00:20<00:42, 1096.86 examples/s]Map:  31%|███▏      | 21222/67764 [00:20<00:46, 996.62 examples/s]Map:  31%|███       | 21000/67764 [00:20<00:48, 968.66 examples/s] Map:  30%|██▉       | 20050/67764 [00:19<00:49, 962.02 examples/s] Map:  31%|███▏      | 21343/67764 [00:20<00:44, 1049.57 examples/s]Map:  31%|███       | 21108/67764 [00:20<00:46, 993.34 examples/s]Map:  31%|███       | 21111/67764 [00:20<00:48, 958.06 examples/s] Map:  30%|██▉       | 20167/67764 [00:19<00:47, 1009.51 examples/s]Map:  32%|███▏      | 21459/67764 [00:20<00:42, 1077.00 examples/s]Map:  31%|███▏      | 21221/67764 [00:21<00:45, 1024.88 examples/s]Map:  31%|███▏      | 21221/67764 [00:20<00:47, 989.79 examples/s]Map:  30%|██▉       | 20276/67764 [00:19<00:46, 1027.89 examples/s]Map:  32%|███▏      | 21570/67764 [00:21<00:42, 1085.23 examples/s]Map:  31%|███▏      | 21335/67764 [00:21<00:43, 1055.27 examples/s]Map:  31%|███▏      | 21337/67764 [00:20<00:44, 1031.83 examples/s]Map:  30%|███       | 20398/67764 [00:19<00:44, 1076.11 examples/s]Map:  32%|███▏      | 21683/67764 [00:21<00:42, 1095.77 examples/s]Map:  32%|███▏      | 21449/67764 [00:21<00:43, 1076.74 examples/s]Map:  32%|███▏      | 21451/67764 [00:20<00:43, 1059.30 examples/s]Map:  30%|███       | 20520/67764 [00:19<00:42, 1111.73 examples/s]Map:  32%|███▏      | 21797/67764 [00:21<00:41, 1104.81 examples/s]Map:  32%|███▏      | 21569/67764 [00:20<00:42, 1088.55 examples/s]Map:  30%|███       | 20635/67764 [00:19<00:42, 1118.39 examples/s]Map:  32%|███▏      | 21616/67764 [00:21<00:42, 1086.03 examples/s]Map:  32%|███▏      | 21684/67764 [00:20<00:41, 1103.20 examples/s]Map:  32%|███▏      | 21963/67764 [00:21<00:41, 1099.80 examples/s]Map:  32%|███▏      | 21727/67764 [00:21<00:42, 1088.17 examples/s]Map:  31%|███       | 20806/67764 [00:19<00:41, 1123.72 examples/s]Map:  32%|███▏      | 21807/67764 [00:20<00:40, 1135.57 examples/s]Map:  32%|███▏      | 21838/67764 [00:21<00:41, 1093.66 examples/s]Map:  33%|███▎      | 22112/67764 [00:21<00:47, 961.50 examples/s] Map:  31%|███       | 20979/67764 [00:19<00:41, 1132.37 examples/s]Map:  32%|███▏      | 21952/67764 [00:21<00:41, 1102.83 examples/s]Map:  32%|███▏      | 21973/67764 [00:21<00:40, 1121.12 examples/s]Map:  33%|███▎      | 22227/67764 [00:21<00:45, 1002.28 examples/s]Map:  33%|███▎      | 22346/67764 [00:21<00:43, 1047.36 examples/s]Map:  31%|███       | 21113/67764 [00:20<00:47, 989.87 examples/s] Map:  33%|███▎      | 22110/67764 [00:21<00:47, 958.10 examples/s] Map:  33%|███▎      | 22110/67764 [00:21<00:47, 962.35 examples/s] Map:  31%|███▏      | 21229/67764 [00:20<00:45, 1025.38 examples/s]Map:  33%|███▎      | 22225/67764 [00:21<00:45, 1000.12 examples/s]Map:  33%|███▎      | 22512/67764 [00:21<00:42, 1065.69 examples/s]Map:  33%|███▎      | 22220/67764 [00:21<00:45, 994.50 examples/s]Map:  32%|███▏      | 21351/67764 [00:20<00:43, 1069.55 examples/s]Map:  33%|███▎      | 22334/67764 [00:21<00:44, 1018.56 examples/s]Map:  33%|███▎      | 22633/67764 [00:22<00:40, 1101.13 examples/s]Map:  33%|███▎      | 22335/67764 [00:22<00:43, 1032.87 examples/s]Map:  32%|███▏      | 21466/67764 [00:20<00:42, 1088.83 examples/s]Map:  33%|███▎      | 22450/67764 [00:21<00:43, 1053.50 examples/s]Map:  34%|███▎      | 22751/67764 [00:22<00:40, 1119.88 examples/s]Map:  33%|███▎      | 22451/67764 [00:22<00:42, 1061.11 examples/s]Map:  32%|███▏      | 21579/67764 [00:20<00:42, 1096.79 examples/s]Map:  33%|███▎      | 22565/67764 [00:21<00:41, 1077.48 examples/s]Map:  34%|███▍      | 22921/67764 [00:22<00:39, 1121.41 examples/s]Map:  33%|███▎      | 22606/67764 [00:22<00:43, 1049.22 examples/s]Map:  32%|███▏      | 21698/67764 [00:20<00:41, 1120.58 examples/s]Map:  33%|███▎      | 22679/67764 [00:21<00:41, 1090.86 examples/s]Map:  34%|███▎      | 22723/67764 [00:22<00:41, 1075.84 examples/s]Map:  34%|███▎      | 22795/67764 [00:21<00:40, 1108.56 examples/s]Map:  34%|███▍      | 23050/67764 [00:22<00:45, 972.95 examples/s] Map:  32%|███▏      | 21866/67764 [00:20<00:41, 1113.44 examples/s]Map:  34%|███▎      | 22838/67764 [00:22<00:41, 1091.00 examples/s]Map:  34%|███▍      | 22913/67764 [00:21<00:39, 1126.56 examples/s]Map:  34%|███▍      | 23162/67764 [00:22<00:44, 1002.78 examples/s]Map:  32%|███▏      | 21982/67764 [00:20<00:40, 1123.80 examples/s]Map:  34%|███▍      | 22954/67764 [00:22<00:40, 1107.62 examples/s]Map:  34%|███▍      | 23279/67764 [00:22<00:42, 1043.25 examples/s]Map:  34%|███▍      | 23052/67764 [00:22<00:47, 942.33 examples/s] Map:  33%|███▎      | 22102/67764 [00:20<00:48, 948.33 examples/s] Map:  35%|███▍      | 23392/67764 [00:22<00:41, 1065.00 examples/s]Map:  34%|███▍      | 23110/67764 [00:22<00:46, 961.75 examples/s] Map:  34%|███▍      | 23165/67764 [00:22<00:45, 985.64 examples/s]Map:  33%|███▎      | 22217/67764 [00:21<00:45, 996.84 examples/s]Map:  35%|███▍      | 23507/67764 [00:22<00:40, 1086.67 examples/s]Map:  34%|███▍      | 23227/67764 [00:22<00:44, 1009.49 examples/s]Map:  34%|███▍      | 23285/67764 [00:22<00:42, 1039.40 examples/s]Map:  33%|███▎      | 22337/67764 [00:21<00:43, 1045.46 examples/s]Map:  35%|███▍      | 23621/67764 [00:23<00:40, 1097.92 examples/s]Map:  34%|███▍      | 23341/67764 [00:23<00:42, 1036.57 examples/s]Map:  35%|███▍      | 23396/67764 [00:22<00:41, 1057.03 examples/s]Map:  33%|███▎      | 22450/67764 [00:21<00:42, 1065.12 examples/s]Map:  35%|███▌      | 23737/67764 [00:23<00:39, 1112.46 examples/s]Map:  35%|███▍      | 23456/67764 [00:23<00:41, 1061.87 examples/s]Map:  35%|███▍      | 23515/67764 [00:22<00:40, 1090.39 examples/s]Map:  33%|███▎      | 22570/67764 [00:21<00:41, 1098.20 examples/s]Map:  35%|███▌      | 23906/67764 [00:23<00:39, 1112.59 examples/s]Map:  35%|███▍      | 23628/67764 [00:22<00:40, 1099.77 examples/s]Map:  33%|███▎      | 22685/67764 [00:21<00:40, 1110.35 examples/s]Map:  35%|███▍      | 23617/67764 [00:23<00:41, 1062.15 examples/s]Map:  35%|███▌      | 23743/67764 [00:22<00:39, 1111.82 examples/s]Map:  34%|███▎      | 22804/67764 [00:21<00:39, 1132.05 examples/s]Map:  35%|███▌      | 23732/67764 [00:23<00:40, 1080.56 examples/s]Map:  35%|███▌      | 24054/67764 [00:23<00:45, 962.17 examples/s] Map:  35%|███▌      | 23861/67764 [00:22<00:38, 1127.71 examples/s]Map:  34%|███▍      | 22921/67764 [00:21<00:39, 1140.64 examples/s]Map:  35%|███▌      | 23847/67764 [00:23<00:39, 1098.16 examples/s]Map:  36%|███▌      | 24168/67764 [00:23<00:43, 1000.83 examples/s]Map:  35%|███▌      | 23983/67764 [00:22<00:37, 1153.44 examples/s]Map:  36%|███▌      | 24285/67764 [00:23<00:41, 1040.79 examples/s]Map:  34%|███▍      | 23056/67764 [00:21<00:45, 982.98 examples/s] Map:  35%|███▌      | 24000/67764 [00:23<00:45, 955.88 examples/s] Map:  36%|███▌      | 24113/67764 [00:23<00:44, 980.63 examples/s] Map:  36%|███▌      | 24397/67764 [00:23<00:40, 1059.49 examples/s]Map:  34%|███▍      | 23171/67764 [00:21<00:43, 1023.42 examples/s]Map:  36%|███▌      | 24114/67764 [00:23<00:43, 996.67 examples/s]Map:  36%|███▌      | 24229/67764 [00:23<00:42, 1023.87 examples/s]Map:  36%|███▌      | 24512/67764 [00:23<00:40, 1080.38 examples/s]Map:  34%|███▍      | 23296/67764 [00:22<00:41, 1082.18 examples/s]Map:  36%|███▌      | 24224/67764 [00:23<00:42, 1019.83 examples/s]Map:  36%|███▌      | 24339/67764 [00:23<00:41, 1042.56 examples/s]Map:  36%|███▋      | 24677/67764 [00:24<00:39, 1085.47 examples/s]Map:  35%|███▍      | 23451/67764 [00:22<00:41, 1060.87 examples/s]Map:  36%|███▌      | 24382/67764 [00:24<00:42, 1029.66 examples/s]Map:  36%|███▌      | 24452/67764 [00:23<00:40, 1065.14 examples/s]Map:  37%|███▋      | 24795/67764 [00:24<00:38, 1106.77 examples/s]Map:  35%|███▍      | 23573/67764 [00:22<00:40, 1098.33 examples/s]Map:  36%|███▌      | 24498/67764 [00:24<00:40, 1060.13 examples/s]Map:  36%|███▋      | 24574/67764 [00:23<00:39, 1106.76 examples/s]Map:  37%|███▋      | 24908/67764 [00:24<00:38, 1110.70 examples/s]Map:  35%|███▍      | 23689/67764 [00:22<00:39, 1110.44 examples/s]Map:  36%|███▋      | 24612/67764 [00:24<00:40, 1078.37 examples/s]Map:  36%|███▋      | 24695/67764 [00:23<00:37, 1134.06 examples/s]Map:  35%|███▌      | 23810/67764 [00:22<00:38, 1133.18 examples/s]Map:  36%|███▋      | 24730/67764 [00:24<00:38, 1104.50 examples/s]Map:  37%|███▋      | 25053/67764 [00:24<00:44, 967.83 examples/s] Map:  37%|███▋      | 24865/67764 [00:23<00:37, 1129.05 examples/s]Map:  35%|███▌      | 23928/67764 [00:22<00:38, 1142.82 examples/s]Map:  37%|███▋      | 24850/67764 [00:24<00:38, 1111.65 examples/s]Map:  37%|███▋      | 25169/67764 [00:24<00:42, 1012.95 examples/s]Map:  37%|███▋      | 25000/67764 [00:23<00:43, 978.67 examples/s] Map:  36%|███▌      | 24058/67764 [00:22<00:44, 984.71 examples/s] Map:  37%|███▋      | 25286/67764 [00:24<00:40, 1050.63 examples/s]Map:  37%|███▋      | 25000/67764 [00:24<00:44, 969.70 examples/s] Map:  37%|███▋      | 25110/67764 [00:24<00:42, 1007.25 examples/s]Map:  36%|███▌      | 24177/67764 [00:22<00:42, 1031.15 examples/s]Map:  37%|███▋      | 25398/67764 [00:24<00:39, 1068.14 examples/s]Map:  37%|███▋      | 25111/67764 [00:24<00:42, 1001.51 examples/s]Map:  37%|███▋      | 25219/67764 [00:24<00:41, 1023.97 examples/s]Map:  36%|███▌      | 24294/67764 [00:22<00:40, 1065.54 examples/s]Map:  38%|███▊      | 25517/67764 [00:24<00:38, 1100.09 examples/s]Map:  37%|███▋      | 25230/67764 [00:24<00:40, 1047.57 examples/s]Map:  37%|███▋      | 25332/67764 [00:24<00:40, 1051.04 examples/s]Map:  36%|███▌      | 24410/67764 [00:23<00:39, 1088.05 examples/s]Map:  38%|███▊      | 25636/67764 [00:24<00:37, 1123.83 examples/s]Map:  37%|███▋      | 25347/67764 [00:24<00:39, 1076.68 examples/s]Map:  38%|███▊      | 25444/67764 [00:24<00:39, 1066.00 examples/s]Map:  36%|███▌      | 24529/67764 [00:23<00:38, 1111.11 examples/s]Map:  38%|███▊      | 25458/67764 [00:25<00:39, 1083.61 examples/s]Map:  38%|███▊      | 25809/67764 [00:25<00:37, 1131.30 examples/s]Map:  38%|███▊      | 25560/67764 [00:24<00:38, 1089.56 examples/s]Map:  36%|███▋      | 24645/67764 [00:23<00:38, 1124.32 examples/s]Map:  38%|███▊      | 25927/67764 [00:25<00:36, 1140.28 examples/s]Map:  38%|███▊      | 25677/67764 [00:24<00:37, 1110.18 examples/s]Map:  38%|███▊      | 25616/67764 [00:25<00:39, 1071.74 examples/s]Map:  37%|███▋      | 24807/67764 [00:23<00:38, 1102.96 examples/s]Map:  38%|███▊      | 25725/67764 [00:25<00:39, 1074.61 examples/s]Map:  38%|███▊      | 26055/67764 [00:25<00:43, 957.77 examples/s] Map:  38%|███▊      | 25838/67764 [00:24<00:38, 1091.71 examples/s]Map:  37%|███▋      | 24923/67764 [00:23<00:38, 1115.68 examples/s]Map:  38%|███▊      | 25843/67764 [00:25<00:38, 1100.78 examples/s]Map:  39%|███▊      | 26175/67764 [00:25<00:41, 1013.86 examples/s]Map:  38%|███▊      | 25964/67764 [00:25<00:37, 1126.01 examples/s]Map:  37%|███▋      | 25060/67764 [00:23<00:44, 969.99 examples/s] Map:  39%|███▉      | 26287/67764 [00:25<00:39, 1040.05 examples/s]Map:  38%|███▊      | 26000/67764 [00:24<00:44, 945.56 examples/s] Map:  37%|███▋      | 25174/67764 [00:23<00:42, 1007.72 examples/s]Map:  39%|███▊      | 26121/67764 [00:24<00:41, 999.39 examples/s]Map:  39%|███▉      | 26448/67764 [00:25<00:39, 1048.44 examples/s]Map:  39%|███▊      | 26103/67764 [00:25<00:43, 947.84 examples/s] Map:  37%|███▋      | 25285/67764 [00:23<00:41, 1032.83 examples/s]Map:  39%|███▊      | 26232/67764 [00:25<00:40, 1020.48 examples/s]Map:  39%|███▉      | 26562/67764 [00:25<00:38, 1070.20 examples/s]Map:  39%|███▊      | 26216/67764 [00:25<00:42, 988.21 examples/s]Map:  39%|███▉      | 26344/67764 [00:25<00:39, 1042.56 examples/s]Map:  38%|███▊      | 25450/67764 [00:24<00:40, 1053.44 examples/s]Map:  39%|███▉      | 26678/67764 [00:25<00:37, 1092.02 examples/s]Map:  39%|███▉      | 26331/67764 [00:25<00:40, 1025.77 examples/s]Map:  39%|███▉      | 26461/67764 [00:25<00:38, 1074.53 examples/s]Map:  38%|███▊      | 25566/67764 [00:24<00:39, 1076.78 examples/s]Map:  39%|███▉      | 26449/67764 [00:26<00:38, 1064.14 examples/s]Map:  40%|███▉      | 26850/67764 [00:26<00:36, 1108.10 examples/s]Map:  39%|███▉      | 26578/67764 [00:25<00:37, 1095.24 examples/s]Map:  38%|███▊      | 25683/67764 [00:24<00:38, 1100.42 examples/s]Map:  40%|███▉      | 26967/67764 [00:26<00:36, 1118.07 examples/s]Map:  39%|███▉      | 26613/67764 [00:26<00:38, 1070.34 examples/s]Map:  39%|███▉      | 26696/67764 [00:25<00:36, 1117.93 examples/s]Map:  38%|███▊      | 25849/67764 [00:24<00:38, 1099.11 examples/s]Map:  39%|███▉      | 26726/67764 [00:26<00:37, 1080.98 examples/s]Map:  40%|███▉      | 26810/67764 [00:25<00:36, 1121.81 examples/s]Map:  40%|████      | 27110/67764 [00:26<00:42, 961.23 examples/s] Map:  40%|███▉      | 26877/67764 [00:26<00:38, 1050.47 examples/s]Map:  40%|███▉      | 26966/67764 [00:25<00:37, 1087.63 examples/s]Map:  40%|████      | 27219/67764 [00:26<00:40, 989.98 examples/s]Map:  38%|███▊      | 26000/67764 [00:24<00:43, 952.83 examples/s] Map:  40%|███▉      | 26991/67764 [00:26<00:38, 1068.22 examples/s]Map:  40%|████      | 27334/67764 [00:26<00:39, 1026.47 examples/s]Map:  39%|███▊      | 26109/67764 [00:24<00:42, 980.96 examples/s]Map:  40%|████      | 27108/67764 [00:25<00:43, 931.61 examples/s] Map:  41%|████      | 27455/67764 [00:26<00:37, 1073.26 examples/s]Map:  39%|███▊      | 26222/67764 [00:24<00:40, 1016.27 examples/s]Map:  40%|████      | 27111/67764 [00:26<00:43, 929.54 examples/s] Map:  40%|████      | 27227/67764 [00:26<00:41, 985.98 examples/s]Map:  41%|████      | 27576/67764 [00:26<00:36, 1107.98 examples/s]Map:  39%|███▉      | 26332/67764 [00:24<00:40, 1034.54 examples/s]Map:  40%|████      | 27219/67764 [00:26<00:42, 964.10 examples/s]Map:  40%|████      | 27337/67764 [00:26<00:39, 1013.62 examples/s]Map:  39%|███▉      | 26441/67764 [00:25<00:39, 1041.83 examples/s]Map:  40%|████      | 27326/67764 [00:26<00:40, 989.36 examples/s]Map:  41%|████      | 27741/67764 [00:26<00:36, 1098.82 examples/s]Map:  41%|████      | 27459/67764 [00:26<00:37, 1065.17 examples/s]Map:  39%|███▉      | 26552/67764 [00:25<00:38, 1057.25 examples/s]Map:  40%|████      | 27439/67764 [00:26<00:39, 1024.40 examples/s]Map:  41%|████      | 27858/67764 [00:27<00:35, 1116.91 examples/s]Map:  41%|████      | 27573/67764 [00:26<00:37, 1082.81 examples/s]Map:  39%|███▉      | 26663/67764 [00:25<00:38, 1067.41 examples/s]Map:  41%|████      | 27551/67764 [00:27<00:38, 1046.78 examples/s]Map:  41%|████      | 27685/67764 [00:26<00:36, 1091.24 examples/s]Map:  40%|███▉      | 26777/67764 [00:25<00:37, 1087.25 examples/s]Map:  41%|████      | 27661/67764 [00:27<00:37, 1056.98 examples/s]Map:  41%|████▏     | 28000/67764 [00:27<00:40, 977.70 examples/s] Map:  41%|████      | 27800/67764 [00:26<00:36, 1105.02 examples/s]Map:  40%|███▉      | 26887/67764 [00:25<00:37, 1086.99 examples/s]Map:  41%|████▏     | 28112/67764 [00:27<00:39, 1010.22 examples/s]Map:  41%|████      | 27773/67764 [00:27<00:37, 1069.81 examples/s]Map:  41%|████      | 27920/67764 [00:26<00:35, 1129.14 examples/s]Map:  40%|███▉      | 26999/67764 [00:25<00:37, 1089.39 examples/s]Map:  42%|████▏     | 28225/67764 [00:27<00:38, 1039.64 examples/s]Map:  41%|████      | 27884/67764 [00:27<00:37, 1077.32 examples/s]Map:  42%|████▏     | 28339/67764 [00:27<00:37, 1063.40 examples/s]Map:  41%|████▏     | 28059/67764 [00:26<00:41, 951.20 examples/s] Map:  41%|████▏     | 28000/67764 [00:27<00:44, 896.70 examples/s] Map:  40%|████      | 27158/67764 [00:25<00:43, 926.15 examples/s] Map:  42%|████▏     | 28456/67764 [00:27<00:36, 1089.98 examples/s]Map:  42%|████▏     | 28166/67764 [00:26<00:40, 978.32 examples/s]Map:  41%|████▏     | 28107/67764 [00:27<00:42, 937.24 examples/s]Map:  42%|████▏     | 28280/67764 [00:27<00:38, 1016.25 examples/s]Map:  40%|████      | 27306/67764 [00:25<00:42, 940.97 examples/s]Map:  42%|████▏     | 28619/67764 [00:27<00:36, 1085.19 examples/s]Map:  42%|████▏     | 28223/67764 [00:27<00:39, 994.65 examples/s]Map:  42%|████▏     | 28392/67764 [00:27<00:37, 1040.84 examples/s]Map:  40%|████      | 27427/67764 [00:26<00:40, 1002.59 examples/s]Map:  42%|████▏     | 28734/67764 [00:27<00:35, 1099.51 examples/s]Map:  42%|████▏     | 28342/67764 [00:27<00:37, 1045.79 examples/s]Map:  42%|████▏     | 28508/67764 [00:27<00:36, 1073.69 examples/s]Map:  41%|████      | 27539/67764 [00:26<00:39, 1030.44 examples/s]Map:  43%|████▎     | 28851/67764 [00:27<00:34, 1116.63 examples/s]Map:  42%|████▏     | 28460/67764 [00:27<00:36, 1074.28 examples/s]Map:  42%|████▏     | 28624/67764 [00:27<00:35, 1095.73 examples/s]Map:  41%|████      | 27654/67764 [00:26<00:37, 1058.23 examples/s]Map:  43%|████▎     | 28964/67764 [00:28<00:34, 1118.33 examples/s]Map:  42%|████▏     | 28576/67764 [00:28<00:35, 1097.25 examples/s]Map:  41%|████      | 27766/67764 [00:26<00:37, 1071.15 examples/s]Map:  42%|████▏     | 28688/67764 [00:28<00:35, 1100.54 examples/s]Map:  42%|████▏     | 28791/67764 [00:27<00:35, 1096.35 examples/s]Map:  43%|████▎     | 29108/67764 [00:28<00:40, 955.17 examples/s] Map:  43%|████▎     | 28801/67764 [00:28<00:35, 1107.31 examples/s]Map:  41%|████      | 27926/67764 [00:26<00:37, 1066.04 examples/s]Map:  43%|████▎     | 28961/67764 [00:27<00:35, 1106.45 examples/s]Map:  43%|████▎     | 29218/67764 [00:28<00:38, 988.64 examples/s]Map:  43%|████▎     | 28965/67764 [00:28<00:35, 1097.23 examples/s]Map:  43%|████▎     | 29328/67764 [00:28<00:37, 1015.36 examples/s]Map:  41%|████▏     | 28053/67764 [00:26<00:43, 922.53 examples/s] Map:  43%|████▎     | 29116/67764 [00:27<00:40, 965.42 examples/s] Map:  43%|████▎     | 29440/67764 [00:28<00:36, 1039.70 examples/s]Map:  42%|████▏     | 28168/67764 [00:26<00:40, 974.86 examples/s]Map:  43%|████▎     | 29108/67764 [00:28<00:40, 950.22 examples/s] Map:  43%|████▎     | 29235/67764 [00:27<00:38, 1012.04 examples/s]Map:  44%|████▎     | 29562/67764 [00:28<00:35, 1086.10 examples/s]Map:  42%|████▏     | 28282/67764 [00:26<00:38, 1012.99 examples/s]Map:  43%|████▎     | 29223/67764 [00:28<00:38, 994.31 examples/s]Map:  43%|████▎     | 29347/67764 [00:28<00:37, 1035.71 examples/s]Map:  42%|████▏     | 28394/67764 [00:26<00:37, 1039.72 examples/s]Map:  44%|████▍     | 29730/67764 [00:28<00:34, 1092.77 examples/s]Map:  43%|████▎     | 29333/67764 [00:28<00:37, 1020.43 examples/s]Map:  42%|████▏     | 28509/67764 [00:27<00:36, 1066.68 examples/s]Map:  44%|████▎     | 29513/67764 [00:28<00:36, 1055.71 examples/s]Map:  43%|████▎     | 29441/67764 [00:28<00:37, 1033.63 examples/s]Map:  44%|████▍     | 29900/67764 [00:28<00:34, 1104.15 examples/s]Map:  42%|████▏     | 28623/67764 [00:27<00:36, 1085.92 examples/s]Map:  44%|████▎     | 29626/67764 [00:28<00:35, 1069.13 examples/s]Map:  44%|████▎     | 29548/67764 [00:29<00:36, 1039.29 examples/s]Map:  42%|████▏     | 28736/67764 [00:27<00:35, 1094.78 examples/s]Map:  44%|████▍     | 29741/67764 [00:28<00:35, 1086.30 examples/s]Map:  44%|████▍     | 29662/67764 [00:29<00:35, 1065.59 examples/s]Map:  44%|████▍     | 30054/67764 [00:29<00:39, 960.09 examples/s] Map:  43%|████▎     | 28854/67764 [00:27<00:34, 1118.07 examples/s]Map:  44%|████▍     | 29856/67764 [00:28<00:34, 1099.44 examples/s]Map:  44%|████▍     | 29772/67764 [00:29<00:35, 1070.36 examples/s]Map:  45%|████▍     | 30172/67764 [00:29<00:37, 1006.97 examples/s]Map:  44%|████▍     | 29977/67764 [00:28<00:33, 1128.24 examples/s]Map:  44%|████▍     | 29881/67764 [00:29<00:35, 1074.75 examples/s]Map:  45%|████▍     | 30286/67764 [00:29<00:36, 1034.91 examples/s]Map:  43%|████▎     | 29000/67764 [00:27<00:40, 948.14 examples/s] Map:  44%|████▍     | 29994/67764 [00:29<00:34, 1088.72 examples/s]Map:  45%|████▍     | 30404/67764 [00:29<00:35, 1066.12 examples/s]Map:  43%|████▎     | 29109/67764 [00:27<00:39, 980.26 examples/s]Map:  44%|████▍     | 30110/67764 [00:28<00:39, 963.02 examples/s] Map:  43%|████▎     | 29213/67764 [00:27<00:38, 993.34 examples/s]Map:  45%|████▍     | 30220/67764 [00:28<00:37, 995.23 examples/s]Map:  44%|████▍     | 30111/67764 [00:29<00:40, 928.04 examples/s] Map:  45%|████▌     | 30563/67764 [00:29<00:35, 1059.85 examples/s]Map:  43%|████▎     | 29319/67764 [00:27<00:38, 1009.06 examples/s]Map:  45%|████▍     | 30330/67764 [00:28<00:36, 1019.74 examples/s]Map:  45%|████▍     | 30226/67764 [00:29<00:38, 981.58 examples/s]Map:  45%|████▌     | 30673/67764 [00:29<00:34, 1066.53 examples/s]Map:  43%|████▎     | 29431/67764 [00:27<00:36, 1036.76 examples/s]Map:  45%|████▍     | 30446/67764 [00:29<00:35, 1055.27 examples/s]Map:  45%|████▍     | 30338/67764 [00:29<00:36, 1015.59 examples/s]Map:  45%|████▌     | 30792/67764 [00:29<00:33, 1094.99 examples/s]Map:  44%|████▎     | 29542/67764 [00:28<00:36, 1052.08 examples/s]Map:  45%|████▌     | 30557/67764 [00:29<00:34, 1068.36 examples/s]Map:  45%|████▍     | 30454/67764 [00:29<00:35, 1054.05 examples/s]Map:  46%|████▌     | 30913/67764 [00:29<00:32, 1123.14 examples/s]Map:  44%|████▍     | 29652/67764 [00:28<00:35, 1062.93 examples/s]Map:  45%|████▌     | 30672/67764 [00:29<00:34, 1089.12 examples/s]Map:  45%|████▌     | 30568/67764 [00:30<00:34, 1073.34 examples/s]Map:  45%|████▌     | 30784/67764 [00:29<00:33, 1092.48 examples/s]Map:  45%|████▌     | 30682/67764 [00:30<00:34, 1090.35 examples/s]Map:  46%|████▌     | 31052/67764 [00:30<00:38, 943.61 examples/s] Map:  44%|████▍     | 29817/67764 [00:28<00:35, 1071.68 examples/s]Map:  46%|████▌     | 30898/67764 [00:29<00:33, 1103.28 examples/s]Map:  45%|████▌     | 30796/67764 [00:30<00:33, 1101.86 examples/s]Map:  46%|████▌     | 31169/67764 [00:30<00:36, 995.30 examples/s]Map:  44%|████▍     | 29931/67764 [00:28<00:34, 1084.88 examples/s]Map:  46%|████▌     | 30911/67764 [00:30<00:33, 1111.40 examples/s]Map:  46%|████▌     | 31279/67764 [00:30<00:35, 1017.88 examples/s]Map:  46%|████▌     | 31056/67764 [00:29<00:38, 957.88 examples/s] Map:  44%|████▍     | 30053/67764 [00:28<00:40, 924.75 examples/s] Map:  46%|████▋     | 31392/67764 [00:30<00:34, 1046.07 examples/s]Map:  46%|████▌     | 31169/67764 [00:29<00:36, 998.62 examples/s]Map:  46%|████▌     | 31050/67764 [00:30<00:38, 954.69 examples/s] Map:  45%|████▍     | 30168/67764 [00:28<00:38, 977.73 examples/s]Map:  46%|████▋     | 31505/67764 [00:30<00:34, 1066.24 examples/s]Map:  46%|████▌     | 31279/67764 [00:29<00:35, 1020.68 examples/s]Map:  46%|████▌     | 31165/67764 [00:30<00:36, 1001.58 examples/s]Map:  45%|████▍     | 30281/67764 [00:28<00:36, 1014.29 examples/s]Map:  47%|████▋     | 31621/67764 [00:30<00:33, 1090.99 examples/s]Map:  46%|████▋     | 31393/67764 [00:30<00:34, 1050.00 examples/s]Map:  46%|████▌     | 31277/67764 [00:30<00:35, 1030.87 examples/s]Map:  45%|████▍     | 30391/67764 [00:28<00:36, 1036.53 examples/s]Map:  47%|████▋     | 31788/67764 [00:30<00:32, 1095.27 examples/s]Map:  47%|████▋     | 31511/67764 [00:30<00:33, 1083.68 examples/s]Map:  46%|████▋     | 31397/67764 [00:30<00:33, 1074.91 examples/s]Map:  45%|████▌     | 30512/67764 [00:28<00:34, 1083.15 examples/s]Map:  47%|████▋     | 31902/67764 [00:30<00:32, 1101.61 examples/s]Map:  47%|████▋     | 31625/67764 [00:30<00:32, 1096.75 examples/s]Map:  47%|████▋     | 31514/67764 [00:30<00:32, 1098.51 examples/s]Map:  45%|████▌     | 30682/67764 [00:29<00:33, 1097.88 examples/s]Map:  47%|████▋     | 31794/67764 [00:30<00:32, 1106.35 examples/s]Map:  47%|████▋     | 31682/67764 [00:31<00:32, 1096.84 examples/s]Map:  47%|████▋     | 32053/67764 [00:31<00:37, 956.91 examples/s] Map:  46%|████▌     | 30850/67764 [00:29<00:33, 1102.94 examples/s]Map:  47%|████▋     | 31909/67764 [00:30<00:32, 1115.37 examples/s]Map:  47%|████▋     | 31797/67764 [00:31<00:32, 1108.90 examples/s]Map:  47%|████▋     | 32162/67764 [00:31<00:36, 986.70 examples/s]Map:  46%|████▌     | 30966/67764 [00:29<00:33, 1112.28 examples/s]Map:  48%|████▊     | 32271/67764 [00:31<00:35, 1012.36 examples/s]Map:  47%|████▋     | 31962/67764 [00:31<00:32, 1101.82 examples/s]Map:  47%|████▋     | 32051/67764 [00:30<00:37, 950.03 examples/s] Map:  48%|████▊     | 32388/67764 [00:31<00:33, 1050.64 examples/s]Map:  46%|████▌     | 31110/67764 [00:29<00:38, 957.50 examples/s] Map:  47%|████▋     | 32165/67764 [00:30<00:35, 992.71 examples/s]Map:  48%|████▊     | 32502/67764 [00:31<00:32, 1073.55 examples/s]Map:  47%|████▋     | 32112/67764 [00:31<00:36, 969.93 examples/s] Map:  46%|████▌     | 31221/67764 [00:29<00:36, 991.10 examples/s]Map:  48%|████▊     | 32281/67764 [00:30<00:34, 1031.88 examples/s]Map:  48%|████▊     | 32612/67764 [00:31<00:32, 1078.37 examples/s]Map:  48%|████▊     | 32218/67764 [00:31<00:35, 989.34 examples/s]Map:  46%|████▌     | 31330/67764 [00:29<00:36, 1012.05 examples/s]Map:  48%|████▊     | 32732/67764 [00:31<00:31, 1109.40 examples/s]Map:  48%|████▊     | 32450/67764 [00:31<00:33, 1062.18 examples/s]Map:  48%|████▊     | 32332/67764 [00:31<00:34, 1023.35 examples/s]Map:  46%|████▋     | 31440/67764 [00:29<00:35, 1031.59 examples/s]Map:  48%|████▊     | 32847/67764 [00:31<00:31, 1119.21 examples/s]Map:  48%|████▊     | 32562/67764 [00:31<00:32, 1074.64 examples/s]Map:  48%|████▊     | 32445/67764 [00:31<00:33, 1050.09 examples/s]Map:  47%|████▋     | 31548/67764 [00:29<00:34, 1042.29 examples/s]Map:  49%|████▊     | 32964/67764 [00:31<00:30, 1129.96 examples/s]Map:  48%|████▊     | 32557/67764 [00:31<00:33, 1066.23 examples/s]Map:  47%|████▋     | 31655/67764 [00:30<00:34, 1049.00 examples/s]Map:  48%|████▊     | 32727/67764 [00:31<00:32, 1080.93 examples/s]Map:  47%|████▋     | 31769/67764 [00:30<00:33, 1071.27 examples/s]Map:  48%|████▊     | 32840/67764 [00:31<00:32, 1090.37 examples/s]Map:  48%|████▊     | 32717/67764 [00:32<00:32, 1064.63 examples/s]Map:  49%|████▉     | 33103/67764 [00:32<00:36, 941.02 examples/s] Map:  47%|████▋     | 31881/67764 [00:30<00:33, 1080.49 examples/s]Map:  48%|████▊     | 32835/67764 [00:32<00:31, 1093.42 examples/s]Map:  49%|████▉     | 33216/67764 [00:32<00:35, 985.88 examples/s]Map:  47%|████▋     | 31992/67764 [00:30<00:32, 1086.81 examples/s]Map:  49%|████▊     | 33000/67764 [00:31<00:36, 940.16 examples/s] Map:  49%|████▉     | 33329/67764 [00:32<00:33, 1022.17 examples/s]Map:  49%|████▊     | 32999/67764 [00:32<00:31, 1091.81 examples/s]Map:  49%|████▉     | 33111/67764 [00:31<00:35, 975.67 examples/s]Map:  49%|████▉     | 33445/67764 [00:32<00:32, 1055.95 examples/s]Map:  47%|████▋     | 32110/67764 [00:30<00:38, 925.21 examples/s] Map:  49%|████▉     | 33218/67764 [00:31<00:34, 996.39 examples/s]Map:  50%|████▉     | 33563/67764 [00:32<00:31, 1087.76 examples/s]Map:  48%|████▊     | 32218/67764 [00:30<00:36, 961.53 examples/s]Map:  49%|████▉     | 33166/67764 [00:32<00:35, 967.34 examples/s] Map:  49%|████▉     | 33332/67764 [00:31<00:33, 1031.68 examples/s]Map:  50%|████▉     | 33677/67764 [00:32<00:31, 1099.14 examples/s]Map:  48%|████▊     | 32334/67764 [00:30<00:35, 1010.13 examples/s]Map:  49%|████▉     | 33278/67764 [00:32<00:34, 998.72 examples/s]Map:  49%|████▉     | 33448/67764 [00:31<00:32, 1062.73 examples/s]Map:  49%|████▉     | 33386/67764 [00:32<00:33, 1012.78 examples/s]Map:  50%|████▉     | 33848/67764 [00:32<00:30, 1110.84 examples/s]Map:  48%|████▊     | 32493/67764 [00:30<00:34, 1026.10 examples/s]Map:  50%|████▉     | 33566/67764 [00:32<00:31, 1093.25 examples/s]Map:  49%|████▉     | 33508/67764 [00:32<00:32, 1063.26 examples/s]Map:  50%|█████     | 33967/67764 [00:32<00:29, 1127.38 examples/s]Map:  48%|████▊     | 32606/67764 [00:31<00:33, 1048.97 examples/s]Map:  50%|████▉     | 33685/67764 [00:32<00:30, 1117.10 examples/s]Map:  48%|████▊     | 32719/67764 [00:31<00:32, 1069.47 examples/s]Map:  50%|████▉     | 33806/67764 [00:32<00:29, 1140.18 examples/s]Map:  50%|████▉     | 33675/67764 [00:32<00:31, 1078.29 examples/s]Map:  50%|█████     | 34109/67764 [00:33<00:34, 964.65 examples/s] Map:  50%|████▉     | 33788/67764 [00:33<00:31, 1089.93 examples/s]Map:  50%|█████     | 33922/67764 [00:32<00:29, 1143.21 examples/s]Map:  49%|████▊     | 32874/67764 [00:31<00:33, 1053.99 examples/s]Map:  51%|█████     | 34231/67764 [00:33<00:32, 1021.81 examples/s]Map:  50%|█████     | 33907/67764 [00:33<00:30, 1113.91 examples/s]Map:  49%|████▊     | 32982/67764 [00:31<00:32, 1054.81 examples/s]Map:  51%|█████     | 34341/67764 [00:33<00:32, 1039.50 examples/s]Map:  50%|█████     | 34055/67764 [00:32<00:35, 961.46 examples/s] Map:  51%|█████     | 34453/67764 [00:33<00:31, 1058.82 examples/s]Map:  50%|█████     | 34055/67764 [00:33<00:34, 986.81 examples/s] Map:  50%|█████     | 34171/67764 [00:32<00:33, 1008.13 examples/s]Map:  49%|████▉     | 33102/67764 [00:31<00:38, 900.45 examples/s] Map:  51%|█████     | 34565/67764 [00:33<00:30, 1073.80 examples/s]Map:  50%|█████     | 34164/67764 [00:33<00:33, 1009.96 examples/s]Map:  51%|█████     | 34282/67764 [00:32<00:32, 1030.82 examples/s]Map:  49%|████▉     | 33210/67764 [00:31<00:36, 942.82 examples/s]Map:  51%|█████     | 34676/67764 [00:33<00:30, 1083.02 examples/s]Map:  51%|█████     | 34271/67764 [00:33<00:32, 1022.00 examples/s]Map:  51%|█████     | 34398/67764 [00:32<00:31, 1063.81 examples/s]Map:  49%|████▉     | 33317/67764 [00:31<00:35, 971.11 examples/s]Map:  51%|█████▏    | 34796/67764 [00:33<00:29, 1112.45 examples/s]Map:  51%|█████     | 34379/67764 [00:33<00:32, 1035.15 examples/s]Map:  49%|████▉     | 33423/67764 [00:31<00:34, 991.00 examples/s]Map:  51%|█████     | 34560/67764 [00:33<00:31, 1064.21 examples/s]Map:  51%|█████     | 34496/67764 [00:33<00:31, 1067.39 examples/s]Map:  52%|█████▏    | 34955/67764 [00:33<00:30, 1084.89 examples/s]Map:  49%|████▉     | 33533/67764 [00:31<00:33, 1016.13 examples/s]Map:  51%|█████     | 34680/67764 [00:33<00:30, 1093.45 examples/s]Map:  51%|█████     | 34612/67764 [00:33<00:30, 1090.75 examples/s]Map:  50%|████▉     | 33641/67764 [00:32<00:33, 1031.40 examples/s]Map:  51%|█████▏    | 34796/67764 [00:33<00:29, 1109.99 examples/s]Map:  51%|█████     | 34729/67764 [00:33<00:29, 1110.56 examples/s]Map:  52%|█████▏    | 35108/67764 [00:33<00:34, 939.92 examples/s] Map:  52%|█████▏    | 34915/67764 [00:33<00:29, 1129.42 examples/s]Map:  50%|████▉     | 33797/67764 [00:32<00:32, 1031.70 examples/s]Map:  52%|█████▏    | 35223/67764 [00:34<00:33, 984.56 examples/s]Map:  51%|█████▏    | 34893/67764 [00:34<00:29, 1099.78 examples/s]Map:  50%|█████     | 33912/67764 [00:32<00:31, 1061.97 examples/s]Map:  52%|█████▏    | 35341/67764 [00:34<00:31, 1030.05 examples/s]Map:  52%|█████▏    | 35056/67764 [00:33<00:34, 961.15 examples/s] Map:  52%|█████▏    | 35450/67764 [00:34<00:30, 1044.71 examples/s]Map:  52%|█████▏    | 35168/67764 [00:33<00:32, 994.61 examples/s]Map:  52%|█████▏    | 35048/67764 [00:34<00:34, 954.28 examples/s] Map:  50%|█████     | 34056/67764 [00:32<00:36, 918.07 examples/s] Map:  52%|█████▏    | 35565/67764 [00:34<00:30, 1070.75 examples/s]Map:  52%|█████▏    | 35278/67764 [00:33<00:31, 1019.08 examples/s]Map:  52%|█████▏    | 35158/67764 [00:34<00:33, 984.67 examples/s]Map:  50%|█████     | 34164/67764 [00:32<00:35, 954.88 examples/s]Map:  53%|█████▎    | 35677/67764 [00:34<00:29, 1083.32 examples/s]Map:  52%|█████▏    | 35396/67764 [00:33<00:30, 1059.11 examples/s]Map:  52%|█████▏    | 35272/67764 [00:34<00:31, 1018.61 examples/s]Map:  51%|█████     | 34266/67764 [00:32<00:34, 969.03 examples/s]Map:  53%|█████▎    | 35789/67764 [00:34<00:29, 1091.31 examples/s]Map:  52%|█████▏    | 35511/67764 [00:33<00:29, 1079.49 examples/s]Map:  52%|█████▏    | 35382/67764 [00:34<00:31, 1037.61 examples/s]Map:  51%|█████     | 34369/67764 [00:32<00:33, 983.79 examples/s]Map:  53%|█████▎    | 35905/67764 [00:34<00:28, 1109.80 examples/s]Map:  53%|█████▎    | 35626/67764 [00:34<00:29, 1097.19 examples/s]Map:  52%|█████▏    | 35501/67764 [00:34<00:29, 1075.49 examples/s]Map:  51%|█████     | 34479/67764 [00:32<00:32, 1013.30 examples/s]Map:  53%|█████▎    | 35745/67764 [00:34<00:28, 1120.95 examples/s]Map:  53%|█████▎    | 35612/67764 [00:34<00:29, 1084.59 examples/s]Map:  51%|█████     | 34583/67764 [00:33<00:32, 1015.28 examples/s]Map:  53%|█████▎    | 36055/67764 [00:34<00:33, 948.51 examples/s] Map:  53%|█████▎    | 35914/67764 [00:34<00:28, 1119.45 examples/s]Map:  53%|█████▎    | 35775/67764 [00:34<00:29, 1081.26 examples/s]Map:  53%|█████▎    | 36172/67764 [00:34<00:31, 1001.79 examples/s]Map:  51%|█████▏    | 34742/67764 [00:33<00:32, 1028.34 examples/s]Map:  53%|█████▎    | 35890/67764 [00:35<00:29, 1094.77 examples/s]Map:  54%|█████▎    | 36281/67764 [00:35<00:30, 1020.77 examples/s]Map:  51%|█████▏    | 34850/67764 [00:33<00:31, 1039.62 examples/s]Map:  53%|█████▎    | 36051/67764 [00:34<00:33, 960.28 examples/s] Map:  54%|█████▎    | 36389/67764 [00:35<00:30, 1034.90 examples/s]Map:  52%|█████▏    | 34959/67764 [00:33<00:31, 1051.75 examples/s]Map:  53%|█████▎    | 36162/67764 [00:34<00:31, 993.85 examples/s]Map:  53%|█████▎    | 36057/67764 [00:35<00:32, 970.51 examples/s] Map:  54%|█████▍    | 36501/67764 [00:35<00:29, 1057.48 examples/s]Map:  54%|█████▎    | 36271/67764 [00:34<00:31, 1014.67 examples/s]Map:  53%|█████▎    | 36172/67764 [00:35<00:31, 1010.41 examples/s]Map:  54%|█████▍    | 36614/67764 [00:35<00:28, 1075.58 examples/s]Map:  52%|█████▏    | 35111/67764 [00:33<00:35, 923.70 examples/s] Map:  54%|█████▎    | 36378/67764 [00:34<00:30, 1025.72 examples/s]Map:  54%|█████▎    | 36283/67764 [00:35<00:30, 1034.15 examples/s]Map:  54%|█████▍    | 36732/67764 [00:35<00:28, 1102.62 examples/s]Map:  52%|█████▏    | 35214/67764 [00:33<00:34, 945.85 examples/s]Map:  54%|█████▍    | 36490/67764 [00:34<00:29, 1049.97 examples/s]Map:  54%|█████▎    | 36402/67764 [00:35<00:29, 1071.03 examples/s]Map:  54%|█████▍    | 36848/67764 [00:35<00:27, 1116.24 examples/s]Map:  52%|█████▏    | 35323/67764 [00:33<00:33, 977.72 examples/s]Map:  54%|█████▍    | 36597/67764 [00:34<00:29, 1052.64 examples/s]Map:  54%|█████▍    | 36517/67764 [00:35<00:28, 1090.77 examples/s]Map:  52%|█████▏    | 35436/67764 [00:33<00:31, 1016.38 examples/s]Map:  54%|█████▍    | 36713/67764 [00:35<00:28, 1078.03 examples/s]Map:  55%|█████▍    | 37000/67764 [00:35<00:32, 960.05 examples/s] Map:  52%|█████▏    | 35543/67764 [00:33<00:31, 1025.82 examples/s]Map:  54%|█████▍    | 36683/67764 [00:35<00:28, 1087.65 examples/s]Map:  54%|█████▍    | 36827/67764 [00:35<00:28, 1093.14 examples/s]Map:  55%|█████▍    | 37109/67764 [00:35<00:30, 990.84 examples/s]Map:  53%|█████▎    | 35649/67764 [00:34<00:31, 1033.54 examples/s]Map:  54%|█████▍    | 36799/67764 [00:35<00:28, 1104.56 examples/s]Map:  55%|█████▍    | 36938/67764 [00:35<00:28, 1091.90 examples/s]Map:  55%|█████▍    | 37222/67764 [00:35<00:29, 1024.06 examples/s]Map:  53%|█████▎    | 35799/67764 [00:34<00:31, 1017.14 examples/s]Map:  55%|█████▍    | 36964/67764 [00:36<00:28, 1097.22 examples/s]Map:  55%|█████▌    | 37338/67764 [00:36<00:28, 1054.65 examples/s]Map:  55%|█████▍    | 37054/67764 [00:35<00:33, 915.39 examples/s] Map:  53%|█████▎    | 35907/67764 [00:34<00:30, 1032.95 examples/s]Map:  55%|█████▌    | 37448/67764 [00:36<00:28, 1065.30 examples/s]Map:  55%|█████▍    | 37173/67764 [00:35<00:31, 983.89 examples/s]Map:  55%|█████▍    | 37116/67764 [00:36<00:31, 971.02 examples/s] Map:  55%|█████▌    | 37565/67764 [00:36<00:27, 1093.32 examples/s]Map:  55%|█████▌    | 37287/67764 [00:35<00:29, 1021.93 examples/s]Map:  53%|█████▎    | 36053/67764 [00:34<00:35, 897.05 examples/s] Map:  55%|█████▍    | 37236/67764 [00:36<00:29, 1020.93 examples/s]Map:  56%|█████▌    | 37679/67764 [00:36<00:27, 1105.70 examples/s]Map:  53%|█████▎    | 36168/67764 [00:34<00:33, 955.19 examples/s]Map:  55%|█████▌    | 37451/67764 [00:35<00:29, 1045.22 examples/s]Map:  55%|█████▌    | 37350/67764 [00:36<00:29, 1047.14 examples/s]Map:  56%|█████▌    | 37841/67764 [00:36<00:27, 1093.28 examples/s]Map:  54%|█████▎    | 36271/67764 [00:34<00:32, 971.01 examples/s]Map:  55%|█████▌    | 37571/67764 [00:35<00:27, 1082.06 examples/s]Map:  55%|█████▌    | 37463/67764 [00:36<00:28, 1066.42 examples/s]Map:  56%|█████▌    | 37961/67764 [00:36<00:26, 1120.23 examples/s]Map:  54%|█████▎    | 36381/67764 [00:34<00:31, 1003.00 examples/s]Map:  56%|█████▌    | 37686/67764 [00:36<00:27, 1099.54 examples/s]Map:  56%|█████▌    | 37626/67764 [00:36<00:28, 1070.28 examples/s]Map:  54%|█████▍    | 36490/67764 [00:34<00:30, 1023.61 examples/s]Map:  56%|█████▌    | 37798/67764 [00:36<00:27, 1102.55 examples/s]Map:  56%|█████▌    | 38111/67764 [00:36<00:30, 972.18 examples/s] Map:  54%|█████▍    | 36598/67764 [00:35<00:30, 1034.36 examples/s]Map:  56%|█████▌    | 37914/67764 [00:36<00:26, 1114.10 examples/s]Map:  56%|█████▌    | 37785/67764 [00:36<00:28, 1063.53 examples/s]Map:  56%|█████▋    | 38224/67764 [00:36<00:29, 1008.56 examples/s]Map:  54%|█████▍    | 36752/67764 [00:35<00:30, 1028.70 examples/s]Map:  56%|█████▌    | 37947/67764 [00:37<00:27, 1064.95 examples/s]Map:  57%|█████▋    | 38330/67764 [00:37<00:28, 1020.02 examples/s]Map:  56%|█████▌    | 38057/67764 [00:36<00:31, 949.37 examples/s] Map:  54%|█████▍    | 36861/67764 [00:35<00:29, 1040.15 examples/s]Map:  57%|█████▋    | 38441/67764 [00:37<00:28, 1041.18 examples/s]Map:  56%|█████▋    | 38173/67764 [00:36<00:29, 998.64 examples/s]Map:  55%|█████▍    | 36973/67764 [00:35<00:29, 1059.46 examples/s]Map:  57%|█████▋    | 38553/67764 [00:37<00:27, 1059.50 examples/s]Map:  56%|█████▌    | 38103/67764 [00:37<00:31, 927.87 examples/s] Map:  57%|█████▋    | 38330/67764 [00:36<00:29, 1010.83 examples/s]Map:  57%|█████▋    | 38665/67764 [00:37<00:27, 1075.55 examples/s]Map:  56%|█████▋    | 38214/67764 [00:37<00:30, 964.95 examples/s]Map:  55%|█████▍    | 37106/67764 [00:35<00:34, 899.27 examples/s] Map:  57%|█████▋    | 38442/67764 [00:36<00:28, 1036.14 examples/s]Map:  57%|█████▋    | 38783/67764 [00:37<00:26, 1102.47 examples/s]Map:  57%|█████▋    | 38319/67764 [00:37<00:30, 980.83 examples/s]Map:  55%|█████▍    | 37221/67764 [00:35<00:31, 958.23 examples/s]Map:  57%|█████▋    | 38559/67764 [00:36<00:27, 1067.35 examples/s]Map:  57%|█████▋    | 38896/67764 [00:37<00:26, 1107.64 examples/s]Map:  57%|█████▋    | 38433/67764 [00:37<00:28, 1017.43 examples/s]Map:  55%|█████▌    | 37338/67764 [00:35<00:30, 1007.00 examples/s]Map:  57%|█████▋    | 38674/67764 [00:36<00:26, 1086.15 examples/s]Map:  57%|█████▋    | 38548/67764 [00:37<00:27, 1050.04 examples/s]Map:  55%|█████▌    | 37454/67764 [00:35<00:29, 1045.03 examples/s]Map:  57%|█████▋    | 38788/67764 [00:37<00:26, 1094.03 examples/s]Map:  58%|█████▊    | 39055/67764 [00:37<00:30, 945.57 examples/s] Map:  57%|█████▋    | 38662/67764 [00:37<00:27, 1071.62 examples/s]Map:  55%|█████▌    | 37570/67764 [00:35<00:28, 1073.23 examples/s]Map:  57%|█████▋    | 38902/67764 [00:37<00:26, 1103.64 examples/s]Map:  58%|█████▊    | 39175/67764 [00:37<00:28, 1003.30 examples/s]Map:  57%|█████▋    | 38829/67764 [00:37<00:26, 1084.16 examples/s]Map:  56%|█████▌    | 37682/67764 [00:36<00:27, 1085.48 examples/s]Map:  58%|█████▊    | 39293/67764 [00:37<00:27, 1046.15 examples/s]Map:  57%|█████▋    | 38943/67764 [00:38<00:26, 1096.53 examples/s]Map:  56%|█████▌    | 37793/67764 [00:36<00:27, 1090.75 examples/s]Map:  58%|█████▊    | 39055/67764 [00:37<00:30, 949.96 examples/s] Map:  58%|█████▊    | 39410/67764 [00:38<00:26, 1076.08 examples/s]Map:  56%|█████▌    | 37904/67764 [00:36<00:27, 1094.55 examples/s]Map:  58%|█████▊    | 39175/67764 [00:37<00:28, 1006.83 examples/s]Map:  58%|█████▊    | 39527/67764 [00:38<00:25, 1098.32 examples/s]Map:  58%|█████▊    | 39054/67764 [00:38<00:30, 939.88 examples/s] Map:  58%|█████▊    | 39286/67764 [00:37<00:27, 1030.88 examples/s]Map:  59%|█████▊    | 39649/67764 [00:38<00:24, 1129.27 examples/s]Map:  58%|█████▊    | 39173/67764 [00:38<00:28, 1000.77 examples/s]Map:  56%|█████▌    | 38054/67764 [00:36<00:30, 963.24 examples/s] Map:  58%|█████▊    | 39399/67764 [00:37<00:26, 1056.01 examples/s]Map:  58%|█████▊    | 39288/67764 [00:38<00:27, 1037.49 examples/s]Map:  56%|█████▋    | 38164/67764 [00:36<00:29, 993.60 examples/s]Map:  59%|█████▉    | 39816/67764 [00:38<00:24, 1118.91 examples/s]Map:  58%|█████▊    | 39512/67764 [00:37<00:26, 1071.99 examples/s]Map:  58%|█████▊    | 39399/67764 [00:38<00:26, 1055.37 examples/s]Map:  56%|█████▋    | 38270/67764 [00:36<00:29, 1007.04 examples/s]Map:  59%|█████▉    | 39985/67764 [00:38<00:24, 1117.93 examples/s]Map:  58%|█████▊    | 39512/67764 [00:38<00:26, 1072.96 examples/s]Map:  59%|█████▊    | 39676/67764 [00:37<00:26, 1076.79 examples/s]Map:  57%|█████▋    | 38380/67764 [00:36<00:28, 1029.93 examples/s]Map:  58%|█████▊    | 39625/67764 [00:38<00:25, 1088.74 examples/s]Map:  59%|█████▊    | 39793/67764 [00:38<00:25, 1097.35 examples/s]Map:  57%|█████▋    | 38495/67764 [00:36<00:27, 1059.57 examples/s]Map:  59%|█████▉    | 40109/67764 [00:38<00:28, 977.50 examples/s] Map:  59%|█████▊    | 39744/67764 [00:38<00:25, 1115.65 examples/s]Map:  59%|█████▉    | 39916/67764 [00:38<00:24, 1131.03 examples/s]Map:  57%|█████▋    | 38608/67764 [00:36<00:27, 1076.36 examples/s]Map:  59%|█████▉    | 40223/67764 [00:38<00:27, 1013.53 examples/s]Map:  59%|█████▉    | 39859/67764 [00:38<00:24, 1122.80 examples/s]Map:  60%|█████▉    | 40343/67764 [00:38<00:25, 1057.82 examples/s]Map:  57%|█████▋    | 38769/67764 [00:37<00:27, 1072.84 examples/s]Map:  59%|█████▉    | 40054/67764 [00:38<00:28, 972.03 examples/s] Map:  60%|█████▉    | 40457/67764 [00:39<00:25, 1076.49 examples/s]Map:  57%|█████▋    | 38883/67764 [00:37<00:26, 1088.10 examples/s]Map:  59%|█████▉    | 40000/67764 [00:39<00:28, 959.59 examples/s] Map:  59%|█████▉    | 40165/67764 [00:38<00:27, 1002.99 examples/s]Map:  60%|█████▉    | 40571/67764 [00:39<00:24, 1090.99 examples/s]Map:  58%|█████▊    | 38996/67764 [00:37<00:26, 1093.78 examples/s]Map:  59%|█████▉    | 40115/67764 [00:39<00:27, 1005.57 examples/s]Map:  59%|█████▉    | 40278/67764 [00:38<00:26, 1034.11 examples/s]Map:  60%|██████    | 40692/67764 [00:39<00:24, 1121.79 examples/s]Map:  59%|█████▉    | 40228/67764 [00:39<00:26, 1035.09 examples/s]Map:  60%|█████▉    | 40393/67764 [00:38<00:25, 1063.34 examples/s]Map:  58%|█████▊    | 39114/67764 [00:37<00:30, 944.24 examples/s] Map:  60%|██████    | 40812/67764 [00:39<00:23, 1141.78 examples/s]Map:  60%|█████▉    | 40344/67764 [00:39<00:25, 1066.86 examples/s]Map:  60%|█████▉    | 40512/67764 [00:38<00:24, 1095.91 examples/s]Map:  58%|█████▊    | 39229/67764 [00:37<00:28, 993.15 examples/s]Map:  60%|██████    | 40934/67764 [00:39<00:23, 1161.73 examples/s]Map:  60%|█████▉    | 40627/67764 [00:38<00:24, 1108.64 examples/s]Map:  60%|█████▉    | 40505/67764 [00:39<00:25, 1064.47 examples/s]Map:  58%|█████▊    | 39339/67764 [00:37<00:27, 1018.34 examples/s]Map:  60%|█████▉    | 40620/67764 [00:39<00:25, 1082.66 examples/s]Map:  58%|█████▊    | 39450/67764 [00:37<00:27, 1040.46 examples/s]Map:  60%|██████    | 40794/67764 [00:38<00:24, 1103.91 examples/s]Map:  61%|██████    | 41107/67764 [00:39<00:26, 988.51 examples/s] Map:  60%|██████    | 40736/67764 [00:39<00:24, 1098.68 examples/s]Map:  58%|█████▊    | 39564/67764 [00:37<00:26, 1062.21 examples/s]Map:  60%|██████    | 40907/67764 [00:39<00:24, 1109.08 examples/s]Map:  61%|██████    | 41223/67764 [00:39<00:25, 1026.99 examples/s]Map:  60%|██████    | 40849/67764 [00:39<00:24, 1103.76 examples/s]Map:  61%|██████    | 41335/67764 [00:39<00:25, 1045.09 examples/s]Map:  59%|█████▊    | 39720/67764 [00:38<00:26, 1052.01 examples/s]Map:  60%|██████    | 40964/67764 [00:39<00:24, 1114.06 examples/s]Map:  61%|██████    | 41054/67764 [00:39<00:28, 950.77 examples/s] Map:  61%|██████    | 41448/67764 [00:39<00:24, 1066.22 examples/s]Map:  59%|█████▉    | 39836/67764 [00:38<00:25, 1076.10 examples/s]Map:  61%|██████    | 41169/67764 [00:39<00:26, 995.65 examples/s]Map:  61%|██████▏   | 41562/67764 [00:40<00:24, 1083.69 examples/s]Map:  61%|██████    | 41110/67764 [00:40<00:27, 966.70 examples/s] Map:  59%|█████▉    | 39999/67764 [00:38<00:25, 1076.64 examples/s]Map:  61%|██████    | 41283/67764 [00:39<00:25, 1030.38 examples/s]Map:  62%|██████▏   | 41676/67764 [00:40<00:23, 1094.68 examples/s]Map:  61%|██████    | 41222/67764 [00:40<00:26, 1003.30 examples/s]Map:  61%|██████    | 41392/67764 [00:39<00:25, 1041.60 examples/s]Map:  62%|██████▏   | 41795/67764 [00:40<00:23, 1119.46 examples/s]Map:  59%|█████▉    | 40112/67764 [00:38<00:29, 932.36 examples/s] Map:  61%|██████    | 41329/67764 [00:40<00:25, 1017.43 examples/s]Map:  61%|██████    | 41505/67764 [00:39<00:24, 1061.70 examples/s]Map:  59%|█████▉    | 40226/67764 [00:38<00:28, 978.05 examples/s]Map:  62%|██████▏   | 41969/67764 [00:40<00:22, 1130.15 examples/s]Map:  61%|██████    | 41438/67764 [00:40<00:25, 1034.69 examples/s]Map:  61%|██████▏   | 41618/67764 [00:39<00:24, 1077.70 examples/s]Map:  60%|█████▉    | 40338/67764 [00:38<00:27, 1012.65 examples/s]Map:  61%|██████▏   | 41554/67764 [00:40<00:24, 1068.51 examples/s]Map:  62%|██████▏   | 41786/67764 [00:39<00:23, 1087.99 examples/s]Map:  62%|██████▏   | 42109/67764 [00:40<00:26, 977.43 examples/s] Map:  60%|█████▉    | 40447/67764 [00:38<00:26, 1031.81 examples/s]Map:  61%|██████▏   | 41667/67764 [00:40<00:24, 1079.41 examples/s]Map:  62%|██████▏   | 41902/67764 [00:40<00:23, 1104.49 examples/s]Map:  62%|██████▏   | 42226/67764 [00:40<00:25, 1020.10 examples/s]Map:  60%|█████▉    | 40555/67764 [00:38<00:26, 1042.38 examples/s]Map:  62%|██████▏   | 41781/67764 [00:40<00:23, 1091.05 examples/s]Map:  62%|██████▏   | 42336/67764 [00:40<00:24, 1038.26 examples/s]Map:  60%|██████    | 40668/67764 [00:38<00:25, 1061.46 examples/s]Map:  62%|██████▏   | 41947/67764 [00:40<00:23, 1090.96 examples/s]Map:  62%|██████▏   | 42056/67764 [00:40<00:27, 951.14 examples/s] Map:  63%|██████▎   | 42449/67764 [00:40<00:23, 1061.33 examples/s]Map:  60%|██████    | 40779/67764 [00:39<00:25, 1070.92 examples/s]Map:  62%|██████▏   | 42174/67764 [00:40<00:25, 1001.83 examples/s]Map:  63%|██████▎   | 42561/67764 [00:41<00:23, 1074.88 examples/s]Map:  60%|██████    | 40894/67764 [00:39<00:24, 1090.81 examples/s]Map:  62%|██████▏   | 42106/67764 [00:41<00:27, 939.80 examples/s] Map:  62%|██████▏   | 42288/67764 [00:40<00:24, 1035.09 examples/s]Map:  63%|██████▎   | 42678/67764 [00:41<00:22, 1098.12 examples/s]Map:  62%|██████▏   | 42219/67764 [00:41<00:26, 979.54 examples/s]Map:  63%|██████▎   | 42400/67764 [00:40<00:24, 1056.32 examples/s]Map:  63%|██████▎   | 42798/67764 [00:41<00:22, 1126.26 examples/s]Map:  61%|██████    | 41053/67764 [00:39<00:28, 947.63 examples/s] Map:  62%|██████▏   | 42336/67764 [00:41<00:24, 1024.84 examples/s]Map:  63%|██████▎   | 42519/67764 [00:40<00:23, 1089.75 examples/s]Map:  61%|██████    | 41168/67764 [00:39<00:26, 995.22 examples/s]Map:  63%|██████▎   | 42962/67764 [00:41<00:22, 1107.56 examples/s]Map:  63%|██████▎   | 42449/67764 [00:41<00:24, 1050.49 examples/s]Map:  63%|██████▎   | 42636/67764 [00:40<00:22, 1108.54 examples/s]Map:  61%|██████    | 41284/67764 [00:39<00:25, 1033.94 examples/s]Map:  63%|██████▎   | 42563/67764 [00:41<00:23, 1070.75 examples/s]Map:  61%|██████    | 41393/67764 [00:39<00:25, 1047.92 examples/s]Map:  64%|██████▎   | 43112/67764 [00:41<00:25, 970.07 examples/s] Map:  63%|██████▎   | 42809/67764 [00:40<00:22, 1122.29 examples/s]Map:  63%|██████▎   | 42675/67764 [00:41<00:23, 1079.59 examples/s]Map:  61%|██████▏   | 41507/67764 [00:39<00:24, 1068.59 examples/s]Map:  64%|██████▍   | 43227/67764 [00:41<00:24, 1010.13 examples/s]Map:  63%|██████▎   | 42924/67764 [00:40<00:22, 1126.09 examples/s]Map:  63%|██████▎   | 42790/67764 [00:41<00:22, 1094.93 examples/s]Map:  64%|██████▍   | 43344/67764 [00:41<00:23, 1047.48 examples/s]Map:  61%|██████▏   | 41669/67764 [00:39<00:24, 1067.10 examples/s]Map:  63%|██████▎   | 42904/67764 [00:41<00:22, 1099.94 examples/s]Map:  64%|██████▎   | 43056/67764 [00:41<00:25, 967.42 examples/s] Map:  64%|██████▍   | 43456/67764 [00:41<00:22, 1064.66 examples/s]Map:  62%|██████▏   | 41778/67764 [00:40<00:24, 1070.03 examples/s]Map:  64%|██████▎   | 43165/67764 [00:41<00:24, 995.72 examples/s]Map:  62%|██████▏   | 41888/67764 [00:40<00:24, 1075.84 examples/s]Map:  64%|██████▎   | 43055/67764 [00:42<00:26, 934.84 examples/s] Map:  64%|██████▍   | 43616/67764 [00:42<00:22, 1061.70 examples/s]Map:  64%|██████▍   | 43277/67764 [00:41<00:23, 1023.18 examples/s]Map:  64%|██████▎   | 43170/67764 [00:42<00:24, 985.35 examples/s]Map:  65%|██████▍   | 43728/67764 [00:42<00:22, 1073.47 examples/s]Map:  62%|██████▏   | 42000/67764 [00:40<00:27, 925.85 examples/s] Map:  64%|██████▍   | 43390/67764 [00:41<00:23, 1049.49 examples/s]Map:  64%|██████▍   | 43290/67764 [00:42<00:23, 1037.01 examples/s]Map:  65%|██████▍   | 43837/67764 [00:42<00:22, 1076.37 examples/s]Map:  62%|██████▏   | 42113/67764 [00:40<00:26, 976.17 examples/s]Map:  64%|██████▍   | 43509/67764 [00:41<00:22, 1087.49 examples/s]Map:  64%|██████▍   | 43405/67764 [00:42<00:22, 1065.63 examples/s]Map:  65%|██████▍   | 43950/67764 [00:42<00:21, 1090.42 examples/s]Map:  62%|██████▏   | 42230/67764 [00:40<00:24, 1025.29 examples/s]Map:  64%|██████▍   | 43621/67764 [00:41<00:22, 1093.38 examples/s]Map:  64%|██████▍   | 43521/67764 [00:42<00:22, 1091.23 examples/s]Map:  62%|██████▏   | 42344/67764 [00:40<00:24, 1053.04 examples/s]Map:  65%|██████▍   | 43738/67764 [00:41<00:21, 1110.62 examples/s]Map:  64%|██████▍   | 43637/67764 [00:42<00:21, 1108.38 examples/s]Map:  65%|██████▌   | 44112/67764 [00:42<00:24, 949.68 examples/s] Map:  63%|██████▎   | 42453/67764 [00:40<00:23, 1059.42 examples/s]Map:  65%|██████▍   | 43851/67764 [00:41<00:21, 1113.00 examples/s]Map:  65%|██████▍   | 43750/67764 [00:42<00:21, 1112.44 examples/s]Map:  65%|██████▌   | 44222/67764 [00:42<00:23, 983.28 examples/s]Map:  63%|██████▎   | 42565/67764 [00:40<00:23, 1070.69 examples/s]Map:  65%|██████▍   | 43969/67764 [00:41<00:21, 1126.05 examples/s]Map:  65%|██████▌   | 44331/67764 [00:42<00:23, 1009.97 examples/s]Map:  63%|██████▎   | 42678/67764 [00:40<00:23, 1086.84 examples/s]Map:  65%|██████▍   | 43915/67764 [00:42<00:21, 1105.95 examples/s]Map:  66%|██████▌   | 44443/67764 [00:42<00:22, 1038.24 examples/s]Map:  65%|██████▌   | 44109/67764 [00:42<00:24, 953.25 examples/s] Map:  63%|██████▎   | 42790/67764 [00:41<00:22, 1092.97 examples/s]Map:  66%|██████▌   | 44553/67764 [00:42<00:22, 1052.10 examples/s]Map:  65%|██████▌   | 44051/67764 [00:42<00:24, 968.39 examples/s] Map:  65%|██████▌   | 44221/67764 [00:42<00:23, 990.90 examples/s]Map:  63%|██████▎   | 42909/67764 [00:41<00:22, 1117.89 examples/s]Map:  66%|██████▌   | 44669/67764 [00:43<00:21, 1080.19 examples/s]Map:  65%|██████▌   | 44161/67764 [00:43<00:23, 998.60 examples/s]Map:  65%|██████▌   | 44339/67764 [00:42<00:22, 1038.18 examples/s]Map:  65%|██████▌   | 44271/67764 [00:43<00:22, 1022.77 examples/s]Map:  64%|██████▎   | 43056/67764 [00:41<00:25, 950.67 examples/s] Map:  66%|██████▌   | 44447/67764 [00:42<00:22, 1045.67 examples/s]Map:  66%|██████▌   | 44826/67764 [00:43<00:21, 1066.32 examples/s]Map:  65%|██████▌   | 44382/67764 [00:43<00:22, 1044.75 examples/s]Map:  64%|██████▎   | 43170/67764 [00:41<00:24, 996.77 examples/s]Map:  66%|██████▌   | 44564/67764 [00:42<00:21, 1075.37 examples/s]Map:  66%|██████▋   | 44988/67764 [00:43<00:21, 1068.00 examples/s]Map:  66%|██████▌   | 44503/67764 [00:43<00:21, 1088.45 examples/s]Map:  64%|██████▍   | 43278/67764 [00:41<00:24, 1017.40 examples/s]Map:  66%|██████▌   | 44676/67764 [00:42<00:21, 1087.63 examples/s]Map:  66%|██████▌   | 44618/67764 [00:43<00:20, 1104.33 examples/s]Map:  64%|██████▍   | 43393/67764 [00:41<00:23, 1051.23 examples/s]Map:  66%|██████▌   | 44791/67764 [00:42<00:20, 1102.64 examples/s]Map:  67%|██████▋   | 45106/67764 [00:43<00:24, 925.43 examples/s] Map:  64%|██████▍   | 43505/67764 [00:41<00:22, 1068.44 examples/s]Map:  66%|██████▌   | 44783/67764 [00:43<00:20, 1096.71 examples/s]Map:  67%|██████▋   | 45218/67764 [00:43<00:23, 969.41 examples/s]Map:  66%|██████▋   | 44949/67764 [00:42<00:21, 1077.14 examples/s]Map:  64%|██████▍   | 43622/67764 [00:41<00:22, 1092.80 examples/s]Map:  67%|██████▋   | 45334/67764 [00:43<00:22, 1012.78 examples/s]Map:  66%|██████▋   | 44943/67764 [00:43<00:21, 1080.95 examples/s]Map:  65%|██████▍   | 43738/67764 [00:41<00:21, 1110.60 examples/s]Map:  67%|██████▋   | 45452/67764 [00:43<00:21, 1051.90 examples/s]Map:  67%|██████▋   | 45114/67764 [00:43<00:23, 946.80 examples/s] Map:  65%|██████▍   | 43853/67764 [00:42<00:21, 1118.94 examples/s]Map:  67%|██████▋   | 45567/67764 [00:43<00:20, 1071.56 examples/s]Map:  66%|██████▋   | 45054/67764 [00:43<00:24, 941.86 examples/s] Map:  67%|██████▋   | 45226/67764 [00:43<00:22, 984.31 examples/s]Map:  67%|██████▋   | 45684/67764 [00:44<00:20, 1097.38 examples/s]Map:  67%|██████▋   | 45162/67764 [00:44<00:23, 970.17 examples/s]Map:  67%|██████▋   | 45344/67764 [00:43<00:21, 1029.94 examples/s]Map:  65%|██████▍   | 44000/67764 [00:42<00:24, 957.14 examples/s] Map:  68%|██████▊   | 45799/67764 [00:44<00:19, 1107.93 examples/s]Map:  67%|██████▋   | 45271/67764 [00:44<00:22, 997.56 examples/s]Map:  67%|██████▋   | 45455/67764 [00:43<00:21, 1048.78 examples/s]Map:  65%|██████▌   | 44112/67764 [00:42<00:23, 995.91 examples/s]Map:  67%|██████▋   | 45388/67764 [00:44<00:21, 1039.50 examples/s]Map:  67%|██████▋   | 45575/67764 [00:43<00:20, 1086.85 examples/s]Map:  65%|██████▌   | 44226/67764 [00:42<00:22, 1031.51 examples/s]Map:  68%|██████▊   | 45963/67764 [00:44<00:19, 1096.88 examples/s]Map:  67%|██████▋   | 45495/67764 [00:44<00:21, 1044.27 examples/s]Map:  65%|██████▌   | 44336/67764 [00:42<00:22, 1048.08 examples/s]Map:  68%|██████▊   | 45745/67764 [00:43<00:20, 1098.03 examples/s]Map:  67%|██████▋   | 45605/67764 [00:44<00:20, 1058.44 examples/s]Map:  66%|██████▌   | 44450/67764 [00:42<00:21, 1071.21 examples/s]Map:  68%|██████▊   | 46113/67764 [00:44<00:22, 955.66 examples/s] Map:  68%|██████▊   | 45861/67764 [00:43<00:19, 1110.84 examples/s]Map:  67%|██████▋   | 45721/67764 [00:44<00:20, 1084.08 examples/s]Map:  66%|██████▌   | 44561/67764 [00:42<00:21, 1080.43 examples/s]Map:  68%|██████▊   | 46228/67764 [00:44<00:21, 999.31 examples/s]Map:  66%|██████▌   | 44671/67764 [00:42<00:21, 1084.68 examples/s]Map:  68%|██████▊   | 46346/67764 [00:44<00:20, 1041.23 examples/s]Map:  68%|██████▊   | 46000/67764 [00:43<00:22, 946.36 examples/s] Map:  68%|██████▊   | 45883/67764 [00:44<00:20, 1077.67 examples/s]Map:  69%|██████▊   | 46457/67764 [00:44<00:20, 1056.72 examples/s]Map:  68%|██████▊   | 46115/67764 [00:44<00:21, 993.18 examples/s]Map:  68%|██████▊   | 45997/67764 [00:44<00:19, 1091.32 examples/s]Map:  66%|██████▌   | 44835/67764 [00:42<00:21, 1084.35 examples/s]Map:  69%|██████▊   | 46572/67764 [00:44<00:19, 1078.29 examples/s]Map:  68%|██████▊   | 46231/67764 [00:44<00:20, 1032.77 examples/s]Map:  66%|██████▋   | 44945/67764 [00:43<00:21, 1082.82 examples/s]Map:  68%|██████▊   | 46108/67764 [00:44<00:23, 932.56 examples/s] Map:  69%|██████▉   | 46689/67764 [00:44<00:19, 1101.28 examples/s]Map:  68%|██████▊   | 46346/67764 [00:44<00:20, 1061.79 examples/s]Map:  68%|██████▊   | 46222/67764 [00:45<00:21, 981.31 examples/s]Map:  69%|██████▉   | 46807/67764 [00:45<00:18, 1121.32 examples/s]Map:  69%|██████▊   | 46463/67764 [00:44<00:19, 1087.89 examples/s]Map:  67%|██████▋   | 45110/67764 [00:43<00:23, 953.15 examples/s] Map:  68%|██████▊   | 46339/67764 [00:45<00:20, 1028.33 examples/s]Map:  69%|██████▊   | 46577/67764 [00:44<00:19, 1099.61 examples/s]Map:  67%|██████▋   | 45226/67764 [00:43<00:22, 999.33 examples/s]Map:  69%|██████▉   | 46975/67764 [00:45<00:18, 1117.88 examples/s]Map:  69%|██████▊   | 46453/67764 [00:45<00:20, 1055.92 examples/s]Map:  67%|██████▋   | 45338/67764 [00:43<00:21, 1027.65 examples/s]Map:  69%|██████▉   | 46745/67764 [00:44<00:19, 1101.09 examples/s]Map:  69%|██████▊   | 46567/67764 [00:45<00:19, 1075.65 examples/s]Map:  70%|██████▉   | 47109/67764 [00:45<00:21, 965.15 examples/s] Map:  69%|██████▉   | 46864/67764 [00:44<00:18, 1116.56 examples/s]Map:  69%|██████▉   | 46679/67764 [00:45<00:19, 1087.24 examples/s]Map:  67%|██████▋   | 45496/67764 [00:43<00:21, 1033.38 examples/s]Map:  70%|██████▉   | 47223/67764 [00:45<00:20, 1003.49 examples/s]Map:  67%|██████▋   | 45609/67764 [00:43<00:20, 1055.71 examples/s]Map:  69%|██████▉   | 46839/67764 [00:45<00:19, 1073.71 examples/s]Map:  70%|██████▉   | 47335/67764 [00:45<00:19, 1031.91 examples/s]Map:  69%|██████▉   | 47000/67764 [00:44<00:21, 955.39 examples/s] Map:  67%|██████▋   | 45721/67764 [00:43<00:20, 1068.48 examples/s]Map:  70%|███████   | 47450/67764 [00:45<00:19, 1061.27 examples/s]Map:  70%|██████▉   | 47114/67764 [00:45<00:20, 997.40 examples/s]Map:  68%|██████▊   | 45837/67764 [00:43<00:20, 1087.05 examples/s]Map:  69%|██████▉   | 47000/67764 [00:45<00:21, 949.38 examples/s] Map:  70%|███████   | 47564/67764 [00:45<00:18, 1079.69 examples/s]Map:  70%|██████▉   | 47230/67764 [00:45<00:19, 1037.05 examples/s]Map:  68%|██████▊   | 45952/67764 [00:44<00:19, 1102.44 examples/s]Map:  70%|██████▉   | 47118/67764 [00:45<00:20, 1000.50 examples/s]Map:  70%|███████   | 47678/67764 [00:45<00:18, 1094.58 examples/s]Map:  70%|██████▉   | 47344/67764 [00:45<00:19, 1062.92 examples/s]Map:  70%|██████▉   | 47232/67764 [00:46<00:19, 1032.25 examples/s]Map:  71%|███████   | 47794/67764 [00:46<00:17, 1110.08 examples/s]Map:  70%|███████   | 47510/67764 [00:45<00:18, 1073.84 examples/s]Map:  68%|██████▊   | 46107/67764 [00:44<00:23, 936.73 examples/s] Map:  70%|██████▉   | 47342/67764 [00:46<00:19, 1048.27 examples/s]Map:  71%|███████   | 47914/67764 [00:46<00:17, 1130.90 examples/s]Map:  70%|███████   | 47623/67764 [00:45<00:18, 1085.30 examples/s]Map:  68%|██████▊   | 46220/67764 [00:44<00:22, 978.66 examples/s]Map:  70%|███████   | 47457/67764 [00:46<00:18, 1072.91 examples/s]Map:  70%|███████   | 47739/67764 [00:45<00:18, 1104.70 examples/s]Map:  71%|███████   | 48053/67764 [00:46<00:20, 965.83 examples/s] Map:  68%|██████▊   | 46377/67764 [00:44<00:21, 994.94 examples/s]Map:  70%|███████   | 47623/67764 [00:46<00:18, 1083.28 examples/s]Map:  71%|███████   | 47855/67764 [00:45<00:17, 1115.01 examples/s]Map:  71%|███████   | 48165/67764 [00:46<00:19, 1003.76 examples/s]Map:  69%|██████▊   | 46491/67764 [00:44<00:20, 1025.61 examples/s]Map:  70%|███████   | 47734/67764 [00:46<00:18, 1084.57 examples/s]Map:  71%|███████   | 47972/67764 [00:45<00:17, 1129.07 examples/s]Map:  71%|███████   | 48280/67764 [00:46<00:18, 1039.30 examples/s]Map:  69%|██████▉   | 46600/67764 [00:44<00:20, 1039.80 examples/s]Map:  71%|███████   | 47849/67764 [00:46<00:18, 1098.88 examples/s]Map:  71%|███████▏  | 48436/67764 [00:46<00:18, 1030.48 examples/s]Map:  71%|███████   | 48097/67764 [00:45<00:21, 929.69 examples/s] Map:  69%|██████▉   | 46748/67764 [00:44<00:20, 1019.08 examples/s]Map:  72%|███████▏  | 48547/67764 [00:46<00:18, 1049.24 examples/s]Map:  71%|███████   | 48215/67764 [00:46<00:19, 989.26 examples/s]Map:  71%|███████   | 48000/67764 [00:46<00:20, 943.45 examples/s] Map:  69%|██████▉   | 46861/67764 [00:44<00:19, 1045.40 examples/s]Map:  72%|███████▏  | 48661/67764 [00:46<00:17, 1066.54 examples/s]Map:  71%|███████▏  | 48338/67764 [00:46<00:18, 1048.39 examples/s]Map:  71%|███████   | 48113/67764 [00:46<00:19, 984.58 examples/s]Map:  72%|███████▏  | 48776/67764 [00:46<00:17, 1088.63 examples/s]Map:  72%|███████▏  | 48456/67764 [00:46<00:17, 1079.63 examples/s]Map:  71%|███████   | 48234/67764 [00:46<00:18, 1036.26 examples/s]Map:  69%|██████▉   | 47000/67764 [00:45<00:23, 902.46 examples/s] Map:  72%|███████▏  | 48888/67764 [00:47<00:17, 1093.28 examples/s]Map:  71%|███████▏  | 48350/67764 [00:47<00:18, 1066.64 examples/s]Map:  70%|██████▉   | 47107/67764 [00:45<00:21, 940.25 examples/s]Map:  72%|███████▏  | 48620/67764 [00:46<00:17, 1080.80 examples/s]Map:  70%|██████▉   | 47218/67764 [00:45<00:20, 979.31 examples/s]Map:  72%|███████▏  | 49000/67764 [00:47<00:19, 941.40 examples/s] Map:  72%|███████▏  | 48733/67764 [00:46<00:17, 1090.36 examples/s]Map:  72%|███████▏  | 48511/67764 [00:47<00:18, 1066.94 examples/s]Map:  70%|██████▉   | 47331/67764 [00:45<00:20, 1014.95 examples/s]Map:  72%|███████▏  | 49109/67764 [00:47<00:19, 975.34 examples/s]Map:  72%|███████▏  | 48625/67764 [00:47<00:17, 1084.35 examples/s]Map:  72%|███████▏  | 48846/67764 [00:46<00:17, 1097.99 examples/s]Map:  70%|███████   | 47440/67764 [00:45<00:19, 1032.88 examples/s]Map:  73%|███████▎  | 49231/67764 [00:47<00:17, 1038.06 examples/s]Map:  72%|███████▏  | 48737/67764 [00:47<00:17, 1090.92 examples/s]Map:  70%|███████   | 47546/67764 [00:45<00:19, 1035.76 examples/s]Map:  73%|███████▎  | 49339/67764 [00:47<00:17, 1048.03 examples/s]Map:  72%|███████▏  | 49000/67764 [00:46<00:19, 947.18 examples/s] Map:  72%|███████▏  | 48902/67764 [00:47<00:17, 1091.73 examples/s]Map:  70%|███████   | 47658/67764 [00:45<00:19, 1056.39 examples/s]Map:  73%|███████▎  | 49449/67764 [00:47<00:17, 1060.10 examples/s]Map:  72%|███████▏  | 49110/67764 [00:46<00:19, 980.39 examples/s]Map:  70%|███████   | 47771/67764 [00:45<00:18, 1072.97 examples/s]Map:  73%|███████▎  | 49219/67764 [00:47<00:18, 1007.46 examples/s]Map:  73%|███████▎  | 49610/67764 [00:47<00:17, 1063.06 examples/s]Map:  72%|███████▏  | 49054/67764 [00:47<00:19, 956.85 examples/s] Map:  71%|███████   | 47881/67764 [00:45<00:18, 1077.47 examples/s]Map:  73%|███████▎  | 49332/67764 [00:47<00:17, 1037.00 examples/s]Map:  73%|███████▎  | 49718/67764 [00:47<00:16, 1064.52 examples/s]Map:  73%|███████▎  | 49161/67764 [00:47<00:18, 981.25 examples/s]Map:  71%|███████   | 47994/67764 [00:46<00:18, 1090.79 examples/s]Map:  73%|███████▎  | 49444/67764 [00:47<00:17, 1058.29 examples/s]Map:  74%|███████▎  | 49827/67764 [00:47<00:16, 1069.66 examples/s]Map:  73%|███████▎  | 49274/67764 [00:47<00:18, 1015.15 examples/s]Map:  73%|███████▎  | 49559/67764 [00:47<00:16, 1082.28 examples/s]Map:  71%|███████   | 48114/67764 [00:46<00:20, 936.94 examples/s] Map:  73%|███████▎  | 49384/67764 [00:48<00:17, 1035.22 examples/s]Map:  73%|███████▎  | 49671/67764 [00:47<00:16, 1089.44 examples/s]Map:  71%|███████   | 48233/67764 [00:46<00:19, 1001.75 examples/s]Map:  73%|███████▎  | 49500/67764 [00:48<00:17, 1066.12 examples/s]Map:  73%|███████▎  | 49782/67764 [00:47<00:16, 1090.75 examples/s]Map:  74%|███████▎  | 49941/67764 [00:48<00:23, 750.66 examples/s] Map:  71%|███████▏  | 48349/67764 [00:46<00:18, 1041.08 examples/s]Map:  73%|███████▎  | 49664/67764 [00:48<00:16, 1070.76 examples/s]Map:  72%|███████▏  | 48457/67764 [00:46<00:18, 1050.50 examples/s]Map:  74%|███████▍  | 50053/67764 [00:48<00:24, 719.32 examples/s]Map:  73%|███████▎  | 49773/67764 [00:48<00:16, 1071.78 examples/s]Map:  72%|███████▏  | 48578/67764 [00:46<00:17, 1093.16 examples/s]Map:  74%|███████▍  | 50165/67764 [00:48<00:21, 802.02 examples/s]Map:  72%|███████▏  | 48692/67764 [00:46<00:17, 1104.09 examples/s]Map:  74%|███████▎  | 49936/67764 [00:47<00:24, 713.72 examples/s] Map:  74%|███████▍  | 50285/67764 [00:48<00:19, 892.46 examples/s]Map:  72%|███████▏  | 48805/67764 [00:46<00:17, 1108.85 examples/s]Map:  74%|███████▎  | 49884/67764 [00:48<00:23, 764.58 examples/s] Map:  74%|███████▍  | 50398/67764 [00:48<00:18, 948.08 examples/s]Map:  74%|███████▍  | 50055/67764 [00:48<00:25, 707.58 examples/s]Map:  72%|███████▏  | 48919/67764 [00:46<00:16, 1112.40 examples/s]Map:  74%|███████▍  | 49993/67764 [00:48<00:21, 832.07 examples/s]Map:  75%|███████▍  | 50509/67764 [00:48<00:17, 989.09 examples/s]Map:  74%|███████▍  | 50176/67764 [00:48<00:21, 804.04 examples/s]Map:  75%|███████▍  | 50627/67764 [00:48<00:16, 1038.25 examples/s]Map:  74%|███████▍  | 50296/67764 [00:48<00:19, 888.42 examples/s]Map:  72%|███████▏  | 49055/67764 [00:47<00:19, 967.47 examples/s] Map:  74%|███████▍  | 50114/67764 [00:48<00:22, 793.99 examples/s]Map:  74%|███████▍  | 50412/67764 [00:48<00:18, 952.38 examples/s]Map:  73%|███████▎  | 49172/67764 [00:47<00:18, 1016.05 examples/s]Map:  74%|███████▍  | 50217/67764 [00:49<00:20, 844.25 examples/s]Map:  75%|███████▍  | 50791/67764 [00:49<00:16, 1055.43 examples/s]Map:  75%|███████▍  | 50535/67764 [00:48<00:16, 1022.47 examples/s]Map:  74%|███████▍  | 50322/67764 [00:49<00:19, 893.44 examples/s]Map:  73%|███████▎  | 49280/67764 [00:47<00:17, 1030.36 examples/s]Map:  75%|███████▌  | 50907/67764 [00:49<00:15, 1078.57 examples/s]Map:  75%|███████▍  | 50651/67764 [00:48<00:16, 1056.76 examples/s]Map:  74%|███████▍  | 50430/67764 [00:49<00:18, 940.16 examples/s]Map:  73%|███████▎  | 49392/67764 [00:47<00:17, 1054.50 examples/s]Map:  75%|███████▍  | 50764/67764 [00:48<00:15, 1073.92 examples/s]Map:  75%|███████▍  | 50549/67764 [00:49<00:17, 1005.32 examples/s]Map:  75%|███████▌  | 51056/67764 [00:49<00:17, 939.61 examples/s] Map:  73%|███████▎  | 49551/67764 [00:47<00:17, 1053.20 examples/s]Map:  75%|███████▍  | 50658/67764 [00:49<00:16, 1027.66 examples/s]Map:  76%|███████▌  | 51173/67764 [00:49<00:16, 989.72 examples/s]Map:  75%|███████▌  | 50928/67764 [00:48<00:15, 1075.31 examples/s]Map:  73%|███████▎  | 49671/67764 [00:47<00:16, 1088.27 examples/s]Map:  75%|███████▍  | 50775/67764 [00:49<00:15, 1064.55 examples/s]Map:  76%|███████▌  | 51292/67764 [00:49<00:15, 1038.27 examples/s]Map:  74%|███████▎  | 49839/67764 [00:47<00:16, 1095.59 examples/s]Map:  75%|███████▌  | 50892/67764 [00:49<00:15, 1086.45 examples/s]Map:  76%|███████▌  | 51407/67764 [00:49<00:15, 1065.19 examples/s]Map:  75%|███████▌  | 51055/67764 [00:48<00:17, 935.68 examples/s] Map:  76%|███████▌  | 51524/67764 [00:49<00:14, 1093.05 examples/s]Map:  76%|███████▌  | 51167/67764 [00:49<00:16, 977.77 examples/s]Map:  75%|███████▌  | 51053/67764 [00:49<00:17, 948.07 examples/s] Map:  76%|███████▌  | 51642/67764 [00:49<00:14, 1110.16 examples/s]Map:  76%|███████▌  | 51284/67764 [00:49<00:16, 1023.50 examples/s]Map:  74%|███████▍  | 49995/67764 [00:48<00:21, 836.61 examples/s] Map:  76%|███████▌  | 51170/67764 [00:49<00:16, 1000.49 examples/s]Map:  76%|███████▋  | 51760/67764 [00:49<00:14, 1127.44 examples/s]Map:  76%|███████▌  | 51400/67764 [00:49<00:15, 1056.11 examples/s]Map:  74%|███████▍  | 50107/67764 [00:48<00:22, 786.26 examples/s]Map:  76%|███████▌  | 51333/67764 [00:50<00:15, 1027.97 examples/s]Map:  77%|███████▋  | 51931/67764 [00:50<00:14, 1128.78 examples/s]Map:  76%|███████▌  | 51566/67764 [00:49<00:15, 1068.19 examples/s]Map:  74%|███████▍  | 50221/67764 [00:48<00:20, 854.74 examples/s]Map:  76%|███████▌  | 51446/67764 [00:50<00:15, 1050.83 examples/s]Map:  76%|███████▋  | 51684/67764 [00:49<00:14, 1094.78 examples/s]Map:  77%|███████▋  | 52054/67764 [00:50<00:16, 963.79 examples/s] Map:  74%|███████▍  | 50332/67764 [00:48<00:19, 907.73 examples/s]Map:  76%|███████▌  | 51555/67764 [00:50<00:15, 1057.38 examples/s]Map:  76%|███████▋  | 51804/67764 [00:49<00:14, 1120.88 examples/s]Map:  77%|███████▋  | 52169/67764 [00:50<00:15, 1006.11 examples/s]Map:  74%|███████▍  | 50452/67764 [00:48<00:17, 975.73 examples/s]Map:  76%|███████▌  | 51668/67764 [00:50<00:14, 1075.23 examples/s]Map:  77%|███████▋  | 51970/67764 [00:49<00:14, 1112.15 examples/s]Map:  77%|███████▋  | 52285/67764 [00:50<00:14, 1043.27 examples/s]Map:  75%|███████▍  | 50563/67764 [00:48<00:17, 1009.68 examples/s]Map:  76%|███████▋  | 51781/67764 [00:50<00:14, 1085.04 examples/s]Map:  77%|███████▋  | 52399/67764 [00:50<00:14, 1066.65 examples/s]Map:  75%|███████▍  | 50681/67764 [00:48<00:16, 1052.86 examples/s]Map:  77%|███████▋  | 51899/67764 [00:50<00:14, 1110.87 examples/s]Map:  77%|███████▋  | 52105/67764 [00:49<00:16, 954.19 examples/s] Map:  77%|███████▋  | 52513/67764 [00:50<00:14, 1083.89 examples/s]Map:  75%|███████▍  | 50798/67764 [00:48<00:15, 1080.58 examples/s]Map:  77%|███████▋  | 52224/67764 [00:50<00:15, 1005.07 examples/s]Map:  78%|███████▊  | 52629/67764 [00:50<00:13, 1102.85 examples/s]Map:  75%|███████▌  | 50925/67764 [00:48<00:14, 1130.84 examples/s]Map:  77%|███████▋  | 52054/67764 [00:50<00:16, 956.03 examples/s] Map:  77%|███████▋  | 52340/67764 [00:50<00:14, 1041.68 examples/s]Map:  77%|███████▋  | 52165/67764 [00:50<00:15, 992.34 examples/s]Map:  78%|███████▊  | 52794/67764 [00:50<00:13, 1097.41 examples/s]Map:  77%|███████▋  | 52460/67764 [00:50<00:14, 1079.10 examples/s]Map:  75%|███████▌  | 51055/67764 [00:49<00:17, 977.30 examples/s] Map:  77%|███████▋  | 52282/67764 [00:51<00:14, 1036.82 examples/s]Map:  78%|███████▊  | 52906/67764 [00:51<00:13, 1099.39 examples/s]Map:  78%|███████▊  | 52579/67764 [00:50<00:13, 1104.69 examples/s]Map:  76%|███████▌  | 51170/67764 [00:49<00:16, 1019.26 examples/s]Map:  77%|███████▋  | 52394/67764 [00:51<00:14, 1055.20 examples/s]Map:  76%|███████▌  | 51283/67764 [00:49<00:15, 1047.94 examples/s]Map:  78%|███████▊  | 52696/67764 [00:50<00:13, 1117.81 examples/s]Map:  78%|███████▊  | 53052/67764 [00:51<00:15, 949.29 examples/s] Map:  78%|███████▊  | 52564/67764 [00:51<00:14, 1080.45 examples/s]Map:  76%|███████▌  | 51397/67764 [00:49<00:15, 1071.55 examples/s]Map:  78%|███████▊  | 52813/67764 [00:50<00:13, 1129.05 examples/s]Map:  78%|███████▊  | 53161/67764 [00:51<00:14, 977.31 examples/s]Map:  78%|███████▊  | 52681/67764 [00:51<00:13, 1101.41 examples/s]Map:  76%|███████▌  | 51509/67764 [00:49<00:15, 1083.63 examples/s]Map:  78%|███████▊  | 52931/67764 [00:50<00:13, 1140.52 examples/s]Map:  79%|███████▊  | 53280/67764 [00:51<00:14, 1027.18 examples/s]Map:  78%|███████▊  | 52842/67764 [00:51<00:13, 1089.29 examples/s]Map:  76%|███████▋  | 51672/67764 [00:49<00:14, 1081.44 examples/s]Map:  79%|███████▉  | 53397/67764 [00:51<00:13, 1064.13 examples/s]Map:  78%|███████▊  | 53053/67764 [00:50<00:15, 964.43 examples/s] Map:  79%|███████▉  | 53511/67764 [00:51<00:13, 1082.33 examples/s]Map:  78%|███████▊  | 53167/67764 [00:50<00:14, 1007.90 examples/s]Map:  76%|███████▋  | 51834/67764 [00:49<00:14, 1078.08 examples/s]Map:  78%|███████▊  | 53000/67764 [00:51<00:15, 964.83 examples/s] Map:  79%|███████▉  | 53629/67764 [00:51<00:12, 1106.98 examples/s]Map:  79%|███████▊  | 53280/67764 [00:51<00:13, 1035.88 examples/s]Map:  78%|███████▊  | 53113/67764 [00:51<00:14, 1000.52 examples/s]Map:  77%|███████▋  | 51993/67764 [00:50<00:14, 1069.71 examples/s]Map:  79%|███████▉  | 53746/67764 [00:51<00:12, 1123.61 examples/s]Map:  79%|███████▉  | 53398/67764 [00:51<00:13, 1071.61 examples/s]Map:  79%|███████▊  | 53219/67764 [00:51<00:14, 1012.50 examples/s]Map:  79%|███████▉  | 53860/67764 [00:51<00:12, 1123.49 examples/s]Map:  79%|███████▉  | 53511/67764 [00:51<00:13, 1082.91 examples/s]Map:  77%|███████▋  | 52117/67764 [00:50<00:16, 951.48 examples/s] Map:  79%|███████▊  | 53333/67764 [00:52<00:13, 1042.69 examples/s]Map:  79%|███████▉  | 53628/67764 [00:51<00:12, 1102.44 examples/s]Map:  77%|███████▋  | 52232/67764 [00:50<00:15, 996.17 examples/s]Map:  79%|███████▉  | 53444/67764 [00:52<00:13, 1054.57 examples/s]Map:  80%|███████▉  | 54000/67764 [00:52<00:14, 934.90 examples/s] Map:  77%|███████▋  | 52348/67764 [00:50<00:14, 1033.75 examples/s]Map:  79%|███████▉  | 53789/67764 [00:51<00:12, 1085.45 examples/s]Map:  79%|███████▉  | 53554/67764 [00:52<00:13, 1064.75 examples/s]Map:  80%|███████▉  | 54105/67764 [00:52<00:14, 959.65 examples/s]Map:  77%|███████▋  | 52464/67764 [00:50<00:14, 1060.30 examples/s]Map:  80%|███████▉  | 53899/67764 [00:51<00:12, 1085.23 examples/s]Map:  79%|███████▉  | 53671/67764 [00:52<00:12, 1089.82 examples/s]Map:  80%|████████  | 54219/67764 [00:52<00:13, 1003.35 examples/s]Map:  78%|███████▊  | 52575/67764 [00:50<00:14, 1070.86 examples/s]Map:  79%|███████▉  | 53786/67764 [00:52<00:12, 1103.94 examples/s]Map:  80%|████████  | 54330/67764 [00:52<00:13, 1027.90 examples/s]Map:  78%|███████▊  | 52693/67764 [00:50<00:13, 1098.10 examples/s]Map:  80%|███████▉  | 54052/67764 [00:51<00:14, 923.19 examples/s] Map:  80%|████████  | 54446/67764 [00:52<00:12, 1062.28 examples/s]Map:  80%|███████▉  | 53947/67764 [00:52<00:12, 1087.04 examples/s]Map:  78%|███████▊  | 52810/67764 [00:50<00:13, 1117.07 examples/s]Map:  80%|███████▉  | 54162/67764 [00:51<00:14, 963.08 examples/s]Map:  81%|████████  | 54562/67764 [00:52<00:12, 1086.84 examples/s]Map:  80%|████████  | 54271/67764 [00:52<00:13, 993.00 examples/s]Map:  81%|████████  | 54680/67764 [00:52<00:11, 1109.67 examples/s]Map:  78%|███████▊  | 52977/67764 [00:50<00:13, 1113.70 examples/s]Map:  80%|███████▉  | 54108/67764 [00:52<00:14, 950.96 examples/s] Map:  80%|████████  | 54383/67764 [00:52<00:13, 1024.61 examples/s]Map:  81%|████████  | 54795/67764 [00:52<00:11, 1117.22 examples/s]Map:  80%|████████  | 54222/67764 [00:52<00:13, 991.72 examples/s]Map:  80%|████████  | 54496/67764 [00:52<00:12, 1050.47 examples/s]Map:  78%|███████▊  | 53110/67764 [00:51<00:15, 957.49 examples/s] Map:  80%|████████  | 54331/67764 [00:52<00:13, 1013.91 examples/s]Map:  81%|████████  | 54966/67764 [00:53<00:11, 1121.85 examples/s]Map:  81%|████████  | 54611/67764 [00:52<00:12, 1075.76 examples/s]Map:  79%|███████▊  | 53224/67764 [00:51<00:14, 997.02 examples/s]Map:  80%|████████  | 54442/67764 [00:53<00:12, 1038.04 examples/s]Map:  79%|███████▊  | 53337/67764 [00:51<00:14, 1029.64 examples/s]Map:  81%|████████  | 54775/67764 [00:52<00:12, 1081.76 examples/s]Map:  81%|████████▏ | 55109/67764 [00:53<00:12, 976.63 examples/s] Map:  81%|████████  | 54557/67764 [00:53<00:12, 1064.23 examples/s]Map:  79%|███████▉  | 53447/67764 [00:51<00:13, 1045.97 examples/s]Map:  81%|████████  | 54888/67764 [00:52<00:11, 1092.50 examples/s]Map:  81%|████████▏ | 55222/67764 [00:53<00:12, 1011.10 examples/s]Map:  81%|████████  | 54670/67764 [00:53<00:12, 1080.16 examples/s]Map:  79%|███████▉  | 53556/67764 [00:51<00:13, 1051.70 examples/s]Map:  82%|████████▏ | 55334/67764 [00:53<00:11, 1036.31 examples/s]Map:  81%|████████  | 55000/67764 [00:52<00:13, 935.84 examples/s] Map:  81%|████████  | 54838/67764 [00:53<00:11, 1091.75 examples/s]Map:  79%|███████▉  | 53670/67764 [00:51<00:13, 1074.18 examples/s]Map:  82%|████████▏ | 55450/67764 [00:53<00:11, 1067.79 examples/s]Map:  81%|████████▏ | 55109/67764 [00:52<00:13, 970.43 examples/s]Map:  81%|████████  | 54950/67764 [00:53<00:11, 1095.44 examples/s]Map:  79%|███████▉  | 53781/67764 [00:51<00:12, 1078.62 examples/s]Map:  82%|████████▏ | 55566/67764 [00:53<00:11, 1090.54 examples/s]Map:  81%|████████▏ | 55220/67764 [00:52<00:12, 1005.63 examples/s]Map:  82%|████████▏ | 55682/67764 [00:53<00:10, 1100.41 examples/s]Map:  80%|███████▉  | 53938/67764 [00:51<00:13, 1061.75 examples/s]Map:  82%|████████▏ | 55332/67764 [00:53<00:11, 1036.43 examples/s]Map:  81%|████████▏ | 55111/67764 [00:53<00:13, 941.45 examples/s] Map:  82%|████████▏ | 55797/67764 [00:53<00:10, 1110.48 examples/s]Map:  82%|████████▏ | 55439/67764 [00:53<00:11, 1044.06 examples/s]Map:  81%|████████▏ | 55223/67764 [00:53<00:12, 979.55 examples/s]Map:  80%|███████▉  | 54058/67764 [00:52<00:14, 915.80 examples/s] Map:  82%|████████▏ | 55553/67764 [00:53<00:11, 1069.08 examples/s]Map:  83%|████████▎ | 55965/67764 [00:53<00:10, 1110.70 examples/s]Map:  82%|████████▏ | 55341/67764 [00:53<00:12, 1025.83 examples/s]Map:  80%|███████▉  | 54163/67764 [00:52<00:14, 946.07 examples/s]Map:  82%|████████▏ | 55667/67764 [00:53<00:11, 1087.72 examples/s]Map:  82%|████████▏ | 55453/67764 [00:54<00:11, 1048.04 examples/s]Map:  80%|████████  | 54273/67764 [00:52<00:13, 983.50 examples/s]Map:  83%|████████▎ | 56110/67764 [00:54<00:12, 957.23 examples/s] Map:  82%|████████▏ | 55781/67764 [00:53<00:10, 1097.11 examples/s]Map:  82%|████████▏ | 55564/67764 [00:54<00:11, 1063.45 examples/s]Map:  80%|████████  | 54387/67764 [00:52<00:13, 1024.35 examples/s]Map:  83%|████████▎ | 56225/67764 [00:54<00:11, 1000.86 examples/s]Map:  82%|████████▏ | 55899/67764 [00:53<00:10, 1119.15 examples/s]Map:  82%|████████▏ | 55682/67764 [00:54<00:11, 1089.46 examples/s]Map:  80%|████████  | 54501/67764 [00:52<00:12, 1048.57 examples/s]Map:  83%|████████▎ | 56349/67764 [00:54<00:10, 1055.97 examples/s]Map:  82%|████████▏ | 55794/67764 [00:54<00:10, 1095.46 examples/s]Map:  81%|████████  | 54616/67764 [00:52<00:12, 1075.09 examples/s]Map:  83%|████████▎ | 56462/67764 [00:54<00:10, 1072.44 examples/s]Map:  83%|████████▎ | 56060/67764 [00:53<00:12, 968.50 examples/s] Map:  83%|████████▎ | 55912/67764 [00:54<00:10, 1114.55 examples/s]Map:  81%|████████  | 54781/67764 [00:52<00:12, 1081.07 examples/s]Map:  83%|████████▎ | 56580/67764 [00:54<00:10, 1099.18 examples/s]Map:  83%|████████▎ | 56176/67764 [00:53<00:11, 1012.64 examples/s]Map:  81%|████████  | 54895/67764 [00:52<00:11, 1093.49 examples/s]Map:  83%|████████▎ | 56286/67764 [00:53<00:11, 1031.85 examples/s]Map:  83%|████████▎ | 56053/67764 [00:54<00:12, 936.51 examples/s] Map:  84%|████████▎ | 56745/67764 [00:54<00:10, 1093.61 examples/s]Map:  83%|████████▎ | 56404/67764 [00:54<00:10, 1068.21 examples/s]Map:  83%|████████▎ | 56165/67764 [00:54<00:11, 978.11 examples/s]Map:  84%|████████▍ | 56858/67764 [00:54<00:09, 1102.32 examples/s]Map:  81%|████████  | 55054/67764 [00:53<00:13, 966.38 examples/s] Map:  83%|████████▎ | 56518/67764 [00:54<00:10, 1084.26 examples/s]Map:  83%|████████▎ | 56274/67764 [00:54<00:11, 1004.92 examples/s]Map:  84%|████████▍ | 56970/67764 [00:54<00:09, 1103.56 examples/s]Map:  81%|████████▏ | 55165/67764 [00:53<00:12, 997.39 examples/s]Map:  83%|████████▎ | 56390/67764 [00:54<00:10, 1040.97 examples/s]Map:  84%|████████▎ | 56682/67764 [00:54<00:10, 1085.71 examples/s]Map:  82%|████████▏ | 55278/67764 [00:53<00:12, 1029.89 examples/s]Map:  83%|████████▎ | 56502/67764 [00:55<00:10, 1059.08 examples/s]Map:  84%|████████▍ | 57104/67764 [00:55<00:11, 934.82 examples/s] Map:  84%|████████▍ | 56802/67764 [00:54<00:09, 1111.18 examples/s]Map:  84%|████████▎ | 56613/67764 [00:55<00:10, 1070.07 examples/s]Map:  82%|████████▏ | 55441/67764 [00:53<00:11, 1042.64 examples/s]Map:  84%|████████▍ | 57221/67764 [00:55<00:10, 989.90 examples/s]Map:  84%|████████▍ | 56917/67764 [00:54<00:09, 1116.18 examples/s]Map:  84%|████████▎ | 56726/67764 [00:55<00:10, 1082.90 examples/s]Map:  82%|████████▏ | 55554/67764 [00:53<00:11, 1059.90 examples/s]Map:  85%|████████▍ | 57337/67764 [00:55<00:10, 1031.52 examples/s]Map:  84%|████████▍ | 56840/67764 [00:55<00:09, 1098.70 examples/s]Map:  82%|████████▏ | 55665/67764 [00:53<00:11, 1071.67 examples/s]Map:  85%|████████▍ | 57452/67764 [00:55<00:09, 1061.58 examples/s]Map:  84%|████████▍ | 57053/67764 [00:54<00:11, 958.01 examples/s] Map:  84%|████████▍ | 56956/67764 [00:55<00:09, 1112.58 examples/s]Map:  84%|████████▍ | 57171/67764 [00:54<00:10, 1010.10 examples/s]Map:  85%|████████▍ | 57570/67764 [00:55<00:09, 1090.56 examples/s]Map:  82%|████████▏ | 55828/67764 [00:53<00:11, 1071.25 examples/s]Map:  85%|████████▌ | 57685/67764 [00:55<00:09, 1104.89 examples/s]Map:  85%|████████▍ | 57280/67764 [00:54<00:10, 1027.50 examples/s]Map:  83%|████████▎ | 55940/67764 [00:53<00:10, 1080.42 examples/s]Map:  84%|████████▍ | 57107/67764 [00:55<00:11, 940.60 examples/s] Map:  85%|████████▍ | 57394/67764 [00:55<00:09, 1055.93 examples/s]Map:  85%|████████▌ | 57800/67764 [00:55<00:08, 1114.04 examples/s]Map:  84%|████████▍ | 57213/67764 [00:55<00:10, 967.19 examples/s]Map:  85%|████████▍ | 57508/67764 [00:55<00:09, 1077.02 examples/s]Map:  85%|████████▌ | 57920/67764 [00:55<00:08, 1136.92 examples/s]Map:  83%|████████▎ | 56056/67764 [00:53<00:12, 924.69 examples/s] Map:  85%|████████▍ | 57328/67764 [00:55<00:10, 1009.09 examples/s]Map:  85%|████████▌ | 57623/67764 [00:55<00:09, 1093.29 examples/s]Map:  83%|████████▎ | 56171/67764 [00:54<00:11, 977.29 examples/s]Map:  86%|████████▌ | 58049/67764 [00:55<00:10, 958.56 examples/s] Map:  85%|████████▍ | 57444/67764 [00:55<00:09, 1047.10 examples/s]Map:  85%|████████▌ | 57734/67764 [00:55<00:09, 1095.63 examples/s]Map:  83%|████████▎ | 56281/67764 [00:54<00:11, 1005.49 examples/s]Map:  86%|████████▌ | 58157/67764 [00:56<00:09, 988.76 examples/s]Map:  85%|████████▍ | 57556/67764 [00:56<00:09, 1065.86 examples/s]Map:  85%|████████▌ | 57852/67764 [00:55<00:08, 1119.10 examples/s]Map:  83%|████████▎ | 56401/67764 [00:54<00:10, 1054.97 examples/s]Map:  86%|████████▌ | 58273/67764 [00:56<00:09, 1033.90 examples/s]Map:  85%|████████▌ | 57671/67764 [00:56<00:09, 1088.96 examples/s]Map:  86%|████████▌ | 57965/67764 [00:55<00:08, 1119.98 examples/s]Map:  83%|████████▎ | 56513/67764 [00:54<00:10, 1067.92 examples/s]Map:  86%|████████▌ | 58387/67764 [00:56<00:08, 1059.65 examples/s]Map:  85%|████████▌ | 57782/67764 [00:56<00:09, 1091.23 examples/s]Map:  84%|████████▎ | 56633/67764 [00:54<00:10, 1103.13 examples/s]Map:  86%|████████▋ | 58497/67764 [00:56<00:08, 1067.98 examples/s]Map:  86%|████████▌ | 58115/67764 [00:55<00:10, 953.90 examples/s] Map:  84%|████████▎ | 56748/67764 [00:54<00:09, 1113.98 examples/s]Map:  86%|████████▌ | 57945/67764 [00:56<00:09, 1081.98 examples/s]Map:  86%|████████▋ | 58613/67764 [00:56<00:08, 1091.81 examples/s]Map:  86%|████████▌ | 58224/67764 [00:55<00:09, 984.02 examples/s]Map:  84%|████████▍ | 56881/67764 [00:54<00:10, 1024.49 examples/s]Map:  87%|████████▋ | 58730/67764 [00:56<00:08, 1112.28 examples/s]Map:  86%|████████▌ | 58332/67764 [00:55<00:09, 1007.12 examples/s]Map:  86%|████████▌ | 58115/67764 [00:56<00:10, 964.56 examples/s] Map:  87%|████████▋ | 58850/67764 [00:56<00:07, 1135.30 examples/s]Map:  86%|████████▋ | 58453/67764 [00:56<00:08, 1056.86 examples/s]Map:  86%|████████▌ | 58224/67764 [00:56<00:09, 991.53 examples/s]Map:  84%|████████▍ | 57000/67764 [00:54<00:12, 882.29 examples/s] Map:  86%|████████▋ | 58572/67764 [00:56<00:08, 1091.37 examples/s]Map:  86%|████████▌ | 58344/67764 [00:56<00:09, 1040.08 examples/s]Map:  84%|████████▍ | 57108/67764 [00:55<00:11, 925.88 examples/s]Map:  87%|████████▋ | 59000/67764 [00:56<00:08, 974.55 examples/s] Map:  87%|████████▋ | 58689/67764 [00:56<00:08, 1109.23 examples/s]Map:  86%|████████▋ | 58454/67764 [00:56<00:08, 1053.32 examples/s]Map:  84%|████████▍ | 57219/67764 [00:55<00:10, 967.63 examples/s]Map:  87%|████████▋ | 59111/67764 [00:56<00:08, 1006.26 examples/s]Map:  87%|████████▋ | 58804/67764 [00:56<00:08, 1118.56 examples/s]Map:  86%|████████▋ | 58567/67764 [00:57<00:08, 1070.30 examples/s]Map:  85%|████████▍ | 57333/67764 [00:55<00:10, 1009.08 examples/s]Map:  87%|████████▋ | 59219/67764 [00:57<00:08, 1021.08 examples/s]Map:  87%|████████▋ | 58924/67764 [00:56<00:07, 1132.26 examples/s]Map:  85%|████████▍ | 57448/67764 [00:55<00:09, 1044.84 examples/s]Map:  88%|████████▊ | 59333/67764 [00:57<00:08, 1052.52 examples/s]Map:  87%|████████▋ | 58732/67764 [00:57<00:08, 1075.89 examples/s]Map:  85%|████████▍ | 57556/67764 [00:55<00:09, 1051.71 examples/s]Map:  88%|████████▊ | 59452/67764 [00:57<00:07, 1088.16 examples/s]Map:  87%|████████▋ | 59056/67764 [00:56<00:09, 963.68 examples/s] Map:  87%|████████▋ | 58889/67764 [00:57<00:08, 1064.34 examples/s]Map:  85%|████████▌ | 57666/67764 [00:55<00:09, 1061.23 examples/s]Map:  88%|████████▊ | 59572/67764 [00:57<00:07, 1115.09 examples/s]Map:  87%|████████▋ | 59169/67764 [00:56<00:08, 1001.57 examples/s]Map:  87%|████████▋ | 58997/67764 [00:57<00:08, 1066.59 examples/s]Map:  85%|████████▌ | 57774/67764 [00:55<00:09, 1062.31 examples/s]Map:  88%|████████▊ | 59687/67764 [00:57<00:07, 1121.54 examples/s]Map:  87%|████████▋ | 59285/67764 [00:56<00:08, 1037.56 examples/s]Map:  88%|████████▊ | 59805/67764 [00:57<00:06, 1137.78 examples/s]Map:  88%|████████▊ | 59401/67764 [00:56<00:07, 1069.47 examples/s]Map:  85%|████████▌ | 57937/67764 [00:55<00:09, 1063.90 examples/s]Map:  87%|████████▋ | 59112/67764 [00:57<00:09, 933.61 examples/s] Map:  88%|████████▊ | 59921/67764 [00:57<00:06, 1140.96 examples/s]Map:  88%|████████▊ | 59521/67764 [00:57<00:07, 1102.68 examples/s]Map:  87%|████████▋ | 59226/67764 [00:57<00:08, 982.45 examples/s]Map:  86%|████████▌ | 58051/67764 [00:55<00:10, 918.38 examples/s] Map:  88%|████████▊ | 59634/67764 [00:57<00:07, 1107.86 examples/s]Map:  88%|████████▊ | 59332/67764 [00:57<00:08, 1001.81 examples/s]Map:  89%|████████▊ | 60057/67764 [00:57<00:07, 968.85 examples/s] Map:  86%|████████▌ | 58160/67764 [00:56<00:10, 956.25 examples/s]Map:  88%|████████▊ | 59749/67764 [00:57<00:07, 1118.14 examples/s]Map:  88%|████████▊ | 59448/67764 [00:57<00:07, 1040.85 examples/s]Map:  89%|████████▉ | 60172/67764 [00:57<00:07, 1013.69 examples/s]Map:  86%|████████▌ | 58263/67764 [00:56<00:09, 972.77 examples/s]Map:  88%|████████▊ | 59872/67764 [00:57<00:06, 1144.79 examples/s]Map:  88%|████████▊ | 59564/67764 [00:58<00:07, 1070.48 examples/s]Map:  89%|████████▉ | 60281/67764 [00:58<00:07, 1031.95 examples/s]Map:  86%|████████▌ | 58378/67764 [00:56<00:09, 1017.77 examples/s]Map:  89%|████████▊ | 59991/67764 [00:57<00:06, 1156.73 examples/s]Map:  88%|████████▊ | 59682/67764 [00:58<00:07, 1097.74 examples/s]Map:  89%|████████▉ | 60402/67764 [00:58<00:06, 1079.56 examples/s]Map:  88%|████████▊ | 59795/67764 [00:58<00:07, 1102.56 examples/s]Map:  86%|████████▋ | 58538/67764 [00:56<00:08, 1032.99 examples/s]Map:  89%|████████▉ | 60519/67764 [00:58<00:06, 1102.32 examples/s]Map:  89%|████████▉ | 60158/67764 [00:57<00:07, 968.20 examples/s] Map:  87%|████████▋ | 58651/67764 [00:56<00:08, 1055.30 examples/s]Map:  89%|████████▉ | 60632/67764 [00:58<00:06, 1107.99 examples/s]Map:  88%|████████▊ | 59962/67764 [00:58<00:07, 1103.59 examples/s]Map:  89%|████████▉ | 60271/67764 [00:57<00:07, 1003.42 examples/s]Map:  90%|████████▉ | 60752/67764 [00:58<00:06, 1131.93 examples/s]Map:  87%|████████▋ | 58812/67764 [00:56<00:08, 1059.60 examples/s]Map:  89%|████████▉ | 60390/67764 [00:57<00:07, 1046.47 examples/s]Map:  89%|████████▊ | 60104/67764 [00:58<00:07, 957.54 examples/s] Map:  90%|████████▉ | 60869/67764 [00:58<00:06, 1138.35 examples/s]Map:  87%|████████▋ | 58925/67764 [00:56<00:08, 1076.48 examples/s]Map:  89%|████████▉ | 60500/67764 [00:57<00:06, 1058.64 examples/s]Map:  89%|████████▉ | 60220/67764 [00:58<00:07, 1003.82 examples/s]Map:  90%|████████▉ | 60987/67764 [00:58<00:05, 1148.93 examples/s]Map:  89%|████████▉ | 60616/67764 [00:58<00:06, 1085.31 examples/s]Map:  89%|████████▉ | 60334/67764 [00:58<00:07, 1036.23 examples/s]Map:  87%|████████▋ | 59056/67764 [00:56<00:09, 940.91 examples/s] Map:  90%|████████▉ | 60735/67764 [00:58<00:06, 1112.68 examples/s]Map:  90%|█████████ | 61111/67764 [00:58<00:06, 969.27 examples/s] Map:  89%|████████▉ | 60444/67764 [00:58<00:06, 1051.26 examples/s]Map:  87%|████████▋ | 59167/67764 [00:57<00:08, 976.29 examples/s]Map:  90%|█████████ | 61222/67764 [00:58<00:06, 1004.25 examples/s]Map:  89%|████████▉ | 60556/67764 [00:58<00:06, 1066.97 examples/s]Map:  87%|████████▋ | 59283/67764 [00:57<00:08, 1020.10 examples/s]Map:  90%|████████▉ | 60906/67764 [00:58<00:06, 1119.26 examples/s]Map:  91%|█████████ | 61333/67764 [00:59<00:06, 1028.06 examples/s]Map:  90%|████████▉ | 60681/67764 [00:59<00:06, 1117.52 examples/s]Map:  88%|████████▊ | 59393/67764 [00:57<00:08, 1038.86 examples/s]Map:  91%|█████████ | 61449/67764 [00:59<00:05, 1064.33 examples/s]Map:  90%|█████████ | 61055/67764 [00:58<00:06, 980.48 examples/s] Map:  90%|████████▉ | 60799/67764 [00:59<00:06, 1131.55 examples/s]Map:  88%|████████▊ | 59555/67764 [00:57<00:07, 1051.95 examples/s]Map:  91%|█████████ | 61566/67764 [00:59<00:05, 1093.62 examples/s]Map:  90%|█████████ | 61167/67764 [00:58<00:06, 1011.17 examples/s]Map:  90%|████████▉ | 60919/67764 [00:59<00:05, 1148.59 examples/s]Map:  88%|████████▊ | 59670/67764 [00:57<00:07, 1074.54 examples/s]Map:  91%|█████████ | 61684/67764 [00:59<00:05, 1116.00 examples/s]Map:  90%|█████████ | 61282/67764 [00:58<00:06, 1043.54 examples/s]Map:  88%|████████▊ | 59779/67764 [00:57<00:07, 1076.33 examples/s]Map:  90%|█████████ | 61055/67764 [00:59<00:06, 993.70 examples/s] Map:  91%|█████████ | 61394/67764 [00:58<00:06, 1061.10 examples/s]Map:  91%|█████████▏| 61847/67764 [00:59<00:05, 1099.20 examples/s]Map:  88%|████████▊ | 59891/67764 [00:57<00:07, 1085.55 examples/s]Map:  90%|█████████ | 61166/67764 [00:59<00:06, 1022.41 examples/s]Map:  91%|█████████ | 61513/67764 [00:58<00:05, 1094.13 examples/s]Map:  90%|█████████ | 61278/67764 [00:59<00:06, 1046.05 examples/s]Map:  91%|█████████ | 61629/67764 [00:58<00:05, 1110.01 examples/s]Map:  91%|█████████▏| 62000/67764 [00:59<00:06, 947.55 examples/s] Map:  89%|████████▊ | 60057/67764 [00:57<00:08, 954.66 examples/s] Map:  91%|█████████ | 61391/67764 [00:59<00:05, 1067.86 examples/s]Map:  91%|█████████ | 61745/67764 [00:59<00:05, 1120.25 examples/s]Map:  92%|█████████▏| 62115/67764 [00:59<00:05, 992.96 examples/s]Map:  89%|████████▉ | 60172/67764 [00:58<00:07, 997.92 examples/s]Map:  91%|█████████ | 61507/67764 [00:59<00:05, 1092.21 examples/s]Map:  91%|█████████▏| 61860/67764 [00:59<00:05, 1126.31 examples/s]Map:  92%|█████████▏| 62237/67764 [00:59<00:05, 1046.18 examples/s]Map:  89%|████████▉ | 60283/67764 [00:58<00:07, 1024.49 examples/s]Map:  91%|█████████ | 61621/67764 [00:59<00:05, 1102.63 examples/s]Map:  92%|█████████▏| 62356/67764 [01:00<00:04, 1082.61 examples/s]Map:  89%|████████▉ | 60398/67764 [00:58<00:06, 1054.39 examples/s]Map:  91%|█████████ | 61733/67764 [01:00<00:05, 1104.04 examples/s]Map:  91%|█████████▏| 62000/67764 [00:59<00:05, 963.21 examples/s] Map:  89%|████████▉ | 60513/67764 [00:58<00:06, 1075.83 examples/s]Map:  91%|█████████▏| 61845/67764 [01:00<00:05, 1105.07 examples/s]Map:  92%|█████████▏| 62116/67764 [00:59<00:05, 1009.99 examples/s]Map:  92%|█████████▏| 62530/67764 [01:00<00:04, 1105.78 examples/s]Map:  89%|████████▉ | 60625/67764 [00:58<00:06, 1083.14 examples/s]Map:  92%|█████████▏| 62236/67764 [00:59<00:05, 1058.90 examples/s]Map:  93%|█████████▎| 62696/67764 [01:00<00:04, 1100.99 examples/s]Map:  90%|████████▉ | 60741/67764 [00:58<00:06, 1102.58 examples/s]Map:  92%|█████████▏| 62346/67764 [00:59<00:05, 1069.11 examples/s]Map:  91%|█████████▏| 62000/67764 [01:00<00:06, 936.38 examples/s] Map:  93%|█████████▎| 62811/67764 [01:00<00:04, 1109.91 examples/s]Map:  90%|████████▉ | 60855/67764 [00:58<00:06, 1110.31 examples/s]Map:  92%|█████████▏| 62459/67764 [00:59<00:04, 1082.43 examples/s]Map:  92%|█████████▏| 62107/67764 [01:00<00:05, 967.04 examples/s]Map:  93%|█████████▎| 62929/67764 [01:00<00:04, 1126.19 examples/s]Map:  90%|████████▉ | 60976/67764 [00:58<00:05, 1137.71 examples/s]Map:  92%|█████████▏| 62574/67764 [00:59<00:04, 1096.67 examples/s]Map:  92%|█████████▏| 62222/67764 [01:00<00:05, 1010.91 examples/s]Map:  93%|█████████▎| 63049/67764 [01:00<00:04, 949.86 examples/s] Map:  93%|█████████▎| 62725/67764 [01:00<00:04, 1059.71 examples/s]Map:  92%|█████████▏| 62370/67764 [01:00<00:05, 997.21 examples/s] Map:  90%|█████████ | 61105/67764 [00:58<00:07, 946.01 examples/s] Map:  93%|█████████▎| 63158/67764 [01:00<00:04, 981.58 examples/s]Map:  93%|█████████▎| 62836/67764 [01:00<00:04, 1071.25 examples/s]Map:  92%|█████████▏| 62477/67764 [01:00<00:05, 1011.14 examples/s]Map:  90%|█████████ | 61212/67764 [00:59<00:06, 974.20 examples/s]Map:  93%|█████████▎| 63273/67764 [01:00<00:04, 1022.53 examples/s]Map:  93%|█████████▎| 62947/67764 [01:00<00:04, 1078.80 examples/s]Map:  92%|█████████▏| 62591/67764 [01:00<00:04, 1043.01 examples/s]Map:  90%|█████████ | 61326/67764 [00:59<00:06, 1017.40 examples/s]Map:  94%|█████████▎| 63389/67764 [01:00<00:04, 1058.66 examples/s]Map:  93%|█████████▎| 62702/67764 [01:01<00:04, 1060.75 examples/s]Map:  91%|█████████ | 61445/67764 [00:59<00:05, 1059.27 examples/s]Map:  93%|█████████▎| 62819/67764 [01:01<00:04, 1087.46 examples/s]Map:  93%|█████████▎| 63113/67764 [01:00<00:04, 952.23 examples/s] Map:  91%|█████████ | 61558/67764 [00:59<00:05, 1075.55 examples/s]Map:  94%|█████████▍| 63548/67764 [01:01<00:03, 1056.94 examples/s]Map:  93%|█████████▎| 62932/67764 [01:01<00:04, 1095.10 examples/s]Map:  93%|█████████▎| 63227/67764 [01:00<00:04, 993.85 examples/s]Map:  94%|█████████▍| 63657/67764 [01:01<00:03, 1063.01 examples/s]Map:  91%|█████████ | 61710/67764 [00:59<00:05, 1049.08 examples/s]Map:  93%|█████████▎| 63339/67764 [01:00<00:04, 1021.72 examples/s]Map:  94%|█████████▍| 63772/67764 [01:01<00:03, 1082.84 examples/s]Map:  93%|█████████▎| 63050/67764 [01:01<00:05, 925.90 examples/s] Map:  94%|█████████▎| 63461/67764 [01:00<00:04, 1070.15 examples/s]Map:  91%|█████████▏| 61856/67764 [00:59<00:05, 1014.45 examples/s]Map:  94%|█████████▍| 63885/67764 [01:01<00:03, 1092.40 examples/s]Map:  93%|█████████▎| 63164/67764 [01:01<00:04, 975.02 examples/s]Map:  94%|█████████▍| 63573/67764 [01:00<00:03, 1081.45 examples/s]Map:  93%|█████████▎| 63282/67764 [01:01<00:04, 1028.43 examples/s]Map:  94%|█████████▍| 64000/67764 [01:01<00:04, 939.22 examples/s] Map:  94%|█████████▍| 63694/67764 [01:00<00:03, 1114.41 examples/s]Map:  91%|█████████▏| 62000/67764 [00:59<00:06, 870.94 examples/s] Map:  94%|█████████▎| 63396/67764 [01:01<00:04, 1055.57 examples/s]Map:  95%|█████████▍| 64102/67764 [01:01<00:03, 959.01 examples/s]Map:  92%|█████████▏| 62100/67764 [00:59<00:06, 896.77 examples/s]Map:  94%|█████████▍| 63862/67764 [01:01<00:03, 1112.07 examples/s]Map:  94%|█████████▎| 63519/67764 [01:01<00:03, 1103.16 examples/s]Map:  95%|█████████▍| 64220/67764 [01:01<00:03, 1015.76 examples/s]Map:  92%|█████████▏| 62199/67764 [01:00<00:06, 916.66 examples/s]Map:  94%|█████████▍| 63975/67764 [01:01<00:03, 1113.42 examples/s]Map:  95%|█████████▍| 64333/67764 [01:01<00:03, 1044.36 examples/s]Map:  94%|█████████▍| 63673/67764 [01:01<00:03, 1071.16 examples/s]Map:  92%|█████████▏| 62309/67764 [01:00<00:06, 849.16 examples/s]Map:  94%|█████████▍| 63785/67764 [01:02<00:03, 1081.73 examples/s]Map:  95%|█████████▌| 64494/67764 [01:02<00:03, 1050.86 examples/s]Map:  95%|█████████▍| 64107/67764 [01:01<00:03, 920.93 examples/s] Map:  92%|█████████▏| 62405/67764 [01:00<00:06, 873.80 examples/s]Map:  94%|█████████▍| 63895/67764 [01:02<00:03, 1081.16 examples/s]Map:  95%|█████████▌| 64614/67764 [01:02<00:02, 1086.85 examples/s]Map:  95%|█████████▍| 64222/67764 [01:01<00:03, 972.83 examples/s]Map:  92%|█████████▏| 62523/67764 [01:00<00:05, 949.61 examples/s]Map:  96%|█████████▌| 64732/67764 [01:02<00:02, 1108.78 examples/s]Map:  95%|█████████▍| 64339/67764 [01:01<00:03, 1015.97 examples/s]Map:  92%|█████████▏| 62633/67764 [01:00<00:05, 987.43 examples/s]Map:  95%|█████████▍| 64054/67764 [01:02<00:03, 950.53 examples/s] Map:  96%|█████████▌| 64847/67764 [01:02<00:02, 1117.32 examples/s]Map:  95%|█████████▌| 64452/67764 [01:01<00:03, 1044.30 examples/s]Map:  93%|█████████▎| 62741/67764 [01:00<00:04, 1008.04 examples/s]Map:  95%|█████████▍| 64168/67764 [01:02<00:03, 992.09 examples/s]Map:  96%|█████████▌| 64962/67764 [01:02<00:02, 1123.82 examples/s]Map:  95%|█████████▌| 64567/67764 [01:01<00:03, 1064.52 examples/s]Map:  93%|█████████▎| 62850/67764 [01:00<00:04, 1029.60 examples/s]Map:  95%|█████████▍| 64272/67764 [01:02<00:03, 999.60 examples/s]Map:  95%|█████████▌| 64689/67764 [01:01<00:02, 1104.69 examples/s]Map:  93%|█████████▎| 62963/67764 [01:00<00:04, 1056.05 examples/s]Map:  95%|█████████▌| 64379/67764 [01:02<00:03, 1016.37 examples/s]Map:  96%|█████████▌| 65110/67764 [01:02<00:02, 966.50 examples/s] Map:  96%|█████████▌| 64806/67764 [01:02<00:02, 1122.27 examples/s]Map:  95%|█████████▌| 64493/67764 [01:02<00:03, 1043.23 examples/s]Map:  96%|█████████▋| 65228/67764 [01:02<00:02, 1016.84 examples/s]Map:  93%|█████████▎| 63109/67764 [01:00<00:05, 916.19 examples/s] Map:  96%|█████████▌| 64976/67764 [01:02<00:02, 1123.80 examples/s]Map:  95%|█████████▌| 64612/67764 [01:02<00:02, 1082.16 examples/s]Map:  96%|█████████▋| 65343/67764 [01:02<00:02, 1043.09 examples/s]Map:  93%|█████████▎| 63209/67764 [01:01<00:04, 933.51 examples/s]Map:  96%|█████████▌| 64725/67764 [01:02<00:02, 1092.92 examples/s]Map:  97%|█████████▋| 65460/67764 [01:02<00:02, 1074.68 examples/s]Map:  93%|█████████▎| 63317/67764 [01:01<00:04, 966.45 examples/s]Map:  96%|█████████▌| 65109/67764 [01:02<00:02, 967.40 examples/s] Map:  96%|█████████▌| 64836/67764 [01:03<00:02, 1094.37 examples/s]Map:  97%|█████████▋| 65578/67764 [01:03<00:01, 1100.32 examples/s]Map:  94%|█████████▎| 63449/67764 [01:01<00:04, 931.71 examples/s]Map:  96%|█████████▋| 65262/67764 [01:02<00:02, 982.11 examples/s]Map:  96%|█████████▌| 64995/67764 [01:03<00:02, 1077.82 examples/s]Map:  97%|█████████▋| 65738/67764 [01:03<00:01, 1085.93 examples/s]Map:  96%|█████████▋| 65374/67764 [01:02<00:02, 1012.53 examples/s]Map:  94%|█████████▍| 63565/67764 [01:01<00:04, 875.16 examples/s]Map:  97%|█████████▋| 65851/67764 [01:03<00:01, 1095.67 examples/s]Map:  97%|█████████▋| 65485/67764 [01:02<00:02, 1032.84 examples/s]Map:  96%|█████████▌| 65110/67764 [01:03<00:02, 931.52 examples/s] Map:  94%|█████████▍| 63670/67764 [01:01<00:04, 915.94 examples/s]Map:  97%|█████████▋| 65968/67764 [01:03<00:01, 1111.96 examples/s]Map:  97%|█████████▋| 65596/67764 [01:02<00:02, 1050.76 examples/s]Map:  96%|█████████▌| 65222/67764 [01:03<00:02, 974.16 examples/s]Map:  94%|█████████▍| 63773/67764 [01:01<00:04, 943.96 examples/s]Map:  97%|█████████▋| 65714/67764 [01:02<00:01, 1082.05 examples/s]Map:  96%|█████████▋| 65339/67764 [01:03<00:02, 1022.66 examples/s]Map:  98%|█████████▊| 66106/67764 [01:03<00:01, 945.36 examples/s] Map:  94%|█████████▍| 63878/67764 [01:01<00:04, 967.35 examples/s]Map:  97%|█████████▋| 65447/67764 [01:03<00:02, 1035.41 examples/s]Map:  98%|█████████▊| 66220/67764 [01:03<00:01, 990.41 examples/s]Map:  94%|█████████▍| 63986/67764 [01:01<00:03, 996.21 examples/s]Map:  97%|█████████▋| 65877/67764 [01:03<00:01, 1078.03 examples/s]Map:  97%|█████████▋| 65559/67764 [01:03<00:02, 1056.46 examples/s]Map:  98%|█████████▊| 66329/67764 [01:03<00:01, 1014.78 examples/s]Map:  97%|█████████▋| 65673/67764 [01:03<00:01, 1075.53 examples/s]Map:  95%|█████████▍| 64105/67764 [01:02<00:04, 847.01 examples/s]Map:  98%|█████████▊| 66444/67764 [01:03<00:01, 1048.87 examples/s]Map:  97%|█████████▋| 66000/67764 [01:03<00:01, 915.61 examples/s] Map:  97%|█████████▋| 65788/67764 [01:03<00:01, 1092.62 examples/s]Map:  95%|█████████▍| 64209/67764 [01:02<00:03, 891.42 examples/s]Map:  98%|█████████▊| 66564/67764 [01:04<00:01, 1084.72 examples/s]Map:  98%|█████████▊| 66111/67764 [01:03<00:01, 958.95 examples/s]Map:  97%|█████████▋| 65902/67764 [01:04<00:01, 1104.75 examples/s]Map:  95%|█████████▍| 64311/67764 [01:02<00:03, 922.78 examples/s]Map:  98%|█████████▊| 66680/67764 [01:04<00:00, 1103.70 examples/s]Map:  98%|█████████▊| 66222/67764 [01:03<00:01, 994.13 examples/s]Map:  95%|█████████▌| 64409/67764 [01:02<00:03, 935.73 examples/s]Map:  98%|█████████▊| 66336/67764 [01:03<00:01, 1029.27 examples/s]Map:  99%|█████████▊| 66846/67764 [01:04<00:00, 1102.22 examples/s]Map:  97%|█████████▋| 66046/67764 [01:04<00:01, 936.07 examples/s] Map:  95%|█████████▌| 64536/67764 [01:02<00:03, 898.43 examples/s]Map:  98%|█████████▊| 66486/67764 [01:03<00:01, 1015.99 examples/s]Map:  99%|█████████▉| 66995/67764 [01:04<00:00, 1054.71 examples/s]Map:  98%|█████████▊| 66188/67764 [01:04<00:01, 937.21 examples/s]Map:  98%|█████████▊| 66593/67764 [01:03<00:01, 1024.15 examples/s]Map:  98%|█████████▊| 66299/67764 [01:04<00:01, 977.04 examples/s]Map:  95%|█████████▌| 64661/67764 [01:02<00:03, 781.76 examples/s]Map:  98%|█████████▊| 66705/67764 [01:03<00:01, 1046.72 examples/s]Map:  99%|█████████▉| 67113/67764 [01:04<00:00, 926.15 examples/s] Map:  98%|█████████▊| 66413/67764 [01:04<00:01, 1012.24 examples/s]Map:  96%|█████████▌| 64753/67764 [01:02<00:03, 810.68 examples/s]Map:  99%|█████████▉| 67232/67764 [01:04<00:00, 986.20 examples/s]Map:  99%|█████████▊| 66868/67764 [01:04<00:00, 1056.07 examples/s]Map:  98%|█████████▊| 66524/67764 [01:04<00:01, 1033.63 examples/s]Map:  96%|█████████▌| 64857/67764 [01:02<00:03, 861.90 examples/s]Map:  99%|█████████▉| 67351/67764 [01:04<00:00, 1035.18 examples/s]Map:  99%|█████████▉| 66979/67764 [01:04<00:00, 1064.88 examples/s]Map:  98%|█████████▊| 66642/67764 [01:04<00:01, 1072.18 examples/s]Map:  96%|█████████▌| 64955/67764 [01:03<00:03, 886.94 examples/s]Map: 100%|█████████▉| 67471/67764 [01:04<00:00, 1075.05 examples/s]Map:  99%|█████████▊| 66754/67764 [01:04<00:00, 1081.23 examples/s]Map: 100%|█████████▉| 67584/67764 [01:04<00:00, 1088.49 examples/s]Map:  99%|█████████▉| 67109/67764 [01:04<00:00, 924.28 examples/s] Map:  96%|█████████▌| 65052/67764 [01:03<00:03, 776.07 examples/s]Map: 100%|█████████▉| 67701/67764 [01:05<00:00, 1108.06 examples/s]Map:  99%|█████████▊| 66916/67764 [01:05<00:00, 1075.53 examples/s]Map:  99%|█████████▉| 67219/67764 [01:04<00:00, 964.15 examples/s]Map:  96%|█████████▌| 65157/67764 [01:03<00:03, 839.39 examples/s]Map:  99%|█████████▉| 67331/67764 [01:04<00:00, 1001.35 examples/s]Map:  96%|█████████▋| 65264/67764 [01:03<00:02, 896.25 examples/s]Map:  99%|█████████▉| 67046/67764 [01:05<00:00, 931.10 examples/s] Map: 100%|██████████| 67764/67764 [01:05<00:00, 1037.64 examples/s]
Map: 100%|█████████▉| 67446/67764 [01:04<00:00, 1040.54 examples/s]Map:  96%|█████████▋| 65373/67764 [01:03<00:02, 946.90 examples/s]Map:  99%|█████████▉| 67161/67764 [01:05<00:00, 980.05 examples/s]Map: 100%|█████████▉| 67566/67764 [01:04<00:00, 1081.87 examples/s]Map:  97%|█████████▋| 65480/67764 [01:03<00:02, 978.63 examples/s]Map:  99%|█████████▉| 67265/67764 [01:05<00:00, 987.60 examples/s]Map:  97%|█████████▋| 65589/67764 [01:03<00:02, 1005.64 examples/s]Map: 100%|█████████▉| 67725/67764 [01:04<00:00, 1069.13 examples/s]Map:  99%|█████████▉| 67410/67764 [01:05<00:00, 973.69 examples/s]Map:  97%|█████████▋| 65703/67764 [01:03<00:01, 1043.69 examples/s]Map: 100%|█████████▉| 67523/67764 [01:05<00:00, 1010.06 examples/s]Map:  97%|█████████▋| 65818/67764 [01:03<00:01, 1073.18 examples/s]Map: 100%|██████████| 67764/67764 [01:05<00:00, 1041.55 examples/s]
Map: 100%|█████████▉| 67629/67764 [01:05<00:00, 1022.41 examples/s]Map:  97%|█████████▋| 65978/67764 [01:04<00:01, 1067.93 examples/s]Map: 100%|█████████▉| 67742/67764 [01:05<00:00, 1050.07 examples/s]Map:  98%|█████████▊| 66114/67764 [01:04<00:01, 930.63 examples/s] Map: 100%|██████████| 67764/67764 [01:06<00:00, 1025.02 examples/s]
Map:  98%|█████████▊| 66228/67764 [01:04<00:01, 976.62 examples/s]Map:  98%|█████████▊| 66346/67764 [01:04<00:01, 1024.21 examples/s]Map:  98%|█████████▊| 66459/67764 [01:04<00:01, 1049.53 examples/s]Map:  98%|█████████▊| 66616/67764 [01:04<00:01, 1047.88 examples/s]Map:  98%|█████████▊| 66724/67764 [01:04<00:00, 1050.80 examples/s]Map:  99%|█████████▊| 66840/67764 [01:04<00:00, 1074.78 examples/s]Map:  99%|█████████▉| 66953/67764 [01:05<00:00, 1085.70 examples/s]Map:  99%|█████████▉| 67110/67764 [01:05<00:00, 939.46 examples/s] Map:  99%|█████████▉| 67217/67764 [01:05<00:00, 968.01 examples/s]Map:  99%|█████████▉| 67334/67764 [01:05<00:00, 1015.51 examples/s]Map: 100%|█████████▉| 67452/67764 [01:05<00:00, 1056.00 examples/s]Map: 100%|█████████▉| 67567/67764 [01:05<00:00, 1077.38 examples/s]Map: 100%|█████████▉| 67679/67764 [01:05<00:00, 1084.50 examples/s]Map: 100%|██████████| 67764/67764 [01:05<00:00, 1027.25 examples/s]
Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
/home/aiops/duanky/miniconda3/envs/lora/lib/python3.11/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  warnings.warn(
/home/aiops/duanky/miniconda3/envs/lora/lib/python3.11/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  warnings.warn(
/home/aiops/duanky/miniconda3/envs/lora/lib/python3.11/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  warnings.warn(
wandb: Currently logged in as: k-duan (nus_keyu). Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.16.1
wandb: Run data is saved locally in /home/aiops/duanky/lora-moe/experiments/launch_scripts/wandb/run-20231229_062717-koei9tvj
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run belle_dolphine-p11
wandb: ⭐️ View project at https://wandb.ai/nus_keyu/lora-moe
wandb: 🚀 View run at https://wandb.ai/nus_keyu/lora-moe/runs/koei9tvj
  0%|          | 0/2117 [00:00<?, ?it/s]/home/aiops/duanky/miniconda3/envs/lora/lib/python3.11/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  warnings.warn(
  0%|          | 1/2117 [00:02<1:33:49,  2.66s/it]                                                  {'loss': 1.8444, 'learning_rate': 4.000000000000001e-06, 'epoch': 0.0}
  0%|          | 1/2117 [00:02<1:33:49,  2.66s/it]  0%|          | 2/2117 [00:04<1:23:38,  2.37s/it]                                                  {'loss': 1.9183, 'learning_rate': 8.000000000000001e-06, 'epoch': 0.0}
  0%|          | 2/2117 [00:04<1:23:38,  2.37s/it]  0%|          | 3/2117 [00:06<1:17:40,  2.20s/it]                                                  {'loss': 2.0161, 'learning_rate': 1.2e-05, 'epoch': 0.0}
  0%|          | 3/2117 [00:06<1:17:40,  2.20s/it]  0%|          | 4/2117 [00:08<1:11:30,  2.03s/it]                                                  {'loss': 2.0216, 'learning_rate': 1.6000000000000003e-05, 'epoch': 0.0}
  0%|          | 4/2117 [00:08<1:11:30,  2.03s/it]  0%|          | 5/2117 [00:10<1:13:12,  2.08s/it]                                                  {'loss': 1.9427, 'learning_rate': 2e-05, 'epoch': 0.0}
  0%|          | 5/2117 [00:10<1:13:12,  2.08s/it]  0%|          | 6/2117 [00:13<1:17:38,  2.21s/it]                                                  {'loss': 1.9254, 'learning_rate': 2.4e-05, 'epoch': 0.0}
  0%|          | 6/2117 [00:13<1:17:38,  2.21s/it]  0%|          | 7/2117 [00:15<1:14:37,  2.12s/it]                                                  {'loss': 1.6781, 'learning_rate': 2.8000000000000003e-05, 'epoch': 0.0}
  0%|          | 7/2117 [00:15<1:14:37,  2.12s/it]  0%|          | 8/2117 [00:17<1:11:46,  2.04s/it]                                                  {'loss': 1.703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 0.0}
  0%|          | 8/2117 [00:17<1:11:46,  2.04s/it]  0%|          | 9/2117 [00:19<1:13:10,  2.08s/it]                                                  {'loss': 2.0178, 'learning_rate': 3.6e-05, 'epoch': 0.0}
  0%|          | 9/2117 [00:19<1:13:10,  2.08s/it]  0%|          | 10/2117 [00:21<1:13:03,  2.08s/it]                                                   {'loss': 1.8788, 'learning_rate': 4e-05, 'epoch': 0.0}
  0%|          | 10/2117 [00:21<1:13:03,  2.08s/it]  1%|          | 11/2117 [00:23<1:17:26,  2.21s/it]                                                   {'loss': 2.0176, 'learning_rate': 4.4000000000000006e-05, 'epoch': 0.01}
  1%|          | 11/2117 [00:23<1:17:26,  2.21s/it]  1%|          | 12/2117 [00:25<1:13:22,  2.09s/it]                                                   {'loss': 1.659, 'learning_rate': 4.8e-05, 'epoch': 0.01}
  1%|          | 12/2117 [00:25<1:13:22,  2.09s/it]  1%|          | 13/2117 [00:27<1:10:55,  2.02s/it]                                                   {'loss': 1.4496, 'learning_rate': 5.2000000000000004e-05, 'epoch': 0.01}
  1%|          | 13/2117 [00:27<1:10:55,  2.02s/it]  1%|          | 14/2117 [00:29<1:10:29,  2.01s/it]                                                   {'loss': 1.3411, 'learning_rate': 5.6000000000000006e-05, 'epoch': 0.01}
  1%|          | 14/2117 [00:29<1:10:29,  2.01s/it]  1%|          | 15/2117 [00:31<1:10:18,  2.01s/it]                                                   {'loss': 1.3288, 'learning_rate': 6e-05, 'epoch': 0.01}
  1%|          | 15/2117 [00:31<1:10:18,  2.01s/it]  1%|          | 16/2117 [00:33<1:10:23,  2.01s/it]                                                   {'loss': 1.7064, 'learning_rate': 6.400000000000001e-05, 'epoch': 0.01}
  1%|          | 16/2117 [00:33<1:10:23,  2.01s/it]  1%|          | 17/2117 [00:35<1:10:44,  2.02s/it]                                                   {'loss': 1.8597, 'learning_rate': 6.800000000000001e-05, 'epoch': 0.01}
  1%|          | 17/2117 [00:35<1:10:44,  2.02s/it]  1%|          | 18/2117 [00:37<1:08:19,  1.95s/it]                                                   {'loss': 1.5418, 'learning_rate': 7.2e-05, 'epoch': 0.01}
  1%|          | 18/2117 [00:37<1:08:19,  1.95s/it]  1%|          | 19/2117 [00:39<1:06:58,  1.92s/it]                                                   {'loss': 1.6277, 'learning_rate': 7.6e-05, 'epoch': 0.01}
  1%|          | 19/2117 [00:39<1:06:58,  1.92s/it]  1%|          | 20/2117 [00:41<1:09:14,  1.98s/it]                                                   {'loss': 1.4583, 'learning_rate': 8e-05, 'epoch': 0.01}
  1%|          | 20/2117 [00:41<1:09:14,  1.98s/it]  1%|          | 21/2117 [00:43<1:11:05,  2.03s/it]                                                   {'loss': 1.466, 'learning_rate': 8.4e-05, 'epoch': 0.01}
  1%|          | 21/2117 [00:43<1:11:05,  2.03s/it]  1%|          | 22/2117 [00:45<1:08:55,  1.97s/it]                                                   {'loss': 1.7423, 'learning_rate': 8.800000000000001e-05, 'epoch': 0.01}
  1%|          | 22/2117 [00:45<1:08:55,  1.97s/it]  1%|          | 23/2117 [00:47<1:06:41,  1.91s/it]                                                   {'loss': 1.5443, 'learning_rate': 9.200000000000001e-05, 'epoch': 0.01}
  1%|          | 23/2117 [00:47<1:06:41,  1.91s/it]  1%|          | 24/2117 [00:48<1:06:22,  1.90s/it]                                                   {'loss': 1.751, 'learning_rate': 9.6e-05, 'epoch': 0.01}
  1%|          | 24/2117 [00:48<1:06:22,  1.90s/it]  1%|          | 25/2117 [00:50<1:07:09,  1.93s/it]                                                   {'loss': 1.7061, 'learning_rate': 0.0001, 'epoch': 0.01}
  1%|          | 25/2117 [00:50<1:07:09,  1.93s/it]  1%|          | 26/2117 [00:52<1:07:36,  1.94s/it]                                                   {'loss': 1.5738, 'learning_rate': 0.00010400000000000001, 'epoch': 0.01}
  1%|          | 26/2117 [00:52<1:07:36,  1.94s/it]  1%|▏         | 27/2117 [00:54<1:06:00,  1.90s/it]                                                   {'loss': 1.4467, 'learning_rate': 0.00010800000000000001, 'epoch': 0.01}
  1%|▏         | 27/2117 [00:54<1:06:00,  1.90s/it]  1%|▏         | 28/2117 [00:56<1:06:05,  1.90s/it]                                                   {'loss': 1.4368, 'learning_rate': 0.00011200000000000001, 'epoch': 0.01}
  1%|▏         | 28/2117 [00:56<1:06:05,  1.90s/it]  1%|▏         | 29/2117 [00:58<1:06:22,  1.91s/it]                                                   {'loss': 1.3751, 'learning_rate': 0.000116, 'epoch': 0.01}
  1%|▏         | 29/2117 [00:58<1:06:22,  1.91s/it]  1%|▏         | 30/2117 [01:00<1:07:50,  1.95s/it]                                                   {'loss': 1.2682, 'learning_rate': 0.00012, 'epoch': 0.01}
  1%|▏         | 30/2117 [01:00<1:07:50,  1.95s/it]  1%|▏         | 31/2117 [01:02<1:10:59,  2.04s/it]                                                   {'loss': 1.685, 'learning_rate': 0.000124, 'epoch': 0.01}
  1%|▏         | 31/2117 [01:02<1:10:59,  2.04s/it]  2%|▏         | 32/2117 [01:04<1:10:10,  2.02s/it]                                                   {'loss': 1.3104, 'learning_rate': 0.00012800000000000002, 'epoch': 0.02}
  2%|▏         | 32/2117 [01:04<1:10:10,  2.02s/it]  2%|▏         | 33/2117 [01:06<1:07:30,  1.94s/it]                                                   {'loss': 1.21, 'learning_rate': 0.000132, 'epoch': 0.02}
  2%|▏         | 33/2117 [01:06<1:07:30,  1.94s/it]  2%|▏         | 34/2117 [01:08<1:05:52,  1.90s/it]                                                   {'loss': 1.7759, 'learning_rate': 0.00013600000000000003, 'epoch': 0.02}
  2%|▏         | 34/2117 [01:08<1:05:52,  1.90s/it]  2%|▏         | 35/2117 [01:10<1:07:48,  1.95s/it]                                                   {'loss': 1.4145, 'learning_rate': 0.00014, 'epoch': 0.02}
  2%|▏         | 35/2117 [01:10<1:07:48,  1.95s/it]  2%|▏         | 36/2117 [01:12<1:13:15,  2.11s/it]                                                   {'loss': 1.5398, 'learning_rate': 0.000144, 'epoch': 0.02}
  2%|▏         | 36/2117 [01:12<1:13:15,  2.11s/it]  2%|▏         | 37/2117 [01:14<1:10:25,  2.03s/it]                                                   {'loss': 1.6678, 'learning_rate': 0.000148, 'epoch': 0.02}
  2%|▏         | 37/2117 [01:14<1:10:25,  2.03s/it]  2%|▏         | 38/2117 [01:16<1:09:53,  2.02s/it]                                                   {'loss': 1.5502, 'learning_rate': 0.000152, 'epoch': 0.02}
  2%|▏         | 38/2117 [01:16<1:09:53,  2.02s/it]  2%|▏         | 39/2117 [01:18<1:07:58,  1.96s/it]                                                   {'loss': 1.3757, 'learning_rate': 0.00015600000000000002, 'epoch': 0.02}
  2%|▏         | 39/2117 [01:18<1:07:58,  1.96s/it]  2%|▏         | 40/2117 [01:20<1:06:53,  1.93s/it]                                                   {'loss': 1.5165, 'learning_rate': 0.00016, 'epoch': 0.02}
  2%|▏         | 40/2117 [01:20<1:06:53,  1.93s/it]  2%|▏         | 41/2117 [01:22<1:04:55,  1.88s/it]                                                   {'loss': 1.1687, 'learning_rate': 0.000164, 'epoch': 0.02}
  2%|▏         | 41/2117 [01:22<1:04:55,  1.88s/it]  2%|▏         | 42/2117 [01:24<1:07:28,  1.95s/it]                                                   {'loss': 1.8161, 'learning_rate': 0.000168, 'epoch': 0.02}
  2%|▏         | 42/2117 [01:24<1:07:28,  1.95s/it]  2%|▏         | 43/2117 [01:26<1:05:55,  1.91s/it]                                                   {'loss': 1.4016, 'learning_rate': 0.000172, 'epoch': 0.02}
  2%|▏         | 43/2117 [01:26<1:05:55,  1.91s/it]  2%|▏         | 44/2117 [01:28<1:08:28,  1.98s/it]                                                   {'loss': 1.4039, 'learning_rate': 0.00017600000000000002, 'epoch': 0.02}
  2%|▏         | 44/2117 [01:28<1:08:28,  1.98s/it]  2%|▏         | 45/2117 [01:30<1:14:16,  2.15s/it]                                                   {'loss': 1.4823, 'learning_rate': 0.00018, 'epoch': 0.02}
  2%|▏         | 45/2117 [01:30<1:14:16,  2.15s/it]  2%|▏         | 46/2117 [01:32<1:10:49,  2.05s/it]                                                   {'loss': 1.3028, 'learning_rate': 0.00018400000000000003, 'epoch': 0.02}
  2%|▏         | 46/2117 [01:32<1:10:49,  2.05s/it]  2%|▏         | 47/2117 [01:34<1:08:19,  1.98s/it]                                                   {'loss': 1.3179, 'learning_rate': 0.000188, 'epoch': 0.02}
  2%|▏         | 47/2117 [01:34<1:08:19,  1.98s/it]  2%|▏         | 48/2117 [01:36<1:08:22,  1.98s/it]                                                   {'loss': 1.465, 'learning_rate': 0.000192, 'epoch': 0.02}
  2%|▏         | 48/2117 [01:36<1:08:22,  1.98s/it]  2%|▏         | 49/2117 [01:38<1:10:03,  2.03s/it]                                                   {'loss': 1.3618, 'learning_rate': 0.000196, 'epoch': 0.02}
  2%|▏         | 49/2117 [01:38<1:10:03,  2.03s/it]  2%|▏         | 50/2117 [01:40<1:11:16,  2.07s/it]                                                   {'loss': 1.4782, 'learning_rate': 0.0002, 'epoch': 0.02}
  2%|▏         | 50/2117 [01:40<1:11:16,  2.07s/it]  2%|▏         | 51/2117 [01:42<1:08:05,  1.98s/it]                                                   {'loss': 1.1542, 'learning_rate': 0.00020400000000000003, 'epoch': 0.02}
  2%|▏         | 51/2117 [01:42<1:08:05,  1.98s/it]  2%|▏         | 52/2117 [01:44<1:07:37,  1.97s/it]                                                   {'loss': 1.3877, 'learning_rate': 0.00020800000000000001, 'epoch': 0.02}
  2%|▏         | 52/2117 [01:44<1:07:37,  1.97s/it]  3%|▎         | 53/2117 [01:46<1:07:58,  1.98s/it]                                                   {'loss': 1.6806, 'learning_rate': 0.00021200000000000003, 'epoch': 0.03}
  3%|▎         | 53/2117 [01:46<1:07:58,  1.98s/it]  3%|▎         | 54/2117 [01:48<1:12:05,  2.10s/it]                                                   {'loss': 1.4566, 'learning_rate': 0.00021600000000000002, 'epoch': 0.03}
  3%|▎         | 54/2117 [01:48<1:12:05,  2.10s/it]  3%|▎         | 55/2117 [01:51<1:17:51,  2.27s/it]                                                   {'loss': 1.4927, 'learning_rate': 0.00022000000000000003, 'epoch': 0.03}
  3%|▎         | 55/2117 [01:51<1:17:51,  2.27s/it]  3%|▎         | 56/2117 [01:53<1:15:55,  2.21s/it]                                                   {'loss': 1.7024, 'learning_rate': 0.00022400000000000002, 'epoch': 0.03}
  3%|▎         | 56/2117 [01:53<1:15:55,  2.21s/it]  3%|▎         | 57/2117 [01:55<1:14:36,  2.17s/it]                                                   {'loss': 1.5621, 'learning_rate': 0.00022799999999999999, 'epoch': 0.03}
  3%|▎         | 57/2117 [01:55<1:14:36,  2.17s/it]  3%|▎         | 58/2117 [01:57<1:13:39,  2.15s/it]                                                   {'loss': 1.5714, 'learning_rate': 0.000232, 'epoch': 0.03}
  3%|▎         | 58/2117 [01:57<1:13:39,  2.15s/it]  3%|▎         | 59/2117 [01:59<1:09:25,  2.02s/it]                                                   {'loss': 1.2905, 'learning_rate': 0.000236, 'epoch': 0.03}
  3%|▎         | 59/2117 [01:59<1:09:25,  2.02s/it]  3%|▎         | 60/2117 [02:01<1:08:43,  2.00s/it]                                                   {'loss': 1.332, 'learning_rate': 0.00024, 'epoch': 0.03}
  3%|▎         | 60/2117 [02:01<1:08:43,  2.00s/it]  3%|▎         | 61/2117 [02:03<1:14:39,  2.18s/it]                                                   {'loss': 1.5307, 'learning_rate': 0.000244, 'epoch': 0.03}
  3%|▎         | 61/2117 [02:03<1:14:39,  2.18s/it]  3%|▎         | 62/2117 [02:05<1:12:25,  2.11s/it]                                                   {'loss': 1.4634, 'learning_rate': 0.000248, 'epoch': 0.03}
  3%|▎         | 62/2117 [02:05<1:12:25,  2.11s/it]  3%|▎         | 63/2117 [02:07<1:09:59,  2.04s/it]                                                   {'loss': 1.3234, 'learning_rate': 0.000252, 'epoch': 0.03}
  3%|▎         | 63/2117 [02:07<1:09:59,  2.04s/it]  3%|▎         | 64/2117 [02:09<1:08:57,  2.02s/it]                                                   {'loss': 1.3457, 'learning_rate': 0.00025600000000000004, 'epoch': 0.03}
  3%|▎         | 64/2117 [02:09<1:08:57,  2.02s/it]  3%|▎         | 65/2117 [02:11<1:08:52,  2.01s/it]                                                   {'loss': 1.6265, 'learning_rate': 0.00026000000000000003, 'epoch': 0.03}
  3%|▎         | 65/2117 [02:11<1:08:52,  2.01s/it]  3%|▎         | 66/2117 [02:14<1:13:16,  2.14s/it]                                                   {'loss': 1.4168, 'learning_rate': 0.000264, 'epoch': 0.03}
  3%|▎         | 66/2117 [02:14<1:13:16,  2.14s/it]  3%|▎         | 67/2117 [02:16<1:17:35,  2.27s/it]                                                   {'loss': 1.6415, 'learning_rate': 0.000268, 'epoch': 0.03}
  3%|▎         | 67/2117 [02:16<1:17:35,  2.27s/it]  3%|▎         | 68/2117 [02:18<1:16:21,  2.24s/it]                                                   {'loss': 1.5993, 'learning_rate': 0.00027200000000000005, 'epoch': 0.03}
  3%|▎         | 68/2117 [02:18<1:16:21,  2.24s/it]  3%|▎         | 69/2117 [02:21<1:18:56,  2.31s/it]                                                   {'loss': 1.5743, 'learning_rate': 0.000276, 'epoch': 0.03}
  3%|▎         | 69/2117 [02:21<1:18:56,  2.31s/it]  3%|▎         | 70/2117 [02:23<1:15:17,  2.21s/it]                                                   {'loss': 1.1849, 'learning_rate': 0.00028, 'epoch': 0.03}
  3%|▎         | 70/2117 [02:23<1:15:17,  2.21s/it]  3%|▎         | 71/2117 [02:25<1:09:57,  2.05s/it]                                                   {'loss': 1.4831, 'learning_rate': 0.000284, 'epoch': 0.03}
  3%|▎         | 71/2117 [02:25<1:09:57,  2.05s/it]  3%|▎         | 72/2117 [02:26<1:08:14,  2.00s/it]                                                   {'loss': 1.3906, 'learning_rate': 0.000288, 'epoch': 0.03}
  3%|▎         | 72/2117 [02:26<1:08:14,  2.00s/it]  3%|▎         | 73/2117 [02:28<1:05:57,  1.94s/it]                                                   {'loss': 1.2823, 'learning_rate': 0.000292, 'epoch': 0.03}
  3%|▎         | 73/2117 [02:28<1:05:57,  1.94s/it]  3%|▎         | 74/2117 [02:30<1:06:35,  1.96s/it]                                                   {'loss': 1.3114, 'learning_rate': 0.000296, 'epoch': 0.03}
  3%|▎         | 74/2117 [02:30<1:06:35,  1.96s/it]  4%|▎         | 75/2117 [02:32<1:07:12,  1.97s/it]                                                   {'loss': 1.8664, 'learning_rate': 0.00030000000000000003, 'epoch': 0.04}
  4%|▎         | 75/2117 [02:32<1:07:12,  1.97s/it]  4%|▎         | 76/2117 [02:34<1:05:43,  1.93s/it]                                                   {'loss': 1.3636, 'learning_rate': 0.000304, 'epoch': 0.04}
  4%|▎         | 76/2117 [02:34<1:05:43,  1.93s/it]  4%|▎         | 77/2117 [02:36<1:05:31,  1.93s/it]                                                   {'loss': 1.5702, 'learning_rate': 0.000308, 'epoch': 0.04}
  4%|▎         | 77/2117 [02:36<1:05:31,  1.93s/it]  4%|▎         | 78/2117 [02:38<1:08:36,  2.02s/it]                                                   {'loss': 1.5398, 'learning_rate': 0.00031200000000000005, 'epoch': 0.04}
  4%|▎         | 78/2117 [02:38<1:08:36,  2.02s/it]  4%|▎         | 79/2117 [02:40<1:07:45,  2.00s/it]                                                   {'loss': 1.3273, 'learning_rate': 0.00031600000000000004, 'epoch': 0.04}
  4%|▎         | 79/2117 [02:40<1:07:45,  2.00s/it]  4%|▍         | 80/2117 [02:42<1:09:53,  2.06s/it]                                                   {'loss': 1.6198, 'learning_rate': 0.00032, 'epoch': 0.04}
  4%|▍         | 80/2117 [02:42<1:09:53,  2.06s/it]  4%|▍         | 81/2117 [02:44<1:04:57,  1.91s/it]                                                   {'loss': 1.3984, 'learning_rate': 0.000324, 'epoch': 0.04}
  4%|▍         | 81/2117 [02:44<1:04:57,  1.91s/it]  4%|▍         | 82/2117 [02:46<1:05:21,  1.93s/it]                                                   {'loss': 1.4277, 'learning_rate': 0.000328, 'epoch': 0.04}
  4%|▍         | 82/2117 [02:46<1:05:21,  1.93s/it]  4%|▍         | 83/2117 [02:48<1:05:25,  1.93s/it]                                                   {'loss': 1.3518, 'learning_rate': 0.000332, 'epoch': 0.04}
  4%|▍         | 83/2117 [02:48<1:05:25,  1.93s/it]  4%|▍         | 84/2117 [02:50<1:08:54,  2.03s/it]                                                   {'loss': 1.6, 'learning_rate': 0.000336, 'epoch': 0.04}
  4%|▍         | 84/2117 [02:50<1:08:54,  2.03s/it]  4%|▍         | 85/2117 [02:52<1:08:14,  2.01s/it]                                                   {'loss': 1.6434, 'learning_rate': 0.00034, 'epoch': 0.04}
  4%|▍         | 85/2117 [02:52<1:08:14,  2.01s/it]  4%|▍         | 86/2117 [02:54<1:06:20,  1.96s/it]                                                   {'loss': 1.4813, 'learning_rate': 0.000344, 'epoch': 0.04}
  4%|▍         | 86/2117 [02:54<1:06:20,  1.96s/it]  4%|▍         | 87/2117 [02:56<1:06:58,  1.98s/it]                                                   {'loss': 1.7128, 'learning_rate': 0.000348, 'epoch': 0.04}
  4%|▍         | 87/2117 [02:56<1:06:58,  1.98s/it]  4%|▍         | 88/2117 [02:58<1:05:33,  1.94s/it]                                                   {'loss': 1.1899, 'learning_rate': 0.00035200000000000005, 'epoch': 0.04}
  4%|▍         | 88/2117 [02:58<1:05:33,  1.94s/it]  4%|▍         | 89/2117 [03:00<1:04:47,  1.92s/it]                                                   {'loss': 1.6948, 'learning_rate': 0.00035600000000000003, 'epoch': 0.04}
  4%|▍         | 89/2117 [03:00<1:04:47,  1.92s/it]  4%|▍         | 90/2117 [03:02<1:08:07,  2.02s/it]                                                   {'loss': 1.3608, 'learning_rate': 0.00036, 'epoch': 0.04}
  4%|▍         | 90/2117 [03:02<1:08:07,  2.02s/it]  4%|▍         | 91/2117 [03:04<1:06:12,  1.96s/it]                                                   {'loss': 1.4245, 'learning_rate': 0.000364, 'epoch': 0.04}
  4%|▍         | 91/2117 [03:04<1:06:12,  1.96s/it]  4%|▍         | 92/2117 [03:06<1:05:13,  1.93s/it]                                                   {'loss': 1.4884, 'learning_rate': 0.00036800000000000005, 'epoch': 0.04}
  4%|▍         | 92/2117 [03:06<1:05:13,  1.93s/it]  4%|▍         | 93/2117 [03:08<1:05:42,  1.95s/it]                                                   {'loss': 1.4071, 'learning_rate': 0.00037200000000000004, 'epoch': 0.04}
  4%|▍         | 93/2117 [03:08<1:05:42,  1.95s/it]  4%|▍         | 94/2117 [03:10<1:05:55,  1.96s/it]                                                   {'loss': 1.4908, 'learning_rate': 0.000376, 'epoch': 0.04}
  4%|▍         | 94/2117 [03:10<1:05:55,  1.96s/it]  4%|▍         | 95/2117 [03:11<1:04:15,  1.91s/it]                                                   {'loss': 1.564, 'learning_rate': 0.00038, 'epoch': 0.04}
  4%|▍         | 95/2117 [03:11<1:04:15,  1.91s/it]  5%|▍         | 96/2117 [03:13<1:04:00,  1.90s/it]                                                   {'loss': 1.3262, 'learning_rate': 0.000384, 'epoch': 0.05}
  5%|▍         | 96/2117 [03:13<1:04:00,  1.90s/it]  5%|▍         | 97/2117 [03:16<1:08:14,  2.03s/it]                                                   {'loss': 1.4975, 'learning_rate': 0.000388, 'epoch': 0.05}
  5%|▍         | 97/2117 [03:16<1:08:14,  2.03s/it]  5%|▍         | 98/2117 [03:18<1:08:53,  2.05s/it]                                                   {'loss': 1.1834, 'learning_rate': 0.000392, 'epoch': 0.05}
  5%|▍         | 98/2117 [03:18<1:08:53,  2.05s/it]  5%|▍         | 99/2117 [03:19<1:05:52,  1.96s/it]                                                   {'loss': 1.4296, 'learning_rate': 0.00039600000000000003, 'epoch': 0.05}
  5%|▍         | 99/2117 [03:19<1:05:52,  1.96s/it]  5%|▍         | 100/2117 [03:21<1:05:48,  1.96s/it]                                                    {'loss': 1.5633, 'learning_rate': 0.0004, 'epoch': 0.05}
  5%|▍         | 100/2117 [03:21<1:05:48,  1.96s/it]  5%|▍         | 101/2117 [03:23<1:07:04,  2.00s/it]                                                    {'loss': 1.5139, 'learning_rate': 0.00039999975740163973, 'epoch': 0.05}
  5%|▍         | 101/2117 [03:23<1:07:04,  2.00s/it]  5%|▍         | 102/2117 [03:25<1:05:47,  1.96s/it]                                                    {'loss': 1.3188, 'learning_rate': 0.0003999990296071474, 'epoch': 0.05}
  5%|▍         | 102/2117 [03:25<1:05:47,  1.96s/it]  5%|▍         | 103/2117 [03:27<1:07:14,  2.00s/it]                                                    {'loss': 1.495, 'learning_rate': 0.0003999978166182887, 'epoch': 0.05}
  5%|▍         | 103/2117 [03:27<1:07:14,  2.00s/it]  5%|▍         | 104/2117 [03:29<1:06:10,  1.97s/it]                                                    {'loss': 1.6301, 'learning_rate': 0.0003999961184380062, 'epoch': 0.05}
  5%|▍         | 104/2117 [03:29<1:06:10,  1.97s/it]  5%|▍         | 105/2117 [03:32<1:09:04,  2.06s/it]                                                    {'loss': 1.5732, 'learning_rate': 0.0003999939350704197, 'epoch': 0.05}
  5%|▍         | 105/2117 [03:32<1:09:04,  2.06s/it]  5%|▌         | 106/2117 [03:34<1:07:49,  2.02s/it]                                                    {'loss': 1.5114, 'learning_rate': 0.0003999912665208261, 'epoch': 0.05}
  5%|▌         | 106/2117 [03:34<1:07:49,  2.02s/it]  5%|▌         | 107/2117 [03:36<1:08:13,  2.04s/it]                                                    {'loss': 1.3505, 'learning_rate': 0.0003999881127956992, 'epoch': 0.05}
  5%|▌         | 107/2117 [03:36<1:08:13,  2.04s/it]  5%|▌         | 108/2117 [03:38<1:08:41,  2.05s/it]                                                    {'loss': 1.4632, 'learning_rate': 0.0003999844739026899, 'epoch': 0.05}
  5%|▌         | 108/2117 [03:38<1:08:41,  2.05s/it]  5%|▌         | 109/2117 [03:40<1:07:36,  2.02s/it]                                                    {'loss': 1.5271, 'learning_rate': 0.00039998034985062604, 'epoch': 0.05}
  5%|▌         | 109/2117 [03:40<1:07:36,  2.02s/it]  5%|▌         | 110/2117 [03:42<1:07:40,  2.02s/it]                                                    {'loss': 1.3881, 'learning_rate': 0.0003999757406495126, 'epoch': 0.05}
  5%|▌         | 110/2117 [03:42<1:07:40,  2.02s/it]  5%|▌         | 111/2117 [03:43<1:04:48,  1.94s/it]                                                    {'loss': 1.2799, 'learning_rate': 0.00039997064631053133, 'epoch': 0.05}
  5%|▌         | 111/2117 [03:43<1:04:48,  1.94s/it]  5%|▌         | 112/2117 [03:45<1:05:55,  1.97s/it]                                                    {'loss': 1.5678, 'learning_rate': 0.0003999650668460411, 'epoch': 0.05}
  5%|▌         | 112/2117 [03:46<1:05:55,  1.97s/it]  5%|▌         | 113/2117 [03:47<1:05:56,  1.97s/it]                                                    {'loss': 1.1719, 'learning_rate': 0.00039995900226957745, 'epoch': 0.05}
  5%|▌         | 113/2117 [03:47<1:05:56,  1.97s/it]  5%|▌         | 114/2117 [03:49<1:04:34,  1.93s/it]                                                    {'loss': 1.4742, 'learning_rate': 0.0003999524525958531, 'epoch': 0.05}
  5%|▌         | 114/2117 [03:49<1:04:34,  1.93s/it]  5%|▌         | 115/2117 [03:52<1:07:54,  2.04s/it]                                                    {'loss': 1.3277, 'learning_rate': 0.00039994541784075746, 'epoch': 0.05}
  5%|▌         | 115/2117 [03:52<1:07:54,  2.04s/it]  5%|▌         | 116/2117 [03:53<1:04:25,  1.93s/it]                                                    {'loss': 1.2949, 'learning_rate': 0.00039993789802135655, 'epoch': 0.05}
  5%|▌         | 116/2117 [03:53<1:04:25,  1.93s/it]  6%|▌         | 117/2117 [03:56<1:12:36,  2.18s/it]                                                    {'loss': 1.7286, 'learning_rate': 0.0003999298931558936, 'epoch': 0.06}
  6%|▌         | 117/2117 [03:56<1:12:36,  2.18s/it]  6%|▌         | 118/2117 [03:58<1:11:17,  2.14s/it]                                                    {'loss': 1.7081, 'learning_rate': 0.00039992140326378794, 'epoch': 0.06}
  6%|▌         | 118/2117 [03:58<1:11:17,  2.14s/it]  6%|▌         | 119/2117 [04:00<1:10:46,  2.13s/it]                                                    {'loss': 1.4714, 'learning_rate': 0.0003999124283656362, 'epoch': 0.06}
  6%|▌         | 119/2117 [04:00<1:10:46,  2.13s/it]  6%|▌         | 120/2117 [04:02<1:10:18,  2.11s/it]                                                    {'loss': 1.3633, 'learning_rate': 0.0003999029684832112, 'epoch': 0.06}
  6%|▌         | 120/2117 [04:02<1:10:18,  2.11s/it]  6%|▌         | 121/2117 [04:04<1:09:46,  2.10s/it]                                                    {'loss': 1.3825, 'learning_rate': 0.0003998930236394625, 'epoch': 0.06}
  6%|▌         | 121/2117 [04:04<1:09:46,  2.10s/it]  6%|▌         | 122/2117 [04:06<1:09:07,  2.08s/it]                                                    {'loss': 1.5665, 'learning_rate': 0.0003998825938585162, 'epoch': 0.06}
  6%|▌         | 122/2117 [04:06<1:09:07,  2.08s/it]  6%|▌         | 123/2117 [04:08<1:08:39,  2.07s/it]                                                    {'loss': 1.2232, 'learning_rate': 0.00039987167916567454, 'epoch': 0.06}
  6%|▌         | 123/2117 [04:08<1:08:39,  2.07s/it]  6%|▌         | 124/2117 [04:11<1:09:42,  2.10s/it]                                                    {'loss': 1.5348, 'learning_rate': 0.0003998602795874167, 'epoch': 0.06}
  6%|▌         | 124/2117 [04:11<1:09:42,  2.10s/it]  6%|▌         | 125/2117 [04:12<1:07:29,  2.03s/it]                                                    {'loss': 1.4528, 'learning_rate': 0.00039984839515139767, 'epoch': 0.06}
  6%|▌         | 125/2117 [04:12<1:07:29,  2.03s/it]  6%|▌         | 126/2117 [04:14<1:03:52,  1.92s/it]                                                    {'loss': 1.4307, 'learning_rate': 0.00039983602588644884, 'epoch': 0.06}
  6%|▌         | 126/2117 [04:14<1:03:52,  1.92s/it]  6%|▌         | 127/2117 [04:16<1:02:05,  1.87s/it]                                                    {'loss': 1.246, 'learning_rate': 0.000399823171822578, 'epoch': 0.06}
  6%|▌         | 127/2117 [04:16<1:02:05,  1.87s/it]  6%|▌         | 128/2117 [04:18<1:01:04,  1.84s/it]                                                    {'loss': 1.1974, 'learning_rate': 0.0003998098329909689, 'epoch': 0.06}
  6%|▌         | 128/2117 [04:18<1:01:04,  1.84s/it]  6%|▌         | 129/2117 [04:20<1:02:20,  1.88s/it]                                                    {'loss': 1.3772, 'learning_rate': 0.0003997960094239812, 'epoch': 0.06}
  6%|▌         | 129/2117 [04:20<1:02:20,  1.88s/it]  6%|▌         | 130/2117 [04:22<1:08:02,  2.05s/it]                                                    {'loss': 1.5958, 'learning_rate': 0.0003997817011551508, 'epoch': 0.06}
  6%|▌         | 130/2117 [04:22<1:08:02,  2.05s/it]  6%|▌         | 131/2117 [04:24<1:06:04,  2.00s/it]                                                    {'loss': 1.2651, 'learning_rate': 0.00039976690821918917, 'epoch': 0.06}
  6%|▌         | 131/2117 [04:24<1:06:04,  2.00s/it]  6%|▌         | 132/2117 [04:26<1:03:28,  1.92s/it]                                                    {'loss': 1.4289, 'learning_rate': 0.00039975163065198376, 'epoch': 0.06}
  6%|▌         | 132/2117 [04:26<1:03:28,  1.92s/it]  6%|▋         | 133/2117 [04:28<1:03:56,  1.93s/it]                                                    {'loss': 1.3508, 'learning_rate': 0.0003997358684905979, 'epoch': 0.06}
  6%|▋         | 133/2117 [04:28<1:03:56,  1.93s/it]  6%|▋         | 134/2117 [04:30<1:07:28,  2.04s/it]                                                    {'loss': 1.3393, 'learning_rate': 0.00039971962177326996, 'epoch': 0.06}
  6%|▋         | 134/2117 [04:30<1:07:28,  2.04s/it]  6%|▋         | 135/2117 [04:32<1:09:10,  2.09s/it]                                                    {'loss': 1.547, 'learning_rate': 0.0003997028905394146, 'epoch': 0.06}
  6%|▋         | 135/2117 [04:32<1:09:10,  2.09s/it]  6%|▋         | 136/2117 [04:34<1:07:21,  2.04s/it]                                                    {'loss': 1.2613, 'learning_rate': 0.0003996856748296212, 'epoch': 0.06}
  6%|▋         | 136/2117 [04:34<1:07:21,  2.04s/it]  6%|▋         | 137/2117 [04:36<1:08:34,  2.08s/it]                                                    {'loss': 1.6868, 'learning_rate': 0.00039966797468565503, 'epoch': 0.06}
  6%|▋         | 137/2117 [04:36<1:08:34,  2.08s/it]  7%|▋         | 138/2117 [04:38<1:05:29,  1.99s/it]                                                    {'loss': 1.5064, 'learning_rate': 0.00039964979015045626, 'epoch': 0.07}
  7%|▋         | 138/2117 [04:38<1:05:29,  1.99s/it]  7%|▋         | 139/2117 [04:40<1:05:32,  1.99s/it]                                                    {'loss': 1.2082, 'learning_rate': 0.0003996311212681402, 'epoch': 0.07}
  7%|▋         | 139/2117 [04:40<1:05:32,  1.99s/it]  7%|▋         | 140/2117 [04:42<1:06:06,  2.01s/it]                                                    {'loss': 1.4344, 'learning_rate': 0.0003996119680839973, 'epoch': 0.07}
  7%|▋         | 140/2117 [04:42<1:06:06,  2.01s/it]  7%|▋         | 141/2117 [04:44<1:08:05,  2.07s/it]                                                    {'loss': 1.4068, 'learning_rate': 0.000399592330644493, 'epoch': 0.07}
  7%|▋         | 141/2117 [04:44<1:08:05,  2.07s/it]  7%|▋         | 142/2117 [04:46<1:07:00,  2.04s/it]                                                    {'loss': 1.0907, 'learning_rate': 0.0003995722089972672, 'epoch': 0.07}
  7%|▋         | 142/2117 [04:46<1:07:00,  2.04s/it]  7%|▋         | 143/2117 [04:48<1:04:14,  1.95s/it]                                                    {'loss': 1.4394, 'learning_rate': 0.00039955160319113484, 'epoch': 0.07}
  7%|▋         | 143/2117 [04:48<1:04:14,  1.95s/it]  7%|▋         | 144/2117 [04:50<1:03:10,  1.92s/it]                                                    {'loss': 1.2697, 'learning_rate': 0.00039953051327608515, 'epoch': 0.07}
  7%|▋         | 144/2117 [04:50<1:03:10,  1.92s/it]  7%|▋         | 145/2117 [04:52<1:09:13,  2.11s/it]                                                    {'loss': 1.6047, 'learning_rate': 0.00039950893930328204, 'epoch': 0.07}
  7%|▋         | 145/2117 [04:52<1:09:13,  2.11s/it]  7%|▋         | 146/2117 [04:54<1:07:19,  2.05s/it]                                                    {'loss': 1.5132, 'learning_rate': 0.00039948688132506355, 'epoch': 0.07}
  7%|▋         | 146/2117 [04:54<1:07:19,  2.05s/it]  7%|▋         | 147/2117 [04:57<1:11:22,  2.17s/it]                                                    {'loss': 1.6163, 'learning_rate': 0.0003994643393949419, 'epoch': 0.07}
  7%|▋         | 147/2117 [04:57<1:11:22,  2.17s/it]  7%|▋         | 148/2117 [04:59<1:12:08,  2.20s/it]                                                    {'loss': 1.5018, 'learning_rate': 0.0003994413135676036, 'epoch': 0.07}
  7%|▋         | 148/2117 [04:59<1:12:08,  2.20s/it]  7%|▋         | 149/2117 [05:01<1:09:23,  2.12s/it]                                                    {'loss': 1.2945, 'learning_rate': 0.0003994178038989088, 'epoch': 0.07}
  7%|▋         | 149/2117 [05:01<1:09:23,  2.12s/it]  7%|▋         | 150/2117 [05:03<1:07:10,  2.05s/it]                                                    {'loss': 1.7071, 'learning_rate': 0.00039939381044589166, 'epoch': 0.07}
  7%|▋         | 150/2117 [05:03<1:07:10,  2.05s/it]  7%|▋         | 151/2117 [05:04<1:03:13,  1.93s/it]                                                    {'loss': 1.5062, 'learning_rate': 0.0003993693332667598, 'epoch': 0.07}
  7%|▋         | 151/2117 [05:04<1:03:13,  1.93s/it]  7%|▋         | 152/2117 [05:06<1:01:16,  1.87s/it]                                                    {'loss': 1.3906, 'learning_rate': 0.00039934437242089457, 'epoch': 0.07}
  7%|▋         | 152/2117 [05:06<1:01:16,  1.87s/it]  7%|▋         | 153/2117 [05:08<1:05:14,  1.99s/it]                                                    {'loss': 1.2134, 'learning_rate': 0.0003993189279688505, 'epoch': 0.07}
  7%|▋         | 153/2117 [05:08<1:05:14,  1.99s/it]  7%|▋         | 154/2117 [05:11<1:06:06,  2.02s/it]                                                    {'loss': 1.3035, 'learning_rate': 0.0003992929999723554, 'epoch': 0.07}
  7%|▋         | 154/2117 [05:11<1:06:06,  2.02s/it]  7%|▋         | 155/2117 [05:13<1:07:46,  2.07s/it]                                                    {'loss': 1.6205, 'learning_rate': 0.0003992665884943102, 'epoch': 0.07}
  7%|▋         | 155/2117 [05:13<1:07:46,  2.07s/it]  7%|▋         | 156/2117 [05:15<1:09:17,  2.12s/it]                                                    {'loss': 1.6062, 'learning_rate': 0.00039923969359878877, 'epoch': 0.07}
  7%|▋         | 156/2117 [05:15<1:09:17,  2.12s/it]  7%|▋         | 157/2117 [05:17<1:07:48,  2.08s/it]                                                    {'loss': 1.4719, 'learning_rate': 0.00039921231535103757, 'epoch': 0.07}
  7%|▋         | 157/2117 [05:17<1:07:48,  2.08s/it]  7%|▋         | 158/2117 [05:19<1:08:03,  2.08s/it]                                                    {'loss': 1.4253, 'learning_rate': 0.00039918445381747586, 'epoch': 0.07}
  7%|▋         | 158/2117 [05:19<1:08:03,  2.08s/it]  8%|▊         | 159/2117 [05:21<1:07:58,  2.08s/it]                                                    {'loss': 1.4565, 'learning_rate': 0.00039915610906569523, 'epoch': 0.08}
  8%|▊         | 159/2117 [05:21<1:07:58,  2.08s/it]  8%|▊         | 160/2117 [05:23<1:07:20,  2.06s/it]                                                    {'loss': 1.4769, 'learning_rate': 0.0003991272811644596, 'epoch': 0.08}
  8%|▊         | 160/2117 [05:23<1:07:20,  2.06s/it]  8%|▊         | 161/2117 [05:25<1:06:19,  2.03s/it]                                                    {'loss': 1.32, 'learning_rate': 0.00039909797018370497, 'epoch': 0.08}
  8%|▊         | 161/2117 [05:25<1:06:19,  2.03s/it]  8%|▊         | 162/2117 [05:27<1:05:16,  2.00s/it]                                                    {'loss': 1.3666, 'learning_rate': 0.00039906817619453935, 'epoch': 0.08}
  8%|▊         | 162/2117 [05:27<1:05:16,  2.00s/it]  8%|▊         | 163/2117 [05:29<1:03:15,  1.94s/it]                                                    {'loss': 1.4335, 'learning_rate': 0.0003990378992692424, 'epoch': 0.08}
  8%|▊         | 163/2117 [05:29<1:03:15,  1.94s/it]  8%|▊         | 164/2117 [05:31<1:03:39,  1.96s/it]                                                    {'loss': 1.3242, 'learning_rate': 0.0003990071394812654, 'epoch': 0.08}
  8%|▊         | 164/2117 [05:31<1:03:39,  1.96s/it]  8%|▊         | 165/2117 [05:33<1:03:16,  1.95s/it]                                                    {'loss': 1.3204, 'learning_rate': 0.00039897589690523127, 'epoch': 0.08}
  8%|▊         | 165/2117 [05:33<1:03:16,  1.95s/it]  8%|▊         | 166/2117 [05:35<1:03:36,  1.96s/it]                                                    {'loss': 1.3507, 'learning_rate': 0.00039894417161693386, 'epoch': 0.08}
  8%|▊         | 166/2117 [05:35<1:03:36,  1.96s/it]  8%|▊         | 167/2117 [05:37<1:05:13,  2.01s/it]                                                    {'loss': 1.6852, 'learning_rate': 0.00039891196369333813, 'epoch': 0.08}
  8%|▊         | 167/2117 [05:37<1:05:13,  2.01s/it]  8%|▊         | 168/2117 [05:39<1:04:39,  1.99s/it]                                                    {'loss': 1.5667, 'learning_rate': 0.0003988792732125801, 'epoch': 0.08}
  8%|▊         | 168/2117 [05:39<1:04:39,  1.99s/it]  8%|▊         | 169/2117 [05:41<1:05:50,  2.03s/it]                                                    {'loss': 1.4404, 'learning_rate': 0.0003988461002539664, 'epoch': 0.08}
  8%|▊         | 169/2117 [05:41<1:05:50,  2.03s/it]  8%|▊         | 170/2117 [05:43<1:05:11,  2.01s/it]                                                    {'loss': 1.4452, 'learning_rate': 0.0003988124448979739, 'epoch': 0.08}
  8%|▊         | 170/2117 [05:43<1:05:11,  2.01s/it]  8%|▊         | 171/2117 [05:45<1:04:22,  1.98s/it]                                                    {'loss': 1.6917, 'learning_rate': 0.00039877830722625, 'epoch': 0.08}
  8%|▊         | 171/2117 [05:45<1:04:22,  1.98s/it]  8%|▊         | 172/2117 [05:47<1:04:44,  2.00s/it]                                                    {'loss': 1.7008, 'learning_rate': 0.0003987436873216122, 'epoch': 0.08}
  8%|▊         | 172/2117 [05:47<1:04:44,  2.00s/it]  8%|▊         | 173/2117 [05:49<1:04:19,  1.99s/it]                                                    {'loss': 1.5154, 'learning_rate': 0.0003987085852680478, 'epoch': 0.08}
  8%|▊         | 173/2117 [05:49<1:04:19,  1.99s/it]  8%|▊         | 174/2117 [05:51<1:01:53,  1.91s/it]                                                    {'loss': 1.3697, 'learning_rate': 0.00039867300115071374, 'epoch': 0.08}
  8%|▊         | 174/2117 [05:51<1:01:53,  1.91s/it]  8%|▊         | 175/2117 [05:53<1:02:45,  1.94s/it]                                                    {'loss': 1.3099, 'learning_rate': 0.00039863693505593655, 'epoch': 0.08}
  8%|▊         | 175/2117 [05:53<1:02:45,  1.94s/it]  8%|▊         | 176/2117 [05:55<1:05:31,  2.03s/it]                                                    {'loss': 1.3247, 'learning_rate': 0.00039860038707121204, 'epoch': 0.08}
  8%|▊         | 176/2117 [05:55<1:05:31,  2.03s/it]  8%|▊         | 177/2117 [05:57<1:03:45,  1.97s/it]                                                    {'loss': 1.4999, 'learning_rate': 0.00039856335728520495, 'epoch': 0.08}
  8%|▊         | 177/2117 [05:57<1:03:45,  1.97s/it]  8%|▊         | 178/2117 [05:59<1:04:17,  1.99s/it]                                                    {'loss': 1.4268, 'learning_rate': 0.0003985258457877489, 'epoch': 0.08}
  8%|▊         | 178/2117 [05:59<1:04:17,  1.99s/it]  8%|▊         | 179/2117 [06:01<1:04:44,  2.00s/it]                                                    {'loss': 1.7714, 'learning_rate': 0.0003984878526698463, 'epoch': 0.08}
  8%|▊         | 179/2117 [06:01<1:04:44,  2.00s/it]  9%|▊         | 180/2117 [06:03<1:03:12,  1.96s/it]                                                    {'loss': 1.356, 'learning_rate': 0.0003984493780236677, 'epoch': 0.08}
  9%|▊         | 180/2117 [06:03<1:03:12,  1.96s/it]  9%|▊         | 181/2117 [06:04<1:02:43,  1.94s/it]                                                    {'loss': 1.2773, 'learning_rate': 0.00039841042194255205, 'epoch': 0.09}
  9%|▊         | 181/2117 [06:04<1:02:43,  1.94s/it]  9%|▊         | 182/2117 [06:06<1:00:04,  1.86s/it]                                                    {'loss': 1.0558, 'learning_rate': 0.0003983709845210061, 'epoch': 0.09}
  9%|▊         | 182/2117 [06:06<1:00:04,  1.86s/it]  9%|▊         | 183/2117 [06:08<59:41,  1.85s/it]                                                    {'loss': 1.7372, 'learning_rate': 0.0003983310658547044, 'epoch': 0.09}
  9%|▊         | 183/2117 [06:08<59:41,  1.85s/it]  9%|▊         | 184/2117 [06:10<58:59,  1.83s/it]                                                  {'loss': 1.5983, 'learning_rate': 0.000398290666040489, 'epoch': 0.09}
  9%|▊         | 184/2117 [06:10<58:59,  1.83s/it]  9%|▊         | 185/2117 [06:12<1:00:24,  1.88s/it]                                                    {'loss': 1.437, 'learning_rate': 0.0003982497851763692, 'epoch': 0.09}
  9%|▊         | 185/2117 [06:12<1:00:24,  1.88s/it]  9%|▉         | 186/2117 [06:14<1:01:11,  1.90s/it]                                                    {'loss': 1.3883, 'learning_rate': 0.0003982084233615213, 'epoch': 0.09}
  9%|▉         | 186/2117 [06:14<1:01:11,  1.90s/it]  9%|▉         | 187/2117 [06:16<1:02:34,  1.95s/it]                                                    {'loss': 1.5226, 'learning_rate': 0.00039816658069628835, 'epoch': 0.09}
  9%|▉         | 187/2117 [06:16<1:02:34,  1.95s/it]  9%|▉         | 188/2117 [06:18<1:01:00,  1.90s/it]                                                    {'loss': 1.4093, 'learning_rate': 0.00039812425728218, 'epoch': 0.09}
  9%|▉         | 188/2117 [06:18<1:01:00,  1.90s/it]  9%|▉         | 189/2117 [06:19<1:00:49,  1.89s/it]                                                    {'loss': 1.3972, 'learning_rate': 0.00039808145322187214, 'epoch': 0.09}
  9%|▉         | 189/2117 [06:19<1:00:49,  1.89s/it]  9%|▉         | 190/2117 [06:22<1:03:00,  1.96s/it]                                                    {'loss': 1.1755, 'learning_rate': 0.00039803816861920673, 'epoch': 0.09}
  9%|▉         | 190/2117 [06:22<1:03:00,  1.96s/it]  9%|▉         | 191/2117 [06:24<1:03:42,  1.98s/it]                                                    {'loss': 1.606, 'learning_rate': 0.00039799440357919153, 'epoch': 0.09}
  9%|▉         | 191/2117 [06:24<1:03:42,  1.98s/it]  9%|▉         | 192/2117 [06:26<1:04:11,  2.00s/it]                                                    {'loss': 1.5801, 'learning_rate': 0.0003979501582079997, 'epoch': 0.09}
  9%|▉         | 192/2117 [06:26<1:04:11,  2.00s/it]  9%|▉         | 193/2117 [06:28<1:04:18,  2.01s/it]                                                    {'loss': 1.4668, 'learning_rate': 0.00039790543261296996, 'epoch': 0.09}
  9%|▉         | 193/2117 [06:28<1:04:18,  2.01s/it]  9%|▉         | 194/2117 [06:30<1:03:53,  1.99s/it]                                                    {'loss': 1.5086, 'learning_rate': 0.0003978602269026057, 'epoch': 0.09}
  9%|▉         | 194/2117 [06:30<1:03:53,  1.99s/it]  9%|▉         | 195/2117 [06:31<1:02:03,  1.94s/it]                                                    {'loss': 1.3564, 'learning_rate': 0.0003978145411865754, 'epoch': 0.09}
  9%|▉         | 195/2117 [06:31<1:02:03,  1.94s/it]  9%|▉         | 196/2117 [06:34<1:03:56,  2.00s/it]                                                    {'loss': 1.53, 'learning_rate': 0.00039776837557571176, 'epoch': 0.09}
  9%|▉         | 196/2117 [06:34<1:03:56,  2.00s/it]  9%|▉         | 197/2117 [06:36<1:06:10,  2.07s/it]                                                    {'loss': 1.5908, 'learning_rate': 0.0003977217301820117, 'epoch': 0.09}
  9%|▉         | 197/2117 [06:36<1:06:10,  2.07s/it]  9%|▉         | 198/2117 [06:37<1:02:48,  1.96s/it]                                                    {'loss': 1.1649, 'learning_rate': 0.0003976746051186364, 'epoch': 0.09}
  9%|▉         | 198/2117 [06:37<1:02:48,  1.96s/it]  9%|▉         | 199/2117 [06:39<1:00:42,  1.90s/it]                                                    {'loss': 1.4091, 'learning_rate': 0.0003976270004999103, 'epoch': 0.09}
  9%|▉         | 199/2117 [06:39<1:00:42,  1.90s/it]  9%|▉         | 200/2117 [06:41<1:01:01,  1.91s/it]                                                    {'loss': 1.5316, 'learning_rate': 0.00039757891644132153, 'epoch': 0.09}
  9%|▉         | 200/2117 [06:41<1:01:01,  1.91s/it]  9%|▉         | 201/2117 [06:43<58:57,  1.85s/it]                                                    {'loss': 1.5858, 'learning_rate': 0.0003975303530595212, 'epoch': 0.09}
  9%|▉         | 201/2117 [06:43<58:57,  1.85s/it] 10%|▉         | 202/2117 [06:45<1:00:10,  1.89s/it]                                                    {'loss': 1.6776, 'learning_rate': 0.0003974813104723233, 'epoch': 0.1}
 10%|▉         | 202/2117 [06:45<1:00:10,  1.89s/it] 10%|▉         | 203/2117 [06:47<1:01:12,  1.92s/it]                                                    {'loss': 1.4326, 'learning_rate': 0.00039743178879870426, 'epoch': 0.1}
 10%|▉         | 203/2117 [06:47<1:01:12,  1.92s/it] 10%|▉         | 204/2117 [06:49<1:03:53,  2.00s/it]                                                    {'loss': 1.2465, 'learning_rate': 0.00039738178815880296, 'epoch': 0.1}
 10%|▉         | 204/2117 [06:49<1:03:53,  2.00s/it] 10%|▉         | 205/2117 [06:51<1:04:20,  2.02s/it]                                                    {'loss': 1.374, 'learning_rate': 0.00039733130867392004, 'epoch': 0.1}
 10%|▉         | 205/2117 [06:51<1:04:20,  2.02s/it] 10%|▉         | 206/2117 [06:53<1:03:43,  2.00s/it]                                                    {'loss': 1.5635, 'learning_rate': 0.00039728035046651797, 'epoch': 0.1}
 10%|▉         | 206/2117 [06:53<1:03:43,  2.00s/it] 10%|▉         | 207/2117 [06:55<1:03:44,  2.00s/it]                                                    {'loss': 1.3614, 'learning_rate': 0.0003972289136602204, 'epoch': 0.1}
 10%|▉         | 207/2117 [06:55<1:03:44,  2.00s/it] 10%|▉         | 208/2117 [06:57<1:06:42,  2.10s/it]                                                    {'loss': 1.2695, 'learning_rate': 0.0003971769983798124, 'epoch': 0.1}
 10%|▉         | 208/2117 [06:57<1:06:42,  2.10s/it] 10%|▉         | 209/2117 [06:59<1:03:46,  2.01s/it]                                                    {'loss': 1.4433, 'learning_rate': 0.00039712460475123943, 'epoch': 0.1}
 10%|▉         | 209/2117 [06:59<1:03:46,  2.01s/it] 10%|▉         | 210/2117 [07:01<1:06:01,  2.08s/it]                                                    {'loss': 1.4809, 'learning_rate': 0.00039707173290160766, 'epoch': 0.1}
 10%|▉         | 210/2117 [07:01<1:06:01,  2.08s/it] 10%|▉         | 211/2117 [07:03<1:06:06,  2.08s/it]                                                    {'loss': 1.3501, 'learning_rate': 0.00039701838295918315, 'epoch': 0.1}
 10%|▉         | 211/2117 [07:04<1:06:06,  2.08s/it] 10%|█         | 212/2117 [07:05<1:04:21,  2.03s/it]                                                    {'loss': 1.3736, 'learning_rate': 0.0003969645550533922, 'epoch': 0.1}
 10%|█         | 212/2117 [07:05<1:04:21,  2.03s/it] 10%|█         | 213/2117 [07:07<1:03:32,  2.00s/it]                                                    {'loss': 1.1709, 'learning_rate': 0.0003969102493148203, 'epoch': 0.1}
 10%|█         | 213/2117 [07:07<1:03:32,  2.00s/it] 10%|█         | 214/2117 [07:09<1:02:21,  1.97s/it]                                                    {'loss': 1.3236, 'learning_rate': 0.00039685546587521237, 'epoch': 0.1}
 10%|█         | 214/2117 [07:09<1:02:21,  1.97s/it] 10%|█         | 215/2117 [07:11<1:01:33,  1.94s/it]                                                    {'loss': 1.2384, 'learning_rate': 0.00039680020486747205, 'epoch': 0.1}
 10%|█         | 215/2117 [07:11<1:01:33,  1.94s/it] 10%|█         | 216/2117 [07:13<1:01:12,  1.93s/it]                                                    {'loss': 1.3349, 'learning_rate': 0.00039674446642566175, 'epoch': 0.1}
 10%|█         | 216/2117 [07:13<1:01:12,  1.93s/it] 10%|█         | 217/2117 [07:15<1:05:02,  2.05s/it]                                                    {'loss': 1.3416, 'learning_rate': 0.0003966882506850018, 'epoch': 0.1}
 10%|█         | 217/2117 [07:15<1:05:02,  2.05s/it] 10%|█         | 218/2117 [07:17<1:01:56,  1.96s/it]                                                    {'loss': 1.132, 'learning_rate': 0.0003966315577818709, 'epoch': 0.1}
 10%|█         | 218/2117 [07:17<1:01:56,  1.96s/it] 10%|█         | 219/2117 [07:19<1:03:04,  1.99s/it]                                                    {'loss': 1.4271, 'learning_rate': 0.000396574387853805, 'epoch': 0.1}
 10%|█         | 219/2117 [07:19<1:03:04,  1.99s/it] 10%|█         | 220/2117 [07:21<1:01:25,  1.94s/it]                                                    {'loss': 1.5336, 'learning_rate': 0.0003965167410394975, 'epoch': 0.1}
 10%|█         | 220/2117 [07:21<1:01:25,  1.94s/it] 10%|█         | 221/2117 [07:23<1:02:50,  1.99s/it]                                                    {'loss': 1.1742, 'learning_rate': 0.00039645861747879843, 'epoch': 0.1}
 10%|█         | 221/2117 [07:23<1:02:50,  1.99s/it] 10%|█         | 222/2117 [07:25<1:01:58,  1.96s/it]                                                    {'loss': 1.2881, 'learning_rate': 0.0003964000173127148, 'epoch': 0.1}
 10%|█         | 222/2117 [07:25<1:01:58,  1.96s/it] 11%|█         | 223/2117 [07:27<1:03:22,  2.01s/it]                                                    {'loss': 1.3789, 'learning_rate': 0.0003963409406834095, 'epoch': 0.11}
 11%|█         | 223/2117 [07:27<1:03:22,  2.01s/it] 11%|█         | 224/2117 [07:30<1:07:24,  2.14s/it]                                                    {'loss': 1.5167, 'learning_rate': 0.00039628138773420147, 'epoch': 0.11}
 11%|█         | 224/2117 [07:30<1:07:24,  2.14s/it] 11%|█         | 225/2117 [07:32<1:08:57,  2.19s/it]                                                    {'loss': 1.4953, 'learning_rate': 0.0003962213586095653, 'epoch': 0.11}
 11%|█         | 225/2117 [07:32<1:08:57,  2.19s/it] 11%|█         | 226/2117 [07:34<1:06:54,  2.12s/it]                                                    {'loss': 1.7612, 'learning_rate': 0.0003961608534551307, 'epoch': 0.11}
 11%|█         | 226/2117 [07:34<1:06:54,  2.12s/it] 11%|█         | 227/2117 [07:36<1:04:49,  2.06s/it]                                                    {'loss': 1.2886, 'learning_rate': 0.000396099872417682, 'epoch': 0.11}
 11%|█         | 227/2117 [07:36<1:04:49,  2.06s/it] 11%|█         | 228/2117 [07:38<1:03:06,  2.00s/it]                                                    {'loss': 1.3367, 'learning_rate': 0.0003960384156451583, 'epoch': 0.11}
 11%|█         | 228/2117 [07:38<1:03:06,  2.00s/it] 11%|█         | 229/2117 [07:40<1:02:44,  1.99s/it]                                                    {'loss': 1.6526, 'learning_rate': 0.0003959764832866527, 'epoch': 0.11}
 11%|█         | 229/2117 [07:40<1:02:44,  1.99s/it] 11%|█         | 230/2117 [07:41<1:00:52,  1.94s/it]                                                    {'loss': 1.3393, 'learning_rate': 0.0003959140754924121, 'epoch': 0.11}
 11%|█         | 230/2117 [07:41<1:00:52,  1.94s/it] 11%|█         | 231/2117 [07:44<1:05:48,  2.09s/it]                                                    {'loss': 1.6188, 'learning_rate': 0.0003958511924138368, 'epoch': 0.11}
 11%|█         | 231/2117 [07:44<1:05:48,  2.09s/it] 11%|█         | 232/2117 [07:46<1:03:19,  2.02s/it]                                                    {'loss': 1.163, 'learning_rate': 0.0003957878342034801, 'epoch': 0.11}
 11%|█         | 232/2117 [07:46<1:03:19,  2.02s/it] 11%|█         | 233/2117 [07:47<1:00:13,  1.92s/it]                                                    {'loss': 0.9372, 'learning_rate': 0.00039572400101504793, 'epoch': 0.11}
 11%|█         | 233/2117 [07:47<1:00:13,  1.92s/it] 11%|█         | 234/2117 [07:49<59:54,  1.91s/it]                                                    {'loss': 1.3556, 'learning_rate': 0.00039565969300339867, 'epoch': 0.11}
 11%|█         | 234/2117 [07:49<59:54,  1.91s/it] 11%|█         | 235/2117 [07:51<58:30,  1.87s/it]                                                  {'loss': 1.3058, 'learning_rate': 0.0003955949103245424, 'epoch': 0.11}
 11%|█         | 235/2117 [07:51<58:30,  1.87s/it] 11%|█         | 236/2117 [07:53<59:09,  1.89s/it]                                                  {'loss': 1.3413, 'learning_rate': 0.00039552965313564083, 'epoch': 0.11}
 11%|█         | 236/2117 [07:53<59:09,  1.89s/it] 11%|█         | 237/2117 [07:55<1:01:48,  1.97s/it]                                                    {'loss': 1.6436, 'learning_rate': 0.000395463921595007, 'epoch': 0.11}
 11%|█         | 237/2117 [07:55<1:01:48,  1.97s/it] 11%|█         | 238/2117 [07:57<1:01:07,  1.95s/it]                                                    {'loss': 1.3746, 'learning_rate': 0.0003953977158621043, 'epoch': 0.11}
 11%|█         | 238/2117 [07:57<1:01:07,  1.95s/it] 11%|█▏        | 239/2117 [07:59<1:01:49,  1.98s/it]                                                    {'loss': 1.4178, 'learning_rate': 0.00039533103609754695, 'epoch': 0.11}
 11%|█▏        | 239/2117 [07:59<1:01:49,  1.98s/it] 11%|█▏        | 240/2117 [08:01<1:02:06,  1.99s/it]                                                    {'loss': 1.5444, 'learning_rate': 0.0003952638824630989, 'epoch': 0.11}
 11%|█▏        | 240/2117 [08:01<1:02:06,  1.99s/it] 11%|█▏        | 241/2117 [08:03<1:03:07,  2.02s/it]                                                    {'loss': 1.6739, 'learning_rate': 0.00039519625512167373, 'epoch': 0.11}
 11%|█▏        | 241/2117 [08:03<1:03:07,  2.02s/it] 11%|█▏        | 242/2117 [08:05<1:01:25,  1.97s/it]                                                    {'loss': 1.3911, 'learning_rate': 0.0003951281542373343, 'epoch': 0.11}
 11%|█▏        | 242/2117 [08:05<1:01:25,  1.97s/it] 11%|█▏        | 243/2117 [08:07<1:01:04,  1.96s/it]                                                    {'loss': 1.2932, 'learning_rate': 0.0003950595799752922, 'epoch': 0.11}
 11%|█▏        | 243/2117 [08:07<1:01:04,  1.96s/it] 12%|█▏        | 244/2117 [08:09<1:02:26,  2.00s/it]                                                    {'loss': 1.5476, 'learning_rate': 0.00039499053250190754, 'epoch': 0.12}
 12%|█▏        | 244/2117 [08:09<1:02:26,  2.00s/it] 12%|█▏        | 245/2117 [08:11<1:01:56,  1.99s/it]                                                    {'loss': 1.5088, 'learning_rate': 0.00039492101198468826, 'epoch': 0.12}
 12%|█▏        | 245/2117 [08:11<1:01:56,  1.99s/it] 12%|█▏        | 246/2117 [08:13<1:02:30,  2.00s/it]                                                    {'loss': 1.4024, 'learning_rate': 0.0003948510185922901, 'epoch': 0.12}
 12%|█▏        | 246/2117 [08:13<1:02:30,  2.00s/it] 12%|█▏        | 247/2117 [08:15<1:03:18,  2.03s/it]                                                    {'loss': 1.4, 'learning_rate': 0.00039478055249451575, 'epoch': 0.12}
 12%|█▏        | 247/2117 [08:15<1:03:18,  2.03s/it] 12%|█▏        | 248/2117 [08:17<1:01:05,  1.96s/it]                                                    {'loss': 1.2615, 'learning_rate': 0.00039470961386231496, 'epoch': 0.12}
 12%|█▏        | 248/2117 [08:17<1:01:05,  1.96s/it] 12%|█▏        | 249/2117 [08:19<1:01:10,  1.96s/it]                                                    {'loss': 1.4472, 'learning_rate': 0.0003946382028677836, 'epoch': 0.12}
 12%|█▏        | 249/2117 [08:19<1:01:10,  1.96s/it] 12%|█▏        | 250/2117 [08:21<1:02:45,  2.02s/it]                                                    {'loss': 1.4282, 'learning_rate': 0.00039456631968416364, 'epoch': 0.12}
 12%|█▏        | 250/2117 [08:21<1:02:45,  2.02s/it] 12%|█▏        | 251/2117 [08:23<1:02:10,  2.00s/it]                                                    {'loss': 1.2253, 'learning_rate': 0.00039449396448584237, 'epoch': 0.12}
 12%|█▏        | 251/2117 [08:23<1:02:10,  2.00s/it] 12%|█▏        | 252/2117 [08:25<1:01:25,  1.98s/it]                                                    {'loss': 1.6736, 'learning_rate': 0.0003944211374483524, 'epoch': 0.12}
 12%|█▏        | 252/2117 [08:25<1:01:25,  1.98s/it] 12%|█▏        | 253/2117 [08:27<1:05:43,  2.12s/it]                                                    {'loss': 1.5025, 'learning_rate': 0.00039434783874837097, 'epoch': 0.12}
 12%|█▏        | 253/2117 [08:27<1:05:43,  2.12s/it] 12%|█▏        | 254/2117 [08:29<1:04:06,  2.06s/it]                                                    {'loss': 1.5902, 'learning_rate': 0.00039427406856371944, 'epoch': 0.12}
 12%|█▏        | 254/2117 [08:29<1:04:06,  2.06s/it] 12%|█▏        | 255/2117 [08:31<1:01:07,  1.97s/it]                                                    {'loss': 1.1451, 'learning_rate': 0.0003941998270733631, 'epoch': 0.12}
 12%|█▏        | 255/2117 [08:31<1:01:07,  1.97s/it] 12%|█▏        | 256/2117 [08:33<1:01:08,  1.97s/it]                                                    {'loss': 1.5581, 'learning_rate': 0.00039412511445741067, 'epoch': 0.12}
 12%|█▏        | 256/2117 [08:33<1:01:08,  1.97s/it] 12%|█▏        | 257/2117 [08:35<1:02:36,  2.02s/it]                                                    {'loss': 1.5489, 'learning_rate': 0.0003940499308971136, 'epoch': 0.12}
 12%|█▏        | 257/2117 [08:35<1:02:36,  2.02s/it] 12%|█▏        | 258/2117 [08:37<1:01:15,  1.98s/it]                                                    {'loss': 1.5395, 'learning_rate': 0.00039397427657486604, 'epoch': 0.12}
 12%|█▏        | 258/2117 [08:37<1:01:15,  1.98s/it] 12%|█▏        | 259/2117 [08:39<1:00:18,  1.95s/it]                                                    {'loss': 1.5695, 'learning_rate': 0.0003938981516742041, 'epoch': 0.12}
 12%|█▏        | 259/2117 [08:39<1:00:18,  1.95s/it] 12%|█▏        | 260/2117 [08:41<58:03,  1.88s/it]                                                    {'loss': 1.4453, 'learning_rate': 0.0003938215563798057, 'epoch': 0.12}
 12%|█▏        | 260/2117 [08:41<58:03,  1.88s/it] 12%|█▏        | 261/2117 [08:43<1:00:31,  1.96s/it]                                                    {'loss': 1.505, 'learning_rate': 0.0003937444908774895, 'epoch': 0.12}
 12%|█▏        | 261/2117 [08:43<1:00:31,  1.96s/it] 12%|█▏        | 262/2117 [08:45<1:02:55,  2.04s/it]                                                    {'loss': 1.4602, 'learning_rate': 0.0003936669553542153, 'epoch': 0.12}
 12%|█▏        | 262/2117 [08:45<1:02:55,  2.04s/it] 12%|█▏        | 263/2117 [08:47<1:03:52,  2.07s/it]                                                    {'loss': 1.4522, 'learning_rate': 0.0003935889499980831, 'epoch': 0.12}
 12%|█▏        | 263/2117 [08:47<1:03:52,  2.07s/it] 12%|█▏        | 264/2117 [08:49<1:03:43,  2.06s/it]                                                    {'loss': 1.4439, 'learning_rate': 0.00039351047499833235, 'epoch': 0.12}
 12%|█▏        | 264/2117 [08:49<1:03:43,  2.06s/it] 13%|█▎        | 265/2117 [08:51<1:01:49,  2.00s/it]                                                    {'loss': 1.6039, 'learning_rate': 0.0003934315305453423, 'epoch': 0.13}
 13%|█▎        | 265/2117 [08:51<1:01:49,  2.00s/it] 13%|█▎        | 266/2117 [08:53<59:42,  1.94s/it]                                                    {'loss': 1.2475, 'learning_rate': 0.0003933521168306309, 'epoch': 0.13}
 13%|█▎        | 266/2117 [08:53<59:42,  1.94s/it] 13%|█▎        | 267/2117 [08:55<1:00:48,  1.97s/it]                                                    {'loss': 1.4151, 'learning_rate': 0.0003932722340468545, 'epoch': 0.13}
 13%|█▎        | 267/2117 [08:55<1:00:48,  1.97s/it] 13%|█▎        | 268/2117 [08:57<59:19,  1.93s/it]                                                    {'loss': 1.3802, 'learning_rate': 0.0003931918823878074, 'epoch': 0.13}
 13%|█▎        | 268/2117 [08:57<59:19,  1.93s/it] 13%|█▎        | 269/2117 [08:59<1:00:20,  1.96s/it]                                                    {'loss': 1.4119, 'learning_rate': 0.0003931110620484215, 'epoch': 0.13}
 13%|█▎        | 269/2117 [08:59<1:00:20,  1.96s/it] 13%|█▎        | 270/2117 [09:01<59:31,  1.93s/it]                                                    {'loss': 1.2728, 'learning_rate': 0.0003930297732247654, 'epoch': 0.13}
 13%|█▎        | 270/2117 [09:01<59:31,  1.93s/it] 13%|█▎        | 271/2117 [09:03<59:29,  1.93s/it]                                                  {'loss': 1.4114, 'learning_rate': 0.0003929480161140446, 'epoch': 0.13}
 13%|█▎        | 271/2117 [09:03<59:29,  1.93s/it] 13%|█▎        | 272/2117 [09:05<1:00:38,  1.97s/it]                                                    {'loss': 1.4245, 'learning_rate': 0.0003928657909146006, 'epoch': 0.13}
 13%|█▎        | 272/2117 [09:05<1:00:38,  1.97s/it] 13%|█▎        | 273/2117 [09:06<58:00,  1.89s/it]                                                    {'loss': 1.5001, 'learning_rate': 0.00039278309782591014, 'epoch': 0.13}
 13%|█▎        | 273/2117 [09:06<58:00,  1.89s/it] 13%|█▎        | 274/2117 [09:08<57:02,  1.86s/it]                                                  {'loss': 1.2046, 'learning_rate': 0.0003926999370485856, 'epoch': 0.13}
 13%|█▎        | 274/2117 [09:08<57:02,  1.86s/it] 13%|█▎        | 275/2117 [09:10<57:20,  1.87s/it]                                                  {'loss': 1.409, 'learning_rate': 0.00039261630878437343, 'epoch': 0.13}
 13%|█▎        | 275/2117 [09:10<57:20,  1.87s/it] 13%|█▎        | 276/2117 [09:12<1:01:49,  2.01s/it]                                                    {'loss': 1.4574, 'learning_rate': 0.00039253221323615444, 'epoch': 0.13}
 13%|█▎        | 276/2117 [09:12<1:01:49,  2.01s/it] 13%|█▎        | 277/2117 [09:14<1:01:29,  2.01s/it]                                                    {'loss': 1.5181, 'learning_rate': 0.00039244765060794315, 'epoch': 0.13}
 13%|█▎        | 277/2117 [09:14<1:01:29,  2.01s/it] 13%|█▎        | 278/2117 [09:16<1:01:41,  2.01s/it]                                                    {'loss': 1.2098, 'learning_rate': 0.0003923626211048871, 'epoch': 0.13}
 13%|█▎        | 278/2117 [09:16<1:01:41,  2.01s/it] 13%|█▎        | 279/2117 [09:18<1:02:38,  2.04s/it]                                                    {'loss': 1.5624, 'learning_rate': 0.00039227712493326644, 'epoch': 0.13}
 13%|█▎        | 279/2117 [09:18<1:02:38,  2.04s/it] 13%|█▎        | 280/2117 [09:21<1:03:03,  2.06s/it]                                                    {'loss': 1.5203, 'learning_rate': 0.0003921911623004935, 'epoch': 0.13}
 13%|█▎        | 280/2117 [09:21<1:03:03,  2.06s/it] 13%|█▎        | 281/2117 [09:22<1:01:17,  2.00s/it]                                                    {'loss': 1.2721, 'learning_rate': 0.0003921047334151121, 'epoch': 0.13}
 13%|█▎        | 281/2117 [09:22<1:01:17,  2.00s/it] 13%|█▎        | 282/2117 [09:25<1:03:18,  2.07s/it]                                                    {'loss': 1.2674, 'learning_rate': 0.0003920178384867975, 'epoch': 0.13}
 13%|█▎        | 282/2117 [09:25<1:03:18,  2.07s/it] 13%|█▎        | 283/2117 [09:27<1:03:23,  2.07s/it]                                                    {'loss': 1.574, 'learning_rate': 0.0003919304777263553, 'epoch': 0.13}
 13%|█▎        | 283/2117 [09:27<1:03:23,  2.07s/it] 13%|█▎        | 284/2117 [09:29<1:01:46,  2.02s/it]                                                    {'loss': 1.5655, 'learning_rate': 0.0003918426513457211, 'epoch': 0.13}
 13%|█▎        | 284/2117 [09:29<1:01:46,  2.02s/it] 13%|█▎        | 285/2117 [09:31<1:02:13,  2.04s/it]                                                    {'loss': 1.4375, 'learning_rate': 0.0003917543595579605, 'epoch': 0.13}
 13%|█▎        | 285/2117 [09:31<1:02:13,  2.04s/it] 14%|█▎        | 286/2117 [09:32<59:20,  1.94s/it]                                                    {'loss': 1.4467, 'learning_rate': 0.0003916656025772678, 'epoch': 0.14}
 14%|█▎        | 286/2117 [09:32<59:20,  1.94s/it] 14%|█▎        | 287/2117 [09:34<57:28,  1.88s/it]                                                  {'loss': 1.1648, 'learning_rate': 0.000391576380618966, 'epoch': 0.14}
 14%|█▎        | 287/2117 [09:34<57:28,  1.88s/it] 14%|█▎        | 288/2117 [09:36<56:34,  1.86s/it]                                                  {'loss': 1.4204, 'learning_rate': 0.0003914866938995062, 'epoch': 0.14}
 14%|█▎        | 288/2117 [09:36<56:34,  1.86s/it] 14%|█▎        | 289/2117 [09:38<1:01:36,  2.02s/it]                                                    {'loss': 1.0229, 'learning_rate': 0.00039139654263646676, 'epoch': 0.14}
 14%|█▎        | 289/2117 [09:38<1:01:36,  2.02s/it] 14%|█▎        | 290/2117 [09:40<1:01:20,  2.01s/it]                                                    {'loss': 1.3691, 'learning_rate': 0.00039130592704855326, 'epoch': 0.14}
 14%|█▎        | 290/2117 [09:40<1:01:20,  2.01s/it] 14%|█▎        | 291/2117 [09:43<1:04:02,  2.10s/it]                                                    {'loss': 1.4937, 'learning_rate': 0.00039121484735559755, 'epoch': 0.14}
 14%|█▎        | 291/2117 [09:43<1:04:02,  2.10s/it] 14%|█▍        | 292/2117 [09:45<1:02:11,  2.04s/it]                                                    {'loss': 1.2192, 'learning_rate': 0.0003911233037785576, 'epoch': 0.14}
 14%|█▍        | 292/2117 [09:45<1:02:11,  2.04s/it] 14%|█▍        | 293/2117 [09:47<1:06:12,  2.18s/it]                                                    {'loss': 1.1896, 'learning_rate': 0.00039103129653951654, 'epoch': 0.14}
 14%|█▍        | 293/2117 [09:47<1:06:12,  2.18s/it] 14%|█▍        | 294/2117 [09:49<1:04:32,  2.12s/it]                                                    {'loss': 1.1806, 'learning_rate': 0.0003909388258616824, 'epoch': 0.14}
 14%|█▍        | 294/2117 [09:49<1:04:32,  2.12s/it] 14%|█▍        | 295/2117 [09:51<1:03:17,  2.08s/it]                                                    {'loss': 1.4472, 'learning_rate': 0.00039084589196938753, 'epoch': 0.14}
 14%|█▍        | 295/2117 [09:51<1:03:17,  2.08s/it] 14%|█▍        | 296/2117 [09:53<1:00:28,  1.99s/it]                                                    {'loss': 1.2835, 'learning_rate': 0.0003907524950880881, 'epoch': 0.14}
 14%|█▍        | 296/2117 [09:53<1:00:28,  1.99s/it] 14%|█▍        | 297/2117 [09:55<1:01:10,  2.02s/it]                                                    {'loss': 1.6074, 'learning_rate': 0.00039065863544436347, 'epoch': 0.14}
 14%|█▍        | 297/2117 [09:55<1:01:10,  2.02s/it] 14%|█▍        | 298/2117 [09:57<1:01:32,  2.03s/it]                                                    {'loss': 1.6836, 'learning_rate': 0.0003905643132659154, 'epoch': 0.14}
 14%|█▍        | 298/2117 [09:57<1:01:32,  2.03s/it] 14%|█▍        | 299/2117 [09:59<1:00:59,  2.01s/it]                                                    {'loss': 1.1548, 'learning_rate': 0.0003904695287815681, 'epoch': 0.14}
 14%|█▍        | 299/2117 [09:59<1:00:59,  2.01s/it] 14%|█▍        | 300/2117 [10:01<1:01:39,  2.04s/it]                                                    {'loss': 1.3484, 'learning_rate': 0.0003903742822212671, 'epoch': 0.14}
 14%|█▍        | 300/2117 [10:01<1:01:39,  2.04s/it] 14%|█▍        | 301/2117 [10:03<59:41,  1.97s/it]                                                    {'loss': 1.568, 'learning_rate': 0.000390278573816079, 'epoch': 0.14}
 14%|█▍        | 301/2117 [10:03<59:41,  1.97s/it] 14%|█▍        | 302/2117 [10:05<1:00:55,  2.01s/it]                                                    {'loss': 1.4065, 'learning_rate': 0.0003901824037981909, 'epoch': 0.14}
 14%|█▍        | 302/2117 [10:05<1:00:55,  2.01s/it] 14%|█▍        | 303/2117 [10:07<1:00:52,  2.01s/it]                                                    {'loss': 1.4226, 'learning_rate': 0.0003900857724009096, 'epoch': 0.14}
 14%|█▍        | 303/2117 [10:07<1:00:52,  2.01s/it] 14%|█▍        | 304/2117 [10:09<1:00:25,  2.00s/it]                                                    {'loss': 1.4137, 'learning_rate': 0.0003899886798586613, 'epoch': 0.14}
 14%|█▍        | 304/2117 [10:09<1:00:25,  2.00s/it] 14%|█▍        | 305/2117 [10:11<1:04:48,  2.15s/it]                                                    {'loss': 1.2969, 'learning_rate': 0.00038989112640699095, 'epoch': 0.14}
 14%|█▍        | 305/2117 [10:11<1:04:48,  2.15s/it] 14%|█▍        | 306/2117 [10:13<1:03:07,  2.09s/it]                                                    {'loss': 1.4033, 'learning_rate': 0.0003897931122825616, 'epoch': 0.14}
 14%|█▍        | 306/2117 [10:13<1:03:07,  2.09s/it] 15%|█▍        | 307/2117 [10:15<1:01:57,  2.05s/it]                                                    {'loss': 1.5774, 'learning_rate': 0.0003896946377231539, 'epoch': 0.14}
 15%|█▍        | 307/2117 [10:15<1:01:57,  2.05s/it] 15%|█▍        | 308/2117 [10:18<1:03:14,  2.10s/it]                                                    {'loss': 1.4064, 'learning_rate': 0.00038959570296766554, 'epoch': 0.15}
 15%|█▍        | 308/2117 [10:18<1:03:14,  2.10s/it] 15%|█▍        | 309/2117 [10:20<1:03:03,  2.09s/it]                                                    {'loss': 1.6194, 'learning_rate': 0.0003894963082561106, 'epoch': 0.15}
 15%|█▍        | 309/2117 [10:20<1:03:03,  2.09s/it] 15%|█▍        | 310/2117 [10:22<1:03:30,  2.11s/it]                                                    {'loss': 1.3165, 'learning_rate': 0.000389396453829619, 'epoch': 0.15}
 15%|█▍        | 310/2117 [10:22<1:03:30,  2.11s/it] 15%|█▍        | 311/2117 [10:24<1:00:53,  2.02s/it]                                                    {'loss': 1.5399, 'learning_rate': 0.000389296139930436, 'epoch': 0.15}
 15%|█▍        | 311/2117 [10:24<1:00:53,  2.02s/it] 15%|█▍        | 312/2117 [10:25<58:24,  1.94s/it]                                                    {'loss': 1.3126, 'learning_rate': 0.0003891953668019214, 'epoch': 0.15}
 15%|█▍        | 312/2117 [10:25<58:24,  1.94s/it] 15%|█▍        | 313/2117 [10:28<1:00:21,  2.01s/it]                                                    {'loss': 1.4554, 'learning_rate': 0.00038909413468854925, 'epoch': 0.15}
 15%|█▍        | 313/2117 [10:28<1:00:21,  2.01s/it] 15%|█▍        | 314/2117 [10:30<59:55,  1.99s/it]                                                    {'loss': 1.1586, 'learning_rate': 0.0003889924438359069, 'epoch': 0.15}
 15%|█▍        | 314/2117 [10:30<59:55,  1.99s/it] 15%|█▍        | 315/2117 [10:31<57:19,  1.91s/it]                                                  {'loss': 1.0335, 'learning_rate': 0.0003888902944906947, 'epoch': 0.15}
 15%|█▍        | 315/2117 [10:31<57:19,  1.91s/it] 15%|█▍        | 316/2117 [10:34<1:01:07,  2.04s/it]                                                    {'loss': 1.5808, 'learning_rate': 0.0003887876869007254, 'epoch': 0.15}
 15%|█▍        | 316/2117 [10:34<1:01:07,  2.04s/it] 15%|█▍        | 317/2117 [10:36<1:01:31,  2.05s/it]                                                    {'loss': 1.3421, 'learning_rate': 0.00038868462131492326, 'epoch': 0.15}
 15%|█▍        | 317/2117 [10:36<1:01:31,  2.05s/it] 15%|█▌        | 318/2117 [10:38<1:07:20,  2.25s/it]                                                    {'loss': 1.6144, 'learning_rate': 0.00038858109798332364, 'epoch': 0.15}
 15%|█▌        | 318/2117 [10:38<1:07:20,  2.25s/it] 15%|█▌        | 319/2117 [10:41<1:07:16,  2.25s/it]                                                    {'loss': 1.5857, 'learning_rate': 0.00038847711715707254, 'epoch': 0.15}
 15%|█▌        | 319/2117 [10:41<1:07:16,  2.25s/it] 15%|█▌        | 320/2117 [10:43<1:07:37,  2.26s/it]                                                    {'loss': 1.3044, 'learning_rate': 0.00038837267908842563, 'epoch': 0.15}
 15%|█▌        | 320/2117 [10:43<1:07:37,  2.26s/it] 15%|█▌        | 321/2117 [10:45<1:03:42,  2.13s/it]                                                    {'loss': 1.3907, 'learning_rate': 0.00038826778403074807, 'epoch': 0.15}
 15%|█▌        | 321/2117 [10:45<1:03:42,  2.13s/it] 15%|█▌        | 322/2117 [10:47<1:02:32,  2.09s/it]                                                    {'loss': 1.3099, 'learning_rate': 0.00038816243223851354, 'epoch': 0.15}
 15%|█▌        | 322/2117 [10:47<1:02:32,  2.09s/it] 15%|█▌        | 323/2117 [10:49<1:00:14,  2.01s/it]                                                    {'loss': 1.4291, 'learning_rate': 0.0003880566239673036, 'epoch': 0.15}
 15%|█▌        | 323/2117 [10:49<1:00:14,  2.01s/it] 15%|█▌        | 324/2117 [10:50<58:59,  1.97s/it]                                                    {'loss': 1.3069, 'learning_rate': 0.0003879503594738076, 'epoch': 0.15}
 15%|█▌        | 324/2117 [10:50<58:59,  1.97s/it] 15%|█▌        | 325/2117 [10:52<59:24,  1.99s/it]                                                  {'loss': 1.3345, 'learning_rate': 0.00038784363901582134, 'epoch': 0.15}
 15%|█▌        | 325/2117 [10:52<59:24,  1.99s/it] 15%|█▌        | 326/2117 [10:55<1:01:12,  2.05s/it]                                                    {'loss': 1.3937, 'learning_rate': 0.00038773646285224694, 'epoch': 0.15}
 15%|█▌        | 326/2117 [10:55<1:01:12,  2.05s/it] 15%|█▌        | 327/2117 [10:56<57:01,  1.91s/it]                                                    {'loss': 1.2333, 'learning_rate': 0.000387628831243092, 'epoch': 0.15}
 15%|█▌        | 327/2117 [10:56<57:01,  1.91s/it] 15%|█▌        | 328/2117 [10:58<56:56,  1.91s/it]                                                  {'loss': 1.2367, 'learning_rate': 0.00038752074444946895, 'epoch': 0.15}
 15%|█▌        | 328/2117 [10:58<56:56,  1.91s/it] 16%|█▌        | 329/2117 [11:00<57:58,  1.95s/it]                                                  {'loss': 1.4973, 'learning_rate': 0.0003874122027335948, 'epoch': 0.16}
 16%|█▌        | 329/2117 [11:00<57:58,  1.95s/it] 16%|█▌        | 330/2117 [11:03<1:01:51,  2.08s/it]                                                    {'loss': 1.2619, 'learning_rate': 0.00038730320635878973, 'epoch': 0.16}
 16%|█▌        | 330/2117 [11:03<1:01:51,  2.08s/it] 16%|█▌        | 331/2117 [11:05<1:00:54,  2.05s/it]                                                    {'loss': 1.3699, 'learning_rate': 0.0003871937555894773, 'epoch': 0.16}
 16%|█▌        | 331/2117 [11:05<1:00:54,  2.05s/it] 16%|█▌        | 332/2117 [11:07<1:01:44,  2.08s/it]                                                    {'loss': 1.2068, 'learning_rate': 0.0003870838506911832, 'epoch': 0.16}
 16%|█▌        | 332/2117 [11:07<1:01:44,  2.08s/it] 16%|█▌        | 333/2117 [11:08<58:43,  1.98s/it]                                                    {'loss': 1.4411, 'learning_rate': 0.000386973491930535, 'epoch': 0.16}
 16%|█▌        | 333/2117 [11:08<58:43,  1.98s/it] 16%|█▌        | 334/2117 [11:10<56:59,  1.92s/it]                                                  {'loss': 1.4592, 'learning_rate': 0.0003868626795752612, 'epoch': 0.16}
 16%|█▌        | 334/2117 [11:10<56:59,  1.92s/it] 16%|█▌        | 335/2117 [11:12<59:51,  2.02s/it]                                                  {'loss': 1.4266, 'learning_rate': 0.0003867514138941908, 'epoch': 0.16}
 16%|█▌        | 335/2117 [11:12<59:51,  2.02s/it] 16%|█▌        | 336/2117 [11:15<1:02:50,  2.12s/it]                                                    {'loss': 1.2687, 'learning_rate': 0.00038663969515725244, 'epoch': 0.16}
 16%|█▌        | 336/2117 [11:15<1:02:50,  2.12s/it] 16%|█▌        | 337/2117 [11:17<1:03:09,  2.13s/it]                                                    {'loss': 1.5515, 'learning_rate': 0.000386527523635474, 'epoch': 0.16}
 16%|█▌        | 337/2117 [11:17<1:03:09,  2.13s/it] 16%|█▌        | 338/2117 [11:19<1:00:11,  2.03s/it]                                                    {'loss': 1.4121, 'learning_rate': 0.0003864148996009817, 'epoch': 0.16}
 16%|█▌        | 338/2117 [11:19<1:00:11,  2.03s/it] 16%|█▌        | 339/2117 [11:21<59:21,  2.00s/it]                                                    {'loss': 1.4067, 'learning_rate': 0.00038630182332699965, 'epoch': 0.16}
 16%|█▌        | 339/2117 [11:21<59:21,  2.00s/it] 16%|█▌        | 340/2117 [11:22<56:33,  1.91s/it]                                                  {'loss': 1.3161, 'learning_rate': 0.00038618829508784905, 'epoch': 0.16}
 16%|█▌        | 340/2117 [11:22<56:33,  1.91s/it] 16%|█▌        | 341/2117 [11:24<58:00,  1.96s/it]                                                  {'loss': 1.3532, 'learning_rate': 0.00038607431515894747, 'epoch': 0.16}
 16%|█▌        | 341/2117 [11:24<58:00,  1.96s/it] 16%|█▌        | 342/2117 [11:26<57:12,  1.93s/it]                                                  {'loss': 1.5935, 'learning_rate': 0.00038595988381680843, 'epoch': 0.16}
 16%|█▌        | 342/2117 [11:26<57:12,  1.93s/it] 16%|█▌        | 343/2117 [11:29<1:02:05,  2.10s/it]                                                    {'loss': 1.5683, 'learning_rate': 0.0003858450013390404, 'epoch': 0.16}
 16%|█▌        | 343/2117 [11:29<1:02:05,  2.10s/it] 16%|█▌        | 344/2117 [11:31<1:01:14,  2.07s/it]                                                    {'loss': 1.2895, 'learning_rate': 0.0003857296680043465, 'epoch': 0.16}
 16%|█▌        | 344/2117 [11:31<1:01:14,  2.07s/it] 16%|█▋        | 345/2117 [11:33<1:02:08,  2.10s/it]                                                    {'loss': 1.4423, 'learning_rate': 0.00038561388409252346, 'epoch': 0.16}
 16%|█▋        | 345/2117 [11:33<1:02:08,  2.10s/it] 16%|█▋        | 346/2117 [11:35<1:02:08,  2.11s/it]                                                    {'loss': 1.5754, 'learning_rate': 0.00038549764988446113, 'epoch': 0.16}
 16%|█▋        | 346/2117 [11:35<1:02:08,  2.11s/it] 16%|█▋        | 347/2117 [11:37<59:28,  2.02s/it]                                                    {'loss': 1.4581, 'learning_rate': 0.0003853809656621418, 'epoch': 0.16}
 16%|█▋        | 347/2117 [11:37<59:28,  2.02s/it] 16%|█▋        | 348/2117 [11:39<58:38,  1.99s/it]                                                  {'loss': 1.4425, 'learning_rate': 0.00038526383170863946, 'epoch': 0.16}
 16%|█▋        | 348/2117 [11:39<58:38,  1.99s/it] 16%|█▋        | 349/2117 [11:41<56:59,  1.93s/it]                                                  {'loss': 1.0757, 'learning_rate': 0.00038514624830811924, 'epoch': 0.16}
 16%|█▋        | 349/2117 [11:41<56:59,  1.93s/it] 17%|█▋        | 350/2117 [11:43<56:14,  1.91s/it]                                                  {'loss': 1.5043, 'learning_rate': 0.0003850282157458365, 'epoch': 0.17}
 17%|█▋        | 350/2117 [11:43<56:14,  1.91s/it] 17%|█▋        | 351/2117 [11:44<54:27,  1.85s/it]                                                  {'loss': 1.4347, 'learning_rate': 0.0003849097343081362, 'epoch': 0.17}
 17%|█▋        | 351/2117 [11:44<54:27,  1.85s/it] 17%|█▋        | 352/2117 [11:46<54:22,  1.85s/it]                                                  {'loss': 1.4784, 'learning_rate': 0.00038479080428245247, 'epoch': 0.17}
 17%|█▋        | 352/2117 [11:46<54:22,  1.85s/it] 17%|█▋        | 353/2117 [11:48<59:05,  2.01s/it]                                                  {'loss': 1.2782, 'learning_rate': 0.0003846714259573077, 'epoch': 0.17}
 17%|█▋        | 353/2117 [11:48<59:05,  2.01s/it] 17%|█▋        | 354/2117 [11:50<58:52,  2.00s/it]                                                  {'loss': 1.3142, 'learning_rate': 0.00038455159962231156, 'epoch': 0.17}
 17%|█▋        | 354/2117 [11:50<58:52,  2.00s/it] 17%|█▋        | 355/2117 [11:53<1:02:25,  2.13s/it]                                                    {'loss': 1.4472, 'learning_rate': 0.00038443132556816083, 'epoch': 0.17}
 17%|█▋        | 355/2117 [11:53<1:02:25,  2.13s/it] 17%|█▋        | 356/2117 [11:55<1:00:01,  2.05s/it]                                                    {'loss': 1.5361, 'learning_rate': 0.0003843106040866384, 'epoch': 0.17}
 17%|█▋        | 356/2117 [11:55<1:00:01,  2.05s/it] 17%|█▋        | 357/2117 [11:56<57:18,  1.95s/it]                                                    {'loss': 1.345, 'learning_rate': 0.0003841894354706127, 'epoch': 0.17}
 17%|█▋        | 357/2117 [11:56<57:18,  1.95s/it] 17%|█▋        | 358/2117 [11:59<58:18,  1.99s/it]                                                  {'loss': 1.4903, 'learning_rate': 0.00038406782001403663, 'epoch': 0.17}
 17%|█▋        | 358/2117 [11:59<58:18,  1.99s/it] 17%|█▋        | 359/2117 [12:01<59:44,  2.04s/it]                                                  {'loss': 1.2769, 'learning_rate': 0.00038394575801194744, 'epoch': 0.17}
 17%|█▋        | 359/2117 [12:01<59:44,  2.04s/it] 17%|█▋        | 360/2117 [12:03<1:03:18,  2.16s/it]                                                    {'loss': 1.3184, 'learning_rate': 0.0003838232497604655, 'epoch': 0.17}
 17%|█▋        | 360/2117 [12:03<1:03:18,  2.16s/it] 17%|█▋        | 361/2117 [12:05<1:00:47,  2.08s/it]                                                    {'loss': 1.338, 'learning_rate': 0.0003837002955567938, 'epoch': 0.17}
 17%|█▋        | 361/2117 [12:05<1:00:47,  2.08s/it] 17%|█▋        | 362/2117 [12:07<1:00:16,  2.06s/it]                                                    {'loss': 1.5696, 'learning_rate': 0.00038357689569921716, 'epoch': 0.17}
 17%|█▋        | 362/2117 [12:07<1:00:16,  2.06s/it] 17%|█▋        | 363/2117 [12:09<59:02,  2.02s/it]                                                    {'loss': 1.0948, 'learning_rate': 0.0003834530504871018, 'epoch': 0.17}
 17%|█▋        | 363/2117 [12:09<59:02,  2.02s/it] 17%|█▋        | 364/2117 [12:11<58:23,  2.00s/it]                                                  {'loss': 1.2939, 'learning_rate': 0.000383328760220894, 'epoch': 0.17}
 17%|█▋        | 364/2117 [12:11<58:23,  2.00s/it] 17%|█▋        | 365/2117 [12:13<56:22,  1.93s/it]                                                  {'loss': 1.5023, 'learning_rate': 0.00038320402520211996, 'epoch': 0.17}
 17%|█▋        | 365/2117 [12:13<56:22,  1.93s/it] 17%|█▋        | 366/2117 [12:14<54:57,  1.88s/it]                                                  {'loss': 1.272, 'learning_rate': 0.0003830788457333848, 'epoch': 0.17}
 17%|█▋        | 366/2117 [12:14<54:57,  1.88s/it] 17%|█▋        | 367/2117 [12:16<54:52,  1.88s/it]                                                  {'loss': 1.2972, 'learning_rate': 0.0003829532221183719, 'epoch': 0.17}
 17%|█▋        | 367/2117 [12:16<54:52,  1.88s/it] 17%|█▋        | 368/2117 [12:18<55:23,  1.90s/it]                                                  {'loss': 1.3987, 'learning_rate': 0.00038282715466184206, 'epoch': 0.17}
 17%|█▋        | 368/2117 [12:18<55:23,  1.90s/it] 17%|█▋        | 369/2117 [12:21<58:26,  2.01s/it]                                                  {'loss': 1.3171, 'learning_rate': 0.0003827006436696328, 'epoch': 0.17}
 17%|█▋        | 369/2117 [12:21<58:26,  2.01s/it] 17%|█▋        | 370/2117 [12:22<56:48,  1.95s/it]                                                  {'loss': 1.2435, 'learning_rate': 0.00038257368944865776, 'epoch': 0.17}
 17%|█▋        | 370/2117 [12:22<56:48,  1.95s/it] 18%|█▊        | 371/2117 [12:24<58:38,  2.02s/it]                                                  {'loss': 1.4025, 'learning_rate': 0.00038244629230690583, 'epoch': 0.18}
 18%|█▊        | 371/2117 [12:25<58:38,  2.02s/it] 18%|█▊        | 372/2117 [12:27<59:04,  2.03s/it]                                                  {'loss': 1.378, 'learning_rate': 0.00038231845255344034, 'epoch': 0.18}
 18%|█▊        | 372/2117 [12:27<59:04,  2.03s/it] 18%|█▊        | 373/2117 [12:29<1:00:22,  2.08s/it]                                                    {'loss': 1.5586, 'learning_rate': 0.0003821901704983984, 'epoch': 0.18}
 18%|█▊        | 373/2117 [12:29<1:00:22,  2.08s/it] 18%|█▊        | 374/2117 [12:31<57:58,  2.00s/it]                                                    {'loss': 1.2798, 'learning_rate': 0.00038206144645299025, 'epoch': 0.18}
 18%|█▊        | 374/2117 [12:31<57:58,  2.00s/it] 18%|█▊        | 375/2117 [12:33<1:03:03,  2.17s/it]                                                    {'loss': 1.4547, 'learning_rate': 0.0003819322807294984, 'epoch': 0.18}
 18%|█▊        | 375/2117 [12:33<1:03:03,  2.17s/it] 18%|█▊        | 376/2117 [12:35<1:01:57,  2.14s/it]                                                    {'loss': 1.3677, 'learning_rate': 0.00038180267364127654, 'epoch': 0.18}
 18%|█▊        | 376/2117 [12:35<1:01:57,  2.14s/it] 18%|█▊        | 377/2117 [12:37<58:37,  2.02s/it]                                                    {'loss': 1.4257, 'learning_rate': 0.0003816726255027494, 'epoch': 0.18}
 18%|█▊        | 377/2117 [12:37<58:37,  2.02s/it] 18%|█▊        | 378/2117 [12:39<59:20,  2.05s/it]                                                  {'loss': 1.3593, 'learning_rate': 0.00038154213662941185, 'epoch': 0.18}
 18%|█▊        | 378/2117 [12:39<59:20,  2.05s/it] 18%|█▊        | 379/2117 [12:41<59:48,  2.06s/it]                                                  {'loss': 1.3271, 'learning_rate': 0.0003814112073378276, 'epoch': 0.18}
 18%|█▊        | 379/2117 [12:41<59:48,  2.06s/it] 18%|█▊        | 380/2117 [12:43<59:31,  2.06s/it]                                                  {'loss': 1.5296, 'learning_rate': 0.0003812798379456289, 'epoch': 0.18}
 18%|█▊        | 380/2117 [12:43<59:31,  2.06s/it] 18%|█▊        | 381/2117 [12:45<1:00:10,  2.08s/it]                                                    {'loss': 1.5515, 'learning_rate': 0.0003811480287715158, 'epoch': 0.18}
 18%|█▊        | 381/2117 [12:45<1:00:10,  2.08s/it] 18%|█▊        | 382/2117 [12:48<1:01:45,  2.14s/it]                                                    {'loss': 1.4145, 'learning_rate': 0.0003810157801352553, 'epoch': 0.18}
 18%|█▊        | 382/2117 [12:48<1:01:45,  2.14s/it] 18%|█▊        | 383/2117 [12:49<59:27,  2.06s/it]                                                    {'loss': 1.2181, 'learning_rate': 0.00038088309235768025, 'epoch': 0.18}
 18%|█▊        | 383/2117 [12:49<59:27,  2.06s/it] 18%|█▊        | 384/2117 [12:52<59:25,  2.06s/it]                                                  {'loss': 1.4692, 'learning_rate': 0.0003807499657606891, 'epoch': 0.18}
 18%|█▊        | 384/2117 [12:52<59:25,  2.06s/it] 18%|█▊        | 385/2117 [12:56<1:16:28,  2.65s/it]                                                    {'loss': 1.3907, 'learning_rate': 0.00038061640066724473, 'epoch': 0.18}
 18%|█▊        | 385/2117 [12:56<1:16:28,  2.65s/it] 18%|█▊        | 386/2117 [12:57<1:07:36,  2.34s/it]                                                    {'loss': 1.2358, 'learning_rate': 0.0003804823974013741, 'epoch': 0.18}
 18%|█▊        | 386/2117 [12:57<1:07:36,  2.34s/it] 18%|█▊        | 387/2117 [12:59<1:05:27,  2.27s/it]                                                    {'loss': 1.5738, 'learning_rate': 0.0003803479562881666, 'epoch': 0.18}
 18%|█▊        | 387/2117 [12:59<1:05:27,  2.27s/it] 18%|█▊        | 388/2117 [13:01<1:01:52,  2.15s/it]                                                    {'loss': 1.3619, 'learning_rate': 0.00038021307765377443, 'epoch': 0.18}
 18%|█▊        | 388/2117 [13:01<1:01:52,  2.15s/it] 18%|█▊        | 389/2117 [13:03<1:02:24,  2.17s/it]                                                    {'loss': 1.4637, 'learning_rate': 0.0003800777618254108, 'epoch': 0.18}
 18%|█▊        | 389/2117 [13:03<1:02:24,  2.17s/it] 18%|█▊        | 390/2117 [13:06<1:04:08,  2.23s/it]                                                    {'loss': 1.3023, 'learning_rate': 0.0003799420091313498, 'epoch': 0.18}
 18%|█▊        | 390/2117 [13:06<1:04:08,  2.23s/it] 18%|█▊        | 391/2117 [13:08<1:00:27,  2.10s/it]                                                    {'loss': 1.3733, 'learning_rate': 0.00037980581990092513, 'epoch': 0.18}
 18%|█▊        | 391/2117 [13:08<1:00:27,  2.10s/it] 19%|█▊        | 392/2117 [13:10<1:00:07,  2.09s/it]                                                    {'loss': 1.5788, 'learning_rate': 0.0003796691944645296, 'epoch': 0.19}
 19%|█▊        | 392/2117 [13:10<1:00:07,  2.09s/it] 19%|█▊        | 393/2117 [13:12<1:00:12,  2.10s/it]                                                    {'loss': 1.4521, 'learning_rate': 0.0003795321331536145, 'epoch': 0.19}
 19%|█▊        | 393/2117 [13:12<1:00:12,  2.10s/it] 19%|█▊        | 394/2117 [13:14<58:21,  2.03s/it]                                                    {'loss': 1.3638, 'learning_rate': 0.0003793946363006881, 'epoch': 0.19}
 19%|█▊        | 394/2117 [13:14<58:21,  2.03s/it] 19%|█▊        | 395/2117 [13:16<57:24,  2.00s/it]                                                  {'loss': 1.3267, 'learning_rate': 0.0003792567042393156, 'epoch': 0.19}
 19%|█▊        | 395/2117 [13:16<57:24,  2.00s/it] 19%|█▊        | 396/2117 [13:17<56:47,  1.98s/it]                                                  {'loss': 1.5984, 'learning_rate': 0.0003791183373041179, 'epoch': 0.19}
 19%|█▊        | 396/2117 [13:17<56:47,  1.98s/it] 19%|█▉        | 397/2117 [13:19<56:33,  1.97s/it]                                                  {'loss': 1.678, 'learning_rate': 0.00037897953583077097, 'epoch': 0.19}
 19%|█▉        | 397/2117 [13:19<56:33,  1.97s/it] 19%|█▉        | 398/2117 [13:22<59:56,  2.09s/it]                                                  {'loss': 1.284, 'learning_rate': 0.0003788403001560048, 'epoch': 0.19}
 19%|█▉        | 398/2117 [13:22<59:56,  2.09s/it] 19%|█▉        | 399/2117 [13:24<1:00:40,  2.12s/it]                                                    {'loss': 1.3238, 'learning_rate': 0.00037870063061760294, 'epoch': 0.19}
 19%|█▉        | 399/2117 [13:24<1:00:40,  2.12s/it] 19%|█▉        | 400/2117 [13:26<1:00:03,  2.10s/it]                                                    {'loss': 1.4447, 'learning_rate': 0.0003785605275544014, 'epoch': 0.19}
 19%|█▉        | 400/2117 [13:26<1:00:03,  2.10s/it] 19%|█▉        | 401/2117 [13:28<58:32,  2.05s/it]                                                    {'loss': 1.4148, 'learning_rate': 0.0003784199913062879, 'epoch': 0.19}
 19%|█▉        | 401/2117 [13:28<58:32,  2.05s/it] 19%|█▉        | 402/2117 [13:30<57:25,  2.01s/it]                                                  {'loss': 1.3677, 'learning_rate': 0.000378279022214201, 'epoch': 0.19}
 19%|█▉        | 402/2117 [13:30<57:25,  2.01s/it] 19%|█▉        | 403/2117 [13:32<57:01,  2.00s/it]                                                  {'loss': 1.3583, 'learning_rate': 0.0003781376206201295, 'epoch': 0.19}
 19%|█▉        | 403/2117 [13:32<57:01,  2.00s/it] 19%|█▉        | 404/2117 [13:34<55:49,  1.96s/it]                                                  {'loss': 1.3407, 'learning_rate': 0.00037799578686711135, 'epoch': 0.19}
 19%|█▉        | 404/2117 [13:34<55:49,  1.96s/it] 19%|█▉        | 405/2117 [13:36<56:49,  1.99s/it]                                                  {'loss': 1.4658, 'learning_rate': 0.00037785352129923283, 'epoch': 0.19}
 19%|█▉        | 405/2117 [13:36<56:49,  1.99s/it] 19%|█▉        | 406/2117 [13:38<58:24,  2.05s/it]                                                  {'loss': 1.4504, 'learning_rate': 0.00037771082426162793, 'epoch': 0.19}
 19%|█▉        | 406/2117 [13:38<58:24,  2.05s/it] 19%|█▉        | 407/2117 [13:40<55:58,  1.96s/it]                                                  {'loss': 1.2846, 'learning_rate': 0.0003775676961004774, 'epoch': 0.19}
 19%|█▉        | 407/2117 [13:40<55:58,  1.96s/it] 19%|█▉        | 408/2117 [13:42<55:23,  1.94s/it]                                                  {'loss': 1.4006, 'learning_rate': 0.00037742413716300763, 'epoch': 0.19}
 19%|█▉        | 408/2117 [13:42<55:23,  1.94s/it] 19%|█▉        | 409/2117 [13:43<54:38,  1.92s/it]                                                  {'loss': 1.3782, 'learning_rate': 0.00037728014779749036, 'epoch': 0.19}
 19%|█▉        | 409/2117 [13:43<54:38,  1.92s/it] 19%|█▉        | 410/2117 [13:45<54:37,  1.92s/it]                                                  {'loss': 1.332, 'learning_rate': 0.00037713572835324145, 'epoch': 0.19}
 19%|█▉        | 410/2117 [13:45<54:37,  1.92s/it] 19%|█▉        | 411/2117 [13:47<55:44,  1.96s/it]                                                  {'loss': 1.4053, 'learning_rate': 0.00037699087918062, 'epoch': 0.19}
 19%|█▉        | 411/2117 [13:47<55:44,  1.96s/it] 19%|█▉        | 412/2117 [13:50<57:17,  2.02s/it]                                                  {'loss': 1.3307, 'learning_rate': 0.0003768456006310279, 'epoch': 0.19}
 19%|█▉        | 412/2117 [13:50<57:17,  2.02s/it] 20%|█▉        | 413/2117 [13:52<56:24,  1.99s/it]                                                  {'loss': 1.5948, 'learning_rate': 0.00037669989305690835, 'epoch': 0.2}
 20%|█▉        | 413/2117 [13:52<56:24,  1.99s/it] 20%|█▉        | 414/2117 [13:54<58:25,  2.06s/it]                                                  {'loss': 1.6806, 'learning_rate': 0.00037655375681174566, 'epoch': 0.2}
 20%|█▉        | 414/2117 [13:54<58:25,  2.06s/it] 20%|█▉        | 415/2117 [13:56<58:00,  2.05s/it]                                                  {'loss': 1.3207, 'learning_rate': 0.0003764071922500639, 'epoch': 0.2}
 20%|█▉        | 415/2117 [13:56<58:00,  2.05s/it] 20%|█▉        | 416/2117 [13:58<59:19,  2.09s/it]                                                  {'loss': 1.326, 'learning_rate': 0.0003762601997274263, 'epoch': 0.2}
 20%|█▉        | 416/2117 [13:58<59:19,  2.09s/it] 20%|█▉        | 417/2117 [14:00<58:54,  2.08s/it]                                                  {'loss': 1.3651, 'learning_rate': 0.0003761127796004343, 'epoch': 0.2}
 20%|█▉        | 417/2117 [14:00<58:54,  2.08s/it] 20%|█▉        | 418/2117 [14:02<58:20,  2.06s/it]                                                  {'loss': 1.2577, 'learning_rate': 0.00037596493222672676, 'epoch': 0.2}
 20%|█▉        | 418/2117 [14:02<58:20,  2.06s/it] 20%|█▉        | 419/2117 [14:04<57:37,  2.04s/it]                                                  {'loss': 1.4533, 'learning_rate': 0.00037581665796497895, 'epoch': 0.2}
 20%|█▉        | 419/2117 [14:04<57:37,  2.04s/it] 20%|█▉        | 420/2117 [14:06<57:32,  2.03s/it]                                                  {'loss': 1.2807, 'learning_rate': 0.0003756679571749018, 'epoch': 0.2}
 20%|█▉        | 420/2117 [14:06<57:32,  2.03s/it] 20%|█▉        | 421/2117 [14:08<53:05,  1.88s/it]                                                  {'loss': 1.3671, 'learning_rate': 0.00037551883021724096, 'epoch': 0.2}
 20%|█▉        | 421/2117 [14:08<53:05,  1.88s/it] 20%|█▉        | 422/2117 [14:10<54:03,  1.91s/it]                                                  {'loss': 1.4806, 'learning_rate': 0.00037536927745377606, 'epoch': 0.2}
 20%|█▉        | 422/2117 [14:10<54:03,  1.91s/it] 20%|█▉        | 423/2117 [14:12<57:50,  2.05s/it]                                                  {'loss': 1.4572, 'learning_rate': 0.0003752192992473196, 'epoch': 0.2}
 20%|█▉        | 423/2117 [14:12<57:50,  2.05s/it] 20%|██        | 424/2117 [14:14<56:18,  2.00s/it]                                                  {'loss': 1.4408, 'learning_rate': 0.00037506889596171627, 'epoch': 0.2}
 20%|██        | 424/2117 [14:14<56:18,  2.00s/it] 20%|██        | 425/2117 [14:16<56:05,  1.99s/it]                                                  {'loss': 1.1899, 'learning_rate': 0.00037491806796184196, 'epoch': 0.2}
 20%|██        | 425/2117 [14:16<56:05,  1.99s/it] 20%|██        | 426/2117 [14:18<54:24,  1.93s/it]                                                  {'loss': 1.2646, 'learning_rate': 0.00037476681561360287, 'epoch': 0.2}
 20%|██        | 426/2117 [14:18<54:24,  1.93s/it] 20%|██        | 427/2117 [14:21<1:07:48,  2.41s/it]                                                    {'loss': 1.0926, 'learning_rate': 0.0003746151392839349, 'epoch': 0.2}
 20%|██        | 427/2117 [14:21<1:07:48,  2.41s/it] 20%|██        | 428/2117 [14:23<1:06:51,  2.38s/it]                                                    {'loss': 1.4036, 'learning_rate': 0.0003744630393408021, 'epoch': 0.2}
 20%|██        | 428/2117 [14:23<1:06:51,  2.38s/it] 20%|██        | 429/2117 [14:25<1:02:17,  2.21s/it]                                                    {'loss': 1.384, 'learning_rate': 0.00037431051615319656, 'epoch': 0.2}
 20%|██        | 429/2117 [14:25<1:02:17,  2.21s/it] 20%|██        | 430/2117 [14:27<1:01:24,  2.18s/it]                                                    {'loss': 1.3298, 'learning_rate': 0.000374157570091137, 'epoch': 0.2}
 20%|██        | 430/2117 [14:27<1:01:24,  2.18s/it] 20%|██        | 431/2117 [14:29<59:14,  2.11s/it]                                                    {'loss': 1.4192, 'learning_rate': 0.0003740042015256681, 'epoch': 0.2}
 20%|██        | 431/2117 [14:29<59:14,  2.11s/it] 20%|██        | 432/2117 [14:31<57:54,  2.06s/it]                                                  {'loss': 1.241, 'learning_rate': 0.0003738504108288595, 'epoch': 0.2}
 20%|██        | 432/2117 [14:31<57:54,  2.06s/it] 20%|██        | 433/2117 [14:33<59:37,  2.12s/it]                                                  {'loss': 1.6417, 'learning_rate': 0.00037369619837380487, 'epoch': 0.2}
 20%|██        | 433/2117 [14:33<59:37,  2.12s/it] 21%|██        | 434/2117 [14:36<59:01,  2.10s/it]                                                  {'loss': 1.0922, 'learning_rate': 0.0003735415645346211, 'epoch': 0.2}
 21%|██        | 434/2117 [14:36<59:01,  2.10s/it] 21%|██        | 435/2117 [14:38<59:59,  2.14s/it]                                                  {'loss': 1.331, 'learning_rate': 0.00037338650968644736, 'epoch': 0.21}
 21%|██        | 435/2117 [14:38<59:59,  2.14s/it] 21%|██        | 436/2117 [14:40<59:56,  2.14s/it]                                                  {'loss': 1.4702, 'learning_rate': 0.00037323103420544416, 'epoch': 0.21}
 21%|██        | 436/2117 [14:40<59:56,  2.14s/it] 21%|██        | 437/2117 [14:42<58:15,  2.08s/it]                                                  {'loss': 1.1575, 'learning_rate': 0.0003730751384687924, 'epoch': 0.21}
 21%|██        | 437/2117 [14:42<58:15,  2.08s/it] 21%|██        | 438/2117 [14:44<56:30,  2.02s/it]                                                  {'loss': 1.466, 'learning_rate': 0.0003729188228546927, 'epoch': 0.21}
 21%|██        | 438/2117 [14:44<56:30,  2.02s/it] 21%|██        | 439/2117 [14:46<55:26,  1.98s/it]                                                  {'loss': 1.1979, 'learning_rate': 0.00037276208774236416, 'epoch': 0.21}
 21%|██        | 439/2117 [14:46<55:26,  1.98s/it] 21%|██        | 440/2117 [14:47<54:10,  1.94s/it]                                                  {'loss': 1.2145, 'learning_rate': 0.0003726049335120435, 'epoch': 0.21}
 21%|██        | 440/2117 [14:47<54:10,  1.94s/it] 21%|██        | 441/2117 [14:49<51:58,  1.86s/it]                                                  {'loss': 1.3891, 'learning_rate': 0.0003724473605449844, 'epoch': 0.21}
 21%|██        | 441/2117 [14:49<51:58,  1.86s/it] 21%|██        | 442/2117 [14:51<51:57,  1.86s/it]                                                  {'loss': 1.1398, 'learning_rate': 0.0003722893692234562, 'epoch': 0.21}
 21%|██        | 442/2117 [14:51<51:57,  1.86s/it] 21%|██        | 443/2117 [14:53<54:59,  1.97s/it]                                                  {'loss': 1.3276, 'learning_rate': 0.0003721309599307434, 'epoch': 0.21}
 21%|██        | 443/2117 [14:53<54:59,  1.97s/it] 21%|██        | 444/2117 [14:55<54:08,  1.94s/it]                                                  {'loss': 1.3792, 'learning_rate': 0.00037197213305114414, 'epoch': 0.21}
 21%|██        | 444/2117 [14:55<54:08,  1.94s/it] 21%|██        | 445/2117 [14:57<53:07,  1.91s/it]                                                  {'loss': 1.3913, 'learning_rate': 0.00037181288896997, 'epoch': 0.21}
 21%|██        | 445/2117 [14:57<53:07,  1.91s/it] 21%|██        | 446/2117 [14:59<54:01,  1.94s/it]                                                  {'loss': 1.5605, 'learning_rate': 0.0003716532280735445, 'epoch': 0.21}
 21%|██        | 446/2117 [14:59<54:01,  1.94s/it] 21%|██        | 447/2117 [15:01<56:35,  2.03s/it]                                                  {'loss': 1.3072, 'learning_rate': 0.00037149315074920227, 'epoch': 0.21}
 21%|██        | 447/2117 [15:01<56:35,  2.03s/it] 21%|██        | 448/2117 [15:03<54:58,  1.98s/it]                                                  {'loss': 1.4979, 'learning_rate': 0.0003713326573852883, 'epoch': 0.21}
 21%|██        | 448/2117 [15:03<54:58,  1.98s/it] 21%|██        | 449/2117 [15:05<57:56,  2.08s/it]                                                  {'loss': 1.5968, 'learning_rate': 0.0003711717483711569, 'epoch': 0.21}
 21%|██        | 449/2117 [15:05<57:56,  2.08s/it] 21%|██▏       | 450/2117 [15:08<1:02:11,  2.24s/it]                                                    {'loss': 1.7091, 'learning_rate': 0.0003710104240971707, 'epoch': 0.21}
 21%|██▏       | 450/2117 [15:08<1:02:11,  2.24s/it] 21%|██▏       | 451/2117 [15:10<1:01:56,  2.23s/it]                                                    {'loss': 1.4488, 'learning_rate': 0.0003708486849546997, 'epoch': 0.21}
 21%|██▏       | 451/2117 [15:10<1:01:56,  2.23s/it] 21%|██▏       | 452/2117 [15:12<1:00:31,  2.18s/it]                                                    {'loss': 1.097, 'learning_rate': 0.00037068653133612045, 'epoch': 0.21}
 21%|██▏       | 452/2117 [15:12<1:00:31,  2.18s/it] 21%|██▏       | 453/2117 [15:14<1:00:10,  2.17s/it]                                                    {'loss': 1.5878, 'learning_rate': 0.0003705239636348149, 'epoch': 0.21}
 21%|██▏       | 453/2117 [15:14<1:00:10,  2.17s/it] 21%|██▏       | 454/2117 [15:16<59:37,  2.15s/it]                                                    {'loss': 1.5458, 'learning_rate': 0.00037036098224516967, 'epoch': 0.21}
 21%|██▏       | 454/2117 [15:16<59:37,  2.15s/it] 21%|██▏       | 455/2117 [15:18<56:21,  2.03s/it]                                                  {'loss': 1.1706, 'learning_rate': 0.00037019758756257494, 'epoch': 0.21}
 21%|██▏       | 455/2117 [15:18<56:21,  2.03s/it] 22%|██▏       | 456/2117 [15:20<55:14,  2.00s/it]                                                  {'loss': 1.5924, 'learning_rate': 0.0003700337799834236, 'epoch': 0.22}
 22%|██▏       | 456/2117 [15:20<55:14,  2.00s/it] 22%|██▏       | 457/2117 [15:22<53:27,  1.93s/it]                                                  {'loss': 1.15, 'learning_rate': 0.00036986955990511, 'epoch': 0.22}
 22%|██▏       | 457/2117 [15:22<53:27,  1.93s/it] 22%|██▏       | 458/2117 [15:25<59:59,  2.17s/it]                                                  {'loss': 1.485, 'learning_rate': 0.00036970492772602946, 'epoch': 0.22}
 22%|██▏       | 458/2117 [15:25<59:59,  2.17s/it] 22%|██▏       | 459/2117 [15:27<57:14,  2.07s/it]                                                  {'loss': 1.3393, 'learning_rate': 0.0003695398838455769, 'epoch': 0.22}
 22%|██▏       | 459/2117 [15:27<57:14,  2.07s/it] 22%|██▏       | 460/2117 [15:29<57:48,  2.09s/it]                                                  {'loss': 1.5324, 'learning_rate': 0.0003693744286641462, 'epoch': 0.22}
 22%|██▏       | 460/2117 [15:29<57:48,  2.09s/it] 22%|██▏       | 461/2117 [15:31<58:03,  2.10s/it]                                                  {'loss': 1.4272, 'learning_rate': 0.00036920856258312873, 'epoch': 0.22}
 22%|██▏       | 461/2117 [15:31<58:03,  2.10s/it] 22%|██▏       | 462/2117 [15:33<56:25,  2.05s/it]                                                  {'loss': 1.3321, 'learning_rate': 0.000369042286004913, 'epoch': 0.22}
 22%|██▏       | 462/2117 [15:33<56:25,  2.05s/it] 22%|██▏       | 463/2117 [15:35<55:41,  2.02s/it]                                                  {'loss': 1.423, 'learning_rate': 0.0003688755993328832, 'epoch': 0.22}
 22%|██▏       | 463/2117 [15:35<55:41,  2.02s/it] 22%|██▏       | 464/2117 [15:37<57:08,  2.07s/it]                                                  {'loss': 1.6408, 'learning_rate': 0.00036870850297141846, 'epoch': 0.22}
 22%|██▏       | 464/2117 [15:37<57:08,  2.07s/it] 22%|██▏       | 465/2117 [15:39<56:33,  2.05s/it]                                                  {'loss': 1.4626, 'learning_rate': 0.0003685409973258919, 'epoch': 0.22}
 22%|██▏       | 465/2117 [15:39<56:33,  2.05s/it] 22%|██▏       | 466/2117 [15:41<54:29,  1.98s/it]                                                  {'loss': 1.5387, 'learning_rate': 0.0003683730828026694, 'epoch': 0.22}
 22%|██▏       | 466/2117 [15:41<54:29,  1.98s/it] 22%|██▏       | 467/2117 [15:43<55:17,  2.01s/it]                                                  {'loss': 1.1369, 'learning_rate': 0.0003682047598091089, 'epoch': 0.22}
 22%|██▏       | 467/2117 [15:43<55:17,  2.01s/it] 22%|██▏       | 468/2117 [15:45<57:41,  2.10s/it]                                                  {'loss': 1.553, 'learning_rate': 0.00036803602875355913, 'epoch': 0.22}
 22%|██▏       | 468/2117 [15:45<57:41,  2.10s/it] 22%|██▏       | 469/2117 [15:47<56:09,  2.04s/it]                                                  {'loss': 1.6675, 'learning_rate': 0.00036786689004535887, 'epoch': 0.22}
 22%|██▏       | 469/2117 [15:47<56:09,  2.04s/it] 22%|██▏       | 470/2117 [15:49<57:18,  2.09s/it]                                                  {'loss': 1.4323, 'learning_rate': 0.00036769734409483596, 'epoch': 0.22}
 22%|██▏       | 470/2117 [15:49<57:18,  2.09s/it] 22%|██▏       | 471/2117 [15:51<56:54,  2.07s/it]                                                  {'loss': 1.4708, 'learning_rate': 0.00036752739131330596, 'epoch': 0.22}
 22%|██▏       | 471/2117 [15:51<56:54,  2.07s/it] 22%|██▏       | 472/2117 [15:53<57:28,  2.10s/it]                                                  {'loss': 1.2672, 'learning_rate': 0.00036735703211307166, 'epoch': 0.22}
 22%|██▏       | 472/2117 [15:53<57:28,  2.10s/it] 22%|██▏       | 473/2117 [15:55<57:52,  2.11s/it]                                                  {'loss': 1.6278, 'learning_rate': 0.0003671862669074216, 'epoch': 0.22}
 22%|██▏       | 473/2117 [15:56<57:52,  2.11s/it] 22%|██▏       | 474/2117 [15:57<54:51,  2.00s/it]                                                  {'loss': 1.4408, 'learning_rate': 0.0003670150961106294, 'epoch': 0.22}
 22%|██▏       | 474/2117 [15:57<54:51,  2.00s/it] 22%|██▏       | 475/2117 [15:59<53:29,  1.95s/it]                                                  {'loss': 1.2482, 'learning_rate': 0.0003668435201379526, 'epoch': 0.22}
 22%|██▏       | 475/2117 [15:59<53:29,  1.95s/it] 22%|██▏       | 476/2117 [16:01<52:48,  1.93s/it]                                                  {'loss': 1.3008, 'learning_rate': 0.00036667153940563176, 'epoch': 0.22}
 22%|██▏       | 476/2117 [16:01<52:48,  1.93s/it] 23%|██▎       | 477/2117 [16:03<53:02,  1.94s/it]                                                  {'loss': 1.2442, 'learning_rate': 0.0003664991543308892, 'epoch': 0.23}
 23%|██▎       | 477/2117 [16:03<53:02,  1.94s/it] 23%|██▎       | 478/2117 [16:05<51:57,  1.90s/it]                                                  {'loss': 1.4983, 'learning_rate': 0.0003663263653319283, 'epoch': 0.23}
 23%|██▎       | 478/2117 [16:05<51:57,  1.90s/it] 23%|██▎       | 479/2117 [16:07<54:40,  2.00s/it]                                                  {'loss': 1.4815, 'learning_rate': 0.00036615317282793244, 'epoch': 0.23}
 23%|██▎       | 479/2117 [16:07<54:40,  2.00s/it] 23%|██▎       | 480/2117 [16:09<53:34,  1.96s/it]                                                  {'loss': 1.516, 'learning_rate': 0.0003659795772390637, 'epoch': 0.23}
 23%|██▎       | 480/2117 [16:09<53:34,  1.96s/it] 23%|██▎       | 481/2117 [16:11<54:15,  1.99s/it]                                                  {'loss': 1.5424, 'learning_rate': 0.00036580557898646215, 'epoch': 0.23}
 23%|██▎       | 481/2117 [16:11<54:15,  1.99s/it] 23%|██▎       | 482/2117 [16:13<54:33,  2.00s/it]                                                  {'loss': 1.3857, 'learning_rate': 0.00036563117849224474, 'epoch': 0.23}
 23%|██▎       | 482/2117 [16:13<54:33,  2.00s/it] 23%|██▎       | 483/2117 [16:15<54:22,  2.00s/it]                                                  {'loss': 1.5148, 'learning_rate': 0.00036545637617950416, 'epoch': 0.23}
 23%|██▎       | 483/2117 [16:15<54:22,  2.00s/it] 23%|██▎       | 484/2117 [16:17<52:02,  1.91s/it]                                                  {'loss': 1.1913, 'learning_rate': 0.000365281172472308, 'epoch': 0.23}
 23%|██▎       | 484/2117 [16:17<52:02,  1.91s/it] 23%|██▎       | 485/2117 [16:19<52:20,  1.92s/it]                                                  {'loss': 1.4367, 'learning_rate': 0.00036510556779569757, 'epoch': 0.23}
 23%|██▎       | 485/2117 [16:19<52:20,  1.92s/it] 23%|██▎       | 486/2117 [16:21<52:35,  1.93s/it]                                                  {'loss': 1.334, 'learning_rate': 0.0003649295625756869, 'epoch': 0.23}
 23%|██▎       | 486/2117 [16:21<52:35,  1.93s/it] 23%|██▎       | 487/2117 [16:22<51:20,  1.89s/it]                                                  {'loss': 1.4054, 'learning_rate': 0.00036475315723926175, 'epoch': 0.23}
 23%|██▎       | 487/2117 [16:22<51:20,  1.89s/it] 23%|██▎       | 488/2117 [16:24<51:00,  1.88s/it]                                                  {'loss': 1.317, 'learning_rate': 0.0003645763522143787, 'epoch': 0.23}
 23%|██▎       | 488/2117 [16:24<51:00,  1.88s/it] 23%|██▎       | 489/2117 [16:26<51:36,  1.90s/it]                                                  {'loss': 1.2957, 'learning_rate': 0.00036439914792996364, 'epoch': 0.23}
 23%|██▎       | 489/2117 [16:26<51:36,  1.90s/it] 23%|██▎       | 490/2117 [16:28<51:55,  1.92s/it]                                                  {'loss': 1.2054, 'learning_rate': 0.0003642215448159115, 'epoch': 0.23}
 23%|██▎       | 490/2117 [16:28<51:55,  1.92s/it] 23%|██▎       | 491/2117 [16:30<52:26,  1.94s/it]                                                  {'loss': 1.3806, 'learning_rate': 0.0003640435433030843, 'epoch': 0.23}
 23%|██▎       | 491/2117 [16:30<52:26,  1.94s/it] 23%|██▎       | 492/2117 [16:32<53:52,  1.99s/it]                                                  {'loss': 1.3092, 'learning_rate': 0.0003638651438233109, 'epoch': 0.23}
 23%|██▎       | 492/2117 [16:32<53:52,  1.99s/it] 23%|██▎       | 493/2117 [16:34<54:03,  2.00s/it]                                                  {'loss': 1.3545, 'learning_rate': 0.0003636863468093855, 'epoch': 0.23}
 23%|██▎       | 493/2117 [16:34<54:03,  2.00s/it] 23%|██▎       | 494/2117 [16:36<51:52,  1.92s/it]                                                  {'loss': 1.3809, 'learning_rate': 0.0003635071526950668, 'epoch': 0.23}
 23%|██▎       | 494/2117 [16:36<51:52,  1.92s/it] 23%|██▎       | 495/2117 [16:38<50:09,  1.86s/it]                                                  {'loss': 0.981, 'learning_rate': 0.0003633275619150767, 'epoch': 0.23}
 23%|██▎       | 495/2117 [16:38<50:09,  1.86s/it] 23%|██▎       | 496/2117 [16:40<51:20,  1.90s/it]                                                  {'loss': 1.4125, 'learning_rate': 0.0003631475749050994, 'epoch': 0.23}
 23%|██▎       | 496/2117 [16:40<51:20,  1.90s/it] 23%|██▎       | 497/2117 [16:42<52:26,  1.94s/it]                                                  {'loss': 1.3213, 'learning_rate': 0.00036296719210178056, 'epoch': 0.23}
 23%|██▎       | 497/2117 [16:42<52:26,  1.94s/it] 24%|██▎       | 498/2117 [16:44<54:13,  2.01s/it]                                                  {'loss': 1.5648, 'learning_rate': 0.0003627864139427259, 'epoch': 0.24}
 24%|██▎       | 498/2117 [16:44<54:13,  2.01s/it] 24%|██▎       | 499/2117 [16:46<54:35,  2.02s/it]                                                  {'loss': 1.274, 'learning_rate': 0.00036260524086650025, 'epoch': 0.24}
 24%|██▎       | 499/2117 [16:46<54:35,  2.02s/it] 24%|██▎       | 500/2117 [16:49<59:14,  2.20s/it]                                                  {'loss': 1.3447, 'learning_rate': 0.0003624236733126265, 'epoch': 0.24}
 24%|██▎       | 500/2117 [16:49<59:14,  2.20s/it] 24%|██▎       | 501/2117 [16:50<56:56,  2.11s/it]                                                  {'loss': 1.4144, 'learning_rate': 0.00036224171172158457, 'epoch': 0.24}
 24%|██▎       | 501/2117 [16:50<56:56,  2.11s/it] 24%|██▎       | 502/2117 [16:53<56:58,  2.12s/it]                                                  {'loss': 1.4745, 'learning_rate': 0.0003620593565348103, 'epoch': 0.24}
 24%|██▎       | 502/2117 [16:53<56:58,  2.12s/it] 24%|██▍       | 503/2117 [16:55<57:48,  2.15s/it]                                                  {'loss': 1.4349, 'learning_rate': 0.00036187660819469433, 'epoch': 0.24}
 24%|██▍       | 503/2117 [16:55<57:48,  2.15s/it] 24%|██▍       | 504/2117 [16:57<54:56,  2.04s/it]                                                  {'loss': 1.3624, 'learning_rate': 0.0003616934671445813, 'epoch': 0.24}
 24%|██▍       | 504/2117 [16:57<54:56,  2.04s/it] 24%|██▍       | 505/2117 [16:58<52:32,  1.96s/it]                                                  {'loss': 1.1218, 'learning_rate': 0.00036150993382876826, 'epoch': 0.24}
 24%|██▍       | 505/2117 [16:58<52:32,  1.96s/it] 24%|██▍       | 506/2117 [17:00<50:32,  1.88s/it]                                                  {'loss': 1.1525, 'learning_rate': 0.000361326008692504, 'epoch': 0.24}
 24%|██▍       | 506/2117 [17:00<50:32,  1.88s/it] 24%|██▍       | 507/2117 [17:02<52:04,  1.94s/it]                                                  {'loss': 1.557, 'learning_rate': 0.00036114169218198793, 'epoch': 0.24}
 24%|██▍       | 507/2117 [17:02<52:04,  1.94s/it] 24%|██▍       | 508/2117 [17:04<51:51,  1.93s/it]                                                  {'loss': 1.421, 'learning_rate': 0.0003609569847443689, 'epoch': 0.24}
 24%|██▍       | 508/2117 [17:04<51:51,  1.93s/it] 24%|██▍       | 509/2117 [17:06<52:48,  1.97s/it]                                                  {'loss': 1.3613, 'learning_rate': 0.0003607718868277441, 'epoch': 0.24}
 24%|██▍       | 509/2117 [17:06<52:48,  1.97s/it] 24%|██▍       | 510/2117 [17:08<51:44,  1.93s/it]                                                  {'loss': 1.5302, 'learning_rate': 0.0003605863988811581, 'epoch': 0.24}
 24%|██▍       | 510/2117 [17:08<51:44,  1.93s/it] 24%|██▍       | 511/2117 [17:10<52:19,  1.95s/it]                                                  {'loss': 1.2848, 'learning_rate': 0.00036040052135460156, 'epoch': 0.24}
 24%|██▍       | 511/2117 [17:10<52:19,  1.95s/it] 24%|██▍       | 512/2117 [17:12<52:21,  1.96s/it]                                                  {'loss': 1.4686, 'learning_rate': 0.0003602142546990103, 'epoch': 0.24}
 24%|██▍       | 512/2117 [17:12<52:21,  1.96s/it] 24%|██▍       | 513/2117 [17:14<52:53,  1.98s/it]                                                  {'loss': 1.3161, 'learning_rate': 0.00036002759936626415, 'epoch': 0.24}
 24%|██▍       | 513/2117 [17:14<52:53,  1.98s/it] 24%|██▍       | 514/2117 [17:16<52:59,  1.98s/it]                                                  {'loss': 1.307, 'learning_rate': 0.00035984055580918595, 'epoch': 0.24}
 24%|██▍       | 514/2117 [17:16<52:59,  1.98s/it] 24%|██▍       | 515/2117 [17:18<52:12,  1.96s/it]                                                  {'loss': 1.4552, 'learning_rate': 0.00035965312448154034, 'epoch': 0.24}
 24%|██▍       | 515/2117 [17:18<52:12,  1.96s/it] 24%|██▍       | 516/2117 [17:20<51:06,  1.92s/it]                                                  {'loss': 1.2265, 'learning_rate': 0.00035946530583803247, 'epoch': 0.24}
 24%|██▍       | 516/2117 [17:20<51:06,  1.92s/it] 24%|██▍       | 517/2117 [17:21<50:12,  1.88s/it]                                                  {'loss': 1.4014, 'learning_rate': 0.0003592771003343075, 'epoch': 0.24}
 24%|██▍       | 517/2117 [17:21<50:12,  1.88s/it] 24%|██▍       | 518/2117 [17:23<51:17,  1.92s/it]                                                  {'loss': 1.5022, 'learning_rate': 0.0003590885084269488, 'epoch': 0.24}
 24%|██▍       | 518/2117 [17:23<51:17,  1.92s/it] 25%|██▍       | 519/2117 [17:25<51:25,  1.93s/it]                                                  {'loss': 1.0336, 'learning_rate': 0.0003588995305734772, 'epoch': 0.25}
 25%|██▍       | 519/2117 [17:25<51:25,  1.93s/it] 25%|██▍       | 520/2117 [17:27<51:55,  1.95s/it]                                                  {'loss': 1.1944, 'learning_rate': 0.00035871016723234997, 'epoch': 0.25}
 25%|██▍       | 520/2117 [17:27<51:55,  1.95s/it] 25%|██▍       | 521/2117 [17:29<51:32,  1.94s/it]                                                  {'loss': 1.5178, 'learning_rate': 0.00035852041886295943, 'epoch': 0.25}
 25%|██▍       | 521/2117 [17:29<51:32,  1.94s/it] 25%|██▍       | 522/2117 [17:31<51:13,  1.93s/it]                                                  {'loss': 1.4343, 'learning_rate': 0.00035833028592563204, 'epoch': 0.25}
 25%|██▍       | 522/2117 [17:31<51:13,  1.93s/it] 25%|██▍       | 523/2117 [17:33<52:14,  1.97s/it]                                                  {'loss': 1.2634, 'learning_rate': 0.0003581397688816271, 'epoch': 0.25}
 25%|██▍       | 523/2117 [17:33<52:14,  1.97s/it] 25%|██▍       | 524/2117 [17:35<51:30,  1.94s/it]                                                  {'loss': 1.3973, 'learning_rate': 0.00035794886819313584, 'epoch': 0.25}
 25%|██▍       | 524/2117 [17:35<51:30,  1.94s/it] 25%|██▍       | 525/2117 [17:37<51:28,  1.94s/it]                                                  {'loss': 1.5337, 'learning_rate': 0.00035775758432328035, 'epoch': 0.25}
 25%|██▍       | 525/2117 [17:37<51:28,  1.94s/it] 25%|██▍       | 526/2117 [17:39<53:44,  2.03s/it]                                                  {'loss': 1.5783, 'learning_rate': 0.00035756591773611194, 'epoch': 0.25}
 25%|██▍       | 526/2117 [17:39<53:44,  2.03s/it] 25%|██▍       | 527/2117 [17:41<52:52,  2.00s/it]                                                  {'loss': 1.3674, 'learning_rate': 0.00035737386889661077, 'epoch': 0.25}
 25%|██▍       | 527/2117 [17:41<52:52,  2.00s/it] 25%|██▍       | 528/2117 [17:43<54:47,  2.07s/it]                                                  {'loss': 1.2439, 'learning_rate': 0.0003571814382706842, 'epoch': 0.25}
 25%|██▍       | 528/2117 [17:43<54:47,  2.07s/it] 25%|██▍       | 529/2117 [17:45<53:09,  2.01s/it]                                                  {'loss': 1.2478, 'learning_rate': 0.0003569886263251657, 'epoch': 0.25}
 25%|██▍       | 529/2117 [17:45<53:09,  2.01s/it] 25%|██▌       | 530/2117 [17:48<55:02,  2.08s/it]                                                  {'loss': 1.6748, 'learning_rate': 0.00035679543352781383, 'epoch': 0.25}
 25%|██▌       | 530/2117 [17:48<55:02,  2.08s/it] 25%|██▌       | 531/2117 [17:50<54:11,  2.05s/it]                                                  {'loss': 1.1766, 'learning_rate': 0.00035660186034731125, 'epoch': 0.25}
 25%|██▌       | 531/2117 [17:50<54:11,  2.05s/it] 25%|██▌       | 532/2117 [17:51<52:45,  2.00s/it]                                                  {'loss': 1.4937, 'learning_rate': 0.0003564079072532633, 'epoch': 0.25}
 25%|██▌       | 532/2117 [17:51<52:45,  2.00s/it] 25%|██▌       | 533/2117 [17:54<54:11,  2.05s/it]                                                  {'loss': 1.5937, 'learning_rate': 0.00035621357471619697, 'epoch': 0.25}
 25%|██▌       | 533/2117 [17:54<54:11,  2.05s/it] 25%|██▌       | 534/2117 [17:56<53:42,  2.04s/it]                                                  {'loss': 1.3704, 'learning_rate': 0.00035601886320755984, 'epoch': 0.25}
 25%|██▌       | 534/2117 [17:56<53:42,  2.04s/it] 25%|██▌       | 535/2117 [17:57<52:10,  1.98s/it]                                                  {'loss': 1.1386, 'learning_rate': 0.00035582377319971884, 'epoch': 0.25}
 25%|██▌       | 535/2117 [17:57<52:10,  1.98s/it] 25%|██▌       | 536/2117 [17:59<51:37,  1.96s/it]                                                  {'loss': 1.4755, 'learning_rate': 0.0003556283051659591, 'epoch': 0.25}
 25%|██▌       | 536/2117 [17:59<51:37,  1.96s/it] 25%|██▌       | 537/2117 [18:01<50:04,  1.90s/it]                                                  {'loss': 1.5553, 'learning_rate': 0.0003554324595804829, 'epoch': 0.25}
 25%|██▌       | 537/2117 [18:01<50:04,  1.90s/it] 25%|██▌       | 538/2117 [18:03<50:08,  1.91s/it]                                                  {'loss': 1.5264, 'learning_rate': 0.0003552362369184084, 'epoch': 0.25}
 25%|██▌       | 538/2117 [18:03<50:08,  1.91s/it] 25%|██▌       | 539/2117 [18:05<51:01,  1.94s/it]                                                  {'loss': 1.3787, 'learning_rate': 0.00035503963765576855, 'epoch': 0.25}
 25%|██▌       | 539/2117 [18:05<51:01,  1.94s/it] 26%|██▌       | 540/2117 [18:07<51:41,  1.97s/it]                                                  {'loss': 1.5708, 'learning_rate': 0.0003548426622695099, 'epoch': 0.25}
 26%|██▌       | 540/2117 [18:07<51:41,  1.97s/it] 26%|██▌       | 541/2117 [18:09<53:51,  2.05s/it]                                                  {'loss': 1.5532, 'learning_rate': 0.0003546453112374916, 'epoch': 0.26}
 26%|██▌       | 541/2117 [18:09<53:51,  2.05s/it] 26%|██▌       | 542/2117 [18:11<50:29,  1.92s/it]                                                  {'loss': 1.2355, 'learning_rate': 0.00035444758503848405, 'epoch': 0.26}
 26%|██▌       | 542/2117 [18:11<50:29,  1.92s/it] 26%|██▌       | 543/2117 [18:13<50:01,  1.91s/it]                                                  {'loss': 1.2705, 'learning_rate': 0.00035424948415216763, 'epoch': 0.26}
 26%|██▌       | 543/2117 [18:13<50:01,  1.91s/it] 26%|██▌       | 544/2117 [18:15<51:54,  1.98s/it]                                                  {'loss': 1.3754, 'learning_rate': 0.00035405100905913184, 'epoch': 0.26}
 26%|██▌       | 544/2117 [18:15<51:54,  1.98s/it] 26%|██▌       | 545/2117 [18:17<52:03,  1.99s/it]                                                  {'loss': 1.4639, 'learning_rate': 0.0003538521602408741, 'epoch': 0.26}
 26%|██▌       | 545/2117 [18:17<52:03,  1.99s/it] 26%|██▌       | 546/2117 [18:19<50:08,  1.91s/it]                                                  {'loss': 1.3271, 'learning_rate': 0.0003536529381797984, 'epoch': 0.26}
 26%|██▌       | 546/2117 [18:19<50:08,  1.91s/it] 26%|██▌       | 547/2117 [18:21<50:25,  1.93s/it]                                                  {'loss': 1.4256, 'learning_rate': 0.0003534533433592141, 'epoch': 0.26}
 26%|██▌       | 547/2117 [18:21<50:25,  1.93s/it] 26%|██▌       | 548/2117 [18:23<50:17,  1.92s/it]                                                  {'loss': 1.4383, 'learning_rate': 0.00035325337626333504, 'epoch': 0.26}
 26%|██▌       | 548/2117 [18:23<50:17,  1.92s/it] 26%|██▌       | 549/2117 [18:25<52:55,  2.03s/it]                                                  {'loss': 1.1625, 'learning_rate': 0.00035305303737727807, 'epoch': 0.26}
 26%|██▌       | 549/2117 [18:25<52:55,  2.03s/it] 26%|██▌       | 550/2117 [18:27<51:27,  1.97s/it]                                                  {'loss': 1.4411, 'learning_rate': 0.000352852327187062, 'epoch': 0.26}
 26%|██▌       | 550/2117 [18:27<51:27,  1.97s/it] 26%|██▌       | 551/2117 [18:29<54:26,  2.09s/it]                                                  {'loss': 1.2599, 'learning_rate': 0.00035265124617960653, 'epoch': 0.26}
 26%|██▌       | 551/2117 [18:29<54:26,  2.09s/it] 26%|██▌       | 552/2117 [18:31<52:56,  2.03s/it]                                                  {'loss': 1.2186, 'learning_rate': 0.0003524497948427309, 'epoch': 0.26}
 26%|██▌       | 552/2117 [18:31<52:56,  2.03s/it] 26%|██▌       | 553/2117 [18:33<53:08,  2.04s/it]                                                  {'loss': 1.5345, 'learning_rate': 0.0003522479736651527, 'epoch': 0.26}
 26%|██▌       | 553/2117 [18:33<53:08,  2.04s/it] 26%|██▌       | 554/2117 [18:35<51:21,  1.97s/it]                                                  {'loss': 1.2944, 'learning_rate': 0.0003520457831364868, 'epoch': 0.26}
 26%|██▌       | 554/2117 [18:35<51:21,  1.97s/it] 26%|██▌       | 555/2117 [18:37<52:59,  2.04s/it]                                                  {'loss': 1.3791, 'learning_rate': 0.00035184322374724416, 'epoch': 0.26}
 26%|██▌       | 555/2117 [18:37<52:59,  2.04s/it] 26%|██▋       | 556/2117 [18:39<54:26,  2.09s/it]                                                  {'loss': 1.6277, 'learning_rate': 0.0003516402959888304, 'epoch': 0.26}
 26%|██▋       | 556/2117 [18:39<54:26,  2.09s/it] 26%|██▋       | 557/2117 [18:41<51:47,  1.99s/it]                                                  {'loss': 1.4593, 'learning_rate': 0.00035143700035354517, 'epoch': 0.26}
 26%|██▋       | 557/2117 [18:41<51:47,  1.99s/it] 26%|██▋       | 558/2117 [18:43<53:39,  2.07s/it]                                                  {'loss': 1.3568, 'learning_rate': 0.00035123333733458014, 'epoch': 0.26}
 26%|██▋       | 558/2117 [18:43<53:39,  2.07s/it] 26%|██▋       | 559/2117 [18:45<52:55,  2.04s/it]                                                  {'loss': 1.2664, 'learning_rate': 0.00035102930742601855, 'epoch': 0.26}
 26%|██▋       | 559/2117 [18:45<52:55,  2.04s/it] 26%|██▋       | 560/2117 [18:47<52:40,  2.03s/it]                                                  {'loss': 1.1526, 'learning_rate': 0.0003508249111228336, 'epoch': 0.26}
 26%|██▋       | 560/2117 [18:47<52:40,  2.03s/it] 26%|██▋       | 561/2117 [18:49<54:14,  2.09s/it]                                                  {'loss': 1.568, 'learning_rate': 0.00035062014892088734, 'epoch': 0.26}
 26%|██▋       | 561/2117 [18:49<54:14,  2.09s/it] 27%|██▋       | 562/2117 [18:52<1:00:58,  2.35s/it]                                                    {'loss': 1.3015, 'learning_rate': 0.00035041502131692953, 'epoch': 0.27}
 27%|██▋       | 562/2117 [18:52<1:00:58,  2.35s/it] 27%|██▋       | 563/2117 [18:54<56:47,  2.19s/it]                                                    {'loss': 1.2436, 'learning_rate': 0.0003502095288085964, 'epoch': 0.27}
 27%|██▋       | 563/2117 [18:54<56:47,  2.19s/it] 27%|██▋       | 564/2117 [18:56<54:25,  2.10s/it]                                                  {'loss': 1.246, 'learning_rate': 0.00035000367189440935, 'epoch': 0.27}
 27%|██▋       | 564/2117 [18:56<54:25,  2.10s/it] 27%|██▋       | 565/2117 [18:58<52:30,  2.03s/it]                                                  {'loss': 1.2972, 'learning_rate': 0.0003497974510737739, 'epoch': 0.27}
 27%|██▋       | 565/2117 [18:58<52:30,  2.03s/it] 27%|██▋       | 566/2117 [19:00<51:31,  1.99s/it]                                                  {'loss': 1.4416, 'learning_rate': 0.00034959086684697847, 'epoch': 0.27}
 27%|██▋       | 566/2117 [19:00<51:31,  1.99s/it] 27%|██▋       | 567/2117 [19:02<52:34,  2.04s/it]                                                  {'loss': 1.4723, 'learning_rate': 0.0003493839197151928, 'epoch': 0.27}
 27%|██▋       | 567/2117 [19:02<52:34,  2.04s/it] 27%|██▋       | 568/2117 [19:04<51:32,  2.00s/it]                                                  {'loss': 1.2364, 'learning_rate': 0.00034917661018046755, 'epoch': 0.27}
 27%|██▋       | 568/2117 [19:04<51:32,  2.00s/it] 27%|██▋       | 569/2117 [19:06<49:41,  1.93s/it]                                                  {'loss': 0.9685, 'learning_rate': 0.00034896893874573193, 'epoch': 0.27}
 27%|██▋       | 569/2117 [19:06<49:41,  1.93s/it] 27%|██▋       | 570/2117 [19:08<50:02,  1.94s/it]                                                  {'loss': 1.4989, 'learning_rate': 0.0003487609059147936, 'epoch': 0.27}
 27%|██▋       | 570/2117 [19:08<50:02,  1.94s/it] 27%|██▋       | 571/2117 [19:10<51:16,  1.99s/it]                                                  {'loss': 1.331, 'learning_rate': 0.00034855251219233674, 'epoch': 0.27}
 27%|██▋       | 571/2117 [19:10<51:16,  1.99s/it] 27%|██▋       | 572/2117 [19:12<51:22,  2.00s/it]                                                  {'loss': 1.282, 'learning_rate': 0.0003483437580839212, 'epoch': 0.27}
 27%|██▋       | 572/2117 [19:12<51:22,  2.00s/it] 27%|██▋       | 573/2117 [19:14<53:26,  2.08s/it]                                                  {'loss': 1.4483, 'learning_rate': 0.0003481346440959809, 'epoch': 0.27}
 27%|██▋       | 573/2117 [19:14<53:26,  2.08s/it] 27%|██▋       | 574/2117 [19:16<50:28,  1.96s/it]                                                  {'loss': 1.3028, 'learning_rate': 0.00034792517073582306, 'epoch': 0.27}
 27%|██▋       | 574/2117 [19:16<50:28,  1.96s/it] 27%|██▋       | 575/2117 [19:18<54:25,  2.12s/it]                                                  {'loss': 1.2324, 'learning_rate': 0.0003477153385116265, 'epoch': 0.27}
 27%|██▋       | 575/2117 [19:18<54:25,  2.12s/it] 27%|██▋       | 576/2117 [19:20<53:08,  2.07s/it]                                                  {'loss': 1.4206, 'learning_rate': 0.00034750514793244083, 'epoch': 0.27}
 27%|██▋       | 576/2117 [19:20<53:08,  2.07s/it] 27%|██▋       | 577/2117 [19:22<51:57,  2.02s/it]                                                  {'loss': 1.5627, 'learning_rate': 0.00034729459950818496, 'epoch': 0.27}
 27%|██▋       | 577/2117 [19:22<51:57,  2.02s/it] 27%|██▋       | 578/2117 [19:24<53:40,  2.09s/it]                                                  {'loss': 1.4441, 'learning_rate': 0.00034708369374964593, 'epoch': 0.27}
 27%|██▋       | 578/2117 [19:24<53:40,  2.09s/it] 27%|██▋       | 579/2117 [19:26<53:15,  2.08s/it]                                                  {'loss': 1.2597, 'learning_rate': 0.0003468724311684775, 'epoch': 0.27}
 27%|██▋       | 579/2117 [19:26<53:15,  2.08s/it] 27%|██▋       | 580/2117 [19:28<52:46,  2.06s/it]                                                  {'loss': 1.3732, 'learning_rate': 0.00034666081227719943, 'epoch': 0.27}
 27%|██▋       | 580/2117 [19:28<52:46,  2.06s/it] 27%|██▋       | 581/2117 [19:30<52:21,  2.05s/it]                                                  {'loss': 1.4752, 'learning_rate': 0.00034644883758919555, 'epoch': 0.27}
 27%|██▋       | 581/2117 [19:30<52:21,  2.05s/it] 27%|██▋       | 582/2117 [19:32<49:44,  1.94s/it]                                                  {'loss': 1.0906, 'learning_rate': 0.00034623650761871305, 'epoch': 0.27}
 27%|██▋       | 582/2117 [19:32<49:44,  1.94s/it] 28%|██▊       | 583/2117 [19:34<49:47,  1.95s/it]                                                  {'loss': 1.3774, 'learning_rate': 0.0003460238228808609, 'epoch': 0.28}
 28%|██▊       | 583/2117 [19:34<49:47,  1.95s/it] 28%|██▊       | 584/2117 [19:36<49:41,  1.94s/it]                                                  {'loss': 1.2825, 'learning_rate': 0.0003458107838916088, 'epoch': 0.28}
 28%|██▊       | 584/2117 [19:36<49:41,  1.94s/it] 28%|██▊       | 585/2117 [19:39<57:59,  2.27s/it]                                                  {'loss': 1.442, 'learning_rate': 0.0003455973911677859, 'epoch': 0.28}
 28%|██▊       | 585/2117 [19:39<57:59,  2.27s/it] 28%|██▊       | 586/2117 [19:41<54:12,  2.12s/it]                                                  {'loss': 1.3051, 'learning_rate': 0.00034538364522707934, 'epoch': 0.28}
 28%|██▊       | 586/2117 [19:41<54:12,  2.12s/it] 28%|██▊       | 587/2117 [19:43<52:13,  2.05s/it]                                                  {'loss': 1.2828, 'learning_rate': 0.00034516954658803334, 'epoch': 0.28}
 28%|██▊       | 587/2117 [19:43<52:13,  2.05s/it] 28%|██▊       | 588/2117 [19:45<51:21,  2.02s/it]                                                  {'loss': 1.112, 'learning_rate': 0.00034495509577004774, 'epoch': 0.28}
 28%|██▊       | 588/2117 [19:45<51:21,  2.02s/it] 28%|██▊       | 589/2117 [19:47<54:09,  2.13s/it]                                                  {'loss': 1.707, 'learning_rate': 0.00034474029329337663, 'epoch': 0.28}
 28%|██▊       | 589/2117 [19:47<54:09,  2.13s/it] 28%|██▊       | 590/2117 [19:49<52:18,  2.06s/it]                                                  {'loss': 1.403, 'learning_rate': 0.0003445251396791273, 'epoch': 0.28}
 28%|██▊       | 590/2117 [19:49<52:18,  2.06s/it] 28%|██▊       | 591/2117 [19:51<50:01,  1.97s/it]                                                  {'loss': 1.2986, 'learning_rate': 0.0003443096354492589, 'epoch': 0.28}
 28%|██▊       | 591/2117 [19:51<50:01,  1.97s/it] 28%|██▊       | 592/2117 [19:53<49:15,  1.94s/it]                                                  {'loss': 1.3418, 'learning_rate': 0.00034409378112658113, 'epoch': 0.28}
 28%|██▊       | 592/2117 [19:53<49:15,  1.94s/it] 28%|██▊       | 593/2117 [19:54<47:18,  1.86s/it]                                                  {'loss': 1.2424, 'learning_rate': 0.00034387757723475313, 'epoch': 0.28}
 28%|██▊       | 593/2117 [19:54<47:18,  1.86s/it] 28%|██▊       | 594/2117 [19:56<48:49,  1.92s/it]                                                  {'loss': 1.2661, 'learning_rate': 0.0003436610242982819, 'epoch': 0.28}
 28%|██▊       | 594/2117 [19:56<48:49,  1.92s/it] 28%|██▊       | 595/2117 [19:58<49:54,  1.97s/it]                                                  {'loss': 1.2827, 'learning_rate': 0.00034344412284252135, 'epoch': 0.28}
 28%|██▊       | 595/2117 [19:58<49:54,  1.97s/it] 28%|██▊       | 596/2117 [20:00<47:52,  1.89s/it]                                                  {'loss': 1.2011, 'learning_rate': 0.00034322687339367083, 'epoch': 0.28}
 28%|██▊       | 596/2117 [20:00<47:52,  1.89s/it] 28%|██▊       | 597/2117 [20:02<48:01,  1.90s/it]                                                  {'loss': 1.2413, 'learning_rate': 0.00034300927647877403, 'epoch': 0.28}
 28%|██▊       | 597/2117 [20:02<48:01,  1.90s/it] 28%|██▊       | 598/2117 [20:04<49:16,  1.95s/it]                                                  {'loss': 1.3173, 'learning_rate': 0.00034279133262571734, 'epoch': 0.28}
 28%|██▊       | 598/2117 [20:04<49:16,  1.95s/it] 28%|██▊       | 599/2117 [20:06<50:41,  2.00s/it]                                                  {'loss': 1.2728, 'learning_rate': 0.0003425730423632291, 'epoch': 0.28}
 28%|██▊       | 599/2117 [20:06<50:41,  2.00s/it] 28%|██▊       | 600/2117 [20:08<48:59,  1.94s/it]                                                  {'loss': 1.2539, 'learning_rate': 0.0003423544062208779, 'epoch': 0.28}
 28%|██▊       | 600/2117 [20:08<48:59,  1.94s/it] 28%|██▊       | 601/2117 [20:10<48:12,  1.91s/it]                                                  {'loss': 1.2058, 'learning_rate': 0.00034213542472907144, 'epoch': 0.28}
 28%|██▊       | 601/2117 [20:10<48:12,  1.91s/it] 28%|██▊       | 602/2117 [20:12<47:07,  1.87s/it]                                                  {'loss': 1.1629, 'learning_rate': 0.0003419160984190552, 'epoch': 0.28}
 28%|██▊       | 602/2117 [20:12<47:07,  1.87s/it] 28%|██▊       | 603/2117 [20:14<49:47,  1.97s/it]                                                  {'loss': 1.1723, 'learning_rate': 0.00034169642782291116, 'epoch': 0.28}
 28%|██▊       | 603/2117 [20:14<49:47,  1.97s/it] 29%|██▊       | 604/2117 [20:16<50:21,  2.00s/it]                                                  {'loss': 1.3751, 'learning_rate': 0.0003414764134735566, 'epoch': 0.29}
 29%|██▊       | 604/2117 [20:16<50:21,  2.00s/it] 29%|██▊       | 605/2117 [20:18<50:58,  2.02s/it]                                                  {'loss': 1.3485, 'learning_rate': 0.0003412560559047428, 'epoch': 0.29}
 29%|██▊       | 605/2117 [20:18<50:58,  2.02s/it] 29%|██▊       | 606/2117 [20:20<53:16,  2.12s/it]                                                  {'loss': 1.4167, 'learning_rate': 0.0003410353556510536, 'epoch': 0.29}
 29%|██▊       | 606/2117 [20:20<53:16,  2.12s/it] 29%|██▊       | 607/2117 [20:22<52:48,  2.10s/it]                                                  {'loss': 1.4048, 'learning_rate': 0.0003408143132479041, 'epoch': 0.29}
 29%|██▊       | 607/2117 [20:22<52:48,  2.10s/it] 29%|██▊       | 608/2117 [20:24<50:49,  2.02s/it]                                                  {'loss': 1.5166, 'learning_rate': 0.0003405929292315397, 'epoch': 0.29}
 29%|██▊       | 608/2117 [20:24<50:49,  2.02s/it] 29%|██▉       | 609/2117 [20:26<52:18,  2.08s/it]                                                  {'loss': 1.6244, 'learning_rate': 0.00034037120413903425, 'epoch': 0.29}
 29%|██▉       | 609/2117 [20:26<52:18,  2.08s/it] 29%|██▉       | 610/2117 [20:28<51:59,  2.07s/it]                                                  {'loss': 1.3791, 'learning_rate': 0.0003401491385082892, 'epoch': 0.29}
 29%|██▉       | 610/2117 [20:28<51:59,  2.07s/it] 29%|██▉       | 611/2117 [20:30<50:02,  1.99s/it]                                                  {'loss': 1.086, 'learning_rate': 0.00033992673287803224, 'epoch': 0.29}
 29%|██▉       | 611/2117 [20:30<50:02,  1.99s/it] 29%|██▉       | 612/2117 [20:32<49:02,  1.96s/it]                                                  {'loss': 1.5672, 'learning_rate': 0.00033970398778781564, 'epoch': 0.29}
 29%|██▉       | 612/2117 [20:32<49:02,  1.96s/it] 29%|██▉       | 613/2117 [20:34<49:52,  1.99s/it]                                                  {'loss': 1.513, 'learning_rate': 0.00033948090377801545, 'epoch': 0.29}
 29%|██▉       | 613/2117 [20:34<49:52,  1.99s/it] 29%|██▉       | 614/2117 [20:37<54:53,  2.19s/it]                                                  {'loss': 1.516, 'learning_rate': 0.0003392574813898298, 'epoch': 0.29}
 29%|██▉       | 614/2117 [20:37<54:53,  2.19s/it] 29%|██▉       | 615/2117 [20:39<53:48,  2.15s/it]                                                  {'loss': 1.499, 'learning_rate': 0.0003390337211652777, 'epoch': 0.29}
 29%|██▉       | 615/2117 [20:39<53:48,  2.15s/it] 29%|██▉       | 616/2117 [20:41<53:23,  2.13s/it]                                                  {'loss': 1.5168, 'learning_rate': 0.0003388096236471978, 'epoch': 0.29}
 29%|██▉       | 616/2117 [20:41<53:23,  2.13s/it] 29%|██▉       | 617/2117 [20:43<49:31,  1.98s/it]                                                  {'loss': 1.1873, 'learning_rate': 0.000338585189379247, 'epoch': 0.29}
 29%|██▉       | 617/2117 [20:43<49:31,  1.98s/it] 29%|██▉       | 618/2117 [20:45<50:55,  2.04s/it]                                                  {'loss': 1.3861, 'learning_rate': 0.0003383604189058992, 'epoch': 0.29}
 29%|██▉       | 618/2117 [20:45<50:55,  2.04s/it] 29%|██▉       | 619/2117 [20:47<50:45,  2.03s/it]                                                  {'loss': 1.5166, 'learning_rate': 0.00033813531277244384, 'epoch': 0.29}
 29%|██▉       | 619/2117 [20:47<50:45,  2.03s/it] 29%|██▉       | 620/2117 [20:49<48:45,  1.95s/it]                                                  {'loss': 1.0685, 'learning_rate': 0.0003379098715249847, 'epoch': 0.29}
 29%|██▉       | 620/2117 [20:49<48:45,  1.95s/it] 29%|██▉       | 621/2117 [20:50<46:18,  1.86s/it]                                                  {'loss': 1.2126, 'learning_rate': 0.0003376840957104385, 'epoch': 0.29}
 29%|██▉       | 621/2117 [20:50<46:18,  1.86s/it] 29%|██▉       | 622/2117 [20:52<46:59,  1.89s/it]                                                  {'loss': 1.201, 'learning_rate': 0.0003374579858765338, 'epoch': 0.29}
 29%|██▉       | 622/2117 [20:52<46:59,  1.89s/it] 29%|██▉       | 623/2117 [20:54<49:02,  1.97s/it]                                                  {'loss': 1.2925, 'learning_rate': 0.00033723154257180927, 'epoch': 0.29}
 29%|██▉       | 623/2117 [20:54<49:02,  1.97s/it] 29%|██▉       | 624/2117 [20:57<50:13,  2.02s/it]                                                  {'loss': 1.4116, 'learning_rate': 0.0003370047663456127, 'epoch': 0.29}
 29%|██▉       | 624/2117 [20:57<50:13,  2.02s/it] 30%|██▉       | 625/2117 [20:59<52:56,  2.13s/it]                                                  {'loss': 1.2275, 'learning_rate': 0.0003367776577480994, 'epoch': 0.3}
 30%|██▉       | 625/2117 [20:59<52:56,  2.13s/it] 30%|██▉       | 626/2117 [21:01<51:06,  2.06s/it]                                                  {'loss': 1.3411, 'learning_rate': 0.00033655021733023114, 'epoch': 0.3}
 30%|██▉       | 626/2117 [21:01<51:06,  2.06s/it] 30%|██▉       | 627/2117 [21:03<52:56,  2.13s/it]                                                  {'loss': 1.4525, 'learning_rate': 0.0003363224456437747, 'epoch': 0.3}
 30%|██▉       | 627/2117 [21:03<52:56,  2.13s/it] 30%|██▉       | 628/2117 [21:05<52:08,  2.10s/it]                                                  {'loss': 1.4977, 'learning_rate': 0.00033609434324130045, 'epoch': 0.3}
 30%|██▉       | 628/2117 [21:05<52:08,  2.10s/it] 30%|██▉       | 629/2117 [21:07<51:36,  2.08s/it]                                                  {'loss': 1.2514, 'learning_rate': 0.00033586591067618103, 'epoch': 0.3}
 30%|██▉       | 629/2117 [21:07<51:36,  2.08s/it] 30%|██▉       | 630/2117 [21:09<52:23,  2.11s/it]                                                  {'loss': 1.3123, 'learning_rate': 0.0003356371485025901, 'epoch': 0.3}
 30%|██▉       | 630/2117 [21:09<52:23,  2.11s/it] 30%|██▉       | 631/2117 [21:11<51:35,  2.08s/it]                                                  {'loss': 1.3881, 'learning_rate': 0.000335408057275501, 'epoch': 0.3}
 30%|██▉       | 631/2117 [21:11<51:35,  2.08s/it] 30%|██▉       | 632/2117 [21:13<50:19,  2.03s/it]                                                  {'loss': 1.3676, 'learning_rate': 0.0003351786375506852, 'epoch': 0.3}
 30%|██▉       | 632/2117 [21:13<50:19,  2.03s/it] 30%|██▉       | 633/2117 [21:15<49:24,  2.00s/it]                                                  {'loss': 1.3726, 'learning_rate': 0.0003349488898847113, 'epoch': 0.3}
 30%|██▉       | 633/2117 [21:15<49:24,  2.00s/it] 30%|██▉       | 634/2117 [21:17<48:36,  1.97s/it]                                                  {'loss': 1.5587, 'learning_rate': 0.00033471881483494324, 'epoch': 0.3}
 30%|██▉       | 634/2117 [21:17<48:36,  1.97s/it] 30%|██▉       | 635/2117 [21:19<49:26,  2.00s/it]                                                  {'loss': 1.5089, 'learning_rate': 0.0003344884129595395, 'epoch': 0.3}
 30%|██▉       | 635/2117 [21:19<49:26,  2.00s/it] 30%|███       | 636/2117 [21:21<48:34,  1.97s/it]                                                  {'loss': 1.1553, 'learning_rate': 0.00033425768481745103, 'epoch': 0.3}
 30%|███       | 636/2117 [21:21<48:34,  1.97s/it] 30%|███       | 637/2117 [21:23<48:03,  1.95s/it]                                                  {'loss': 1.196, 'learning_rate': 0.0003340266309684207, 'epoch': 0.3}
 30%|███       | 637/2117 [21:23<48:03,  1.95s/it] 30%|███       | 638/2117 [21:25<48:18,  1.96s/it]                                                  {'loss': 1.437, 'learning_rate': 0.0003337952519729813, 'epoch': 0.3}
 30%|███       | 638/2117 [21:25<48:18,  1.96s/it] 30%|███       | 639/2117 [21:27<47:40,  1.94s/it]                                                  {'loss': 1.5862, 'learning_rate': 0.00033356354839245443, 'epoch': 0.3}
 30%|███       | 639/2117 [21:27<47:40,  1.94s/it] 30%|███       | 640/2117 [21:29<46:56,  1.91s/it]                                                  {'loss': 1.2645, 'learning_rate': 0.0003333315207889492, 'epoch': 0.3}
 30%|███       | 640/2117 [21:29<46:56,  1.91s/it] 30%|███       | 641/2117 [21:31<46:28,  1.89s/it]                                                  {'loss': 1.493, 'learning_rate': 0.0003330991697253608, 'epoch': 0.3}
 30%|███       | 641/2117 [21:31<46:28,  1.89s/it] 30%|███       | 642/2117 [21:32<46:06,  1.88s/it]                                                  {'loss': 1.2698, 'learning_rate': 0.00033286649576536915, 'epoch': 0.3}
 30%|███       | 642/2117 [21:32<46:06,  1.88s/it] 30%|███       | 643/2117 [21:35<48:41,  1.98s/it]                                                  {'loss': 1.6227, 'learning_rate': 0.0003326334994734373, 'epoch': 0.3}
 30%|███       | 643/2117 [21:35<48:41,  1.98s/it] 30%|███       | 644/2117 [21:36<47:24,  1.93s/it]                                                  {'loss': 1.2429, 'learning_rate': 0.00033240018141481064, 'epoch': 0.3}
 30%|███       | 644/2117 [21:36<47:24,  1.93s/it] 30%|███       | 645/2117 [21:38<46:36,  1.90s/it]                                                  {'loss': 1.4009, 'learning_rate': 0.00033216654215551477, 'epoch': 0.3}
 30%|███       | 645/2117 [21:38<46:36,  1.90s/it] 31%|███       | 646/2117 [21:40<47:40,  1.94s/it]                                                  {'loss': 1.5027, 'learning_rate': 0.0003319325822623548, 'epoch': 0.31}
 31%|███       | 646/2117 [21:40<47:40,  1.94s/it] 31%|███       | 647/2117 [21:42<47:25,  1.94s/it]                                                  {'loss': 1.4413, 'learning_rate': 0.00033169830230291356, 'epoch': 0.31}
 31%|███       | 647/2117 [21:42<47:25,  1.94s/it] 31%|███       | 648/2117 [21:44<47:31,  1.94s/it]                                                  {'loss': 1.332, 'learning_rate': 0.00033146370284555047, 'epoch': 0.31}
 31%|███       | 648/2117 [21:44<47:31,  1.94s/it] 31%|███       | 649/2117 [21:46<48:42,  1.99s/it]                                                  {'loss': 1.2462, 'learning_rate': 0.0003312287844593998, 'epoch': 0.31}
 31%|███       | 649/2117 [21:46<48:42,  1.99s/it] 31%|███       | 650/2117 [21:48<49:40,  2.03s/it]                                                  {'loss': 1.3925, 'learning_rate': 0.0003309935477143699, 'epoch': 0.31}
 31%|███       | 650/2117 [21:48<49:40,  2.03s/it] 31%|███       | 651/2117 [21:50<48:30,  1.99s/it]                                                  {'loss': 1.0344, 'learning_rate': 0.00033075799318114116, 'epoch': 0.31}
 31%|███       | 651/2117 [21:50<48:30,  1.99s/it] 31%|███       | 652/2117 [21:52<47:52,  1.96s/it]                                                  {'loss': 1.3053, 'learning_rate': 0.00033052212143116496, 'epoch': 0.31}
 31%|███       | 652/2117 [21:52<47:52,  1.96s/it] 31%|███       | 653/2117 [21:54<47:21,  1.94s/it]                                                  {'loss': 1.302, 'learning_rate': 0.00033028593303666235, 'epoch': 0.31}
 31%|███       | 653/2117 [21:54<47:21,  1.94s/it] 31%|███       | 654/2117 [21:56<49:24,  2.03s/it]                                                  {'loss': 1.4378, 'learning_rate': 0.0003300494285706226, 'epoch': 0.31}
 31%|███       | 654/2117 [21:56<49:24,  2.03s/it] 31%|███       | 655/2117 [21:58<49:12,  2.02s/it]                                                  {'loss': 1.281, 'learning_rate': 0.0003298126086068015, 'epoch': 0.31}
 31%|███       | 655/2117 [21:58<49:12,  2.02s/it] 31%|███       | 656/2117 [22:00<48:28,  1.99s/it]                                                  {'loss': 1.1997, 'learning_rate': 0.00032957547371972043, 'epoch': 0.31}
 31%|███       | 656/2117 [22:00<48:28,  1.99s/it] 31%|███       | 657/2117 [22:02<49:32,  2.04s/it]                                                  {'loss': 1.2488, 'learning_rate': 0.0003293380244846648, 'epoch': 0.31}
 31%|███       | 657/2117 [22:02<49:32,  2.04s/it] 31%|███       | 658/2117 [22:04<49:31,  2.04s/it]                                                  {'loss': 1.616, 'learning_rate': 0.0003291002614776826, 'epoch': 0.31}
 31%|███       | 658/2117 [22:04<49:31,  2.04s/it] 31%|███       | 659/2117 [22:06<48:37,  2.00s/it]                                                  {'loss': 0.9443, 'learning_rate': 0.0003288621852755829, 'epoch': 0.31}
 31%|███       | 659/2117 [22:06<48:37,  2.00s/it] 31%|███       | 660/2117 [22:08<46:59,  1.94s/it]                                                  {'loss': 1.296, 'learning_rate': 0.0003286237964559346, 'epoch': 0.31}
 31%|███       | 660/2117 [22:08<46:59,  1.94s/it] 31%|███       | 661/2117 [22:10<48:21,  1.99s/it]                                                  {'loss': 1.3768, 'learning_rate': 0.0003283850955970653, 'epoch': 0.31}
 31%|███       | 661/2117 [22:10<48:21,  1.99s/it] 31%|███▏      | 662/2117 [22:12<47:17,  1.95s/it]                                                  {'loss': 1.5167, 'learning_rate': 0.0003281460832780591, 'epoch': 0.31}
 31%|███▏      | 662/2117 [22:12<47:17,  1.95s/it] 31%|███▏      | 663/2117 [22:14<47:50,  1.97s/it]                                                  {'loss': 1.2445, 'learning_rate': 0.00032790676007875627, 'epoch': 0.31}
 31%|███▏      | 663/2117 [22:14<47:50,  1.97s/it] 31%|███▏      | 664/2117 [22:16<47:36,  1.97s/it]                                                  {'loss': 0.9358, 'learning_rate': 0.00032766712657975066, 'epoch': 0.31}
 31%|███▏      | 664/2117 [22:16<47:36,  1.97s/it] 31%|███▏      | 665/2117 [22:18<45:42,  1.89s/it]                                                  {'loss': 1.0435, 'learning_rate': 0.0003274271833623893, 'epoch': 0.31}
 31%|███▏      | 665/2117 [22:18<45:42,  1.89s/it] 31%|███▏      | 666/2117 [22:20<45:53,  1.90s/it]                                                  {'loss': 1.1012, 'learning_rate': 0.00032718693100877065, 'epoch': 0.31}
 31%|███▏      | 666/2117 [22:20<45:53,  1.90s/it] 32%|███▏      | 667/2117 [22:22<47:01,  1.95s/it]                                                  {'loss': 1.3027, 'learning_rate': 0.0003269463701017428, 'epoch': 0.31}
 32%|███▏      | 667/2117 [22:22<47:01,  1.95s/it] 32%|███▏      | 668/2117 [22:24<47:11,  1.95s/it]                                                  {'loss': 1.5241, 'learning_rate': 0.00032670550122490267, 'epoch': 0.32}
 32%|███▏      | 668/2117 [22:24<47:11,  1.95s/it] 32%|███▏      | 669/2117 [22:26<46:40,  1.93s/it]                                                  {'loss': 1.3093, 'learning_rate': 0.00032646432496259416, 'epoch': 0.32}
 32%|███▏      | 669/2117 [22:26<46:40,  1.93s/it] 32%|███▏      | 670/2117 [22:27<45:17,  1.88s/it]                                                  {'loss': 1.2715, 'learning_rate': 0.000326222841899907, 'epoch': 0.32}
 32%|███▏      | 670/2117 [22:27<45:17,  1.88s/it] 32%|███▏      | 671/2117 [22:29<47:13,  1.96s/it]                                                  {'loss': 1.3346, 'learning_rate': 0.000325981052622675, 'epoch': 0.32}
 32%|███▏      | 671/2117 [22:29<47:13,  1.96s/it] 32%|███▏      | 672/2117 [22:32<49:29,  2.06s/it]                                                  {'loss': 1.2683, 'learning_rate': 0.00032573895771747505, 'epoch': 0.32}
 32%|███▏      | 672/2117 [22:32<49:29,  2.06s/it] 32%|███▏      | 673/2117 [22:34<50:20,  2.09s/it]                                                  {'loss': 1.579, 'learning_rate': 0.0003254965577716255, 'epoch': 0.32}
 32%|███▏      | 673/2117 [22:34<50:20,  2.09s/it] 32%|███▏      | 674/2117 [22:36<48:31,  2.02s/it]                                                  {'loss': 1.2409, 'learning_rate': 0.0003252538533731846, 'epoch': 0.32}
 32%|███▏      | 674/2117 [22:36<48:31,  2.02s/it] 32%|███▏      | 675/2117 [22:38<50:13,  2.09s/it]                                                  {'loss': 1.3204, 'learning_rate': 0.00032501084511094914, 'epoch': 0.32}
 32%|███▏      | 675/2117 [22:38<50:13,  2.09s/it] 32%|███▏      | 676/2117 [22:40<49:50,  2.08s/it]                                                  {'loss': 1.444, 'learning_rate': 0.0003247675335744533, 'epoch': 0.32}
 32%|███▏      | 676/2117 [22:40<49:50,  2.08s/it] 32%|███▏      | 677/2117 [22:42<49:45,  2.07s/it]                                                  {'loss': 1.0368, 'learning_rate': 0.0003245239193539668, 'epoch': 0.32}
 32%|███▏      | 677/2117 [22:42<49:45,  2.07s/it] 32%|███▏      | 678/2117 [22:44<48:37,  2.03s/it]                                                  {'loss': 1.4488, 'learning_rate': 0.00032428000304049383, 'epoch': 0.32}
 32%|███▏      | 678/2117 [22:44<48:37,  2.03s/it] 32%|███▏      | 679/2117 [22:46<50:03,  2.09s/it]                                                  {'loss': 1.2406, 'learning_rate': 0.0003240357852257713, 'epoch': 0.32}
 32%|███▏      | 679/2117 [22:46<50:03,  2.09s/it] 32%|███▏      | 680/2117 [22:48<50:15,  2.10s/it]                                                  {'loss': 1.4373, 'learning_rate': 0.0003237912665022676, 'epoch': 0.32}
 32%|███▏      | 680/2117 [22:48<50:15,  2.10s/it] 32%|███▏      | 681/2117 [22:51<50:32,  2.11s/it]                                                  {'loss': 1.0534, 'learning_rate': 0.0003235464474631813, 'epoch': 0.32}
 32%|███▏      | 681/2117 [22:51<50:32,  2.11s/it] 32%|███▏      | 682/2117 [22:52<48:04,  2.01s/it]                                                  {'loss': 1.3751, 'learning_rate': 0.0003233013287024391, 'epoch': 0.32}
 32%|███▏      | 682/2117 [22:52<48:04,  2.01s/it] 32%|███▏      | 683/2117 [22:54<49:05,  2.05s/it]                                                  {'loss': 1.2604, 'learning_rate': 0.0003230559108146953, 'epoch': 0.32}
 32%|███▏      | 683/2117 [22:55<49:05,  2.05s/it] 32%|███▏      | 684/2117 [22:56<47:43,  2.00s/it]                                                  {'loss': 1.1124, 'learning_rate': 0.0003228101943953297, 'epoch': 0.32}
 32%|███▏      | 684/2117 [22:56<47:43,  2.00s/it] 32%|███▏      | 685/2117 [22:58<45:57,  1.93s/it]                                                  {'loss': 1.1776, 'learning_rate': 0.00032256418004044616, 'epoch': 0.32}
 32%|███▏      | 685/2117 [22:58<45:57,  1.93s/it] 32%|███▏      | 686/2117 [23:00<45:10,  1.89s/it]                                                  {'loss': 1.0755, 'learning_rate': 0.0003223178683468716, 'epoch': 0.32}
 32%|███▏      | 686/2117 [23:00<45:10,  1.89s/it] 32%|███▏      | 687/2117 [23:02<45:19,  1.90s/it]                                                  {'loss': 1.2169, 'learning_rate': 0.0003220712599121541, 'epoch': 0.32}
 32%|███▏      | 687/2117 [23:02<45:19,  1.90s/it] 32%|███▏      | 688/2117 [23:04<47:28,  1.99s/it]                                                  {'loss': 1.4314, 'learning_rate': 0.00032182435533456154, 'epoch': 0.32}
 32%|███▏      | 688/2117 [23:04<47:28,  1.99s/it] 33%|███▎      | 689/2117 [23:06<50:32,  2.12s/it]                                                  {'loss': 1.2822, 'learning_rate': 0.00032157715521308064, 'epoch': 0.33}
 33%|███▎      | 689/2117 [23:07<50:32,  2.12s/it] 33%|███▎      | 690/2117 [23:09<50:15,  2.11s/it]                                                  {'loss': 1.4197, 'learning_rate': 0.00032132966014741457, 'epoch': 0.33}
 33%|███▎      | 690/2117 [23:09<50:15,  2.11s/it] 33%|███▎      | 691/2117 [23:10<48:26,  2.04s/it]                                                  {'loss': 1.3165, 'learning_rate': 0.0003210818707379826, 'epoch': 0.33}
 33%|███▎      | 691/2117 [23:10<48:26,  2.04s/it] 33%|███▎      | 692/2117 [23:12<45:44,  1.93s/it]                                                  {'loss': 1.2202, 'learning_rate': 0.00032083378758591757, 'epoch': 0.33}
 33%|███▎      | 692/2117 [23:12<45:44,  1.93s/it] 33%|███▎      | 693/2117 [23:14<45:56,  1.94s/it]                                                  {'loss': 1.3977, 'learning_rate': 0.0003205854112930651, 'epoch': 0.33}
 33%|███▎      | 693/2117 [23:14<45:56,  1.94s/it] 33%|███▎      | 694/2117 [23:16<46:01,  1.94s/it]                                                  {'loss': 1.4865, 'learning_rate': 0.0003203367424619822, 'epoch': 0.33}
 33%|███▎      | 694/2117 [23:16<46:01,  1.94s/it] 33%|███▎      | 695/2117 [23:18<46:03,  1.94s/it]                                                  {'loss': 1.2872, 'learning_rate': 0.0003200877816959352, 'epoch': 0.33}
 33%|███▎      | 695/2117 [23:18<46:03,  1.94s/it] 33%|███▎      | 696/2117 [23:20<48:19,  2.04s/it]                                                  {'loss': 1.3833, 'learning_rate': 0.0003198385295988989, 'epoch': 0.33}
 33%|███▎      | 696/2117 [23:20<48:19,  2.04s/it] 33%|███▎      | 697/2117 [23:22<47:49,  2.02s/it]                                                  {'loss': 1.2206, 'learning_rate': 0.00031958898677555476, 'epoch': 0.33}
 33%|███▎      | 697/2117 [23:22<47:49,  2.02s/it] 33%|███▎      | 698/2117 [23:24<48:32,  2.05s/it]                                                  {'loss': 1.2306, 'learning_rate': 0.0003193391538312897, 'epoch': 0.33}
 33%|███▎      | 698/2117 [23:24<48:32,  2.05s/it] 33%|███▎      | 699/2117 [23:26<47:29,  2.01s/it]                                                  {'loss': 1.4376, 'learning_rate': 0.00031908903137219417, 'epoch': 0.33}
 33%|███▎      | 699/2117 [23:26<47:29,  2.01s/it] 33%|███▎      | 700/2117 [23:28<46:40,  1.98s/it]                                                  {'loss': 1.5088, 'learning_rate': 0.00031883862000506134, 'epoch': 0.33}
 33%|███▎      | 700/2117 [23:28<46:40,  1.98s/it] 33%|███▎      | 701/2117 [23:30<45:11,  1.92s/it]                                                  {'loss': 1.4149, 'learning_rate': 0.0003185879203373849, 'epoch': 0.33}
 33%|███▎      | 701/2117 [23:30<45:11,  1.92s/it] 33%|███▎      | 702/2117 [23:32<46:12,  1.96s/it]                                                  {'loss': 1.1201, 'learning_rate': 0.0003183369329773583, 'epoch': 0.33}
 33%|███▎      | 702/2117 [23:32<46:12,  1.96s/it] 33%|███▎      | 703/2117 [23:34<46:34,  1.98s/it]                                                  {'loss': 1.2864, 'learning_rate': 0.00031808565853387263, 'epoch': 0.33}
 33%|███▎      | 703/2117 [23:34<46:34,  1.98s/it] 33%|███▎      | 704/2117 [23:36<47:30,  2.02s/it]                                                  {'loss': 1.3081, 'learning_rate': 0.0003178340976165157, 'epoch': 0.33}
 33%|███▎      | 704/2117 [23:36<47:30,  2.02s/it] 33%|███▎      | 705/2117 [23:38<45:12,  1.92s/it]                                                  {'loss': 1.223, 'learning_rate': 0.00031758225083557, 'epoch': 0.33}
 33%|███▎      | 705/2117 [23:38<45:12,  1.92s/it] 33%|███▎      | 706/2117 [23:40<44:57,  1.91s/it]                                                  {'loss': 1.3362, 'learning_rate': 0.00031733011880201185, 'epoch': 0.33}
 33%|███▎      | 706/2117 [23:40<44:57,  1.91s/it] 33%|███▎      | 707/2117 [23:42<46:49,  1.99s/it]                                                  {'loss': 1.3054, 'learning_rate': 0.0003170777021275093, 'epoch': 0.33}
 33%|███▎      | 707/2117 [23:42<46:49,  1.99s/it] 33%|███▎      | 708/2117 [23:44<47:10,  2.01s/it]                                                  {'loss': 1.1346, 'learning_rate': 0.0003168250014244212, 'epoch': 0.33}
 33%|███▎      | 708/2117 [23:44<47:10,  2.01s/it] 33%|███▎      | 709/2117 [23:46<47:46,  2.04s/it]                                                  {'loss': 1.4264, 'learning_rate': 0.00031657201730579513, 'epoch': 0.33}
 33%|███▎      | 709/2117 [23:46<47:46,  2.04s/it] 34%|███▎      | 710/2117 [23:48<47:36,  2.03s/it]                                                  {'loss': 1.2921, 'learning_rate': 0.0003163187503853666, 'epoch': 0.34}
 34%|███▎      | 710/2117 [23:48<47:36,  2.03s/it] 34%|███▎      | 711/2117 [23:50<47:03,  2.01s/it]                                                  {'loss': 1.3265, 'learning_rate': 0.0003160652012775569, 'epoch': 0.34}
 34%|███▎      | 711/2117 [23:50<47:03,  2.01s/it] 34%|███▎      | 712/2117 [23:52<46:53,  2.00s/it]                                                  {'loss': 1.0747, 'learning_rate': 0.000315811370597472, 'epoch': 0.34}
 34%|███▎      | 712/2117 [23:52<46:53,  2.00s/it] 34%|███▎      | 713/2117 [23:54<49:44,  2.13s/it]                                                  {'loss': 1.3607, 'learning_rate': 0.0003155572589609011, 'epoch': 0.34}
 34%|███▎      | 713/2117 [23:54<49:44,  2.13s/it] 34%|███▎      | 714/2117 [23:56<48:08,  2.06s/it]                                                  {'loss': 1.2866, 'learning_rate': 0.00031530286698431474, 'epoch': 0.34}
 34%|███▎      | 714/2117 [23:56<48:08,  2.06s/it] 34%|███▍      | 715/2117 [23:58<47:52,  2.05s/it]                                                  {'loss': 1.4863, 'learning_rate': 0.00031504819528486365, 'epoch': 0.34}
 34%|███▍      | 715/2117 [23:58<47:52,  2.05s/it] 34%|███▍      | 716/2117 [24:00<45:46,  1.96s/it]                                                  {'loss': 1.2086, 'learning_rate': 0.00031479324448037725, 'epoch': 0.34}
 34%|███▍      | 716/2117 [24:00<45:46,  1.96s/it] 34%|███▍      | 717/2117 [24:02<47:08,  2.02s/it]                                                  {'loss': 1.4026, 'learning_rate': 0.0003145380151893621, 'epoch': 0.34}
 34%|███▍      | 717/2117 [24:02<47:08,  2.02s/it] 34%|███▍      | 718/2117 [24:04<47:07,  2.02s/it]                                                  {'loss': 1.4166, 'learning_rate': 0.00031428250803100017, 'epoch': 0.34}
 34%|███▍      | 718/2117 [24:04<47:07,  2.02s/it] 34%|███▍      | 719/2117 [24:06<46:35,  2.00s/it]                                                  {'loss': 1.6379, 'learning_rate': 0.0003140267236251476, 'epoch': 0.34}
 34%|███▍      | 719/2117 [24:06<46:35,  2.00s/it] 34%|███▍      | 720/2117 [24:08<47:49,  2.05s/it]                                                  {'loss': 1.3528, 'learning_rate': 0.0003137706625923333, 'epoch': 0.34}
 34%|███▍      | 720/2117 [24:08<47:49,  2.05s/it] 34%|███▍      | 721/2117 [24:10<47:31,  2.04s/it]                                                  {'loss': 1.4633, 'learning_rate': 0.000313514325553757, 'epoch': 0.34}
 34%|███▍      | 721/2117 [24:10<47:31,  2.04s/it] 34%|███▍      | 722/2117 [24:12<47:07,  2.03s/it]                                                  {'loss': 1.3926, 'learning_rate': 0.0003132577131312883, 'epoch': 0.34}
 34%|███▍      | 722/2117 [24:12<47:07,  2.03s/it] 34%|███▍      | 723/2117 [24:14<47:31,  2.05s/it]                                                  {'loss': 1.2951, 'learning_rate': 0.0003130008259474646, 'epoch': 0.34}
 34%|███▍      | 723/2117 [24:15<47:31,  2.05s/it] 34%|███▍      | 724/2117 [24:16<46:51,  2.02s/it]                                                  {'loss': 1.3975, 'learning_rate': 0.00031274366462549, 'epoch': 0.34}
 34%|███▍      | 724/2117 [24:16<46:51,  2.02s/it] 34%|███▍      | 725/2117 [24:19<47:14,  2.04s/it]                                                  {'loss': 1.7294, 'learning_rate': 0.0003124862297892337, 'epoch': 0.34}
 34%|███▍      | 725/2117 [24:19<47:14,  2.04s/it] 34%|███▍      | 726/2117 [24:20<46:38,  2.01s/it]                                                  {'loss': 1.4895, 'learning_rate': 0.0003122285220632284, 'epoch': 0.34}
 34%|███▍      | 726/2117 [24:20<46:38,  2.01s/it] 34%|███▍      | 727/2117 [24:22<45:22,  1.96s/it]                                                  {'loss': 1.3108, 'learning_rate': 0.0003119705420726688, 'epoch': 0.34}
 34%|███▍      | 727/2117 [24:22<45:22,  1.96s/it] 34%|███▍      | 728/2117 [24:25<47:45,  2.06s/it]                                                  {'loss': 1.2647, 'learning_rate': 0.0003117122904434101, 'epoch': 0.34}
 34%|███▍      | 728/2117 [24:25<47:45,  2.06s/it] 34%|███▍      | 729/2117 [24:27<47:41,  2.06s/it]                                                  {'loss': 1.133, 'learning_rate': 0.00031145376780196654, 'epoch': 0.34}
 34%|███▍      | 729/2117 [24:27<47:41,  2.06s/it] 34%|███▍      | 730/2117 [24:29<46:45,  2.02s/it]                                                  {'loss': 1.3407, 'learning_rate': 0.00031119497477550986, 'epoch': 0.34}
 34%|███▍      | 730/2117 [24:29<46:45,  2.02s/it] 35%|███▍      | 731/2117 [24:31<47:01,  2.04s/it]                                                  {'loss': 1.3305, 'learning_rate': 0.0003109359119918676, 'epoch': 0.35}
 35%|███▍      | 731/2117 [24:31<47:01,  2.04s/it] 35%|███▍      | 732/2117 [24:33<48:01,  2.08s/it]                                                  {'loss': 1.3938, 'learning_rate': 0.0003106765800795219, 'epoch': 0.35}
 35%|███▍      | 732/2117 [24:33<48:01,  2.08s/it] 35%|███▍      | 733/2117 [24:35<48:02,  2.08s/it]                                                  {'loss': 1.5855, 'learning_rate': 0.00031041697966760777, 'epoch': 0.35}
 35%|███▍      | 733/2117 [24:35<48:02,  2.08s/it] 35%|███▍      | 734/2117 [24:37<46:35,  2.02s/it]                                                  {'loss': 1.347, 'learning_rate': 0.00031015711138591143, 'epoch': 0.35}
 35%|███▍      | 734/2117 [24:37<46:35,  2.02s/it] 35%|███▍      | 735/2117 [24:39<48:09,  2.09s/it]                                                  {'loss': 1.5524, 'learning_rate': 0.0003098969758648691, 'epoch': 0.35}
 35%|███▍      | 735/2117 [24:39<48:09,  2.09s/it] 35%|███▍      | 736/2117 [24:41<47:22,  2.06s/it]                                                  {'loss': 1.1343, 'learning_rate': 0.00030963657373556526, 'epoch': 0.35}
 35%|███▍      | 736/2117 [24:41<47:22,  2.06s/it] 35%|███▍      | 737/2117 [24:43<46:41,  2.03s/it]                                                  {'loss': 1.2149, 'learning_rate': 0.0003093759056297314, 'epoch': 0.35}
 35%|███▍      | 737/2117 [24:43<46:41,  2.03s/it] 35%|███▍      | 738/2117 [24:45<43:59,  1.91s/it]                                                  {'loss': 1.2507, 'learning_rate': 0.00030911497217974386, 'epoch': 0.35}
 35%|███▍      | 738/2117 [24:45<43:59,  1.91s/it] 35%|███▍      | 739/2117 [24:47<46:23,  2.02s/it]                                                  {'loss': 1.5341, 'learning_rate': 0.00030885377401862306, 'epoch': 0.35}
 35%|███▍      | 739/2117 [24:47<46:23,  2.02s/it] 35%|███▍      | 740/2117 [24:49<47:03,  2.05s/it]                                                  {'loss': 1.3615, 'learning_rate': 0.0003085923117800312, 'epoch': 0.35}
 35%|███▍      | 740/2117 [24:49<47:03,  2.05s/it] 35%|███▌      | 741/2117 [24:51<47:51,  2.09s/it]                                                  {'loss': 1.3651, 'learning_rate': 0.00030833058609827175, 'epoch': 0.35}
 35%|███▌      | 741/2117 [24:51<47:51,  2.09s/it] 35%|███▌      | 742/2117 [24:53<46:39,  2.04s/it]                                                  {'loss': 1.2132, 'learning_rate': 0.00030806859760828663, 'epoch': 0.35}
 35%|███▌      | 742/2117 [24:53<46:39,  2.04s/it] 35%|███▌      | 743/2117 [24:55<43:30,  1.90s/it]                                                  {'loss': 1.166, 'learning_rate': 0.00030780634694565573, 'epoch': 0.35}
 35%|███▌      | 743/2117 [24:55<43:30,  1.90s/it] 35%|███▌      | 744/2117 [24:57<43:40,  1.91s/it]                                                  {'loss': 1.4359, 'learning_rate': 0.0003075438347465949, 'epoch': 0.35}
 35%|███▌      | 744/2117 [24:57<43:40,  1.91s/it] 35%|███▌      | 745/2117 [24:58<43:06,  1.89s/it]                                                  {'loss': 1.5718, 'learning_rate': 0.00030728106164795433, 'epoch': 0.35}
 35%|███▌      | 745/2117 [24:59<43:06,  1.89s/it] 35%|███▌      | 746/2117 [25:01<43:57,  1.92s/it]                                                  {'loss': 1.4244, 'learning_rate': 0.00030701802828721734, 'epoch': 0.35}
 35%|███▌      | 746/2117 [25:01<43:57,  1.92s/it] 35%|███▌      | 747/2117 [25:03<46:17,  2.03s/it]                                                  {'loss': 1.208, 'learning_rate': 0.0003067547353024985, 'epoch': 0.35}
 35%|███▌      | 747/2117 [25:03<46:17,  2.03s/it] 35%|███▌      | 748/2117 [25:05<48:03,  2.11s/it]                                                  {'loss': 1.2651, 'learning_rate': 0.0003064911833325423, 'epoch': 0.35}
 35%|███▌      | 748/2117 [25:05<48:03,  2.11s/it] 35%|███▌      | 749/2117 [25:07<45:48,  2.01s/it]                                                  {'loss': 1.2595, 'learning_rate': 0.0003062273730167215, 'epoch': 0.35}
 35%|███▌      | 749/2117 [25:07<45:48,  2.01s/it] 35%|███▌      | 750/2117 [25:09<46:49,  2.06s/it]                                                  {'loss': 1.6153, 'learning_rate': 0.00030596330499503555, 'epoch': 0.35}
 35%|███▌      | 750/2117 [25:09<46:49,  2.06s/it] 35%|███▌      | 751/2117 [25:11<46:35,  2.05s/it]                                                  {'loss': 1.3482, 'learning_rate': 0.00030569897990810916, 'epoch': 0.35}
 35%|███▌      | 751/2117 [25:11<46:35,  2.05s/it] 36%|███▌      | 752/2117 [25:13<49:18,  2.17s/it]                                                  {'loss': 1.1848, 'learning_rate': 0.0003054343983971907, 'epoch': 0.36}
 36%|███▌      | 752/2117 [25:13<49:18,  2.17s/it] 36%|███▌      | 753/2117 [25:16<49:15,  2.17s/it]                                                  {'loss': 1.5675, 'learning_rate': 0.0003051695611041505, 'epoch': 0.36}
 36%|███▌      | 753/2117 [25:16<49:15,  2.17s/it] 36%|███▌      | 754/2117 [25:18<47:21,  2.08s/it]                                                  {'loss': 1.2735, 'learning_rate': 0.0003049044686714796, 'epoch': 0.36}
 36%|███▌      | 754/2117 [25:18<47:21,  2.08s/it] 36%|███▌      | 755/2117 [25:19<46:24,  2.04s/it]                                                  {'loss': 1.5186, 'learning_rate': 0.0003046391217422878, 'epoch': 0.36}
 36%|███▌      | 755/2117 [25:20<46:24,  2.04s/it] 36%|███▌      | 756/2117 [25:22<47:49,  2.11s/it]                                                  {'loss': 1.3627, 'learning_rate': 0.0003043735209603025, 'epoch': 0.36}
 36%|███▌      | 756/2117 [25:22<47:49,  2.11s/it] 36%|███▌      | 757/2117 [25:25<52:39,  2.32s/it]                                                  {'loss': 1.3874, 'learning_rate': 0.00030410766696986667, 'epoch': 0.36}
 36%|███▌      | 757/2117 [25:25<52:39,  2.32s/it] 36%|███▌      | 758/2117 [25:26<49:38,  2.19s/it]                                                  {'loss': 1.3036, 'learning_rate': 0.00030384156041593795, 'epoch': 0.36}
 36%|███▌      | 758/2117 [25:26<49:38,  2.19s/it] 36%|███▌      | 759/2117 [25:28<46:38,  2.06s/it]                                                  {'loss': 1.2132, 'learning_rate': 0.0003035752019440863, 'epoch': 0.36}
 36%|███▌      | 759/2117 [25:28<46:38,  2.06s/it] 36%|███▌      | 760/2117 [25:30<45:04,  1.99s/it]                                                  {'loss': 1.299, 'learning_rate': 0.00030330859220049303, 'epoch': 0.36}
 36%|███▌      | 760/2117 [25:30<45:04,  1.99s/it] 36%|███▌      | 761/2117 [25:32<44:53,  1.99s/it]                                                  {'loss': 1.2785, 'learning_rate': 0.0003030417318319491, 'epoch': 0.36}
 36%|███▌      | 761/2117 [25:32<44:53,  1.99s/it] 36%|███▌      | 762/2117 [25:34<47:47,  2.12s/it]                                                  {'loss': 1.1849, 'learning_rate': 0.00030277462148585324, 'epoch': 0.36}
 36%|███▌      | 762/2117 [25:34<47:47,  2.12s/it] 36%|███▌      | 763/2117 [25:36<47:19,  2.10s/it]                                                  {'loss': 1.3676, 'learning_rate': 0.00030250726181021097, 'epoch': 0.36}
 36%|███▌      | 763/2117 [25:37<47:19,  2.10s/it] 36%|███▌      | 764/2117 [25:39<46:44,  2.07s/it]                                                  {'loss': 1.5585, 'learning_rate': 0.00030223965345363234, 'epoch': 0.36}
 36%|███▌      | 764/2117 [25:39<46:44,  2.07s/it] 36%|███▌      | 765/2117 [25:41<46:41,  2.07s/it]                                                  {'loss': 1.5943, 'learning_rate': 0.0003019717970653309, 'epoch': 0.36}
 36%|███▌      | 765/2117 [25:41<46:41,  2.07s/it] 36%|███▌      | 766/2117 [25:43<46:40,  2.07s/it]                                                  {'loss': 1.0816, 'learning_rate': 0.00030170369329512173, 'epoch': 0.36}
 36%|███▌      | 766/2117 [25:43<46:40,  2.07s/it] 36%|███▌      | 767/2117 [25:45<45:49,  2.04s/it]                                                  {'loss': 1.5398, 'learning_rate': 0.00030143534279342035, 'epoch': 0.36}
 36%|███▌      | 767/2117 [25:45<45:49,  2.04s/it] 36%|███▋      | 768/2117 [25:46<44:16,  1.97s/it]                                                  {'loss': 1.2893, 'learning_rate': 0.0003011667462112406, 'epoch': 0.36}
 36%|███▋      | 768/2117 [25:46<44:16,  1.97s/it] 36%|███▋      | 769/2117 [25:48<44:09,  1.97s/it]                                                  {'loss': 1.3099, 'learning_rate': 0.00030089790420019335, 'epoch': 0.36}
 36%|███▋      | 769/2117 [25:48<44:09,  1.97s/it] 36%|███▋      | 770/2117 [25:51<47:12,  2.10s/it]                                                  {'loss': 1.5297, 'learning_rate': 0.0003006288174124849, 'epoch': 0.36}
 36%|███▋      | 770/2117 [25:51<47:12,  2.10s/it] 36%|███▋      | 771/2117 [25:53<45:38,  2.03s/it]                                                  {'loss': 1.2783, 'learning_rate': 0.00030035948650091555, 'epoch': 0.36}
 36%|███▋      | 771/2117 [25:53<45:38,  2.03s/it] 36%|███▋      | 772/2117 [25:55<46:30,  2.07s/it]                                                  {'loss': 1.3238, 'learning_rate': 0.0003000899121188775, 'epoch': 0.36}
 36%|███▋      | 772/2117 [25:55<46:30,  2.07s/it] 37%|███▋      | 773/2117 [25:57<48:09,  2.15s/it]                                                  {'loss': 1.6145, 'learning_rate': 0.0002998200949203538, 'epoch': 0.37}
 37%|███▋      | 773/2117 [25:57<48:09,  2.15s/it] 37%|███▋      | 774/2117 [25:59<46:14,  2.07s/it]                                                  {'loss': 1.2022, 'learning_rate': 0.0002995500355599167, 'epoch': 0.37}
 37%|███▋      | 774/2117 [25:59<46:14,  2.07s/it] 37%|███▋      | 775/2117 [26:01<45:28,  2.03s/it]                                                  {'loss': 1.2806, 'learning_rate': 0.00029927973469272555, 'epoch': 0.37}
 37%|███▋      | 775/2117 [26:01<45:28,  2.03s/it] 37%|███▋      | 776/2117 [26:03<45:29,  2.04s/it]                                                  {'loss': 1.424, 'learning_rate': 0.000299009192974526, 'epoch': 0.37}
 37%|███▋      | 776/2117 [26:03<45:29,  2.04s/it] 37%|███▋      | 777/2117 [26:05<44:21,  1.99s/it]                                                  {'loss': 1.177, 'learning_rate': 0.00029873841106164766, 'epoch': 0.37}
 37%|███▋      | 777/2117 [26:05<44:21,  1.99s/it] 37%|███▋      | 778/2117 [26:07<43:30,  1.95s/it]                                                  {'loss': 1.3138, 'learning_rate': 0.0002984673896110032, 'epoch': 0.37}
 37%|███▋      | 778/2117 [26:07<43:30,  1.95s/it] 37%|███▋      | 779/2117 [26:09<48:28,  2.17s/it]                                                  {'loss': 1.3856, 'learning_rate': 0.00029819612928008607, 'epoch': 0.37}
 37%|███▋      | 779/2117 [26:09<48:28,  2.17s/it] 37%|███▋      | 780/2117 [26:11<45:50,  2.06s/it]                                                  {'loss': 1.2792, 'learning_rate': 0.0002979246307269695, 'epoch': 0.37}
 37%|███▋      | 780/2117 [26:11<45:50,  2.06s/it] 37%|███▋      | 781/2117 [26:13<45:42,  2.05s/it]                                                  {'loss': 1.2964, 'learning_rate': 0.00029765289461030443, 'epoch': 0.37}
 37%|███▋      | 781/2117 [26:13<45:42,  2.05s/it] 37%|███▋      | 782/2117 [26:15<44:03,  1.98s/it]                                                  {'loss': 1.1395, 'learning_rate': 0.0002973809215893183, 'epoch': 0.37}
 37%|███▋      | 782/2117 [26:15<44:03,  1.98s/it] 37%|███▋      | 783/2117 [26:17<44:43,  2.01s/it]                                                  {'loss': 1.3927, 'learning_rate': 0.0002971087123238131, 'epoch': 0.37}
 37%|███▋      | 783/2117 [26:17<44:43,  2.01s/it] 37%|███▋      | 784/2117 [26:19<45:11,  2.03s/it]                                                  {'loss': 1.241, 'learning_rate': 0.00029683626747416416, 'epoch': 0.37}
 37%|███▋      | 784/2117 [26:19<45:11,  2.03s/it] 37%|███▋      | 785/2117 [26:21<45:37,  2.06s/it]                                                  {'loss': 1.5876, 'learning_rate': 0.0002965635877013181, 'epoch': 0.37}
 37%|███▋      | 785/2117 [26:21<45:37,  2.06s/it] 37%|███▋      | 786/2117 [26:23<45:06,  2.03s/it]                                                  {'loss': 1.5482, 'learning_rate': 0.00029629067366679173, 'epoch': 0.37}
 37%|███▋      | 786/2117 [26:23<45:06,  2.03s/it] 37%|███▋      | 787/2117 [26:25<44:43,  2.02s/it]                                                  {'loss': 1.4041, 'learning_rate': 0.0002960175260326699, 'epoch': 0.37}
 37%|███▋      | 787/2117 [26:25<44:43,  2.02s/it] 37%|███▋      | 788/2117 [26:27<43:17,  1.95s/it]                                                  {'loss': 1.2867, 'learning_rate': 0.00029574414546160426, 'epoch': 0.37}
 37%|███▋      | 788/2117 [26:27<43:17,  1.95s/it] 37%|███▋      | 789/2117 [26:29<42:01,  1.90s/it]                                                  {'loss': 1.1729, 'learning_rate': 0.0002954705326168117, 'epoch': 0.37}
 37%|███▋      | 789/2117 [26:29<42:01,  1.90s/it] 37%|███▋      | 790/2117 [26:31<43:05,  1.95s/it]                                                  {'loss': 1.4974, 'learning_rate': 0.0002951966881620725, 'epoch': 0.37}
 37%|███▋      | 790/2117 [26:31<43:05,  1.95s/it] 37%|███▋      | 791/2117 [26:33<45:45,  2.07s/it]                                                  {'loss': 1.4537, 'learning_rate': 0.0002949226127617287, 'epoch': 0.37}
 37%|███▋      | 791/2117 [26:33<45:45,  2.07s/it] 37%|███▋      | 792/2117 [26:35<44:46,  2.03s/it]                                                  {'loss': 1.2313, 'learning_rate': 0.00029464830708068277, 'epoch': 0.37}
 37%|███▋      | 792/2117 [26:35<44:46,  2.03s/it] 37%|███▋      | 793/2117 [26:37<43:29,  1.97s/it]                                                  {'loss': 1.4326, 'learning_rate': 0.0002943737717843959, 'epoch': 0.37}
 37%|███▋      | 793/2117 [26:37<43:29,  1.97s/it] 38%|███▊      | 794/2117 [26:39<44:59,  2.04s/it]                                                  {'loss': 1.249, 'learning_rate': 0.0002940990075388861, 'epoch': 0.37}
 38%|███▊      | 794/2117 [26:39<44:59,  2.04s/it] 38%|███▊      | 795/2117 [26:41<43:00,  1.95s/it]                                                  {'loss': 1.3426, 'learning_rate': 0.000293824015010727, 'epoch': 0.38}
 38%|███▊      | 795/2117 [26:41<43:00,  1.95s/it] 38%|███▊      | 796/2117 [26:43<43:27,  1.97s/it]                                                  {'loss': 1.35, 'learning_rate': 0.0002935487948670459, 'epoch': 0.38}
 38%|███▊      | 796/2117 [26:43<43:27,  1.97s/it] 38%|███▊      | 797/2117 [26:45<41:52,  1.90s/it]                                                  {'loss': 1.1759, 'learning_rate': 0.00029327334777552245, 'epoch': 0.38}
 38%|███▊      | 797/2117 [26:45<41:52,  1.90s/it] 38%|███▊      | 798/2117 [26:47<43:45,  1.99s/it]                                                  {'loss': 1.181, 'learning_rate': 0.0002929976744043866, 'epoch': 0.38}
 38%|███▊      | 798/2117 [26:47<43:45,  1.99s/it] 38%|███▊      | 799/2117 [26:49<41:35,  1.89s/it]                                                  {'loss': 1.1735, 'learning_rate': 0.00029272177542241765, 'epoch': 0.38}
 38%|███▊      | 799/2117 [26:49<41:35,  1.89s/it] 38%|███▊      | 800/2117 [26:51<44:30,  2.03s/it]                                                  {'loss': 0.9487, 'learning_rate': 0.00029244565149894183, 'epoch': 0.38}
 38%|███▊      | 800/2117 [26:51<44:30,  2.03s/it] 38%|███▊      | 801/2117 [26:53<44:00,  2.01s/it]                                                  {'loss': 1.4527, 'learning_rate': 0.00029216930330383127, 'epoch': 0.38}
 38%|███▊      | 801/2117 [26:53<44:00,  2.01s/it] 38%|███▊      | 802/2117 [26:55<43:35,  1.99s/it]                                                  {'loss': 1.4078, 'learning_rate': 0.0002918927315075023, 'epoch': 0.38}
 38%|███▊      | 802/2117 [26:55<43:35,  1.99s/it] 38%|███▊      | 803/2117 [26:57<41:47,  1.91s/it]                                                  {'loss': 1.2437, 'learning_rate': 0.00029161593678091337, 'epoch': 0.38}
 38%|███▊      | 803/2117 [26:57<41:47,  1.91s/it] 38%|███▊      | 804/2117 [26:58<41:13,  1.88s/it]                                                  {'loss': 1.2497, 'learning_rate': 0.00029133891979556413, 'epoch': 0.38}
 38%|███▊      | 804/2117 [26:58<41:13,  1.88s/it] 38%|███▊      | 805/2117 [27:01<46:28,  2.13s/it]                                                  {'loss': 1.1957, 'learning_rate': 0.0002910616812234931, 'epoch': 0.38}
 38%|███▊      | 805/2117 [27:01<46:28,  2.13s/it] 38%|███▊      | 806/2117 [27:03<44:10,  2.02s/it]                                                  {'loss': 1.3722, 'learning_rate': 0.00029078422173727664, 'epoch': 0.38}
 38%|███▊      | 806/2117 [27:03<44:10,  2.02s/it] 38%|███▊      | 807/2117 [27:05<42:52,  1.96s/it]                                                  {'loss': 1.2857, 'learning_rate': 0.0002905065420100267, 'epoch': 0.38}
 38%|███▊      | 807/2117 [27:05<42:52,  1.96s/it] 38%|███▊      | 808/2117 [27:07<42:49,  1.96s/it]                                                  {'loss': 1.099, 'learning_rate': 0.00029022864271539004, 'epoch': 0.38}
 38%|███▊      | 808/2117 [27:07<42:49,  1.96s/it] 38%|███▊      | 809/2117 [27:09<43:05,  1.98s/it]                                                  {'loss': 1.4149, 'learning_rate': 0.0002899505245275456, 'epoch': 0.38}
 38%|███▊      | 809/2117 [27:09<43:05,  1.98s/it] 38%|███▊      | 810/2117 [27:11<42:57,  1.97s/it]                                                  {'loss': 1.3387, 'learning_rate': 0.0002896721881212036, 'epoch': 0.38}
 38%|███▊      | 810/2117 [27:11<42:57,  1.97s/it] 38%|███▊      | 811/2117 [27:13<44:41,  2.05s/it]                                                  {'loss': 1.6126, 'learning_rate': 0.0002893936341716035, 'epoch': 0.38}
 38%|███▊      | 811/2117 [27:13<44:41,  2.05s/it] 38%|███▊      | 812/2117 [27:15<44:24,  2.04s/it]                                                  {'loss': 1.2203, 'learning_rate': 0.0002891148633545128, 'epoch': 0.38}
 38%|███▊      | 812/2117 [27:15<44:24,  2.04s/it] 38%|███▊      | 813/2117 [27:17<45:38,  2.10s/it]                                                  {'loss': 1.3316, 'learning_rate': 0.0002888358763462248, 'epoch': 0.38}
 38%|███▊      | 813/2117 [27:17<45:38,  2.10s/it] 38%|███▊      | 814/2117 [27:19<45:49,  2.11s/it]                                                  {'loss': 1.2368, 'learning_rate': 0.0002885566738235574, 'epoch': 0.38}
 38%|███▊      | 814/2117 [27:19<45:49,  2.11s/it] 38%|███▊      | 815/2117 [27:21<44:37,  2.06s/it]                                                  {'loss': 1.2352, 'learning_rate': 0.0002882772564638515, 'epoch': 0.38}
 38%|███▊      | 815/2117 [27:21<44:37,  2.06s/it] 39%|███▊      | 816/2117 [27:24<46:33,  2.15s/it]                                                  {'loss': 1.2296, 'learning_rate': 0.00028799762494496873, 'epoch': 0.39}
 39%|███▊      | 816/2117 [27:24<46:33,  2.15s/it] 39%|███▊      | 817/2117 [27:26<49:04,  2.27s/it]                                                  {'loss': 1.3651, 'learning_rate': 0.00028771777994529086, 'epoch': 0.39}
 39%|███▊      | 817/2117 [27:26<49:04,  2.27s/it] 39%|███▊      | 818/2117 [27:28<47:12,  2.18s/it]                                                  {'loss': 1.5197, 'learning_rate': 0.00028743772214371715, 'epoch': 0.39}
 39%|███▊      | 818/2117 [27:28<47:12,  2.18s/it] 39%|███▊      | 819/2117 [27:30<47:28,  2.19s/it]                                                  {'loss': 1.5716, 'learning_rate': 0.00028715745221966326, 'epoch': 0.39}
 39%|███▊      | 819/2117 [27:30<47:28,  2.19s/it] 39%|███▊      | 820/2117 [27:33<47:19,  2.19s/it]                                                  {'loss': 1.2013, 'learning_rate': 0.00028687697085305933, 'epoch': 0.39}
 39%|███▊      | 820/2117 [27:33<47:19,  2.19s/it] 39%|███▉      | 821/2117 [27:35<46:29,  2.15s/it]                                                  {'loss': 1.4137, 'learning_rate': 0.0002865962787243487, 'epoch': 0.39}
 39%|███▉      | 821/2117 [27:35<46:29,  2.15s/it] 39%|███▉      | 822/2117 [27:37<46:50,  2.17s/it]                                                  {'loss': 1.2877, 'learning_rate': 0.0002863153765144858, 'epoch': 0.39}
 39%|███▉      | 822/2117 [27:37<46:50,  2.17s/it] 39%|███▉      | 823/2117 [27:39<46:18,  2.15s/it]                                                  {'loss': 1.4059, 'learning_rate': 0.00028603426490493485, 'epoch': 0.39}
 39%|███▉      | 823/2117 [27:39<46:18,  2.15s/it] 39%|███▉      | 824/2117 [27:42<50:08,  2.33s/it]                                                  {'loss': 1.1746, 'learning_rate': 0.00028575294457766794, 'epoch': 0.39}
 39%|███▉      | 824/2117 [27:42<50:08,  2.33s/it] 39%|███▉      | 825/2117 [27:44<47:59,  2.23s/it]                                                  {'loss': 1.673, 'learning_rate': 0.00028547141621516355, 'epoch': 0.39}
 39%|███▉      | 825/2117 [27:44<47:59,  2.23s/it] 39%|███▉      | 826/2117 [27:46<45:42,  2.12s/it]                                                  {'loss': 1.4219, 'learning_rate': 0.0002851896805004049, 'epoch': 0.39}
 39%|███▉      | 826/2117 [27:46<45:42,  2.12s/it] 39%|███▉      | 827/2117 [27:47<44:02,  2.05s/it]                                                  {'loss': 1.4337, 'learning_rate': 0.00028490773811687826, 'epoch': 0.39}
 39%|███▉      | 827/2117 [27:47<44:02,  2.05s/it] 39%|███▉      | 828/2117 [27:49<43:54,  2.04s/it]                                                  {'loss': 1.1064, 'learning_rate': 0.0002846255897485712, 'epoch': 0.39}
 39%|███▉      | 828/2117 [27:49<43:54,  2.04s/it] 39%|███▉      | 829/2117 [27:51<43:49,  2.04s/it]                                                  {'loss': 1.2186, 'learning_rate': 0.000284343236079971, 'epoch': 0.39}
 39%|███▉      | 829/2117 [27:51<43:49,  2.04s/it] 39%|███▉      | 830/2117 [27:54<44:33,  2.08s/it]                                                  {'loss': 1.2138, 'learning_rate': 0.000284060677796063, 'epoch': 0.39}
 39%|███▉      | 830/2117 [27:54<44:33,  2.08s/it] 39%|███▉      | 831/2117 [27:56<44:01,  2.05s/it]                                                  {'loss': 1.156, 'learning_rate': 0.0002837779155823291, 'epoch': 0.39}
 39%|███▉      | 831/2117 [27:56<44:01,  2.05s/it] 39%|███▉      | 832/2117 [27:57<42:16,  1.97s/it]                                                  {'loss': 1.3292, 'learning_rate': 0.0002834949501247457, 'epoch': 0.39}
 39%|███▉      | 832/2117 [27:57<42:16,  1.97s/it] 39%|███▉      | 833/2117 [27:59<42:31,  1.99s/it]                                                  {'loss': 1.472, 'learning_rate': 0.00028321178210978233, 'epoch': 0.39}
 39%|███▉      | 833/2117 [27:59<42:31,  1.99s/it] 39%|███▉      | 834/2117 [28:01<42:08,  1.97s/it]                                                  {'loss': 1.4211, 'learning_rate': 0.0002829284122244, 'epoch': 0.39}
 39%|███▉      | 834/2117 [28:01<42:08,  1.97s/it] 39%|███▉      | 835/2117 [28:03<40:49,  1.91s/it]                                                  {'loss': 1.0677, 'learning_rate': 0.0002826448411560494, 'epoch': 0.39}
 39%|███▉      | 835/2117 [28:03<40:49,  1.91s/it] 39%|███▉      | 836/2117 [28:05<40:44,  1.91s/it]                                                  {'loss': 1.5694, 'learning_rate': 0.0002823610695926694, 'epoch': 0.39}
 39%|███▉      | 836/2117 [28:05<40:44,  1.91s/it] 40%|███▉      | 837/2117 [28:07<40:37,  1.90s/it]                                                  {'loss': 1.1922, 'learning_rate': 0.0002820770982226849, 'epoch': 0.4}
 40%|███▉      | 837/2117 [28:07<40:37,  1.90s/it] 40%|███▉      | 838/2117 [28:09<40:32,  1.90s/it]                                                  {'loss': 1.379, 'learning_rate': 0.00028179292773500606, 'epoch': 0.4}
 40%|███▉      | 838/2117 [28:09<40:32,  1.90s/it] 40%|███▉      | 839/2117 [28:11<40:37,  1.91s/it]                                                  {'loss': 1.3802, 'learning_rate': 0.00028150855881902564, 'epoch': 0.4}
 40%|███▉      | 839/2117 [28:11<40:37,  1.91s/it] 40%|███▉      | 840/2117 [28:13<41:14,  1.94s/it]                                                  {'loss': 1.3687, 'learning_rate': 0.0002812239921646181, 'epoch': 0.4}
 40%|███▉      | 840/2117 [28:13<41:14,  1.94s/it] 40%|███▉      | 841/2117 [28:15<45:07,  2.12s/it]                                                  {'loss': 1.3385, 'learning_rate': 0.00028093922846213735, 'epoch': 0.4}
 40%|███▉      | 841/2117 [28:15<45:07,  2.12s/it] 40%|███▉      | 842/2117 [28:17<44:17,  2.08s/it]                                                  {'loss': 1.0829, 'learning_rate': 0.00028065426840241545, 'epoch': 0.4}
 40%|███▉      | 842/2117 [28:17<44:17,  2.08s/it] 40%|███▉      | 843/2117 [28:19<43:39,  2.06s/it]                                                  {'loss': 1.3422, 'learning_rate': 0.00028036911267676103, 'epoch': 0.4}
 40%|███▉      | 843/2117 [28:19<43:39,  2.06s/it] 40%|███▉      | 844/2117 [28:21<41:26,  1.95s/it]                                                  {'loss': 1.3711, 'learning_rate': 0.00028008376197695694, 'epoch': 0.4}
 40%|███▉      | 844/2117 [28:21<41:26,  1.95s/it] 40%|███▉      | 845/2117 [28:23<42:31,  2.01s/it]                                                  {'loss': 1.6293, 'learning_rate': 0.0002797982169952596, 'epoch': 0.4}
 40%|███▉      | 845/2117 [28:23<42:31,  2.01s/it] 40%|███▉      | 846/2117 [28:25<42:08,  1.99s/it]                                                  {'loss': 1.2781, 'learning_rate': 0.00027951247842439617, 'epoch': 0.4}
 40%|███▉      | 846/2117 [28:25<42:08,  1.99s/it] 40%|████      | 847/2117 [28:27<42:28,  2.01s/it]                                                  {'loss': 1.4301, 'learning_rate': 0.0002792265469575639, 'epoch': 0.4}
 40%|████      | 847/2117 [28:27<42:28,  2.01s/it] 40%|████      | 848/2117 [28:29<43:51,  2.07s/it]                                                  {'loss': 1.2093, 'learning_rate': 0.00027894042328842773, 'epoch': 0.4}
 40%|████      | 848/2117 [28:29<43:51,  2.07s/it] 40%|████      | 849/2117 [28:31<43:17,  2.05s/it]                                                  {'loss': 1.5235, 'learning_rate': 0.00027865410811111916, 'epoch': 0.4}
 40%|████      | 849/2117 [28:31<43:17,  2.05s/it] 40%|████      | 850/2117 [28:33<43:08,  2.04s/it]                                                  {'loss': 1.0747, 'learning_rate': 0.000278367602120234, 'epoch': 0.4}
 40%|████      | 850/2117 [28:33<43:08,  2.04s/it] 40%|████      | 851/2117 [28:35<43:08,  2.04s/it]                                                  {'loss': 1.5449, 'learning_rate': 0.0002780809060108311, 'epoch': 0.4}
 40%|████      | 851/2117 [28:35<43:08,  2.04s/it] 40%|████      | 852/2117 [28:38<45:50,  2.17s/it]                                                  {'loss': 1.5861, 'learning_rate': 0.00027779402047843046, 'epoch': 0.4}
 40%|████      | 852/2117 [28:38<45:50,  2.17s/it] 40%|████      | 853/2117 [28:40<46:57,  2.23s/it]                                                  {'loss': 1.4148, 'learning_rate': 0.0002775069462190118, 'epoch': 0.4}
 40%|████      | 853/2117 [28:40<46:57,  2.23s/it] 40%|████      | 854/2117 [28:42<44:40,  2.12s/it]                                                  {'loss': 1.1843, 'learning_rate': 0.0002772196839290124, 'epoch': 0.4}
 40%|████      | 854/2117 [28:42<44:40,  2.12s/it] 40%|████      | 855/2117 [28:44<44:06,  2.10s/it]                                                  {'loss': 1.3968, 'learning_rate': 0.0002769322343053261, 'epoch': 0.4}
 40%|████      | 855/2117 [28:44<44:06,  2.10s/it] 40%|████      | 856/2117 [28:46<43:46,  2.08s/it]                                                  {'loss': 1.517, 'learning_rate': 0.00027664459804530077, 'epoch': 0.4}
 40%|████      | 856/2117 [28:46<43:46,  2.08s/it] 40%|████      | 857/2117 [28:48<43:05,  2.05s/it]                                                  {'loss': 1.1604, 'learning_rate': 0.00027635677584673734, 'epoch': 0.4}
 40%|████      | 857/2117 [28:48<43:05,  2.05s/it] 41%|████      | 858/2117 [28:50<42:07,  2.01s/it]                                                  {'loss': 1.0792, 'learning_rate': 0.0002760687684078877, 'epoch': 0.41}
 41%|████      | 858/2117 [28:50<42:07,  2.01s/it] 41%|████      | 859/2117 [28:52<40:35,  1.94s/it]                                                  {'loss': 1.1854, 'learning_rate': 0.0002757805764274533, 'epoch': 0.41}
 41%|████      | 859/2117 [28:52<40:35,  1.94s/it] 41%|████      | 860/2117 [28:54<42:24,  2.02s/it]                                                  {'loss': 1.099, 'learning_rate': 0.00027549220060458303, 'epoch': 0.41}
 41%|████      | 860/2117 [28:54<42:24,  2.02s/it] 41%|████      | 861/2117 [28:56<41:09,  1.97s/it]                                                  {'loss': 1.3248, 'learning_rate': 0.00027520364163887193, 'epoch': 0.41}
 41%|████      | 861/2117 [28:56<41:09,  1.97s/it] 41%|████      | 862/2117 [28:58<41:57,  2.01s/it]                                                  {'loss': 1.3282, 'learning_rate': 0.00027491490023035935, 'epoch': 0.41}
 41%|████      | 862/2117 [28:58<41:57,  2.01s/it] 41%|████      | 863/2117 [29:00<41:16,  1.98s/it]                                                  {'loss': 1.305, 'learning_rate': 0.00027462597707952717, 'epoch': 0.41}
 41%|████      | 863/2117 [29:00<41:16,  1.98s/it] 41%|████      | 864/2117 [29:02<44:36,  2.14s/it]                                                  {'loss': 1.4731, 'learning_rate': 0.0002743368728872983, 'epoch': 0.41}
 41%|████      | 864/2117 [29:02<44:36,  2.14s/it] 41%|████      | 865/2117 [29:04<42:49,  2.05s/it]                                                  {'loss': 1.1555, 'learning_rate': 0.0002740475883550347, 'epoch': 0.41}
 41%|████      | 865/2117 [29:04<42:49,  2.05s/it] 41%|████      | 866/2117 [29:06<42:27,  2.04s/it]                                                  {'loss': 1.2658, 'learning_rate': 0.00027375812418453584, 'epoch': 0.41}
 41%|████      | 866/2117 [29:06<42:27,  2.04s/it] 41%|████      | 867/2117 [29:08<42:32,  2.04s/it]                                                  {'loss': 1.1447, 'learning_rate': 0.00027346848107803723, 'epoch': 0.41}
 41%|████      | 867/2117 [29:08<42:32,  2.04s/it] 41%|████      | 868/2117 [29:10<41:32,  2.00s/it]                                                  {'loss': 1.3056, 'learning_rate': 0.0002731786597382082, 'epoch': 0.41}
 41%|████      | 868/2117 [29:10<41:32,  2.00s/it] 41%|████      | 869/2117 [29:12<41:26,  1.99s/it]                                                  {'loss': 1.2856, 'learning_rate': 0.0002728886608681505, 'epoch': 0.41}
 41%|████      | 869/2117 [29:12<41:26,  1.99s/it] 41%|████      | 870/2117 [29:15<44:47,  2.16s/it]                                                  {'loss': 1.4002, 'learning_rate': 0.0002725984851713967, 'epoch': 0.41}
 41%|████      | 870/2117 [29:15<44:47,  2.16s/it] 41%|████      | 871/2117 [29:17<43:33,  2.10s/it]                                                  {'loss': 1.0462, 'learning_rate': 0.0002723081333519083, 'epoch': 0.41}
 41%|████      | 871/2117 [29:17<43:33,  2.10s/it] 41%|████      | 872/2117 [29:19<42:59,  2.07s/it]                                                  {'loss': 1.3978, 'learning_rate': 0.0002720176061140741, 'epoch': 0.41}
 41%|████      | 872/2117 [29:19<42:59,  2.07s/it] 41%|████      | 873/2117 [29:21<42:01,  2.03s/it]                                                  {'loss': 1.3281, 'learning_rate': 0.0002717269041627082, 'epoch': 0.41}
 41%|████      | 873/2117 [29:21<42:01,  2.03s/it] 41%|████▏     | 874/2117 [29:23<45:33,  2.20s/it]                                                  {'loss': 1.3246, 'learning_rate': 0.000271436028203049, 'epoch': 0.41}
 41%|████▏     | 874/2117 [29:23<45:33,  2.20s/it] 41%|████▏     | 875/2117 [29:25<44:16,  2.14s/it]                                                  {'loss': 1.0361, 'learning_rate': 0.00027114497894075676, 'epoch': 0.41}
 41%|████▏     | 875/2117 [29:25<44:16,  2.14s/it] 41%|████▏     | 876/2117 [29:27<41:12,  1.99s/it]                                                  {'loss': 1.1194, 'learning_rate': 0.00027085375708191207, 'epoch': 0.41}
 41%|████▏     | 876/2117 [29:27<41:12,  1.99s/it] 41%|████▏     | 877/2117 [29:29<40:32,  1.96s/it]                                                  {'loss': 1.2326, 'learning_rate': 0.0002705623633330146, 'epoch': 0.41}
 41%|████▏     | 877/2117 [29:29<40:32,  1.96s/it] 41%|████▏     | 878/2117 [29:31<40:30,  1.96s/it]                                                  {'loss': 1.324, 'learning_rate': 0.00027027079840098066, 'epoch': 0.41}
 41%|████▏     | 878/2117 [29:31<40:30,  1.96s/it] 42%|████▏     | 879/2117 [29:33<38:55,  1.89s/it]                                                  {'loss': 1.2296, 'learning_rate': 0.0002699790629931421, 'epoch': 0.42}
 42%|████▏     | 879/2117 [29:33<38:55,  1.89s/it] 42%|████▏     | 880/2117 [29:35<40:02,  1.94s/it]                                                  {'loss': 1.1764, 'learning_rate': 0.00026968715781724404, 'epoch': 0.42}
 42%|████▏     | 880/2117 [29:35<40:02,  1.94s/it] 42%|████▏     | 881/2117 [29:36<39:02,  1.90s/it]                                                  {'loss': 1.2608, 'learning_rate': 0.000269395083581444, 'epoch': 0.42}
 42%|████▏     | 881/2117 [29:36<39:02,  1.90s/it] 42%|████▏     | 882/2117 [29:38<39:58,  1.94s/it]                                                  {'loss': 1.3877, 'learning_rate': 0.0002691028409943089, 'epoch': 0.42}
 42%|████▏     | 882/2117 [29:38<39:58,  1.94s/it] 42%|████▏     | 883/2117 [29:41<41:09,  2.00s/it]                                                  {'loss': 1.1516, 'learning_rate': 0.00026881043076481463, 'epoch': 0.42}
 42%|████▏     | 883/2117 [29:41<41:09,  2.00s/it] 42%|████▏     | 884/2117 [29:43<41:00,  2.00s/it]                                                  {'loss': 1.4622, 'learning_rate': 0.0002685178536023437, 'epoch': 0.42}
 42%|████▏     | 884/2117 [29:43<41:00,  2.00s/it] 42%|████▏     | 885/2117 [29:44<39:48,  1.94s/it]                                                  {'loss': 1.3839, 'learning_rate': 0.0002682251102166833, 'epoch': 0.42}
 42%|████▏     | 885/2117 [29:44<39:48,  1.94s/it] 42%|████▏     | 886/2117 [29:46<39:04,  1.90s/it]                                                  {'loss': 1.3128, 'learning_rate': 0.0002679322013180244, 'epoch': 0.42}
 42%|████▏     | 886/2117 [29:46<39:04,  1.90s/it] 42%|████▏     | 887/2117 [29:48<38:42,  1.89s/it]                                                  {'loss': 1.2344, 'learning_rate': 0.00026763912761695885, 'epoch': 0.42}
 42%|████▏     | 887/2117 [29:48<38:42,  1.89s/it] 42%|████▏     | 888/2117 [29:50<39:34,  1.93s/it]                                                  {'loss': 1.4078, 'learning_rate': 0.00026734588982447885, 'epoch': 0.42}
 42%|████▏     | 888/2117 [29:50<39:34,  1.93s/it] 42%|████▏     | 889/2117 [29:52<39:27,  1.93s/it]                                                  {'loss': 1.0956, 'learning_rate': 0.00026705248865197434, 'epoch': 0.42}
 42%|████▏     | 889/2117 [29:52<39:27,  1.93s/it] 42%|████▏     | 890/2117 [29:54<39:56,  1.95s/it]                                                  {'loss': 1.5464, 'learning_rate': 0.0002667589248112319, 'epoch': 0.42}
 42%|████▏     | 890/2117 [29:54<39:56,  1.95s/it] 42%|████▏     | 891/2117 [29:56<40:20,  1.97s/it]                                                  {'loss': 1.227, 'learning_rate': 0.0002664651990144325, 'epoch': 0.42}
 42%|████▏     | 891/2117 [29:56<40:20,  1.97s/it] 42%|████▏     | 892/2117 [29:58<40:09,  1.97s/it]                                                  {'loss': 1.2573, 'learning_rate': 0.0002661713119741502, 'epoch': 0.42}
 42%|████▏     | 892/2117 [29:58<40:09,  1.97s/it] 42%|████▏     | 893/2117 [30:00<40:56,  2.01s/it]                                                  {'loss': 1.3705, 'learning_rate': 0.00026587726440334994, 'epoch': 0.42}
 42%|████▏     | 893/2117 [30:00<40:56,  2.01s/it] 42%|████▏     | 894/2117 [30:02<41:13,  2.02s/it]                                                  {'loss': 1.6353, 'learning_rate': 0.00026558305701538645, 'epoch': 0.42}
 42%|████▏     | 894/2117 [30:02<41:13,  2.02s/it] 42%|████▏     | 895/2117 [30:04<41:13,  2.02s/it]                                                  {'loss': 1.439, 'learning_rate': 0.0002652886905240021, 'epoch': 0.42}
 42%|████▏     | 895/2117 [30:04<41:13,  2.02s/it] 42%|████▏     | 896/2117 [30:06<40:30,  1.99s/it]                                                  {'loss': 1.6142, 'learning_rate': 0.00026499416564332507, 'epoch': 0.42}
 42%|████▏     | 896/2117 [30:06<40:30,  1.99s/it] 42%|████▏     | 897/2117 [30:08<40:42,  2.00s/it]                                                  {'loss': 1.4789, 'learning_rate': 0.00026469948308786785, 'epoch': 0.42}
 42%|████▏     | 897/2117 [30:08<40:42,  2.00s/it] 42%|████▏     | 898/2117 [30:10<42:32,  2.09s/it]                                                  {'loss': 1.3731, 'learning_rate': 0.00026440464357252555, 'epoch': 0.42}
 42%|████▏     | 898/2117 [30:10<42:32,  2.09s/it] 42%|████▏     | 899/2117 [30:12<40:59,  2.02s/it]                                                  {'loss': 1.2835, 'learning_rate': 0.00026410964781257404, 'epoch': 0.42}
 42%|████▏     | 899/2117 [30:12<40:59,  2.02s/it] 43%|████▎     | 900/2117 [30:14<40:58,  2.02s/it]                                                  {'loss': 1.4461, 'learning_rate': 0.0002638144965236681, 'epoch': 0.42}
 43%|████▎     | 900/2117 [30:14<40:58,  2.02s/it] 43%|████▎     | 901/2117 [30:17<42:22,  2.09s/it]                                                  {'loss': 1.3314, 'learning_rate': 0.00026351919042184006, 'epoch': 0.43}
 43%|████▎     | 901/2117 [30:17<42:22,  2.09s/it] 43%|████▎     | 902/2117 [30:18<41:26,  2.05s/it]                                                  {'loss': 1.4887, 'learning_rate': 0.0002632237302234975, 'epoch': 0.43}
 43%|████▎     | 902/2117 [30:18<41:26,  2.05s/it] 43%|████▎     | 903/2117 [30:21<42:04,  2.08s/it]                                                  {'loss': 1.474, 'learning_rate': 0.0002629281166454221, 'epoch': 0.43}
 43%|████▎     | 903/2117 [30:21<42:04,  2.08s/it] 43%|████▎     | 904/2117 [30:23<41:22,  2.05s/it]                                                  {'loss': 1.6467, 'learning_rate': 0.0002626323504047676, 'epoch': 0.43}
 43%|████▎     | 904/2117 [30:23<41:22,  2.05s/it] 43%|████▎     | 905/2117 [30:25<45:11,  2.24s/it]                                                  {'loss': 1.4272, 'learning_rate': 0.000262336432219058, 'epoch': 0.43}
 43%|████▎     | 905/2117 [30:25<45:11,  2.24s/it] 43%|████▎     | 906/2117 [30:27<44:01,  2.18s/it]                                                  {'loss': 1.3052, 'learning_rate': 0.0002620403628061859, 'epoch': 0.43}
 43%|████▎     | 906/2117 [30:27<44:01,  2.18s/it] 43%|████▎     | 907/2117 [30:29<41:30,  2.06s/it]                                                  {'loss': 1.1621, 'learning_rate': 0.000261744142884411, 'epoch': 0.43}
 43%|████▎     | 907/2117 [30:29<41:30,  2.06s/it] 43%|████▎     | 908/2117 [30:31<40:08,  1.99s/it]                                                  {'loss': 1.289, 'learning_rate': 0.0002614477731723579, 'epoch': 0.43}
 43%|████▎     | 908/2117 [30:31<40:08,  1.99s/it] 43%|████▎     | 909/2117 [30:33<42:02,  2.09s/it]                                                  {'loss': 0.7957, 'learning_rate': 0.0002611512543890146, 'epoch': 0.43}
 43%|████▎     | 909/2117 [30:33<42:02,  2.09s/it] 43%|████▎     | 910/2117 [30:35<40:46,  2.03s/it]                                                  {'loss': 1.1423, 'learning_rate': 0.0002608545872537309, 'epoch': 0.43}
 43%|████▎     | 910/2117 [30:35<40:46,  2.03s/it] 43%|████▎     | 911/2117 [30:37<40:11,  2.00s/it]                                                  {'loss': 1.3153, 'learning_rate': 0.0002605577724862163, 'epoch': 0.43}
 43%|████▎     | 911/2117 [30:37<40:11,  2.00s/it] 43%|████▎     | 912/2117 [30:39<41:36,  2.07s/it]                                                  {'loss': 1.1333, 'learning_rate': 0.0002602608108065387, 'epoch': 0.43}
 43%|████▎     | 912/2117 [30:39<41:36,  2.07s/it] 43%|████▎     | 913/2117 [30:41<41:34,  2.07s/it]                                                  {'loss': 1.1941, 'learning_rate': 0.00025996370293512216, 'epoch': 0.43}
 43%|████▎     | 913/2117 [30:41<41:34,  2.07s/it] 43%|████▎     | 914/2117 [30:43<40:30,  2.02s/it]                                                  {'loss': 1.2343, 'learning_rate': 0.00025966644959274555, 'epoch': 0.43}
 43%|████▎     | 914/2117 [30:43<40:30,  2.02s/it] 43%|████▎     | 915/2117 [30:45<39:42,  1.98s/it]                                                  {'loss': 1.3379, 'learning_rate': 0.00025936905150054045, 'epoch': 0.43}
 43%|████▎     | 915/2117 [30:45<39:42,  1.98s/it] 43%|████▎     | 916/2117 [30:47<39:35,  1.98s/it]                                                  {'loss': 1.3146, 'learning_rate': 0.00025907150937999005, 'epoch': 0.43}
 43%|████▎     | 916/2117 [30:47<39:35,  1.98s/it] 43%|████▎     | 917/2117 [30:49<39:45,  1.99s/it]                                                  {'loss': 1.4962, 'learning_rate': 0.0002587738239529264, 'epoch': 0.43}
 43%|████▎     | 917/2117 [30:49<39:45,  1.99s/it] 43%|████▎     | 918/2117 [30:51<39:10,  1.96s/it]                                                  {'loss': 1.4088, 'learning_rate': 0.0002584759959415297, 'epoch': 0.43}
 43%|████▎     | 918/2117 [30:51<39:10,  1.96s/it] 43%|████▎     | 919/2117 [30:53<39:07,  1.96s/it]                                                  {'loss': 1.2505, 'learning_rate': 0.00025817802606832547, 'epoch': 0.43}
 43%|████▎     | 919/2117 [30:53<39:07,  1.96s/it] 43%|████▎     | 920/2117 [30:55<36:53,  1.85s/it]                                                  {'loss': 1.0342, 'learning_rate': 0.0002578799150561841, 'epoch': 0.43}
 43%|████▎     | 920/2117 [30:55<36:53,  1.85s/it] 44%|████▎     | 921/2117 [30:56<37:11,  1.87s/it]                                                  {'loss': 1.2603, 'learning_rate': 0.00025758166362831777, 'epoch': 0.43}
 44%|████▎     | 921/2117 [30:56<37:11,  1.87s/it] 44%|████▎     | 922/2117 [30:58<37:10,  1.87s/it]                                                  {'loss': 1.2303, 'learning_rate': 0.0002572832725082798, 'epoch': 0.44}
 44%|████▎     | 922/2117 [30:58<37:10,  1.87s/it] 44%|████▎     | 923/2117 [31:00<37:30,  1.88s/it]                                                  {'loss': 1.351, 'learning_rate': 0.0002569847424199619, 'epoch': 0.44}
 44%|████▎     | 923/2117 [31:00<37:30,  1.88s/it] 44%|████▎     | 924/2117 [31:03<40:20,  2.03s/it]                                                  {'loss': 1.1902, 'learning_rate': 0.00025668607408759327, 'epoch': 0.44}
 44%|████▎     | 924/2117 [31:03<40:20,  2.03s/it] 44%|████▎     | 925/2117 [31:05<39:46,  2.00s/it]                                                  {'loss': 1.5928, 'learning_rate': 0.00025638726823573843, 'epoch': 0.44}
 44%|████▎     | 925/2117 [31:05<39:46,  2.00s/it] 44%|████▎     | 926/2117 [31:06<38:52,  1.96s/it]                                                  {'loss': 1.1507, 'learning_rate': 0.0002560883255892954, 'epoch': 0.44}
 44%|████▎     | 926/2117 [31:06<38:52,  1.96s/it] 44%|████▍     | 927/2117 [31:09<40:11,  2.03s/it]                                                  {'loss': 1.2932, 'learning_rate': 0.0002557892468734942, 'epoch': 0.44}
 44%|████▍     | 927/2117 [31:09<40:11,  2.03s/it] 44%|████▍     | 928/2117 [31:11<40:06,  2.02s/it]                                                  {'loss': 1.4027, 'learning_rate': 0.0002554900328138949, 'epoch': 0.44}
 44%|████▍     | 928/2117 [31:11<40:06,  2.02s/it] 44%|████▍     | 929/2117 [31:12<38:37,  1.95s/it]                                                  {'loss': 1.2834, 'learning_rate': 0.00025519068413638586, 'epoch': 0.44}
 44%|████▍     | 929/2117 [31:12<38:37,  1.95s/it] 44%|████▍     | 930/2117 [31:14<38:28,  1.94s/it]                                                  {'loss': 1.1498, 'learning_rate': 0.000254891201567182, 'epoch': 0.44}
 44%|████▍     | 930/2117 [31:14<38:28,  1.94s/it] 44%|████▍     | 931/2117 [31:16<37:27,  1.90s/it]                                                  {'loss': 1.2244, 'learning_rate': 0.00025459158583282325, 'epoch': 0.44}
 44%|████▍     | 931/2117 [31:16<37:27,  1.90s/it] 44%|████▍     | 932/2117 [31:18<37:06,  1.88s/it]                                                  {'loss': 1.3832, 'learning_rate': 0.0002542918376601724, 'epoch': 0.44}
 44%|████▍     | 932/2117 [31:18<37:06,  1.88s/it] 44%|████▍     | 933/2117 [31:20<38:55,  1.97s/it]                                                  {'loss': 1.3634, 'learning_rate': 0.00025399195777641364, 'epoch': 0.44}
 44%|████▍     | 933/2117 [31:20<38:55,  1.97s/it] 44%|████▍     | 934/2117 [31:22<38:55,  1.97s/it]                                                  {'loss': 1.243, 'learning_rate': 0.00025369194690905063, 'epoch': 0.44}
 44%|████▍     | 934/2117 [31:22<38:55,  1.97s/it] 44%|████▍     | 935/2117 [31:24<37:36,  1.91s/it]                                                  {'loss': 0.9249, 'learning_rate': 0.0002533918057859048, 'epoch': 0.44}
 44%|████▍     | 935/2117 [31:24<37:36,  1.91s/it] 44%|████▍     | 936/2117 [31:26<39:43,  2.02s/it]                                                  {'loss': 1.4711, 'learning_rate': 0.0002530915351351136, 'epoch': 0.44}
 44%|████▍     | 936/2117 [31:26<39:43,  2.02s/it] 44%|████▍     | 937/2117 [31:28<39:48,  2.02s/it]                                                  {'loss': 1.2048, 'learning_rate': 0.0002527911356851287, 'epoch': 0.44}
 44%|████▍     | 937/2117 [31:28<39:48,  2.02s/it] 44%|████▍     | 938/2117 [31:30<38:43,  1.97s/it]                                                  {'loss': 1.2095, 'learning_rate': 0.0002524906081647143, 'epoch': 0.44}
 44%|████▍     | 938/2117 [31:30<38:43,  1.97s/it] 44%|████▍     | 939/2117 [31:32<38:07,  1.94s/it]                                                  {'loss': 1.3093, 'learning_rate': 0.0002521899533029451, 'epoch': 0.44}
 44%|████▍     | 939/2117 [31:32<38:07,  1.94s/it] 44%|████▍     | 940/2117 [31:34<39:56,  2.04s/it]                                                  {'loss': 1.6384, 'learning_rate': 0.000251889171829205, 'epoch': 0.44}
 44%|████▍     | 940/2117 [31:34<39:56,  2.04s/it] 44%|████▍     | 941/2117 [31:36<39:08,  2.00s/it]                                                  {'loss': 1.1837, 'learning_rate': 0.0002515882644731849, 'epoch': 0.44}
 44%|████▍     | 941/2117 [31:36<39:08,  2.00s/it] 44%|████▍     | 942/2117 [31:38<39:21,  2.01s/it]                                                  {'loss': 1.2502, 'learning_rate': 0.00025128723196488105, 'epoch': 0.44}
 44%|████▍     | 942/2117 [31:38<39:21,  2.01s/it] 45%|████▍     | 943/2117 [31:40<38:17,  1.96s/it]                                                  {'loss': 1.3219, 'learning_rate': 0.00025098607503459336, 'epoch': 0.45}
 45%|████▍     | 943/2117 [31:40<38:17,  1.96s/it] 45%|████▍     | 944/2117 [31:42<39:46,  2.03s/it]                                                  {'loss': 1.4386, 'learning_rate': 0.0002506847944129238, 'epoch': 0.45}
 45%|████▍     | 944/2117 [31:42<39:46,  2.03s/it] 45%|████▍     | 945/2117 [31:44<38:46,  1.98s/it]                                                  {'loss': 1.2891, 'learning_rate': 0.000250383390830774, 'epoch': 0.45}
 45%|████▍     | 945/2117 [31:44<38:46,  1.98s/it] 45%|████▍     | 946/2117 [31:46<36:43,  1.88s/it]                                                  {'loss': 1.1171, 'learning_rate': 0.0002500818650193442, 'epoch': 0.45}
 45%|████▍     | 946/2117 [31:46<36:43,  1.88s/it] 45%|████▍     | 947/2117 [31:47<35:48,  1.84s/it]                                                  {'loss': 1.112, 'learning_rate': 0.000249780217710131, 'epoch': 0.45}
 45%|████▍     | 947/2117 [31:47<35:48,  1.84s/it] 45%|████▍     | 948/2117 [31:49<36:00,  1.85s/it]                                                  {'loss': 1.0929, 'learning_rate': 0.00024947844963492594, 'epoch': 0.45}
 45%|████▍     | 948/2117 [31:49<36:00,  1.85s/it] 45%|████▍     | 949/2117 [31:51<36:14,  1.86s/it]                                                  {'loss': 1.4064, 'learning_rate': 0.0002491765615258134, 'epoch': 0.45}
 45%|████▍     | 949/2117 [31:51<36:14,  1.86s/it] 45%|████▍     | 950/2117 [31:53<35:24,  1.82s/it]                                                  {'loss': 1.2253, 'learning_rate': 0.00024887455411516895, 'epoch': 0.45}
 45%|████▍     | 950/2117 [31:53<35:24,  1.82s/it] 45%|████▍     | 951/2117 [31:55<38:19,  1.97s/it]                                                  {'loss': 1.1958, 'learning_rate': 0.0002485724281356576, 'epoch': 0.45}
 45%|████▍     | 951/2117 [31:55<38:19,  1.97s/it] 45%|████▍     | 952/2117 [31:57<37:59,  1.96s/it]                                                  {'loss': 1.3716, 'learning_rate': 0.00024827018432023196, 'epoch': 0.45}
 45%|████▍     | 952/2117 [31:57<37:59,  1.96s/it] 45%|████▌     | 953/2117 [31:59<37:55,  1.95s/it]                                                  {'loss': 1.1603, 'learning_rate': 0.00024796782340213075, 'epoch': 0.45}
 45%|████▌     | 953/2117 [31:59<37:55,  1.95s/it] 45%|████▌     | 954/2117 [32:01<39:11,  2.02s/it]                                                  {'loss': 1.2685, 'learning_rate': 0.0002476653461148765, 'epoch': 0.45}
 45%|████▌     | 954/2117 [32:01<39:11,  2.02s/it] 45%|████▌     | 955/2117 [32:03<39:14,  2.03s/it]                                                  {'loss': 1.4317, 'learning_rate': 0.0002473627531922741, 'epoch': 0.45}
 45%|████▌     | 955/2117 [32:03<39:14,  2.03s/it] 45%|████▌     | 956/2117 [32:05<39:33,  2.04s/it]                                                  {'loss': 1.3646, 'learning_rate': 0.00024706004536840907, 'epoch': 0.45}
 45%|████▌     | 956/2117 [32:05<39:33,  2.04s/it] 45%|████▌     | 957/2117 [32:07<38:48,  2.01s/it]                                                  {'loss': 1.2738, 'learning_rate': 0.00024675722337764565, 'epoch': 0.45}
 45%|████▌     | 957/2117 [32:07<38:48,  2.01s/it] 45%|████▌     | 958/2117 [32:09<39:22,  2.04s/it]                                                  {'loss': 1.3745, 'learning_rate': 0.000246454287954625, 'epoch': 0.45}
 45%|████▌     | 958/2117 [32:09<39:22,  2.04s/it] 45%|████▌     | 959/2117 [32:11<38:45,  2.01s/it]                                                  {'loss': 1.2735, 'learning_rate': 0.0002461512398342635, 'epoch': 0.45}
 45%|████▌     | 959/2117 [32:11<38:45,  2.01s/it] 45%|████▌     | 960/2117 [32:14<40:42,  2.11s/it]                                                  {'loss': 1.3064, 'learning_rate': 0.0002458480797517509, 'epoch': 0.45}
 45%|████▌     | 960/2117 [32:14<40:42,  2.11s/it] 45%|████▌     | 961/2117 [32:16<41:29,  2.15s/it]                                                  {'loss': 1.5011, 'learning_rate': 0.0002455448084425486, 'epoch': 0.45}
 45%|████▌     | 961/2117 [32:16<41:29,  2.15s/it] 45%|████▌     | 962/2117 [32:18<39:53,  2.07s/it]                                                  {'loss': 1.3956, 'learning_rate': 0.00024524142664238775, 'epoch': 0.45}
 45%|████▌     | 962/2117 [32:18<39:53,  2.07s/it] 45%|████▌     | 963/2117 [32:21<43:50,  2.28s/it]                                                  {'loss': 0.9758, 'learning_rate': 0.0002449379350872678, 'epoch': 0.45}
 45%|████▌     | 963/2117 [32:21<43:50,  2.28s/it] 46%|████▌     | 964/2117 [32:23<41:31,  2.16s/it]                                                  {'loss': 1.2169, 'learning_rate': 0.00024463433451345413, 'epoch': 0.46}
 46%|████▌     | 964/2117 [32:23<41:31,  2.16s/it] 46%|████▌     | 965/2117 [32:25<41:43,  2.17s/it]                                                  {'loss': 1.5301, 'learning_rate': 0.0002443306256574768, 'epoch': 0.46}
 46%|████▌     | 965/2117 [32:25<41:43,  2.17s/it] 46%|████▌     | 966/2117 [32:27<39:59,  2.08s/it]                                                  {'loss': 1.2099, 'learning_rate': 0.00024402680925612855, 'epoch': 0.46}
 46%|████▌     | 966/2117 [32:27<39:59,  2.08s/it] 46%|████▌     | 967/2117 [32:29<39:32,  2.06s/it]                                                  {'loss': 1.4701, 'learning_rate': 0.0002437228860464629, 'epoch': 0.46}
 46%|████▌     | 967/2117 [32:29<39:32,  2.06s/it] 46%|████▌     | 968/2117 [32:30<38:12,  2.00s/it]                                                  {'loss': 1.3601, 'learning_rate': 0.00024341885676579272, 'epoch': 0.46}
 46%|████▌     | 968/2117 [32:30<38:12,  2.00s/it] 46%|████▌     | 969/2117 [32:32<37:26,  1.96s/it]                                                  {'loss': 1.1317, 'learning_rate': 0.0002431147221516879, 'epoch': 0.46}
 46%|████▌     | 969/2117 [32:32<37:26,  1.96s/it] 46%|████▌     | 970/2117 [32:34<36:59,  1.94s/it]                                                  {'loss': 1.1306, 'learning_rate': 0.00024281048294197413, 'epoch': 0.46}
 46%|████▌     | 970/2117 [32:34<36:59,  1.94s/it] 46%|████▌     | 971/2117 [32:36<37:40,  1.97s/it]                                                  {'loss': 1.3336, 'learning_rate': 0.00024250613987473067, 'epoch': 0.46}
 46%|████▌     | 971/2117 [32:36<37:40,  1.97s/it] 46%|████▌     | 972/2117 [32:38<37:32,  1.97s/it]                                                  {'loss': 1.2368, 'learning_rate': 0.00024220169368828888, 'epoch': 0.46}
 46%|████▌     | 972/2117 [32:38<37:32,  1.97s/it] 46%|████▌     | 973/2117 [32:40<36:34,  1.92s/it]                                                  {'loss': 1.256, 'learning_rate': 0.0002418971451212302, 'epoch': 0.46}
 46%|████▌     | 973/2117 [32:40<36:34,  1.92s/it] 46%|████▌     | 974/2117 [32:42<36:48,  1.93s/it]                                                  {'loss': 1.3063, 'learning_rate': 0.00024159249491238446, 'epoch': 0.46}
 46%|████▌     | 974/2117 [32:42<36:48,  1.93s/it] 46%|████▌     | 975/2117 [32:44<38:02,  2.00s/it]                                                  {'loss': 1.2309, 'learning_rate': 0.000241287743800828, 'epoch': 0.46}
 46%|████▌     | 975/2117 [32:44<38:02,  2.00s/it] 46%|████▌     | 976/2117 [32:46<37:28,  1.97s/it]                                                  {'loss': 1.2604, 'learning_rate': 0.00024098289252588208, 'epoch': 0.46}
 46%|████▌     | 976/2117 [32:46<37:28,  1.97s/it] 46%|████▌     | 977/2117 [32:48<38:14,  2.01s/it]                                                  {'loss': 1.4222, 'learning_rate': 0.00024067794182711097, 'epoch': 0.46}
 46%|████▌     | 977/2117 [32:48<38:14,  2.01s/it] 46%|████▌     | 978/2117 [32:50<38:41,  2.04s/it]                                                  {'loss': 1.5747, 'learning_rate': 0.00024037289244431995, 'epoch': 0.46}
 46%|████▌     | 978/2117 [32:50<38:41,  2.04s/it] 46%|████▌     | 979/2117 [32:52<38:08,  2.01s/it]                                                  {'loss': 1.3778, 'learning_rate': 0.00024006774511755387, 'epoch': 0.46}
 46%|████▌     | 979/2117 [32:52<38:08,  2.01s/it] 46%|████▋     | 980/2117 [32:55<40:17,  2.13s/it]                                                  {'loss': 1.463, 'learning_rate': 0.00023976250058709505, 'epoch': 0.46}
 46%|████▋     | 980/2117 [32:55<40:17,  2.13s/it] 46%|████▋     | 981/2117 [32:57<39:52,  2.11s/it]                                                  {'loss': 1.4231, 'learning_rate': 0.00023945715959346192, 'epoch': 0.46}
 46%|████▋     | 981/2117 [32:57<39:52,  2.11s/it] 46%|████▋     | 982/2117 [32:58<38:13,  2.02s/it]                                                  {'loss': 1.3177, 'learning_rate': 0.00023915172287740654, 'epoch': 0.46}
 46%|████▋     | 982/2117 [32:59<38:13,  2.02s/it] 46%|████▋     | 983/2117 [33:00<37:41,  1.99s/it]                                                  {'loss': 1.2004, 'learning_rate': 0.00023884619117991345, 'epoch': 0.46}
 46%|████▋     | 983/2117 [33:00<37:41,  1.99s/it] 46%|████▋     | 984/2117 [33:02<37:54,  2.01s/it]                                                  {'loss': 1.1497, 'learning_rate': 0.00023854056524219748, 'epoch': 0.46}
 46%|████▋     | 984/2117 [33:02<37:54,  2.01s/it] 47%|████▋     | 985/2117 [33:04<37:34,  1.99s/it]                                                  {'loss': 1.4359, 'learning_rate': 0.0002382348458057022, 'epoch': 0.47}
 47%|████▋     | 985/2117 [33:04<37:34,  1.99s/it] 47%|████▋     | 986/2117 [33:06<35:33,  1.89s/it]                                                  {'loss': 1.169, 'learning_rate': 0.00023792903361209797, 'epoch': 0.47}
 47%|████▋     | 986/2117 [33:06<35:33,  1.89s/it] 47%|████▋     | 987/2117 [33:08<35:05,  1.86s/it]                                                  {'loss': 0.9957, 'learning_rate': 0.00023762312940328012, 'epoch': 0.47}
 47%|████▋     | 987/2117 [33:08<35:05,  1.86s/it] 47%|████▋     | 988/2117 [33:10<35:17,  1.88s/it]                                                  {'loss': 1.4934, 'learning_rate': 0.0002373171339213672, 'epoch': 0.47}
 47%|████▋     | 988/2117 [33:10<35:17,  1.88s/it] 47%|████▋     | 989/2117 [33:12<34:31,  1.84s/it]                                                  {'loss': 1.2416, 'learning_rate': 0.00023701104790869933, 'epoch': 0.47}
 47%|████▋     | 989/2117 [33:12<34:31,  1.84s/it] 47%|████▋     | 990/2117 [33:13<35:16,  1.88s/it]                                                  {'loss': 1.0249, 'learning_rate': 0.0002367048721078361, 'epoch': 0.47}
 47%|████▋     | 990/2117 [33:13<35:16,  1.88s/it] 47%|████▋     | 991/2117 [33:15<35:26,  1.89s/it]                                                  {'loss': 1.4124, 'learning_rate': 0.00023639860726155497, 'epoch': 0.47}
 47%|████▋     | 991/2117 [33:15<35:26,  1.89s/it] 47%|████▋     | 992/2117 [33:17<35:27,  1.89s/it]                                                  {'loss': 1.2547, 'learning_rate': 0.0002360922541128495, 'epoch': 0.47}
 47%|████▋     | 992/2117 [33:17<35:27,  1.89s/it] 47%|████▋     | 993/2117 [33:20<39:01,  2.08s/it]                                                  {'loss': 1.3123, 'learning_rate': 0.00023578581340492728, 'epoch': 0.47}
 47%|████▋     | 993/2117 [33:20<39:01,  2.08s/it] 47%|████▋     | 994/2117 [33:22<38:17,  2.05s/it]                                                  {'loss': 1.0849, 'learning_rate': 0.00023547928588120863, 'epoch': 0.47}
 47%|████▋     | 994/2117 [33:22<38:17,  2.05s/it] 47%|████▋     | 995/2117 [33:24<37:11,  1.99s/it]                                                  {'loss': 1.3818, 'learning_rate': 0.0002351726722853241, 'epoch': 0.47}
 47%|████▋     | 995/2117 [33:24<37:11,  1.99s/it] 47%|████▋     | 996/2117 [33:26<38:20,  2.05s/it]                                                  {'loss': 1.3689, 'learning_rate': 0.00023486597336111337, 'epoch': 0.47}
 47%|████▋     | 996/2117 [33:26<38:20,  2.05s/it] 47%|████▋     | 997/2117 [33:28<38:52,  2.08s/it]                                                  {'loss': 1.5367, 'learning_rate': 0.00023455918985262298, 'epoch': 0.47}
 47%|████▋     | 997/2117 [33:28<38:52,  2.08s/it] 47%|████▋     | 998/2117 [33:31<44:10,  2.37s/it]                                                  {'loss': 1.3149, 'learning_rate': 0.00023425232250410467, 'epoch': 0.47}
 47%|████▋     | 998/2117 [33:31<44:10,  2.37s/it] 47%|████▋     | 999/2117 [33:33<43:51,  2.35s/it]                                                  {'loss': 1.4009, 'learning_rate': 0.0002339453720600136, 'epoch': 0.47}
 47%|████▋     | 999/2117 [33:33<43:51,  2.35s/it] 47%|████▋     | 1000/2117 [33:35<42:21,  2.28s/it]                                                   {'loss': 1.5073, 'learning_rate': 0.0002336383392650065, 'epoch': 0.47}
 47%|████▋     | 1000/2117 [33:35<42:21,  2.28s/it]/home/aiops/duanky/miniconda3/envs/lora/lib/python3.11/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  warnings.warn(
 47%|████▋     | 1001/2117 [33:38<44:00,  2.37s/it]                                                   {'loss': 1.2735, 'learning_rate': 0.00023333122486393992, 'epoch': 0.47}
 47%|████▋     | 1001/2117 [33:38<44:00,  2.37s/it] 47%|████▋     | 1002/2117 [33:40<41:09,  2.21s/it]                                                   {'loss': 1.2892, 'learning_rate': 0.00023302402960186837, 'epoch': 0.47}
 47%|████▋     | 1002/2117 [33:40<41:09,  2.21s/it] 47%|████▋     | 1003/2117 [33:42<38:46,  2.09s/it]                                                   {'loss': 1.376, 'learning_rate': 0.00023271675422404249, 'epoch': 0.47}
 47%|████▋     | 1003/2117 [33:42<38:46,  2.09s/it] 47%|████▋     | 1004/2117 [33:44<38:12,  2.06s/it]                                                   {'loss': 1.4852, 'learning_rate': 0.0002324093994759074, 'epoch': 0.47}
 47%|████▋     | 1004/2117 [33:44<38:12,  2.06s/it] 47%|████▋     | 1005/2117 [33:46<42:01,  2.27s/it]                                                   {'loss': 1.4539, 'learning_rate': 0.00023210196610310048, 'epoch': 0.47}
 47%|████▋     | 1005/2117 [33:46<42:01,  2.27s/it] 48%|████▊     | 1006/2117 [33:48<39:31,  2.13s/it]                                                   {'loss': 1.1888, 'learning_rate': 0.00023179445485145027, 'epoch': 0.48}
 48%|████▊     | 1006/2117 [33:48<39:31,  2.13s/it] 48%|████▊     | 1007/2117 [33:50<37:35,  2.03s/it]                                                   {'loss': 1.109, 'learning_rate': 0.00023148686646697387, 'epoch': 0.48}
 48%|████▊     | 1007/2117 [33:50<37:35,  2.03s/it] 48%|████▊     | 1008/2117 [33:52<36:39,  1.98s/it]                                                   {'loss': 1.4764, 'learning_rate': 0.00023117920169587572, 'epoch': 0.48}
 48%|████▊     | 1008/2117 [33:52<36:39,  1.98s/it] 48%|████▊     | 1009/2117 [33:54<36:17,  1.96s/it]                                                   {'loss': 1.1469, 'learning_rate': 0.00023087146128454556, 'epoch': 0.48}
 48%|████▊     | 1009/2117 [33:54<36:17,  1.96s/it] 48%|████▊     | 1010/2117 [33:56<35:53,  1.95s/it]                                                   {'loss': 1.1258, 'learning_rate': 0.00023056364597955648, 'epoch': 0.48}
 48%|████▊     | 1010/2117 [33:56<35:53,  1.95s/it] 48%|████▊     | 1011/2117 [33:58<37:25,  2.03s/it]                                                   {'loss': 1.0952, 'learning_rate': 0.00023025575652766341, 'epoch': 0.48}
 48%|████▊     | 1011/2117 [33:58<37:25,  2.03s/it] 48%|████▊     | 1012/2117 [34:00<37:15,  2.02s/it]                                                   {'loss': 1.5308, 'learning_rate': 0.0002299477936758011, 'epoch': 0.48}
 48%|████▊     | 1012/2117 [34:00<37:15,  2.02s/it] 48%|████▊     | 1013/2117 [34:02<37:08,  2.02s/it]                                                   {'loss': 1.4326, 'learning_rate': 0.00022963975817108238, 'epoch': 0.48}
 48%|████▊     | 1013/2117 [34:02<37:08,  2.02s/it] 48%|████▊     | 1014/2117 [34:04<36:10,  1.97s/it]                                                   {'loss': 1.203, 'learning_rate': 0.00022933165076079642, 'epoch': 0.48}
 48%|████▊     | 1014/2117 [34:04<36:10,  1.97s/it] 48%|████▊     | 1015/2117 [34:06<36:10,  1.97s/it]                                                   {'loss': 1.1518, 'learning_rate': 0.00022902347219240664, 'epoch': 0.48}
 48%|████▊     | 1015/2117 [34:06<36:10,  1.97s/it] 48%|████▊     | 1016/2117 [34:08<35:54,  1.96s/it]                                                   {'loss': 1.365, 'learning_rate': 0.00022871522321354912, 'epoch': 0.48}
 48%|████▊     | 1016/2117 [34:08<35:54,  1.96s/it] 48%|████▊     | 1017/2117 [34:10<38:54,  2.12s/it]                                                   {'loss': 1.1922, 'learning_rate': 0.00022840690457203106, 'epoch': 0.48}
 48%|████▊     | 1017/2117 [34:10<38:54,  2.12s/it] 48%|████▊     | 1018/2117 [34:12<36:48,  2.01s/it]                                                   {'loss': 1.3392, 'learning_rate': 0.00022809851701582825, 'epoch': 0.48}
 48%|████▊     | 1018/2117 [34:12<36:48,  2.01s/it] 48%|████▊     | 1019/2117 [34:14<37:14,  2.03s/it]                                                   {'loss': 1.1993, 'learning_rate': 0.0002277900612930839, 'epoch': 0.48}
 48%|████▊     | 1019/2117 [34:14<37:14,  2.03s/it] 48%|████▊     | 1020/2117 [34:16<37:41,  2.06s/it]                                                   {'loss': 1.3798, 'learning_rate': 0.00022748153815210654, 'epoch': 0.48}
 48%|████▊     | 1020/2117 [34:16<37:41,  2.06s/it] 48%|████▊     | 1021/2117 [34:20<48:02,  2.63s/it]                                                   {'loss': 1.5262, 'learning_rate': 0.00022717294834136818, 'epoch': 0.48}
 48%|████▊     | 1021/2117 [34:20<48:02,  2.63s/it] 48%|████▊     | 1022/2117 [34:22<44:38,  2.45s/it]                                                   {'loss': 1.206, 'learning_rate': 0.00022686429260950278, 'epoch': 0.48}
 48%|████▊     | 1022/2117 [34:22<44:38,  2.45s/it] 48%|████▊     | 1023/2117 [34:24<41:26,  2.27s/it]                                                   {'loss': 1.1834, 'learning_rate': 0.00022655557170530398, 'epoch': 0.48}
 48%|████▊     | 1023/2117 [34:24<41:26,  2.27s/it] 48%|████▊     | 1024/2117 [34:26<40:26,  2.22s/it]                                                   {'loss': 1.2479, 'learning_rate': 0.00022624678637772364, 'epoch': 0.48}
 48%|████▊     | 1024/2117 [34:26<40:26,  2.22s/it] 48%|████▊     | 1025/2117 [34:28<37:34,  2.06s/it]                                                   {'loss': 1.0998, 'learning_rate': 0.00022593793737586988, 'epoch': 0.48}
 48%|████▊     | 1025/2117 [34:28<37:34,  2.06s/it] 48%|████▊     | 1026/2117 [34:30<36:48,  2.02s/it]                                                   {'loss': 1.1673, 'learning_rate': 0.00022562902544900543, 'epoch': 0.48}
 48%|████▊     | 1026/2117 [34:30<36:48,  2.02s/it] 49%|████▊     | 1027/2117 [34:32<35:35,  1.96s/it]                                                   {'loss': 1.1091, 'learning_rate': 0.00022532005134654547, 'epoch': 0.48}
 49%|████▊     | 1027/2117 [34:32<35:35,  1.96s/it] 49%|████▊     | 1028/2117 [34:34<36:55,  2.03s/it]                                                   {'loss': 1.4556, 'learning_rate': 0.00022501101581805615, 'epoch': 0.49}
 49%|████▊     | 1028/2117 [34:34<36:55,  2.03s/it] 49%|████▊     | 1029/2117 [34:36<35:47,  1.97s/it]                                                   {'loss': 1.4475, 'learning_rate': 0.00022470191961325244, 'epoch': 0.49}
 49%|████▊     | 1029/2117 [34:36<35:47,  1.97s/it] 49%|████▊     | 1030/2117 [34:38<36:05,  1.99s/it]                                                   {'loss': 1.4791, 'learning_rate': 0.0002243927634819969, 'epoch': 0.49}
 49%|████▊     | 1030/2117 [34:38<36:05,  1.99s/it] 49%|████▊     | 1031/2117 [34:40<36:50,  2.04s/it]                                                   {'loss': 1.3507, 'learning_rate': 0.0002240835481742971, 'epoch': 0.49}
 49%|████▊     | 1031/2117 [34:40<36:50,  2.04s/it] 49%|████▊     | 1032/2117 [34:42<38:06,  2.11s/it]                                                   {'loss': 1.2467, 'learning_rate': 0.00022377427444030432, 'epoch': 0.49}
 49%|████▊     | 1032/2117 [34:42<38:06,  2.11s/it] 49%|████▉     | 1033/2117 [34:44<38:42,  2.14s/it]                                                   {'loss': 1.0791, 'learning_rate': 0.00022346494303031157, 'epoch': 0.49}
 49%|████▉     | 1033/2117 [34:44<38:42,  2.14s/it] 49%|████▉     | 1034/2117 [34:46<38:37,  2.14s/it]                                                   {'loss': 1.345, 'learning_rate': 0.00022315555469475177, 'epoch': 0.49}
 49%|████▉     | 1034/2117 [34:46<38:37,  2.14s/it] 49%|████▉     | 1035/2117 [34:48<37:45,  2.09s/it]                                                   {'loss': 1.3105, 'learning_rate': 0.000222846110184196, 'epoch': 0.49}
 49%|████▉     | 1035/2117 [34:48<37:45,  2.09s/it] 49%|████▉     | 1036/2117 [34:51<37:58,  2.11s/it]                                                   {'loss': 1.3515, 'learning_rate': 0.00022253661024935158, 'epoch': 0.49}
 49%|████▉     | 1036/2117 [34:51<37:58,  2.11s/it] 49%|████▉     | 1037/2117 [34:53<39:00,  2.17s/it]                                                   {'loss': 1.2521, 'learning_rate': 0.00022222705564106017, 'epoch': 0.49}
 49%|████▉     | 1037/2117 [34:53<39:00,  2.17s/it] 49%|████▉     | 1038/2117 [34:55<39:04,  2.17s/it]                                                   {'loss': 1.0644, 'learning_rate': 0.00022191744711029618, 'epoch': 0.49}
 49%|████▉     | 1038/2117 [34:55<39:04,  2.17s/it] 49%|████▉     | 1039/2117 [34:57<39:42,  2.21s/it]                                                   {'loss': 1.4489, 'learning_rate': 0.00022160778540816499, 'epoch': 0.49}
 49%|████▉     | 1039/2117 [34:57<39:42,  2.21s/it] 49%|████▉     | 1040/2117 [34:59<38:03,  2.12s/it]                                                   {'loss': 1.3382, 'learning_rate': 0.00022129807128590067, 'epoch': 0.49}
 49%|████▉     | 1040/2117 [34:59<38:03,  2.12s/it] 49%|████▉     | 1041/2117 [35:01<37:13,  2.08s/it]                                                   {'loss': 1.2667, 'learning_rate': 0.00022098830549486463, 'epoch': 0.49}
 49%|████▉     | 1041/2117 [35:01<37:13,  2.08s/it] 49%|████▉     | 1042/2117 [35:03<36:02,  2.01s/it]                                                   {'loss': 1.2325, 'learning_rate': 0.00022067848878654352, 'epoch': 0.49}
 49%|████▉     | 1042/2117 [35:03<36:02,  2.01s/it] 49%|████▉     | 1043/2117 [35:05<35:46,  2.00s/it]                                                   {'loss': 1.255, 'learning_rate': 0.0002203686219125478, 'epoch': 0.49}
 49%|████▉     | 1043/2117 [35:05<35:46,  2.00s/it] 49%|████▉     | 1044/2117 [35:07<34:37,  1.94s/it]                                                   {'loss': 1.4091, 'learning_rate': 0.00022005870562460925, 'epoch': 0.49}
 49%|████▉     | 1044/2117 [35:07<34:37,  1.94s/it] 49%|████▉     | 1045/2117 [35:09<33:55,  1.90s/it]                                                   {'loss': 1.2677, 'learning_rate': 0.00021974874067457983, 'epoch': 0.49}
 49%|████▉     | 1045/2117 [35:09<33:55,  1.90s/it] 49%|████▉     | 1046/2117 [35:11<36:20,  2.04s/it]                                                   {'loss': 1.2642, 'learning_rate': 0.0002194387278144293, 'epoch': 0.49}
 49%|████▉     | 1046/2117 [35:11<36:20,  2.04s/it] 49%|████▉     | 1047/2117 [35:13<35:58,  2.02s/it]                                                   {'loss': 1.3356, 'learning_rate': 0.0002191286677962438, 'epoch': 0.49}
 49%|████▉     | 1047/2117 [35:13<35:58,  2.02s/it] 50%|████▉     | 1048/2117 [35:15<35:37,  2.00s/it]                                                   {'loss': 1.1519, 'learning_rate': 0.00021881856137222395, 'epoch': 0.49}
 50%|████▉     | 1048/2117 [35:15<35:37,  2.00s/it] 50%|████▉     | 1049/2117 [35:17<37:03,  2.08s/it]                                                   {'loss': 1.3606, 'learning_rate': 0.00021850840929468272, 'epoch': 0.5}
 50%|████▉     | 1049/2117 [35:17<37:03,  2.08s/it] 50%|████▉     | 1050/2117 [35:19<35:42,  2.01s/it]                                                   {'loss': 1.1905, 'learning_rate': 0.00021819821231604413, 'epoch': 0.5}
 50%|████▉     | 1050/2117 [35:19<35:42,  2.01s/it] 50%|████▉     | 1051/2117 [35:21<34:37,  1.95s/it]                                                   {'loss': 1.219, 'learning_rate': 0.00021788797118884072, 'epoch': 0.5}
 50%|████▉     | 1051/2117 [35:21<34:37,  1.95s/it] 50%|████▉     | 1052/2117 [35:23<35:49,  2.02s/it]                                                   {'loss': 1.3163, 'learning_rate': 0.00021757768666571262, 'epoch': 0.5}
 50%|████▉     | 1052/2117 [35:23<35:49,  2.02s/it] 50%|████▉     | 1053/2117 [35:25<34:26,  1.94s/it]                                                   {'loss': 1.2363, 'learning_rate': 0.0002172673594994048, 'epoch': 0.5}
 50%|████▉     | 1053/2117 [35:25<34:26,  1.94s/it] 50%|████▉     | 1054/2117 [35:26<32:49,  1.85s/it]                                                   {'loss': 1.3136, 'learning_rate': 0.000216956990442766, 'epoch': 0.5}
 50%|████▉     | 1054/2117 [35:26<32:49,  1.85s/it] 50%|████▉     | 1055/2117 [35:28<32:52,  1.86s/it]                                                   {'loss': 1.0558, 'learning_rate': 0.00021664658024874646, 'epoch': 0.5}
 50%|████▉     | 1055/2117 [35:28<32:52,  1.86s/it] 50%|████▉     | 1056/2117 [35:30<34:09,  1.93s/it]                                                   {'loss': 1.2747, 'learning_rate': 0.00021633612967039622, 'epoch': 0.5}
 50%|████▉     | 1056/2117 [35:30<34:09,  1.93s/it] 50%|████▉     | 1057/2117 [35:33<35:42,  2.02s/it]                                                   {'loss': 1.5154, 'learning_rate': 0.0002160256394608632, 'epoch': 0.5}
 50%|████▉     | 1057/2117 [35:33<35:42,  2.02s/it] 50%|████▉     | 1058/2117 [35:35<36:16,  2.06s/it]                                                   {'loss': 1.4203, 'learning_rate': 0.00021571511037339164, 'epoch': 0.5}
 50%|████▉     | 1058/2117 [35:35<36:16,  2.06s/it] 50%|█████     | 1059/2117 [35:37<35:16,  2.00s/it]                                                   {'loss': 1.1171, 'learning_rate': 0.00021540454316132003, 'epoch': 0.5}
 50%|█████     | 1059/2117 [35:37<35:16,  2.00s/it] 50%|█████     | 1060/2117 [35:39<34:24,  1.95s/it]                                                   {'loss': 1.47, 'learning_rate': 0.0002150939385780793, 'epoch': 0.5}
 50%|█████     | 1060/2117 [35:39<34:24,  1.95s/it] 50%|█████     | 1061/2117 [35:40<34:02,  1.93s/it]                                                   {'loss': 1.5328, 'learning_rate': 0.0002147832973771911, 'epoch': 0.5}
 50%|█████     | 1061/2117 [35:40<34:02,  1.93s/it] 50%|█████     | 1062/2117 [35:42<33:42,  1.92s/it]                                                   {'loss': 1.2424, 'learning_rate': 0.00021447262031226578, 'epoch': 0.5}
 50%|█████     | 1062/2117 [35:42<33:42,  1.92s/it] 50%|█████     | 1063/2117 [35:45<36:19,  2.07s/it]                                                   {'loss': 1.4171, 'learning_rate': 0.00021416190813700094, 'epoch': 0.5}
 50%|█████     | 1063/2117 [35:45<36:19,  2.07s/it] 50%|█████     | 1064/2117 [35:47<35:47,  2.04s/it]                                                   {'loss': 1.1544, 'learning_rate': 0.00021385116160517917, 'epoch': 0.5}
 50%|█████     | 1064/2117 [35:47<35:47,  2.04s/it] 50%|█████     | 1065/2117 [35:49<35:26,  2.02s/it]                                                   {'loss': 1.2143, 'learning_rate': 0.00021354038147066646, 'epoch': 0.5}
 50%|█████     | 1065/2117 [35:49<35:26,  2.02s/it] 50%|█████     | 1066/2117 [35:50<34:17,  1.96s/it]                                                   {'loss': 1.3098, 'learning_rate': 0.00021322956848741033, 'epoch': 0.5}
 50%|█████     | 1066/2117 [35:50<34:17,  1.96s/it] 50%|█████     | 1067/2117 [35:53<34:46,  1.99s/it]                                                   {'loss': 1.1003, 'learning_rate': 0.000212918723409438, 'epoch': 0.5}
 50%|█████     | 1067/2117 [35:53<34:46,  1.99s/it] 50%|█████     | 1068/2117 [35:54<34:34,  1.98s/it]                                                   {'loss': 1.434, 'learning_rate': 0.00021260784699085448, 'epoch': 0.5}
 50%|█████     | 1068/2117 [35:54<34:34,  1.98s/it] 50%|█████     | 1069/2117 [35:56<33:24,  1.91s/it]                                                   {'loss': 1.1671, 'learning_rate': 0.0002122969399858409, 'epoch': 0.5}
 50%|█████     | 1069/2117 [35:56<33:24,  1.91s/it] 51%|█████     | 1070/2117 [35:58<33:52,  1.94s/it]                                                   {'loss': 1.2743, 'learning_rate': 0.0002119860031486525, 'epoch': 0.51}
 51%|█████     | 1070/2117 [35:58<33:52,  1.94s/it] 51%|█████     | 1071/2117 [36:00<33:44,  1.94s/it]                                                   {'loss': 1.4703, 'learning_rate': 0.00021167503723361705, 'epoch': 0.51}
 51%|█████     | 1071/2117 [36:00<33:44,  1.94s/it] 51%|█████     | 1072/2117 [36:02<33:06,  1.90s/it]                                                   {'loss': 1.2531, 'learning_rate': 0.00021136404299513273, 'epoch': 0.51}
 51%|█████     | 1072/2117 [36:02<33:06,  1.90s/it] 51%|█████     | 1073/2117 [36:04<33:37,  1.93s/it]                                                   {'loss': 1.289, 'learning_rate': 0.00021105302118766642, 'epoch': 0.51}
 51%|█████     | 1073/2117 [36:04<33:37,  1.93s/it] 51%|█████     | 1074/2117 [36:06<33:45,  1.94s/it]                                                   {'loss': 1.406, 'learning_rate': 0.0002107419725657519, 'epoch': 0.51}
 51%|█████     | 1074/2117 [36:06<33:45,  1.94s/it] 51%|█████     | 1075/2117 [36:08<33:22,  1.92s/it]                                                   {'loss': 1.2649, 'learning_rate': 0.00021043089788398814, 'epoch': 0.51}
 51%|█████     | 1075/2117 [36:08<33:22,  1.92s/it] 51%|█████     | 1076/2117 [36:10<35:26,  2.04s/it]                                                   {'loss': 1.5223, 'learning_rate': 0.0002101197978970371, 'epoch': 0.51}
 51%|█████     | 1076/2117 [36:10<35:26,  2.04s/it] 51%|█████     | 1077/2117 [36:12<35:24,  2.04s/it]                                                   {'loss': 1.3938, 'learning_rate': 0.00020980867335962234, 'epoch': 0.51}
 51%|█████     | 1077/2117 [36:12<35:24,  2.04s/it] 51%|█████     | 1078/2117 [36:14<34:09,  1.97s/it]                                                   {'loss': 1.0398, 'learning_rate': 0.00020949752502652684, 'epoch': 0.51}
 51%|█████     | 1078/2117 [36:14<34:09,  1.97s/it] 51%|█████     | 1079/2117 [36:16<33:48,  1.95s/it]                                                   {'loss': 1.5071, 'learning_rate': 0.00020918635365259133, 'epoch': 0.51}
 51%|█████     | 1079/2117 [36:16<33:48,  1.95s/it] 51%|█████     | 1080/2117 [36:18<33:23,  1.93s/it]                                                   {'loss': 1.333, 'learning_rate': 0.0002088751599927125, 'epoch': 0.51}
 51%|█████     | 1080/2117 [36:18<33:23,  1.93s/it] 51%|█████     | 1081/2117 [36:20<33:27,  1.94s/it]                                                   {'loss': 1.4037, 'learning_rate': 0.00020856394480184105, 'epoch': 0.51}
 51%|█████     | 1081/2117 [36:20<33:27,  1.94s/it] 51%|█████     | 1082/2117 [36:22<35:12,  2.04s/it]                                                   {'loss': 1.301, 'learning_rate': 0.00020825270883497994, 'epoch': 0.51}
 51%|█████     | 1082/2117 [36:22<35:12,  2.04s/it] 51%|█████     | 1083/2117 [36:24<34:53,  2.02s/it]                                                   {'loss': 1.092, 'learning_rate': 0.0002079414528471825, 'epoch': 0.51}
 51%|█████     | 1083/2117 [36:24<34:53,  2.02s/it] 51%|█████     | 1084/2117 [36:26<34:28,  2.00s/it]                                                   {'loss': 1.347, 'learning_rate': 0.0002076301775935507, 'epoch': 0.51}
 51%|█████     | 1084/2117 [36:26<34:28,  2.00s/it] 51%|█████▏    | 1085/2117 [36:28<33:35,  1.95s/it]                                                   {'loss': 1.2909, 'learning_rate': 0.00020731888382923312, 'epoch': 0.51}
 51%|█████▏    | 1085/2117 [36:28<33:35,  1.95s/it] 51%|█████▏    | 1086/2117 [36:30<33:23,  1.94s/it]                                                   {'loss': 1.3255, 'learning_rate': 0.00020700757230942345, 'epoch': 0.51}
 51%|█████▏    | 1086/2117 [36:30<33:23,  1.94s/it] 51%|█████▏    | 1087/2117 [36:31<32:09,  1.87s/it]                                                   {'loss': 1.0013, 'learning_rate': 0.00020669624378935822, 'epoch': 0.51}
 51%|█████▏    | 1087/2117 [36:31<32:09,  1.87s/it] 51%|█████▏    | 1088/2117 [36:33<33:00,  1.92s/it]                                                   {'loss': 1.1933, 'learning_rate': 0.00020638489902431536, 'epoch': 0.51}
 51%|█████▏    | 1088/2117 [36:33<33:00,  1.92s/it] 51%|█████▏    | 1089/2117 [36:35<32:57,  1.92s/it]                                                   {'loss': 1.5111, 'learning_rate': 0.00020607353876961218, 'epoch': 0.51}
 51%|█████▏    | 1089/2117 [36:35<32:57,  1.92s/it] 51%|█████▏    | 1090/2117 [36:37<31:54,  1.86s/it]                                                   {'loss': 1.3786, 'learning_rate': 0.00020576216378060349, 'epoch': 0.51}
 51%|█████▏    | 1090/2117 [36:37<31:54,  1.86s/it] 52%|█████▏    | 1091/2117 [36:39<31:14,  1.83s/it]                                                   {'loss': 0.8628, 'learning_rate': 0.00020545077481268003, 'epoch': 0.52}
 52%|█████▏    | 1091/2117 [36:39<31:14,  1.83s/it] 52%|█████▏    | 1092/2117 [36:41<32:55,  1.93s/it]                                                   {'loss': 1.3142, 'learning_rate': 0.00020513937262126616, 'epoch': 0.52}
 52%|█████▏    | 1092/2117 [36:41<32:55,  1.93s/it] 52%|█████▏    | 1093/2117 [36:43<33:35,  1.97s/it]                                                   {'loss': 1.247, 'learning_rate': 0.00020482795796181863, 'epoch': 0.52}
 52%|█████▏    | 1093/2117 [36:43<33:35,  1.97s/it] 52%|█████▏    | 1094/2117 [36:45<32:43,  1.92s/it]                                                   {'loss': 1.3025, 'learning_rate': 0.00020451653158982418, 'epoch': 0.52}
 52%|█████▏    | 1094/2117 [36:45<32:43,  1.92s/it] 52%|█████▏    | 1095/2117 [36:47<33:31,  1.97s/it]                                                   {'loss': 1.3176, 'learning_rate': 0.00020420509426079825, 'epoch': 0.52}
 52%|█████▏    | 1095/2117 [36:47<33:31,  1.97s/it] 52%|█████▏    | 1096/2117 [36:49<32:22,  1.90s/it]                                                   {'loss': 1.2238, 'learning_rate': 0.00020389364673028255, 'epoch': 0.52}
 52%|█████▏    | 1096/2117 [36:49<32:22,  1.90s/it] 52%|█████▏    | 1097/2117 [36:51<34:01,  2.00s/it]                                                   {'loss': 1.3724, 'learning_rate': 0.00020389364673028255, 'epoch': 0.52}
 52%|█████▏    | 1097/2117 [36:51<34:01,  2.00s/it] 52%|█████▏    | 1098/2117 [36:53<35:52,  2.11s/it]                                                   {'loss': 1.2739, 'learning_rate': 0.00020358218975384374, 'epoch': 0.52}
 52%|█████▏    | 1098/2117 [36:53<35:52,  2.11s/it] 52%|█████▏    | 1099/2117 [36:55<34:51,  2.05s/it]                                                   {'loss': 1.3877, 'learning_rate': 0.0002032707240870713, 'epoch': 0.52}
 52%|█████▏    | 1099/2117 [36:55<34:51,  2.05s/it] 52%|█████▏    | 1100/2117 [36:57<34:15,  2.02s/it]                                                   {'loss': 1.2701, 'learning_rate': 0.00020295925048557586, 'epoch': 0.52}
 52%|█████▏    | 1100/2117 [36:57<34:15,  2.02s/it] 52%|█████▏    | 1101/2117 [36:59<33:44,  1.99s/it]                                                   {'loss': 1.3203, 'learning_rate': 0.0002026477697049873, 'epoch': 0.52}
 52%|█████▏    | 1101/2117 [36:59<33:44,  1.99s/it] 52%|█████▏    | 1102/2117 [37:01<33:44,  1.99s/it]                                                   {'loss': 1.314, 'learning_rate': 0.00020233628250095284, 'epoch': 0.52}
 52%|█████▏    | 1102/2117 [37:01<33:44,  1.99s/it] 52%|█████▏    | 1103/2117 [37:03<35:01,  2.07s/it]                                                   {'loss': 1.6357, 'learning_rate': 0.00020202478962913536, 'epoch': 0.52}
 52%|█████▏    | 1103/2117 [37:03<35:01,  2.07s/it] 52%|█████▏    | 1104/2117 [37:05<33:29,  1.98s/it]                                                   {'loss': 1.1124, 'learning_rate': 0.00020171329184521137, 'epoch': 0.52}
 52%|█████▏    | 1104/2117 [37:05<33:29,  1.98s/it] 52%|█████▏    | 1105/2117 [37:07<34:46,  2.06s/it]                                                   {'loss': 1.4138, 'learning_rate': 0.00020140178990486952, 'epoch': 0.52}
 52%|█████▏    | 1105/2117 [37:07<34:46,  2.06s/it] 52%|█████▏    | 1106/2117 [37:09<34:43,  2.06s/it]                                                   {'loss': 1.3425, 'learning_rate': 0.0002010902845638083, 'epoch': 0.52}
 52%|█████▏    | 1106/2117 [37:09<34:43,  2.06s/it] 52%|█████▏    | 1107/2117 [37:12<36:24,  2.16s/it]                                                   {'loss': 1.2216, 'learning_rate': 0.00020077877657773466, 'epoch': 0.52}
 52%|█████▏    | 1107/2117 [37:12<36:24,  2.16s/it] 52%|█████▏    | 1108/2117 [37:14<35:16,  2.10s/it]                                                   {'loss': 1.519, 'learning_rate': 0.00020046726670236176, 'epoch': 0.52}
 52%|█████▏    | 1108/2117 [37:14<35:16,  2.10s/it] 52%|█████▏    | 1109/2117 [37:16<35:01,  2.08s/it]                                                   {'loss': 1.3377, 'learning_rate': 0.0002001557556934075, 'epoch': 0.52}
 52%|█████▏    | 1109/2117 [37:16<35:01,  2.08s/it] 52%|█████▏    | 1110/2117 [37:18<35:08,  2.09s/it]                                                   {'loss': 1.6655, 'learning_rate': 0.00019984424430659253, 'epoch': 0.52}
 52%|█████▏    | 1110/2117 [37:18<35:08,  2.09s/it] 52%|█████▏    | 1111/2117 [37:20<33:05,  1.97s/it]                                                   {'loss': 1.4196, 'learning_rate': 0.0001995327332976383, 'epoch': 0.52}
 52%|█████▏    | 1111/2117 [37:20<33:05,  1.97s/it] 53%|█████▎    | 1112/2117 [37:22<35:07,  2.10s/it]                                                   {'loss': 1.2147, 'learning_rate': 0.00019922122342226538, 'epoch': 0.53}
 53%|█████▎    | 1112/2117 [37:22<35:07,  2.10s/it] 53%|█████▎    | 1113/2117 [37:24<33:15,  1.99s/it]                                                   {'loss': 1.1667, 'learning_rate': 0.00019890971543619167, 'epoch': 0.53}
 53%|█████▎    | 1113/2117 [37:24<33:15,  1.99s/it] 53%|█████▎    | 1114/2117 [37:26<33:56,  2.03s/it]                                                   {'loss': 1.1459, 'learning_rate': 0.00019859821009513055, 'epoch': 0.53}
 53%|█████▎    | 1114/2117 [37:26<33:56,  2.03s/it] 53%|█████▎    | 1115/2117 [37:28<33:39,  2.02s/it]                                                   {'loss': 1.3117, 'learning_rate': 0.00019828670815478868, 'epoch': 0.53}
 53%|█████▎    | 1115/2117 [37:28<33:39,  2.02s/it] 53%|█████▎    | 1116/2117 [37:30<34:02,  2.04s/it]                                                   {'loss': 1.1508, 'learning_rate': 0.00019797521037086472, 'epoch': 0.53}
 53%|█████▎    | 1116/2117 [37:30<34:02,  2.04s/it] 53%|█████▎    | 1117/2117 [37:32<33:14,  1.99s/it]                                                   {'loss': 1.0721, 'learning_rate': 0.00019766371749904723, 'epoch': 0.53}
 53%|█████▎    | 1117/2117 [37:32<33:14,  1.99s/it] 53%|█████▎    | 1118/2117 [37:34<32:00,  1.92s/it]                                                   {'loss': 1.1657, 'learning_rate': 0.00019735223029501272, 'epoch': 0.53}
 53%|█████▎    | 1118/2117 [37:34<32:00,  1.92s/it] 53%|█████▎    | 1119/2117 [37:36<33:04,  1.99s/it]                                                   {'loss': 1.0856, 'learning_rate': 0.00019704074951442418, 'epoch': 0.53}
 53%|█████▎    | 1119/2117 [37:36<33:04,  1.99s/it] 53%|█████▎    | 1120/2117 [37:38<34:53,  2.10s/it]                                                   {'loss': 1.1536, 'learning_rate': 0.00019672927591292871, 'epoch': 0.53}
 53%|█████▎    | 1120/2117 [37:38<34:53,  2.10s/it] 53%|█████▎    | 1121/2117 [37:40<34:21,  2.07s/it]                                                   {'loss': 1.3234, 'learning_rate': 0.00019641781024615633, 'epoch': 0.53}
 53%|█████▎    | 1121/2117 [37:40<34:21,  2.07s/it] 53%|█████▎    | 1122/2117 [37:42<33:27,  2.02s/it]                                                   {'loss': 1.446, 'learning_rate': 0.0001961063532697175, 'epoch': 0.53}
 53%|█████▎    | 1122/2117 [37:42<33:27,  2.02s/it] 53%|█████▎    | 1123/2117 [37:44<33:39,  2.03s/it]                                                   {'loss': 1.359, 'learning_rate': 0.0001957949057392018, 'epoch': 0.53}
 53%|█████▎    | 1123/2117 [37:44<33:39,  2.03s/it] 53%|█████▎    | 1124/2117 [37:46<32:59,  1.99s/it]                                                   {'loss': 1.2901, 'learning_rate': 0.00019548346841017578, 'epoch': 0.53}
 53%|█████▎    | 1124/2117 [37:46<32:59,  1.99s/it] 53%|█████▎    | 1125/2117 [37:48<31:57,  1.93s/it]                                                   {'loss': 1.3227, 'learning_rate': 0.00019517204203818147, 'epoch': 0.53}
 53%|█████▎    | 1125/2117 [37:48<31:57,  1.93s/it] 53%|█████▎    | 1126/2117 [37:50<31:39,  1.92s/it]                                                   {'loss': 1.5337, 'learning_rate': 0.00019486062737873389, 'epoch': 0.53}
 53%|█████▎    | 1126/2117 [37:50<31:39,  1.92s/it] 53%|█████▎    | 1127/2117 [37:51<30:51,  1.87s/it]                                                   {'loss': 1.0848, 'learning_rate': 0.00019454922518732004, 'epoch': 0.53}
 53%|█████▎    | 1127/2117 [37:51<30:51,  1.87s/it] 53%|█████▎    | 1128/2117 [37:54<32:41,  1.98s/it]                                                   {'loss': 1.2892, 'learning_rate': 0.00019423783621939653, 'epoch': 0.53}
 53%|█████▎    | 1128/2117 [37:54<32:41,  1.98s/it] 53%|█████▎    | 1129/2117 [37:56<32:09,  1.95s/it]                                                   {'loss': 1.1257, 'learning_rate': 0.00019392646123038792, 'epoch': 0.53}
 53%|█████▎    | 1129/2117 [37:56<32:09,  1.95s/it] 53%|█████▎    | 1130/2117 [37:58<34:43,  2.11s/it]                                                   {'loss': 1.3003, 'learning_rate': 0.0001936151009756847, 'epoch': 0.53}
 53%|█████▎    | 1130/2117 [37:58<34:43,  2.11s/it] 53%|█████▎    | 1131/2117 [38:00<32:56,  2.00s/it]                                                   {'loss': 1.1776, 'learning_rate': 0.0001933037562106418, 'epoch': 0.53}
 53%|█████▎    | 1131/2117 [38:00<32:56,  2.00s/it] 53%|█████▎    | 1132/2117 [38:02<33:58,  2.07s/it]                                                   {'loss': 1.1835, 'learning_rate': 0.00019299242769057665, 'epoch': 0.53}
 53%|█████▎    | 1132/2117 [38:02<33:58,  2.07s/it] 54%|█████▎    | 1133/2117 [38:04<34:43,  2.12s/it]                                                   {'loss': 1.5712, 'learning_rate': 0.00019268111617076693, 'epoch': 0.54}
 54%|█████▎    | 1133/2117 [38:04<34:43,  2.12s/it] 54%|█████▎    | 1134/2117 [38:06<32:55,  2.01s/it]                                                   {'loss': 0.9642, 'learning_rate': 0.00019236982240644935, 'epoch': 0.54}
 54%|█████▎    | 1134/2117 [38:06<32:55,  2.01s/it] 54%|█████▎    | 1135/2117 [38:08<32:39,  2.00s/it]                                                   {'loss': 1.3297, 'learning_rate': 0.0001920585471528175, 'epoch': 0.54}
 54%|█████▎    | 1135/2117 [38:08<32:39,  2.00s/it] 54%|█████▎    | 1136/2117 [38:10<32:12,  1.97s/it]                                                   {'loss': 1.3761, 'learning_rate': 0.00019174729116502016, 'epoch': 0.54}
 54%|█████▎    | 1136/2117 [38:10<32:12,  1.97s/it] 54%|█████▎    | 1137/2117 [38:12<32:52,  2.01s/it]                                                   {'loss': 1.4211, 'learning_rate': 0.000191436055198159, 'epoch': 0.54}
 54%|█████▎    | 1137/2117 [38:12<32:52,  2.01s/it] 54%|█████▍    | 1138/2117 [38:14<32:41,  2.00s/it]                                                   {'loss': 1.3953, 'learning_rate': 0.00019112484000728756, 'epoch': 0.54}
 54%|█████▍    | 1138/2117 [38:14<32:41,  2.00s/it] 54%|█████▍    | 1139/2117 [38:16<33:06,  2.03s/it]                                                   {'loss': 1.3674, 'learning_rate': 0.0001908136463474087, 'epoch': 0.54}
 54%|█████▍    | 1139/2117 [38:16<33:06,  2.03s/it] 54%|█████▍    | 1140/2117 [38:18<31:28,  1.93s/it]                                                   {'loss': 1.2079, 'learning_rate': 0.00019050247497347323, 'epoch': 0.54}
 54%|█████▍    | 1140/2117 [38:18<31:28,  1.93s/it] 54%|█████▍    | 1141/2117 [38:20<30:45,  1.89s/it]                                                   {'loss': 1.5356, 'learning_rate': 0.00019019132664037768, 'epoch': 0.54}
 54%|█████▍    | 1141/2117 [38:20<30:45,  1.89s/it] 54%|█████▍    | 1142/2117 [38:21<30:36,  1.88s/it]                                                   {'loss': 0.9021, 'learning_rate': 0.00018988020210296294, 'epoch': 0.54}
 54%|█████▍    | 1142/2117 [38:21<30:36,  1.88s/it] 54%|█████▍    | 1143/2117 [38:24<32:12,  1.98s/it]                                                   {'loss': 1.4613, 'learning_rate': 0.00018956910211601185, 'epoch': 0.54}
 54%|█████▍    | 1143/2117 [38:24<32:12,  1.98s/it] 54%|█████▍    | 1144/2117 [38:26<32:44,  2.02s/it]                                                   {'loss': 1.3332, 'learning_rate': 0.00018925802743424813, 'epoch': 0.54}
 54%|█████▍    | 1144/2117 [38:26<32:44,  2.02s/it] 54%|█████▍    | 1145/2117 [38:28<35:03,  2.16s/it]                                                   {'loss': 1.3994, 'learning_rate': 0.00018894697881233362, 'epoch': 0.54}
 54%|█████▍    | 1145/2117 [38:28<35:03,  2.16s/it] 54%|█████▍    | 1146/2117 [38:30<34:28,  2.13s/it]                                                   {'loss': 1.0774, 'learning_rate': 0.00018863595700486732, 'epoch': 0.54}
 54%|█████▍    | 1146/2117 [38:30<34:28,  2.13s/it] 54%|█████▍    | 1147/2117 [38:32<34:30,  2.13s/it]                                                   {'loss': 1.3694, 'learning_rate': 0.00018832496276638302, 'epoch': 0.54}
 54%|█████▍    | 1147/2117 [38:32<34:30,  2.13s/it] 54%|█████▍    | 1148/2117 [38:34<33:13,  2.06s/it]                                                   {'loss': 1.4133, 'learning_rate': 0.00018801399685134754, 'epoch': 0.54}
 54%|█████▍    | 1148/2117 [38:34<33:13,  2.06s/it] 54%|█████▍    | 1149/2117 [38:36<33:22,  2.07s/it]                                                   {'loss': 1.3533, 'learning_rate': 0.00018770306001415917, 'epoch': 0.54}
 54%|█████▍    | 1149/2117 [38:36<33:22,  2.07s/it] 54%|█████▍    | 1150/2117 [38:39<34:11,  2.12s/it]                                                   {'loss': 1.1007, 'learning_rate': 0.0001873921530091456, 'epoch': 0.54}
 54%|█████▍    | 1150/2117 [38:39<34:11,  2.12s/it] 54%|█████▍    | 1151/2117 [38:41<33:02,  2.05s/it]                                                   {'loss': 1.1953, 'learning_rate': 0.00018708127659056208, 'epoch': 0.54}
 54%|█████▍    | 1151/2117 [38:41<33:02,  2.05s/it] 54%|█████▍    | 1152/2117 [38:42<31:20,  1.95s/it]                                                   {'loss': 1.2118, 'learning_rate': 0.00018677043151258971, 'epoch': 0.54}
 54%|█████▍    | 1152/2117 [38:42<31:20,  1.95s/it] 54%|█████▍    | 1153/2117 [38:45<32:44,  2.04s/it]                                                   {'loss': 1.4276, 'learning_rate': 0.00018645961852933356, 'epoch': 0.54}
 54%|█████▍    | 1153/2117 [38:45<32:44,  2.04s/it] 55%|█████▍    | 1154/2117 [38:46<32:24,  2.02s/it]                                                   {'loss': 1.4432, 'learning_rate': 0.00018614883839482082, 'epoch': 0.54}
 55%|█████▍    | 1154/2117 [38:46<32:24,  2.02s/it] 55%|█████▍    | 1155/2117 [38:48<30:50,  1.92s/it]                                                   {'loss': 1.1725, 'learning_rate': 0.00018583809186299913, 'epoch': 0.55}
 55%|█████▍    | 1155/2117 [38:48<30:50,  1.92s/it] 55%|█████▍    | 1156/2117 [38:50<31:47,  1.98s/it]                                                   {'loss': 1.3901, 'learning_rate': 0.00018552737968773427, 'epoch': 0.55}
 55%|█████▍    | 1156/2117 [38:50<31:47,  1.98s/it] 55%|█████▍    | 1157/2117 [38:52<32:40,  2.04s/it]                                                   {'loss': 1.471, 'learning_rate': 0.00018521670262280896, 'epoch': 0.55}
 55%|█████▍    | 1157/2117 [38:52<32:40,  2.04s/it] 55%|█████▍    | 1158/2117 [38:55<33:56,  2.12s/it]                                                   {'loss': 1.7013, 'learning_rate': 0.00018490606142192078, 'epoch': 0.55}
 55%|█████▍    | 1158/2117 [38:55<33:56,  2.12s/it] 55%|█████▍    | 1159/2117 [38:57<32:46,  2.05s/it]                                                   {'loss': 1.3411, 'learning_rate': 0.00018459545683868, 'epoch': 0.55}
 55%|█████▍    | 1159/2117 [38:57<32:46,  2.05s/it] 55%|█████▍    | 1160/2117 [38:59<31:45,  1.99s/it]                                                   {'loss': 1.1998, 'learning_rate': 0.00018428488962660838, 'epoch': 0.55}
 55%|█████▍    | 1160/2117 [38:59<31:45,  1.99s/it] 55%|█████▍    | 1161/2117 [39:00<31:36,  1.98s/it]                                                   {'loss': 1.174, 'learning_rate': 0.0001839743605391368, 'epoch': 0.55}
 55%|█████▍    | 1161/2117 [39:01<31:36,  1.98s/it] 55%|█████▍    | 1162/2117 [39:02<30:51,  1.94s/it]                                                   {'loss': 1.2417, 'learning_rate': 0.00018366387032960386, 'epoch': 0.55}
 55%|█████▍    | 1162/2117 [39:02<30:51,  1.94s/it] 55%|█████▍    | 1163/2117 [39:04<29:42,  1.87s/it]                                                   {'loss': 1.1483, 'learning_rate': 0.00018335341975125356, 'epoch': 0.55}
 55%|█████▍    | 1163/2117 [39:04<29:42,  1.87s/it] 55%|█████▍    | 1164/2117 [39:06<29:07,  1.83s/it]                                                   {'loss': 1.2208, 'learning_rate': 0.00018304300955723402, 'epoch': 0.55}
 55%|█████▍    | 1164/2117 [39:06<29:07,  1.83s/it] 55%|█████▌    | 1165/2117 [39:08<32:04,  2.02s/it]                                                   {'loss': 1.4443, 'learning_rate': 0.00018273264050059523, 'epoch': 0.55}
 55%|█████▌    | 1165/2117 [39:08<32:04,  2.02s/it] 55%|█████▌    | 1166/2117 [39:11<33:40,  2.12s/it]                                                   {'loss': 1.1945, 'learning_rate': 0.0001824223133342875, 'epoch': 0.55}
 55%|█████▌    | 1166/2117 [39:11<33:40,  2.12s/it] 55%|█████▌    | 1167/2117 [39:12<32:18,  2.04s/it]                                                   {'loss': 1.2849, 'learning_rate': 0.00018211202881115933, 'epoch': 0.55}
 55%|█████▌    | 1167/2117 [39:12<32:18,  2.04s/it] 55%|█████▌    | 1168/2117 [39:14<30:46,  1.95s/it]                                                   {'loss': 1.0626, 'learning_rate': 0.00018180178768395595, 'epoch': 0.55}
 55%|█████▌    | 1168/2117 [39:14<30:46,  1.95s/it] 55%|█████▌    | 1169/2117 [39:16<30:41,  1.94s/it]                                                   {'loss': 1.1795, 'learning_rate': 0.0001814915907053173, 'epoch': 0.55}
 55%|█████▌    | 1169/2117 [39:16<30:41,  1.94s/it] 55%|█████▌    | 1170/2117 [39:18<31:41,  2.01s/it]                                                   {'loss': 1.1829, 'learning_rate': 0.00018118143862777615, 'epoch': 0.55}
 55%|█████▌    | 1170/2117 [39:18<31:41,  2.01s/it] 55%|█████▌    | 1171/2117 [39:20<30:30,  1.94s/it]                                                   {'loss': 1.1555, 'learning_rate': 0.00018087133220375624, 'epoch': 0.55}
 55%|█████▌    | 1171/2117 [39:20<30:30,  1.94s/it] 55%|█████▌    | 1172/2117 [39:22<30:28,  1.93s/it]                                                   {'loss': 1.3981, 'learning_rate': 0.00018056127218557072, 'epoch': 0.55}
 55%|█████▌    | 1172/2117 [39:22<30:28,  1.93s/it] 55%|█████▌    | 1173/2117 [39:24<30:27,  1.94s/it]                                                   {'loss': 1.2743, 'learning_rate': 0.00018025125932542027, 'epoch': 0.55}
 55%|█████▌    | 1173/2117 [39:24<30:27,  1.94s/it] 55%|█████▌    | 1174/2117 [39:26<32:22,  2.06s/it]                                                   {'loss': 1.1822, 'learning_rate': 0.0001799412943753908, 'epoch': 0.55}
 55%|█████▌    | 1174/2117 [39:26<32:22,  2.06s/it] 56%|█████▌    | 1175/2117 [39:29<33:23,  2.13s/it]                                                   {'loss': 1.1138, 'learning_rate': 0.00017963137808745222, 'epoch': 0.55}
 56%|█████▌    | 1175/2117 [39:29<33:23,  2.13s/it] 56%|█████▌    | 1176/2117 [39:30<31:27,  2.01s/it]                                                   {'loss': 1.1169, 'learning_rate': 0.00017932151121345644, 'epoch': 0.56}
 56%|█████▌    | 1176/2117 [39:30<31:27,  2.01s/it] 56%|█████▌    | 1177/2117 [39:32<30:23,  1.94s/it]                                                   {'loss': 1.2054, 'learning_rate': 0.00017901169450513547, 'epoch': 0.56}
 56%|█████▌    | 1177/2117 [39:32<30:23,  1.94s/it] 56%|█████▌    | 1178/2117 [39:36<37:33,  2.40s/it]                                                   {'loss': 1.1044, 'learning_rate': 0.00017870192871409938, 'epoch': 0.56}
 56%|█████▌    | 1178/2117 [39:36<37:33,  2.40s/it] 56%|█████▌    | 1179/2117 [39:38<36:04,  2.31s/it]                                                   {'loss': 1.4161, 'learning_rate': 0.00017839221459183506, 'epoch': 0.56}
 56%|█████▌    | 1179/2117 [39:38<36:04,  2.31s/it] 56%|█████▌    | 1180/2117 [39:40<34:47,  2.23s/it]                                                   {'loss': 1.322, 'learning_rate': 0.00017808255288970378, 'epoch': 0.56}
 56%|█████▌    | 1180/2117 [39:40<34:47,  2.23s/it] 56%|█████▌    | 1181/2117 [39:41<32:41,  2.10s/it]                                                   {'loss': 1.1476, 'learning_rate': 0.00017777294435893993, 'epoch': 0.56}
 56%|█████▌    | 1181/2117 [39:41<32:41,  2.10s/it] 56%|█████▌    | 1182/2117 [39:44<32:48,  2.10s/it]                                                   {'loss': 1.3483, 'learning_rate': 0.0001774633897506485, 'epoch': 0.56}
 56%|█████▌    | 1182/2117 [39:44<32:48,  2.10s/it] 56%|█████▌    | 1183/2117 [39:45<31:46,  2.04s/it]                                                   {'loss': 1.4175, 'learning_rate': 0.000177153889815804, 'epoch': 0.56}
 56%|█████▌    | 1183/2117 [39:45<31:46,  2.04s/it] 56%|█████▌    | 1184/2117 [39:47<30:14,  1.94s/it]                                                   {'loss': 1.277, 'learning_rate': 0.0001768444453052482, 'epoch': 0.56}
 56%|█████▌    | 1184/2117 [39:47<30:14,  1.94s/it] 56%|█████▌    | 1185/2117 [39:49<31:46,  2.05s/it]                                                   {'loss': 1.3087, 'learning_rate': 0.00017653505696968848, 'epoch': 0.56}
 56%|█████▌    | 1185/2117 [39:49<31:46,  2.05s/it] 56%|█████▌    | 1186/2117 [39:51<31:27,  2.03s/it]                                                   {'loss': 1.225, 'learning_rate': 0.0001762257255596957, 'epoch': 0.56}
 56%|█████▌    | 1186/2117 [39:51<31:27,  2.03s/it] 56%|█████▌    | 1187/2117 [39:54<31:38,  2.04s/it]                                                   {'loss': 1.2801, 'learning_rate': 0.00017591645182570294, 'epoch': 0.56}
 56%|█████▌    | 1187/2117 [39:54<31:38,  2.04s/it] 56%|█████▌    | 1188/2117 [39:56<31:57,  2.06s/it]                                                   {'loss': 1.601, 'learning_rate': 0.0001756072365180032, 'epoch': 0.56}
 56%|█████▌    | 1188/2117 [39:56<31:57,  2.06s/it] 56%|█████▌    | 1189/2117 [39:57<30:21,  1.96s/it]                                                   {'loss': 1.3707, 'learning_rate': 0.00017529808038674758, 'epoch': 0.56}
 56%|█████▌    | 1189/2117 [39:57<30:21,  1.96s/it] 56%|█████▌    | 1190/2117 [39:59<29:39,  1.92s/it]                                                   {'loss': 1.0633, 'learning_rate': 0.00017498898418194392, 'epoch': 0.56}
 56%|█████▌    | 1190/2117 [39:59<29:39,  1.92s/it] 56%|█████▋    | 1191/2117 [40:01<29:36,  1.92s/it]                                                   {'loss': 1.3597, 'learning_rate': 0.00017467994865345455, 'epoch': 0.56}
 56%|█████▋    | 1191/2117 [40:01<29:36,  1.92s/it] 56%|█████▋    | 1192/2117 [40:03<30:19,  1.97s/it]                                                   {'loss': 1.1676, 'learning_rate': 0.0001743709745509946, 'epoch': 0.56}
 56%|█████▋    | 1192/2117 [40:03<30:19,  1.97s/it] 56%|█████▋    | 1193/2117 [40:05<29:57,  1.95s/it]                                                   {'loss': 1.1692, 'learning_rate': 0.00017406206262413014, 'epoch': 0.56}
 56%|█████▋    | 1193/2117 [40:05<29:57,  1.95s/it] 56%|█████▋    | 1194/2117 [40:07<29:43,  1.93s/it]                                                   {'loss': 1.294, 'learning_rate': 0.00017375321362227638, 'epoch': 0.56}
 56%|█████▋    | 1194/2117 [40:07<29:43,  1.93s/it] 56%|█████▋    | 1195/2117 [40:09<29:17,  1.91s/it]                                                   {'loss': 1.3103, 'learning_rate': 0.00017344442829469604, 'epoch': 0.56}
 56%|█████▋    | 1195/2117 [40:09<29:17,  1.91s/it] 56%|█████▋    | 1196/2117 [40:11<28:44,  1.87s/it]                                                   {'loss': 1.1713, 'learning_rate': 0.0001731357073904973, 'epoch': 0.56}
 56%|█████▋    | 1196/2117 [40:11<28:44,  1.87s/it] 57%|█████▋    | 1197/2117 [40:12<28:37,  1.87s/it]                                                   {'loss': 1.2887, 'learning_rate': 0.00017282705165863187, 'epoch': 0.57}
 57%|█████▋    | 1197/2117 [40:12<28:37,  1.87s/it] 57%|█████▋    | 1198/2117 [40:15<29:19,  1.91s/it]                                                   {'loss': 1.2084, 'learning_rate': 0.0001725184618478935, 'epoch': 0.57}
 57%|█████▋    | 1198/2117 [40:15<29:19,  1.91s/it] 57%|█████▋    | 1199/2117 [40:16<29:36,  1.93s/it]                                                   {'loss': 1.4899, 'learning_rate': 0.0001722099387069162, 'epoch': 0.57}
 57%|█████▋    | 1199/2117 [40:16<29:36,  1.93s/it] 57%|█████▋    | 1200/2117 [40:18<29:10,  1.91s/it]                                                   {'loss': 1.3522, 'learning_rate': 0.0001719014829841718, 'epoch': 0.57}
 57%|█████▋    | 1200/2117 [40:18<29:10,  1.91s/it] 57%|█████▋    | 1201/2117 [40:21<30:32,  2.00s/it]                                                   {'loss': 1.2895, 'learning_rate': 0.00017159309542796902, 'epoch': 0.57}
 57%|█████▋    | 1201/2117 [40:21<30:32,  2.00s/it] 57%|█████▋    | 1202/2117 [40:23<30:44,  2.02s/it]                                                   {'loss': 1.1823, 'learning_rate': 0.00017128477678645087, 'epoch': 0.57}
 57%|█████▋    | 1202/2117 [40:23<30:44,  2.02s/it] 57%|█████▋    | 1203/2117 [40:25<30:35,  2.01s/it]                                                   {'loss': 1.4265, 'learning_rate': 0.00017097652780759349, 'epoch': 0.57}
 57%|█████▋    | 1203/2117 [40:25<30:35,  2.01s/it] 57%|█████▋    | 1204/2117 [40:27<30:41,  2.02s/it]                                                   {'loss': 1.148, 'learning_rate': 0.00017066834923920365, 'epoch': 0.57}
 57%|█████▋    | 1204/2117 [40:27<30:41,  2.02s/it] 57%|█████▋    | 1205/2117 [40:28<29:05,  1.91s/it]                                                   {'loss': 1.2976, 'learning_rate': 0.00017036024182891766, 'epoch': 0.57}
 57%|█████▋    | 1205/2117 [40:28<29:05,  1.91s/it] 57%|█████▋    | 1206/2117 [40:30<29:20,  1.93s/it]                                                   {'loss': 1.0658, 'learning_rate': 0.00017005220632419893, 'epoch': 0.57}
 57%|█████▋    | 1206/2117 [40:30<29:20,  1.93s/it] 57%|█████▋    | 1207/2117 [40:32<29:54,  1.97s/it]                                                   {'loss': 1.3412, 'learning_rate': 0.00016974424347233669, 'epoch': 0.57}
 57%|█████▋    | 1207/2117 [40:32<29:54,  1.97s/it] 57%|█████▋    | 1208/2117 [40:34<30:23,  2.01s/it]                                                   {'loss': 1.2008, 'learning_rate': 0.00016943635402044357, 'epoch': 0.57}
 57%|█████▋    | 1208/2117 [40:34<30:23,  2.01s/it] 57%|█████▋    | 1209/2117 [40:36<29:57,  1.98s/it]                                                   {'loss': 1.2512, 'learning_rate': 0.00016912853871545446, 'epoch': 0.57}
 57%|█████▋    | 1209/2117 [40:36<29:57,  1.98s/it] 57%|█████▋    | 1210/2117 [40:39<32:44,  2.17s/it]                                                   {'loss': 1.4035, 'learning_rate': 0.0001688207983041243, 'epoch': 0.57}
 57%|█████▋    | 1210/2117 [40:39<32:44,  2.17s/it] 57%|█████▋    | 1211/2117 [40:41<31:59,  2.12s/it]                                                   {'loss': 1.2508, 'learning_rate': 0.0001685131335330262, 'epoch': 0.57}
 57%|█████▋    | 1211/2117 [40:41<31:59,  2.12s/it] 57%|█████▋    | 1212/2117 [40:44<34:15,  2.27s/it]                                                   {'loss': 1.2797, 'learning_rate': 0.0001682055451485498, 'epoch': 0.57}
 57%|█████▋    | 1212/2117 [40:44<34:15,  2.27s/it] 57%|█████▋    | 1213/2117 [40:46<33:15,  2.21s/it]                                                   {'loss': 1.1797, 'learning_rate': 0.0001678980338968995, 'epoch': 0.57}
 57%|█████▋    | 1213/2117 [40:46<33:15,  2.21s/it] 57%|█████▋    | 1214/2117 [40:48<32:24,  2.15s/it]                                                   {'loss': 1.1574, 'learning_rate': 0.0001675906005240927, 'epoch': 0.57}
 57%|█████▋    | 1214/2117 [40:48<32:24,  2.15s/it] 57%|█████▋    | 1215/2117 [40:50<32:14,  2.14s/it]                                                   {'loss': 1.3345, 'learning_rate': 0.00016728324577595756, 'epoch': 0.57}
 57%|█████▋    | 1215/2117 [40:50<32:14,  2.14s/it] 57%|█████▋    | 1216/2117 [40:52<32:27,  2.16s/it]                                                   {'loss': 1.6107, 'learning_rate': 0.00016697597039813168, 'epoch': 0.57}
 57%|█████▋    | 1216/2117 [40:52<32:27,  2.16s/it] 57%|█████▋    | 1217/2117 [40:54<30:24,  2.03s/it]                                                   {'loss': 1.3272, 'learning_rate': 0.00016666877513606007, 'epoch': 0.57}
 57%|█████▋    | 1217/2117 [40:54<30:24,  2.03s/it] 58%|█████▊    | 1218/2117 [40:56<30:53,  2.06s/it]                                                   {'loss': 1.2153, 'learning_rate': 0.00016636166073499356, 'epoch': 0.58}
 58%|█████▊    | 1218/2117 [40:56<30:53,  2.06s/it] 58%|█████▊    | 1219/2117 [40:58<32:34,  2.18s/it]                                                   {'loss': 1.1083, 'learning_rate': 0.00016605462793998645, 'epoch': 0.58}
 58%|█████▊    | 1219/2117 [40:58<32:34,  2.18s/it] 58%|█████▊    | 1220/2117 [41:00<31:08,  2.08s/it]                                                   {'loss': 1.3484, 'learning_rate': 0.0001657476774958954, 'epoch': 0.58}
 58%|█████▊    | 1220/2117 [41:00<31:08,  2.08s/it] 58%|█████▊    | 1221/2117 [41:02<31:44,  2.13s/it]                                                   {'loss': 1.3568, 'learning_rate': 0.00016544081014737704, 'epoch': 0.58}
 58%|█████▊    | 1221/2117 [41:02<31:44,  2.13s/it] 58%|█████▊    | 1222/2117 [41:04<31:03,  2.08s/it]                                                   {'loss': 1.2882, 'learning_rate': 0.00016513402663888668, 'epoch': 0.58}
 58%|█████▊    | 1222/2117 [41:04<31:03,  2.08s/it] 58%|█████▊    | 1223/2117 [41:06<30:43,  2.06s/it]                                                   {'loss': 1.293, 'learning_rate': 0.00016482732771467594, 'epoch': 0.58}
 58%|█████▊    | 1223/2117 [41:06<30:43,  2.06s/it] 58%|█████▊    | 1224/2117 [41:09<30:58,  2.08s/it]                                                   {'loss': 1.4508, 'learning_rate': 0.00016452071411879145, 'epoch': 0.58}
 58%|█████▊    | 1224/2117 [41:09<30:58,  2.08s/it] 58%|█████▊    | 1225/2117 [41:11<30:45,  2.07s/it]                                                   {'loss': 1.2862, 'learning_rate': 0.0001642141865950727, 'epoch': 0.58}
 58%|█████▊    | 1225/2117 [41:11<30:45,  2.07s/it] 58%|█████▊    | 1226/2117 [41:12<29:59,  2.02s/it]                                                   {'loss': 1.2247, 'learning_rate': 0.00016390774588715057, 'epoch': 0.58}
 58%|█████▊    | 1226/2117 [41:12<29:59,  2.02s/it] 58%|█████▊    | 1227/2117 [41:14<29:14,  1.97s/it]                                                   {'loss': 1.2461, 'learning_rate': 0.00016360139273844504, 'epoch': 0.58}
 58%|█████▊    | 1227/2117 [41:14<29:14,  1.97s/it] 58%|█████▊    | 1228/2117 [41:16<28:32,  1.93s/it]                                                   {'loss': 1.4069, 'learning_rate': 0.00016329512789216394, 'epoch': 0.58}
 58%|█████▊    | 1228/2117 [41:16<28:32,  1.93s/it] 58%|█████▊    | 1229/2117 [41:18<28:55,  1.95s/it]                                                   {'loss': 1.3323, 'learning_rate': 0.00016298895209130077, 'epoch': 0.58}
 58%|█████▊    | 1229/2117 [41:18<28:55,  1.95s/it] 58%|█████▊    | 1230/2117 [41:20<30:39,  2.07s/it]                                                   {'loss': 1.4585, 'learning_rate': 0.00016268286607863284, 'epoch': 0.58}
 58%|█████▊    | 1230/2117 [41:20<30:39,  2.07s/it] 58%|█████▊    | 1231/2117 [41:22<29:43,  2.01s/it]                                                   {'loss': 1.3159, 'learning_rate': 0.0001623768705967199, 'epoch': 0.58}
 58%|█████▊    | 1231/2117 [41:22<29:43,  2.01s/it] 58%|█████▊    | 1232/2117 [41:24<29:06,  1.97s/it]                                                   {'loss': 1.1522, 'learning_rate': 0.00016207096638790207, 'epoch': 0.58}
 58%|█████▊    | 1232/2117 [41:24<29:06,  1.97s/it] 58%|█████▊    | 1233/2117 [41:26<29:19,  1.99s/it]                                                   {'loss': 1.3848, 'learning_rate': 0.00016176515419429784, 'epoch': 0.58}
 58%|█████▊    | 1233/2117 [41:26<29:19,  1.99s/it] 58%|█████▊    | 1234/2117 [41:28<29:39,  2.02s/it]                                                   {'loss': 1.5621, 'learning_rate': 0.0001614594347578026, 'epoch': 0.58}
 58%|█████▊    | 1234/2117 [41:28<29:39,  2.02s/it] 58%|█████▊    | 1235/2117 [41:30<30:03,  2.04s/it]                                                   {'loss': 1.3241, 'learning_rate': 0.00016115380882008662, 'epoch': 0.58}
 58%|█████▊    | 1235/2117 [41:30<30:03,  2.04s/it] 58%|█████▊    | 1236/2117 [41:33<32:03,  2.18s/it]                                                   {'loss': 1.6407, 'learning_rate': 0.00016084827712259348, 'epoch': 0.58}
 58%|█████▊    | 1236/2117 [41:33<32:03,  2.18s/it] 58%|█████▊    | 1237/2117 [41:35<30:51,  2.10s/it]                                                   {'loss': 1.2676, 'learning_rate': 0.00016054284040653815, 'epoch': 0.58}
 58%|█████▊    | 1237/2117 [41:35<30:51,  2.10s/it] 58%|█████▊    | 1238/2117 [41:37<30:55,  2.11s/it]                                                   {'loss': 1.3582, 'learning_rate': 0.00016023749941290497, 'epoch': 0.58}
 58%|█████▊    | 1238/2117 [41:37<30:55,  2.11s/it] 59%|█████▊    | 1239/2117 [41:39<30:19,  2.07s/it]                                                   {'loss': 1.3799, 'learning_rate': 0.00015993225488244618, 'epoch': 0.59}
 59%|█████▊    | 1239/2117 [41:39<30:19,  2.07s/it] 59%|█████▊    | 1240/2117 [41:43<38:42,  2.65s/it]                                                   {'loss': 1.4649, 'learning_rate': 0.00015962710755568012, 'epoch': 0.59}
 59%|█████▊    | 1240/2117 [41:43<38:42,  2.65s/it] 59%|█████▊    | 1241/2117 [41:45<35:12,  2.41s/it]                                                   {'loss': 1.0993, 'learning_rate': 0.00015932205817288908, 'epoch': 0.59}
 59%|█████▊    | 1241/2117 [41:45<35:12,  2.41s/it] 59%|█████▊    | 1242/2117 [41:47<33:42,  2.31s/it]                                                   {'loss': 1.4141, 'learning_rate': 0.00015901710747411794, 'epoch': 0.59}
 59%|█████▊    | 1242/2117 [41:47<33:42,  2.31s/it] 59%|█████▊    | 1243/2117 [41:49<31:29,  2.16s/it]                                                   {'loss': 1.4413, 'learning_rate': 0.00015871225619917202, 'epoch': 0.59}
 59%|█████▊    | 1243/2117 [41:49<31:29,  2.16s/it] 59%|█████▉    | 1244/2117 [41:51<30:55,  2.13s/it]                                                   {'loss': 1.1094, 'learning_rate': 0.00015840750508761567, 'epoch': 0.59}
 59%|█████▉    | 1244/2117 [41:51<30:55,  2.13s/it] 59%|█████▉    | 1245/2117 [41:53<30:27,  2.10s/it]                                                   {'loss': 0.9049, 'learning_rate': 0.00015810285487876985, 'epoch': 0.59}
 59%|█████▉    | 1245/2117 [41:53<30:27,  2.10s/it] 59%|█████▉    | 1246/2117 [41:55<29:52,  2.06s/it]                                                   {'loss': 1.2571, 'learning_rate': 0.00015779830631171117, 'epoch': 0.59}
 59%|█████▉    | 1246/2117 [41:55<29:52,  2.06s/it] 59%|█████▉    | 1247/2117 [41:57<30:39,  2.11s/it]                                                   {'loss': 1.59, 'learning_rate': 0.00015749386012526935, 'epoch': 0.59}
 59%|█████▉    | 1247/2117 [41:57<30:39,  2.11s/it] 59%|█████▉    | 1248/2117 [41:59<29:55,  2.07s/it]                                                   {'loss': 1.2153, 'learning_rate': 0.00015718951705802597, 'epoch': 0.59}
 59%|█████▉    | 1248/2117 [41:59<29:55,  2.07s/it] 59%|█████▉    | 1249/2117 [42:01<30:25,  2.10s/it]                                                   {'loss': 1.2648, 'learning_rate': 0.00015688527784831215, 'epoch': 0.59}
 59%|█████▉    | 1249/2117 [42:01<30:25,  2.10s/it] 59%|█████▉    | 1250/2117 [42:03<31:07,  2.15s/it]                                                   {'loss': 1.1044, 'learning_rate': 0.00015658114323420733, 'epoch': 0.59}
 59%|█████▉    | 1250/2117 [42:03<31:07,  2.15s/it] 59%|█████▉    | 1251/2117 [42:05<29:31,  2.05s/it]                                                   {'loss': 1.3576, 'learning_rate': 0.0001562771139535371, 'epoch': 0.59}
 59%|█████▉    | 1251/2117 [42:05<29:31,  2.05s/it] 59%|█████▉    | 1252/2117 [42:07<29:07,  2.02s/it]                                                   {'loss': 1.2877, 'learning_rate': 0.00015597319074387152, 'epoch': 0.59}
 59%|█████▉    | 1252/2117 [42:07<29:07,  2.02s/it] 59%|█████▉    | 1253/2117 [42:09<28:41,  1.99s/it]                                                   {'loss': 1.3409, 'learning_rate': 0.00015566937434252325, 'epoch': 0.59}
 59%|█████▉    | 1253/2117 [42:09<28:41,  1.99s/it] 59%|█████▉    | 1254/2117 [42:11<28:16,  1.97s/it]                                                   {'loss': 1.1914, 'learning_rate': 0.0001553656654865459, 'epoch': 0.59}
 59%|█████▉    | 1254/2117 [42:11<28:16,  1.97s/it] 59%|█████▉    | 1255/2117 [42:13<28:54,  2.01s/it]                                                   {'loss': 1.4526, 'learning_rate': 0.00015506206491273228, 'epoch': 0.59}
 59%|█████▉    | 1255/2117 [42:13<28:54,  2.01s/it] 59%|█████▉    | 1256/2117 [42:15<29:25,  2.05s/it]                                                   {'loss': 1.3002, 'learning_rate': 0.0001547585733576123, 'epoch': 0.59}
 59%|█████▉    | 1256/2117 [42:15<29:25,  2.05s/it] 59%|█████▉    | 1257/2117 [42:17<28:14,  1.97s/it]                                                   {'loss': 1.0568, 'learning_rate': 0.00015445519155745147, 'epoch': 0.59}
 59%|█████▉    | 1257/2117 [42:17<28:14,  1.97s/it] 59%|█████▉    | 1258/2117 [42:19<28:37,  2.00s/it]                                                   {'loss': 1.2317, 'learning_rate': 0.00015415192024824913, 'epoch': 0.59}
 59%|█████▉    | 1258/2117 [42:19<28:37,  2.00s/it] 59%|█████▉    | 1259/2117 [42:21<28:57,  2.03s/it]                                                   {'loss': 1.2007, 'learning_rate': 0.00015384876016573656, 'epoch': 0.59}
 59%|█████▉    | 1259/2117 [42:21<28:57,  2.03s/it] 60%|█████▉    | 1260/2117 [42:23<29:33,  2.07s/it]                                                   {'loss': 1.2982, 'learning_rate': 0.00015354571204537502, 'epoch': 0.59}
 60%|█████▉    | 1260/2117 [42:23<29:33,  2.07s/it] 60%|█████▉    | 1261/2117 [42:26<29:54,  2.10s/it]                                                   {'loss': 1.3678, 'learning_rate': 0.00015324277662235436, 'epoch': 0.6}
 60%|█████▉    | 1261/2117 [42:26<29:54,  2.10s/it] 60%|█████▉    | 1262/2117 [42:28<29:48,  2.09s/it]                                                   {'loss': 1.4411, 'learning_rate': 0.00015293995463159092, 'epoch': 0.6}
 60%|█████▉    | 1262/2117 [42:28<29:48,  2.09s/it] 60%|█████▉    | 1263/2117 [42:30<30:56,  2.17s/it]                                                   {'loss': 1.3717, 'learning_rate': 0.00015263724680772596, 'epoch': 0.6}
 60%|█████▉    | 1263/2117 [42:30<30:56,  2.17s/it] 60%|█████▉    | 1264/2117 [42:32<29:04,  2.05s/it]                                                   {'loss': 1.1964, 'learning_rate': 0.00015233465388512355, 'epoch': 0.6}
 60%|█████▉    | 1264/2117 [42:32<29:04,  2.05s/it] 60%|█████▉    | 1265/2117 [42:34<29:13,  2.06s/it]                                                   {'loss': 1.2942, 'learning_rate': 0.00015203217659786927, 'epoch': 0.6}
 60%|█████▉    | 1265/2117 [42:34<29:13,  2.06s/it] 60%|█████▉    | 1266/2117 [42:36<29:43,  2.10s/it]                                                   {'loss': 1.1961, 'learning_rate': 0.000151729815679768, 'epoch': 0.6}
 60%|█████▉    | 1266/2117 [42:36<29:43,  2.10s/it] 60%|█████▉    | 1267/2117 [42:38<29:47,  2.10s/it]                                                   {'loss': 1.5537, 'learning_rate': 0.00015142757186434249, 'epoch': 0.6}
 60%|█████▉    | 1267/2117 [42:38<29:47,  2.10s/it] 60%|█████▉    | 1268/2117 [42:40<28:43,  2.03s/it]                                                   {'loss': 1.1772, 'learning_rate': 0.00015112544588483112, 'epoch': 0.6}
 60%|█████▉    | 1268/2117 [42:40<28:43,  2.03s/it] 60%|█████▉    | 1269/2117 [42:42<27:26,  1.94s/it]                                                   {'loss': 1.4643, 'learning_rate': 0.00015082343847418664, 'epoch': 0.6}
 60%|█████▉    | 1269/2117 [42:42<27:26,  1.94s/it] 60%|█████▉    | 1270/2117 [42:43<26:37,  1.89s/it]                                                   {'loss': 0.9425, 'learning_rate': 0.0001505215503650741, 'epoch': 0.6}
 60%|█████▉    | 1270/2117 [42:43<26:37,  1.89s/it] 60%|██████    | 1271/2117 [42:45<25:49,  1.83s/it]                                                   {'loss': 1.2285, 'learning_rate': 0.00015021978228986903, 'epoch': 0.6}
 60%|██████    | 1271/2117 [42:45<25:49,  1.83s/it] 60%|██████    | 1272/2117 [42:47<26:48,  1.90s/it]                                                   {'loss': 1.5057, 'learning_rate': 0.00014991813498065585, 'epoch': 0.6}
 60%|██████    | 1272/2117 [42:47<26:48,  1.90s/it] 60%|██████    | 1273/2117 [42:50<28:59,  2.06s/it]                                                   {'loss': 1.1536, 'learning_rate': 0.00014961660916922606, 'epoch': 0.6}
 60%|██████    | 1273/2117 [42:50<28:59,  2.06s/it] 60%|██████    | 1274/2117 [42:52<28:57,  2.06s/it]                                                   {'loss': 1.2474, 'learning_rate': 0.00014931520558707627, 'epoch': 0.6}
 60%|██████    | 1274/2117 [42:52<28:57,  2.06s/it] 60%|██████    | 1275/2117 [42:54<29:10,  2.08s/it]                                                   {'loss': 1.145, 'learning_rate': 0.00014901392496540665, 'epoch': 0.6}
 60%|██████    | 1275/2117 [42:54<29:10,  2.08s/it] 60%|██████    | 1276/2117 [42:56<28:09,  2.01s/it]                                                   {'loss': 1.1519, 'learning_rate': 0.00014871276803511896, 'epoch': 0.6}
 60%|██████    | 1276/2117 [42:56<28:09,  2.01s/it] 60%|██████    | 1277/2117 [42:58<27:50,  1.99s/it]                                                   {'loss': 1.1699, 'learning_rate': 0.00014841173552681514, 'epoch': 0.6}
 60%|██████    | 1277/2117 [42:58<27:50,  1.99s/it] 60%|██████    | 1278/2117 [43:00<27:28,  1.96s/it]                                                   {'loss': 1.2612, 'learning_rate': 0.00014811082817079503, 'epoch': 0.6}
 60%|██████    | 1278/2117 [43:00<27:28,  1.96s/it] 60%|██████    | 1279/2117 [43:01<27:06,  1.94s/it]                                                   {'loss': 1.4188, 'learning_rate': 0.00014781004669705495, 'epoch': 0.6}
 60%|██████    | 1279/2117 [43:01<27:06,  1.94s/it] 60%|██████    | 1280/2117 [43:04<28:35,  2.05s/it]                                                   {'loss': 1.4395, 'learning_rate': 0.00014750939183528575, 'epoch': 0.6}
 60%|██████    | 1280/2117 [43:04<28:35,  2.05s/it] 61%|██████    | 1281/2117 [43:06<30:17,  2.17s/it]                                                   {'loss': 1.4652, 'learning_rate': 0.0001472088643148713, 'epoch': 0.6}
 61%|██████    | 1281/2117 [43:06<30:17,  2.17s/it] 61%|██████    | 1282/2117 [43:08<30:14,  2.17s/it]                                                   {'loss': 1.0477, 'learning_rate': 0.00014690846486488645, 'epoch': 0.61}
 61%|██████    | 1282/2117 [43:08<30:14,  2.17s/it] 61%|██████    | 1283/2117 [43:11<30:17,  2.18s/it]                                                   {'loss': 1.1328, 'learning_rate': 0.00014660819421409528, 'epoch': 0.61}
 61%|██████    | 1283/2117 [43:11<30:17,  2.18s/it] 61%|██████    | 1284/2117 [43:13<29:36,  2.13s/it]                                                   {'loss': 1.0984, 'learning_rate': 0.00014630805309094938, 'epoch': 0.61}
 61%|██████    | 1284/2117 [43:13<29:36,  2.13s/it] 61%|██████    | 1285/2117 [43:15<29:03,  2.10s/it]                                                   {'loss': 1.2177, 'learning_rate': 0.0001460080422235864, 'epoch': 0.61}
 61%|██████    | 1285/2117 [43:15<29:03,  2.10s/it] 61%|██████    | 1286/2117 [43:17<28:59,  2.09s/it]                                                   {'loss': 1.4792, 'learning_rate': 0.00014570816233982762, 'epoch': 0.61}
 61%|██████    | 1286/2117 [43:17<28:59,  2.09s/it] 61%|██████    | 1287/2117 [43:19<28:55,  2.09s/it]                                                   {'loss': 1.317, 'learning_rate': 0.0001454084141671768, 'epoch': 0.61}
 61%|██████    | 1287/2117 [43:19<28:55,  2.09s/it] 61%|██████    | 1288/2117 [43:21<27:30,  1.99s/it]                                                   {'loss': 1.4423, 'learning_rate': 0.000145108798432818, 'epoch': 0.61}
 61%|██████    | 1288/2117 [43:21<27:30,  1.99s/it] 61%|██████    | 1289/2117 [43:22<26:05,  1.89s/it]                                                   {'loss': 1.0848, 'learning_rate': 0.00014480931586361426, 'epoch': 0.61}
 61%|██████    | 1289/2117 [43:22<26:05,  1.89s/it] 61%|██████    | 1290/2117 [43:24<26:38,  1.93s/it]                                                   {'loss': 1.3578, 'learning_rate': 0.00014450996718610515, 'epoch': 0.61}
 61%|██████    | 1290/2117 [43:24<26:38,  1.93s/it] 61%|██████    | 1291/2117 [43:26<27:14,  1.98s/it]                                                   {'loss': 1.4258, 'learning_rate': 0.00014421075312650577, 'epoch': 0.61}
 61%|██████    | 1291/2117 [43:26<27:14,  1.98s/it] 61%|██████    | 1292/2117 [43:28<27:48,  2.02s/it]                                                   {'loss': 1.2835, 'learning_rate': 0.0001439116744107046, 'epoch': 0.61}
 61%|██████    | 1292/2117 [43:28<27:48,  2.02s/it] 61%|██████    | 1293/2117 [43:31<28:05,  2.05s/it]                                                   {'loss': 1.1916, 'learning_rate': 0.00014361273176426165, 'epoch': 0.61}
 61%|██████    | 1293/2117 [43:31<28:05,  2.05s/it] 61%|██████    | 1294/2117 [43:33<27:43,  2.02s/it]                                                   {'loss': 1.3486, 'learning_rate': 0.00014331392591240675, 'epoch': 0.61}
 61%|██████    | 1294/2117 [43:33<27:43,  2.02s/it] 61%|██████    | 1295/2117 [43:35<29:56,  2.19s/it]                                                   {'loss': 1.3556, 'learning_rate': 0.0001430152575800381, 'epoch': 0.61}
 61%|██████    | 1295/2117 [43:35<29:56,  2.19s/it] 61%|██████    | 1296/2117 [43:37<28:50,  2.11s/it]                                                   {'loss': 1.2307, 'learning_rate': 0.00014271672749172027, 'epoch': 0.61}
 61%|██████    | 1296/2117 [43:37<28:50,  2.11s/it] 61%|██████▏   | 1297/2117 [43:39<28:19,  2.07s/it]                                                   {'loss': 1.4525, 'learning_rate': 0.00014241833637168222, 'epoch': 0.61}
 61%|██████▏   | 1297/2117 [43:39<28:19,  2.07s/it] 61%|██████▏   | 1298/2117 [43:41<27:38,  2.03s/it]                                                   {'loss': 1.2207, 'learning_rate': 0.00014212008494381593, 'epoch': 0.61}
 61%|██████▏   | 1298/2117 [43:41<27:38,  2.03s/it] 61%|██████▏   | 1299/2117 [43:43<26:27,  1.94s/it]                                                   {'loss': 1.3679, 'learning_rate': 0.0001418219739316745, 'epoch': 0.61}
 61%|██████▏   | 1299/2117 [43:43<26:27,  1.94s/it] 61%|██████▏   | 1300/2117 [43:44<25:47,  1.89s/it]                                                   {'loss': 0.8475, 'learning_rate': 0.00014152400405847043, 'epoch': 0.61}
 61%|██████▏   | 1300/2117 [43:44<25:47,  1.89s/it] 61%|██████▏   | 1301/2117 [43:46<26:14,  1.93s/it]                                                   {'loss': 1.2213, 'learning_rate': 0.00014122617604707364, 'epoch': 0.61}
 61%|██████▏   | 1301/2117 [43:46<26:14,  1.93s/it] 62%|██████▏   | 1302/2117 [43:48<26:22,  1.94s/it]                                                   {'loss': 1.1242, 'learning_rate': 0.00014092849062001, 'epoch': 0.61}
 62%|██████▏   | 1302/2117 [43:48<26:22,  1.94s/it] 62%|██████▏   | 1303/2117 [43:51<27:21,  2.02s/it]                                                   {'loss': 1.3462, 'learning_rate': 0.0001406309484994595, 'epoch': 0.62}
 62%|██████▏   | 1303/2117 [43:51<27:21,  2.02s/it] 62%|██████▏   | 1304/2117 [43:52<26:33,  1.96s/it]                                                   {'loss': 1.4102, 'learning_rate': 0.00014033355040725458, 'epoch': 0.62}
 62%|██████▏   | 1304/2117 [43:52<26:33,  1.96s/it] 62%|██████▏   | 1305/2117 [43:54<26:42,  1.97s/it]                                                   {'loss': 1.3565, 'learning_rate': 0.00014003629706487792, 'epoch': 0.62}
 62%|██████▏   | 1305/2117 [43:54<26:42,  1.97s/it] 62%|██████▏   | 1306/2117 [43:56<26:04,  1.93s/it]                                                   {'loss': 1.2443, 'learning_rate': 0.00013973918919346135, 'epoch': 0.62}
 62%|██████▏   | 1306/2117 [43:56<26:04,  1.93s/it] 62%|██████▏   | 1307/2117 [43:58<26:35,  1.97s/it]                                                   {'loss': 1.4912, 'learning_rate': 0.00013944222751378368, 'epoch': 0.62}
 62%|██████▏   | 1307/2117 [43:58<26:35,  1.97s/it] 62%|██████▏   | 1308/2117 [44:00<27:10,  2.01s/it]                                                   {'loss': 1.4366, 'learning_rate': 0.00013914541274626915, 'epoch': 0.62}
 62%|██████▏   | 1308/2117 [44:00<27:10,  2.01s/it] 62%|██████▏   | 1309/2117 [44:02<26:59,  2.00s/it]                                                   {'loss': 1.2756, 'learning_rate': 0.0001388487456109854, 'epoch': 0.62}
 62%|██████▏   | 1309/2117 [44:02<26:59,  2.00s/it] 62%|██████▏   | 1310/2117 [44:05<27:33,  2.05s/it]                                                   {'loss': 1.2778, 'learning_rate': 0.00013855222682764216, 'epoch': 0.62}
 62%|██████▏   | 1310/2117 [44:05<27:33,  2.05s/it] 62%|██████▏   | 1311/2117 [44:07<27:14,  2.03s/it]                                                   {'loss': 1.4932, 'learning_rate': 0.00013825585711558906, 'epoch': 0.62}
 62%|██████▏   | 1311/2117 [44:07<27:14,  2.03s/it] 62%|██████▏   | 1312/2117 [44:09<27:27,  2.05s/it]                                                   {'loss': 1.2772, 'learning_rate': 0.0001379596371938141, 'epoch': 0.62}
 62%|██████▏   | 1312/2117 [44:09<27:27,  2.05s/it] 62%|██████▏   | 1313/2117 [44:11<28:10,  2.10s/it]                                                   {'loss': 1.2692, 'learning_rate': 0.00013766356778094205, 'epoch': 0.62}
 62%|██████▏   | 1313/2117 [44:11<28:10,  2.10s/it] 62%|██████▏   | 1314/2117 [44:13<26:39,  1.99s/it]                                                   {'loss': 1.1895, 'learning_rate': 0.00013736764959523242, 'epoch': 0.62}
 62%|██████▏   | 1314/2117 [44:13<26:39,  1.99s/it] 62%|██████▏   | 1315/2117 [44:15<26:13,  1.96s/it]                                                   {'loss': 1.3382, 'learning_rate': 0.0001370718833545779, 'epoch': 0.62}
 62%|██████▏   | 1315/2117 [44:15<26:13,  1.96s/it] 62%|██████▏   | 1316/2117 [44:17<26:30,  1.99s/it]                                                   {'loss': 1.337, 'learning_rate': 0.00013677626977650256, 'epoch': 0.62}
 62%|██████▏   | 1316/2117 [44:17<26:30,  1.99s/it] 62%|██████▏   | 1317/2117 [44:19<26:35,  1.99s/it]                                                   {'loss': 1.1632, 'learning_rate': 0.00013648080957816, 'epoch': 0.62}
 62%|██████▏   | 1317/2117 [44:19<26:35,  1.99s/it] 62%|██████▏   | 1318/2117 [44:21<27:04,  2.03s/it]                                                   {'loss': 1.1321, 'learning_rate': 0.00013618550347633187, 'epoch': 0.62}
 62%|██████▏   | 1318/2117 [44:21<27:04,  2.03s/it] 62%|██████▏   | 1319/2117 [44:23<26:18,  1.98s/it]                                                   {'loss': 1.1655, 'learning_rate': 0.000135890352187426, 'epoch': 0.62}
 62%|██████▏   | 1319/2117 [44:23<26:18,  1.98s/it] 62%|██████▏   | 1320/2117 [44:24<25:38,  1.93s/it]                                                   {'loss': 1.3333, 'learning_rate': 0.00013559535642747447, 'epoch': 0.62}
 62%|██████▏   | 1320/2117 [44:24<25:38,  1.93s/it] 62%|██████▏   | 1321/2117 [44:27<26:52,  2.03s/it]                                                   {'loss': 1.3118, 'learning_rate': 0.00013530051691213217, 'epoch': 0.62}
 62%|██████▏   | 1321/2117 [44:27<26:52,  2.03s/it] 62%|██████▏   | 1322/2117 [44:29<26:45,  2.02s/it]                                                   {'loss': 1.4974, 'learning_rate': 0.00013500583435667495, 'epoch': 0.62}
 62%|██████▏   | 1322/2117 [44:29<26:45,  2.02s/it] 62%|██████▏   | 1323/2117 [44:30<26:01,  1.97s/it]                                                   {'loss': 1.2056, 'learning_rate': 0.00013471130947599792, 'epoch': 0.62}
 62%|██████▏   | 1323/2117 [44:30<26:01,  1.97s/it] 63%|██████▎   | 1324/2117 [44:32<25:32,  1.93s/it]                                                   {'loss': 1.1723, 'learning_rate': 0.00013441694298461357, 'epoch': 0.63}
 63%|██████▎   | 1324/2117 [44:32<25:32,  1.93s/it] 63%|██████▎   | 1325/2117 [44:34<25:59,  1.97s/it]                                                   {'loss': 1.6037, 'learning_rate': 0.00013412273559665008, 'epoch': 0.63}
 63%|██████▎   | 1325/2117 [44:34<25:59,  1.97s/it] 63%|██████▎   | 1326/2117 [44:36<26:00,  1.97s/it]                                                   {'loss': 1.0672, 'learning_rate': 0.00013382868802584992, 'epoch': 0.63}
 63%|██████▎   | 1326/2117 [44:36<26:00,  1.97s/it] 63%|██████▎   | 1327/2117 [44:38<25:33,  1.94s/it]                                                   {'loss': 1.2062, 'learning_rate': 0.00013353480098556752, 'epoch': 0.63}
 63%|██████▎   | 1327/2117 [44:38<25:33,  1.94s/it] 63%|██████▎   | 1328/2117 [44:40<25:57,  1.97s/it]                                                   {'loss': 1.3481, 'learning_rate': 0.00013324107518876814, 'epoch': 0.63}
 63%|██████▎   | 1328/2117 [44:40<25:57,  1.97s/it] 63%|██████▎   | 1329/2117 [44:43<27:00,  2.06s/it]                                                   {'loss': 1.2264, 'learning_rate': 0.00013294751134802565, 'epoch': 0.63}
 63%|██████▎   | 1329/2117 [44:43<27:00,  2.06s/it] 63%|██████▎   | 1330/2117 [44:44<26:27,  2.02s/it]                                                   {'loss': 1.36, 'learning_rate': 0.00013265411017552125, 'epoch': 0.63}
 63%|██████▎   | 1330/2117 [44:44<26:27,  2.02s/it] 63%|██████▎   | 1331/2117 [44:46<25:33,  1.95s/it]                                                   {'loss': 1.0622, 'learning_rate': 0.00013236087238304117, 'epoch': 0.63}
 63%|██████▎   | 1331/2117 [44:46<25:33,  1.95s/it] 63%|██████▎   | 1332/2117 [44:48<25:21,  1.94s/it]                                                   {'loss': 1.3958, 'learning_rate': 0.00013206779868197565, 'epoch': 0.63}
 63%|██████▎   | 1332/2117 [44:48<25:21,  1.94s/it] 63%|██████▎   | 1333/2117 [44:50<24:48,  1.90s/it]                                                   {'loss': 1.2677, 'learning_rate': 0.00013177488978331664, 'epoch': 0.63}
 63%|██████▎   | 1333/2117 [44:50<24:48,  1.90s/it] 63%|██████▎   | 1334/2117 [44:52<25:54,  1.98s/it]                                                   {'loss': 1.283, 'learning_rate': 0.00013148214639765638, 'epoch': 0.63}
 63%|██████▎   | 1334/2117 [44:52<25:54,  1.98s/it] 63%|██████▎   | 1335/2117 [44:54<27:16,  2.09s/it]                                                   {'loss': 1.5159, 'learning_rate': 0.0001311895692351854, 'epoch': 0.63}
 63%|██████▎   | 1335/2117 [44:55<27:16,  2.09s/it] 63%|██████▎   | 1336/2117 [44:56<26:09,  2.01s/it]                                                   {'loss': 1.3298, 'learning_rate': 0.00013089715900569115, 'epoch': 0.63}
 63%|██████▎   | 1336/2117 [44:56<26:09,  2.01s/it] 63%|██████▎   | 1337/2117 [44:58<24:48,  1.91s/it]                                                   {'loss': 0.898, 'learning_rate': 0.00013060491641855612, 'epoch': 0.63}
 63%|██████▎   | 1337/2117 [44:58<24:48,  1.91s/it] 63%|██████▎   | 1338/2117 [45:00<24:25,  1.88s/it]                                                   {'loss': 1.2589, 'learning_rate': 0.00013031284218275596, 'epoch': 0.63}
 63%|██████▎   | 1338/2117 [45:00<24:25,  1.88s/it] 63%|██████▎   | 1339/2117 [45:03<28:25,  2.19s/it]                                                   {'loss': 1.077, 'learning_rate': 0.00013002093700685796, 'epoch': 0.63}
 63%|██████▎   | 1339/2117 [45:03<28:25,  2.19s/it] 63%|██████▎   | 1340/2117 [45:05<27:15,  2.10s/it]                                                   {'loss': 1.2823, 'learning_rate': 0.0001297292015990193, 'epoch': 0.63}
 63%|██████▎   | 1340/2117 [45:05<27:15,  2.10s/it] 63%|██████▎   | 1341/2117 [45:07<30:02,  2.32s/it]                                                   {'loss': 1.4288, 'learning_rate': 0.00012943763666698542, 'epoch': 0.63}
 63%|██████▎   | 1341/2117 [45:07<30:02,  2.32s/it] 63%|██████▎   | 1342/2117 [45:09<28:09,  2.18s/it]                                                   {'loss': 1.2173, 'learning_rate': 0.00012914624291808795, 'epoch': 0.63}
 63%|██████▎   | 1342/2117 [45:09<28:09,  2.18s/it] 63%|██████▎   | 1343/2117 [45:11<25:47,  2.00s/it]                                                   {'loss': 0.9642, 'learning_rate': 0.0001288550210592433, 'epoch': 0.63}
 63%|██████▎   | 1343/2117 [45:11<25:47,  2.00s/it] 63%|██████▎   | 1344/2117 [45:13<25:50,  2.01s/it]                                                   {'loss': 1.3113, 'learning_rate': 0.00012856397179695098, 'epoch': 0.63}
 63%|██████▎   | 1344/2117 [45:13<25:50,  2.01s/it] 64%|██████▎   | 1345/2117 [45:15<24:55,  1.94s/it]                                                   {'loss': 1.3067, 'learning_rate': 0.00012827309583729183, 'epoch': 0.64}
 64%|██████▎   | 1345/2117 [45:15<24:55,  1.94s/it] 64%|██████▎   | 1346/2117 [45:17<26:28,  2.06s/it]                                                   {'loss': 1.3371, 'learning_rate': 0.000127982393885926, 'epoch': 0.64}
 64%|██████▎   | 1346/2117 [45:17<26:28,  2.06s/it] 64%|██████▎   | 1347/2117 [45:19<25:55,  2.02s/it]                                                   {'loss': 1.5906, 'learning_rate': 0.00012769186664809173, 'epoch': 0.64}
 64%|██████▎   | 1347/2117 [45:19<25:55,  2.02s/it] 64%|██████▎   | 1348/2117 [45:21<25:48,  2.01s/it]                                                   {'loss': 1.3334, 'learning_rate': 0.00012740151482860333, 'epoch': 0.64}
 64%|██████▎   | 1348/2117 [45:21<25:48,  2.01s/it] 64%|██████▎   | 1349/2117 [45:23<25:55,  2.03s/it]                                                   {'loss': 1.2184, 'learning_rate': 0.00012711133913184957, 'epoch': 0.64}
 64%|██████▎   | 1349/2117 [45:23<25:55,  2.03s/it] 64%|██████▍   | 1350/2117 [45:25<24:57,  1.95s/it]                                                   {'loss': 1.0252, 'learning_rate': 0.00012682134026179186, 'epoch': 0.64}
 64%|██████▍   | 1350/2117 [45:25<24:57,  1.95s/it] 64%|██████▍   | 1351/2117 [45:27<24:35,  1.93s/it]                                                   {'loss': 1.3463, 'learning_rate': 0.0001265315189219628, 'epoch': 0.64}
 64%|██████▍   | 1351/2117 [45:27<24:35,  1.93s/it] 64%|██████▍   | 1352/2117 [45:29<25:51,  2.03s/it]                                                   {'loss': 1.4166, 'learning_rate': 0.0001262418758154642, 'epoch': 0.64}
 64%|██████▍   | 1352/2117 [45:29<25:51,  2.03s/it] 64%|██████▍   | 1353/2117 [45:31<25:58,  2.04s/it]                                                   {'loss': 1.7178, 'learning_rate': 0.00012595241164496538, 'epoch': 0.64}
 64%|██████▍   | 1353/2117 [45:31<25:58,  2.04s/it] 64%|██████▍   | 1354/2117 [45:33<25:33,  2.01s/it]                                                   {'loss': 1.3719, 'learning_rate': 0.00012566312711270175, 'epoch': 0.64}
 64%|██████▍   | 1354/2117 [45:33<25:33,  2.01s/it] 64%|██████▍   | 1355/2117 [45:35<25:23,  2.00s/it]                                                   {'loss': 1.2142, 'learning_rate': 0.00012537402292047288, 'epoch': 0.64}
 64%|██████▍   | 1355/2117 [45:35<25:23,  2.00s/it] 64%|██████▍   | 1356/2117 [45:37<24:52,  1.96s/it]                                                   {'loss': 1.1583, 'learning_rate': 0.00012508509976964072, 'epoch': 0.64}
 64%|██████▍   | 1356/2117 [45:37<24:52,  1.96s/it] 64%|██████▍   | 1357/2117 [45:39<26:38,  2.10s/it]                                                   {'loss': 1.2868, 'learning_rate': 0.00012479635836112814, 'epoch': 0.64}
 64%|██████▍   | 1357/2117 [45:39<26:38,  2.10s/it] 64%|██████▍   | 1358/2117 [45:41<26:34,  2.10s/it]                                                   {'loss': 1.1618, 'learning_rate': 0.00012450779939541701, 'epoch': 0.64}
 64%|██████▍   | 1358/2117 [45:41<26:34,  2.10s/it] 64%|██████▍   | 1359/2117 [45:43<25:40,  2.03s/it]                                                   {'loss': 1.1537, 'learning_rate': 0.0001242194235725467, 'epoch': 0.64}
 64%|██████▍   | 1359/2117 [45:43<25:40,  2.03s/it] 64%|██████▍   | 1360/2117 [45:45<25:49,  2.05s/it]                                                   {'loss': 1.4446, 'learning_rate': 0.0001239312315921123, 'epoch': 0.64}
 64%|██████▍   | 1360/2117 [45:45<25:49,  2.05s/it] 64%|██████▍   | 1361/2117 [45:47<25:39,  2.04s/it]                                                   {'loss': 1.0411, 'learning_rate': 0.0001236432241532627, 'epoch': 0.64}
 64%|██████▍   | 1361/2117 [45:47<25:39,  2.04s/it] 64%|██████▍   | 1362/2117 [45:49<25:12,  2.00s/it]                                                   {'loss': 1.2367, 'learning_rate': 0.00012335540195469925, 'epoch': 0.64}
 64%|██████▍   | 1362/2117 [45:49<25:12,  2.00s/it] 64%|██████▍   | 1363/2117 [45:53<31:16,  2.49s/it]                                                   {'loss': 1.4935, 'learning_rate': 0.0001230677656946739, 'epoch': 0.64}
 64%|██████▍   | 1363/2117 [45:53<31:16,  2.49s/it] 64%|██████▍   | 1364/2117 [45:55<29:56,  2.39s/it]                                                   {'loss': 1.3403, 'learning_rate': 0.0001227803160709876, 'epoch': 0.64}
 64%|██████▍   | 1364/2117 [45:55<29:56,  2.39s/it] 64%|██████▍   | 1365/2117 [45:57<29:10,  2.33s/it]                                                   {'loss': 1.22, 'learning_rate': 0.00012249305378098828, 'epoch': 0.64}
 64%|██████▍   | 1365/2117 [45:57<29:10,  2.33s/it] 65%|██████▍   | 1366/2117 [45:59<27:44,  2.22s/it]                                                   {'loss': 1.4497, 'learning_rate': 0.00012220597952156955, 'epoch': 0.65}
 65%|██████▍   | 1366/2117 [45:59<27:44,  2.22s/it] 65%|██████▍   | 1367/2117 [46:01<28:09,  2.25s/it]                                                   {'loss': 1.4069, 'learning_rate': 0.00012191909398916901, 'epoch': 0.65}
 65%|██████▍   | 1367/2117 [46:01<28:09,  2.25s/it] 65%|██████▍   | 1368/2117 [46:03<26:27,  2.12s/it]                                                   {'loss': 1.2646, 'learning_rate': 0.00012163239787976603, 'epoch': 0.65}
 65%|██████▍   | 1368/2117 [46:03<26:27,  2.12s/it] 65%|██████▍   | 1369/2117 [46:05<26:44,  2.14s/it]                                                   {'loss': 1.499, 'learning_rate': 0.00012134589188888088, 'epoch': 0.65}
 65%|██████▍   | 1369/2117 [46:05<26:44,  2.14s/it] 65%|██████▍   | 1370/2117 [46:07<25:04,  2.01s/it]                                                   {'loss': 1.3049, 'learning_rate': 0.00012105957671157222, 'epoch': 0.65}
 65%|██████▍   | 1370/2117 [46:07<25:04,  2.01s/it] 65%|██████▍   | 1371/2117 [46:09<24:46,  1.99s/it]                                                   {'loss': 1.5111, 'learning_rate': 0.00012077345304243617, 'epoch': 0.65}
 65%|██████▍   | 1371/2117 [46:09<24:46,  1.99s/it] 65%|██████▍   | 1372/2117 [46:11<24:21,  1.96s/it]                                                   {'loss': 1.2329, 'learning_rate': 0.00012048752157560387, 'epoch': 0.65}
 65%|██████▍   | 1372/2117 [46:11<24:21,  1.96s/it] 65%|██████▍   | 1373/2117 [46:13<23:55,  1.93s/it]                                                   {'loss': 1.3798, 'learning_rate': 0.00012020178300474043, 'epoch': 0.65}
 65%|██████▍   | 1373/2117 [46:13<23:55,  1.93s/it] 65%|██████▍   | 1374/2117 [46:15<24:27,  1.97s/it]                                                   {'loss': 1.2576, 'learning_rate': 0.00011991623802304302, 'epoch': 0.65}
 65%|██████▍   | 1374/2117 [46:15<24:27,  1.97s/it] 65%|██████▍   | 1375/2117 [46:17<24:49,  2.01s/it]                                                   {'loss': 1.1369, 'learning_rate': 0.00011963088732323906, 'epoch': 0.65}
 65%|██████▍   | 1375/2117 [46:17<24:49,  2.01s/it] 65%|██████▍   | 1376/2117 [46:19<25:50,  2.09s/it]                                                   {'loss': 1.3211, 'learning_rate': 0.00011934573159758456, 'epoch': 0.65}
 65%|██████▍   | 1376/2117 [46:19<25:50,  2.09s/it] 65%|██████▌   | 1377/2117 [46:21<24:33,  1.99s/it]                                                   {'loss': 1.4205, 'learning_rate': 0.00011906077153786271, 'epoch': 0.65}
 65%|██████▌   | 1377/2117 [46:21<24:33,  1.99s/it] 65%|██████▌   | 1378/2117 [46:23<24:19,  1.98s/it]                                                   {'loss': 1.3222, 'learning_rate': 0.000118776007835382, 'epoch': 0.65}
 65%|██████▌   | 1378/2117 [46:23<24:19,  1.98s/it] 65%|██████▌   | 1379/2117 [46:25<24:11,  1.97s/it]                                                   {'loss': 1.2918, 'learning_rate': 0.00011849144118097442, 'epoch': 0.65}
 65%|██████▌   | 1379/2117 [46:25<24:11,  1.97s/it] 65%|██████▌   | 1380/2117 [46:27<24:48,  2.02s/it]                                                   {'loss': 1.217, 'learning_rate': 0.00011820707226499399, 'epoch': 0.65}
 65%|██████▌   | 1380/2117 [46:27<24:48,  2.02s/it] 65%|██████▌   | 1381/2117 [46:30<27:07,  2.21s/it]                                                   {'loss': 1.5136, 'learning_rate': 0.00011792290177731504, 'epoch': 0.65}
 65%|██████▌   | 1381/2117 [46:30<27:07,  2.21s/it] 65%|██████▌   | 1382/2117 [46:32<25:33,  2.09s/it]                                                   {'loss': 1.3777, 'learning_rate': 0.00011763893040733068, 'epoch': 0.65}
 65%|██████▌   | 1382/2117 [46:32<25:33,  2.09s/it] 65%|██████▌   | 1383/2117 [46:34<26:31,  2.17s/it]                                                   {'loss': 1.3681, 'learning_rate': 0.00011735515884395061, 'epoch': 0.65}
 65%|██████▌   | 1383/2117 [46:34<26:31,  2.17s/it] 65%|██████▌   | 1384/2117 [46:36<26:05,  2.14s/it]                                                   {'loss': 0.8953, 'learning_rate': 0.00011707158777559999, 'epoch': 0.65}
 65%|██████▌   | 1384/2117 [46:36<26:05,  2.14s/it] 65%|██████▌   | 1385/2117 [46:38<26:23,  2.16s/it]                                                   {'loss': 1.2376, 'learning_rate': 0.00011678821789021768, 'epoch': 0.65}
 65%|██████▌   | 1385/2117 [46:38<26:23,  2.16s/it] 65%|██████▌   | 1386/2117 [46:40<24:43,  2.03s/it]                                                   {'loss': 0.9827, 'learning_rate': 0.00011650504987525441, 'epoch': 0.65}
 65%|██████▌   | 1386/2117 [46:40<24:43,  2.03s/it] 66%|██████▌   | 1387/2117 [46:42<24:06,  1.98s/it]                                                   {'loss': 1.3995, 'learning_rate': 0.00011622208441767093, 'epoch': 0.65}
 66%|██████▌   | 1387/2117 [46:42<24:06,  1.98s/it] 66%|██████▌   | 1388/2117 [46:44<24:04,  1.98s/it]                                                   {'loss': 1.4319, 'learning_rate': 0.00011593932220393702, 'epoch': 0.66}
 66%|██████▌   | 1388/2117 [46:44<24:04,  1.98s/it] 66%|██████▌   | 1389/2117 [46:46<25:06,  2.07s/it]                                                   {'loss': 1.5205, 'learning_rate': 0.00011565676392002909, 'epoch': 0.66}
 66%|██████▌   | 1389/2117 [46:46<25:06,  2.07s/it] 66%|██████▌   | 1390/2117 [46:48<24:37,  2.03s/it]                                                   {'loss': 1.1702, 'learning_rate': 0.00011537441025142888, 'epoch': 0.66}
 66%|██████▌   | 1390/2117 [46:48<24:37,  2.03s/it] 66%|██████▌   | 1391/2117 [46:50<23:54,  1.98s/it]                                                   {'loss': 1.2451, 'learning_rate': 0.00011509226188312178, 'epoch': 0.66}
 66%|██████▌   | 1391/2117 [46:50<23:54,  1.98s/it] 66%|██████▌   | 1392/2117 [46:52<24:22,  2.02s/it]                                                   {'loss': 1.4108, 'learning_rate': 0.00011481031949959508, 'epoch': 0.66}
 66%|██████▌   | 1392/2117 [46:52<24:22,  2.02s/it] 66%|██████▌   | 1393/2117 [46:54<24:16,  2.01s/it]                                                   {'loss': 1.235, 'learning_rate': 0.00011452858378483652, 'epoch': 0.66}
 66%|██████▌   | 1393/2117 [46:54<24:16,  2.01s/it] 66%|██████▌   | 1394/2117 [46:56<25:12,  2.09s/it]                                                   {'loss': 1.3461, 'learning_rate': 0.0001142470554223321, 'epoch': 0.66}
 66%|██████▌   | 1394/2117 [46:56<25:12,  2.09s/it] 66%|██████▌   | 1395/2117 [46:58<25:38,  2.13s/it]                                                   {'loss': 1.1677, 'learning_rate': 0.00011396573509506517, 'epoch': 0.66}
 66%|██████▌   | 1395/2117 [46:58<25:38,  2.13s/it] 66%|██████▌   | 1396/2117 [47:01<25:34,  2.13s/it]                                                   {'loss': 1.2003, 'learning_rate': 0.00011368462348551418, 'epoch': 0.66}
 66%|██████▌   | 1396/2117 [47:01<25:34,  2.13s/it] 66%|██████▌   | 1397/2117 [47:03<25:12,  2.10s/it]                                                   {'loss': 1.3054, 'learning_rate': 0.0001134037212756513, 'epoch': 0.66}
 66%|██████▌   | 1397/2117 [47:03<25:12,  2.10s/it] 66%|██████▌   | 1398/2117 [47:05<25:05,  2.09s/it]                                                   {'loss': 1.7106, 'learning_rate': 0.00011312302914694069, 'epoch': 0.66}
 66%|██████▌   | 1398/2117 [47:05<25:05,  2.09s/it] 66%|██████▌   | 1399/2117 [47:07<24:49,  2.07s/it]                                                   {'loss': 1.1096, 'learning_rate': 0.00011284254778033685, 'epoch': 0.66}
 66%|██████▌   | 1399/2117 [47:07<24:49,  2.07s/it] 66%|██████▌   | 1400/2117 [47:09<24:11,  2.02s/it]                                                   {'loss': 1.4595, 'learning_rate': 0.00011256227785628283, 'epoch': 0.66}
 66%|██████▌   | 1400/2117 [47:09<24:11,  2.02s/it] 66%|██████▌   | 1401/2117 [47:10<23:06,  1.94s/it]                                                   {'loss': 0.9698, 'learning_rate': 0.0001122822200547092, 'epoch': 0.66}
 66%|██████▌   | 1401/2117 [47:10<23:06,  1.94s/it] 66%|██████▌   | 1402/2117 [47:12<22:53,  1.92s/it]                                                   {'loss': 1.2934, 'learning_rate': 0.00011200237505503124, 'epoch': 0.66}
 66%|██████▌   | 1402/2117 [47:12<22:53,  1.92s/it] 66%|██████▋   | 1403/2117 [47:14<22:47,  1.91s/it]                                                   {'loss': 1.1179, 'learning_rate': 0.00011172274353614858, 'epoch': 0.66}
 66%|██████▋   | 1403/2117 [47:14<22:47,  1.91s/it] 66%|██████▋   | 1404/2117 [47:18<28:04,  2.36s/it]                                                   {'loss': 1.5195, 'learning_rate': 0.0001114433261764426, 'epoch': 0.66}
 66%|██████▋   | 1404/2117 [47:18<28:04,  2.36s/it] 66%|██████▋   | 1405/2117 [47:19<26:04,  2.20s/it]                                                   {'loss': 1.2414, 'learning_rate': 0.00011116412365377522, 'epoch': 0.66}
 66%|██████▋   | 1405/2117 [47:19<26:04,  2.20s/it] 66%|██████▋   | 1406/2117 [47:21<25:45,  2.17s/it]                                                   {'loss': 1.1524, 'learning_rate': 0.00011088513664548724, 'epoch': 0.66}
 66%|██████▋   | 1406/2117 [47:21<25:45,  2.17s/it] 66%|██████▋   | 1407/2117 [47:23<25:03,  2.12s/it]                                                   {'loss': 1.2442, 'learning_rate': 0.0001106063658283964, 'epoch': 0.66}
 66%|██████▋   | 1407/2117 [47:23<25:03,  2.12s/it] 67%|██████▋   | 1408/2117 [47:25<23:58,  2.03s/it]                                                   {'loss': 1.0068, 'learning_rate': 0.00011032781187879648, 'epoch': 0.66}
 67%|██████▋   | 1408/2117 [47:25<23:58,  2.03s/it] 67%|██████▋   | 1409/2117 [47:27<24:20,  2.06s/it]                                                   {'loss': 1.2076, 'learning_rate': 0.00011004947547245446, 'epoch': 0.67}
 67%|██████▋   | 1409/2117 [47:27<24:20,  2.06s/it] 67%|██████▋   | 1410/2117 [47:30<24:49,  2.11s/it]                                                   {'loss': 1.0662, 'learning_rate': 0.00010977135728460997, 'epoch': 0.67}
 67%|██████▋   | 1410/2117 [47:30<24:49,  2.11s/it] 67%|██████▋   | 1411/2117 [47:32<24:06,  2.05s/it]                                                   {'loss': 1.3129, 'learning_rate': 0.00010949345798997326, 'epoch': 0.67}
 67%|██████▋   | 1411/2117 [47:32<24:06,  2.05s/it] 67%|██████▋   | 1412/2117 [47:33<22:48,  1.94s/it]                                                   {'loss': 1.1221, 'learning_rate': 0.00010921577826272345, 'epoch': 0.67}
 67%|██████▋   | 1412/2117 [47:33<22:48,  1.94s/it] 67%|██████▋   | 1413/2117 [47:35<23:19,  1.99s/it]                                                   {'loss': 1.2171, 'learning_rate': 0.00010893831877650695, 'epoch': 0.67}
 67%|██████▋   | 1413/2117 [47:35<23:19,  1.99s/it] 67%|██████▋   | 1414/2117 [47:37<23:21,  1.99s/it]                                                   {'loss': 1.4596, 'learning_rate': 0.00010866108020443596, 'epoch': 0.67}
 67%|██████▋   | 1414/2117 [47:37<23:21,  1.99s/it] 67%|██████▋   | 1415/2117 [47:39<23:32,  2.01s/it]                                                   {'loss': 1.3664, 'learning_rate': 0.0001083840632190866, 'epoch': 0.67}
 67%|██████▋   | 1415/2117 [47:39<23:32,  2.01s/it] 67%|██████▋   | 1416/2117 [47:41<23:03,  1.97s/it]                                                   {'loss': 1.0676, 'learning_rate': 0.00010810726849249782, 'epoch': 0.67}
 67%|██████▋   | 1416/2117 [47:41<23:03,  1.97s/it] 67%|██████▋   | 1417/2117 [47:43<22:56,  1.97s/it]                                                   {'loss': 1.1301, 'learning_rate': 0.0001078306966961688, 'epoch': 0.67}
 67%|██████▋   | 1417/2117 [47:43<22:56,  1.97s/it] 67%|██████▋   | 1418/2117 [47:45<22:19,  1.92s/it]                                                   {'loss': 1.2053, 'learning_rate': 0.00010755434850105823, 'epoch': 0.67}
 67%|██████▋   | 1418/2117 [47:45<22:19,  1.92s/it] 67%|██████▋   | 1419/2117 [47:47<22:38,  1.95s/it]                                                   {'loss': 1.066, 'learning_rate': 0.0001072782245775825, 'epoch': 0.67}
 67%|██████▋   | 1419/2117 [47:47<22:38,  1.95s/it] 67%|██████▋   | 1420/2117 [47:49<22:42,  1.95s/it]                                                   {'loss': 1.1748, 'learning_rate': 0.00010700232559561341, 'epoch': 0.67}
 67%|██████▋   | 1420/2117 [47:49<22:42,  1.95s/it] 67%|██████▋   | 1421/2117 [47:51<22:26,  1.93s/it]                                                   {'loss': 1.3408, 'learning_rate': 0.00010672665222447764, 'epoch': 0.67}
 67%|██████▋   | 1421/2117 [47:51<22:26,  1.93s/it] 67%|██████▋   | 1422/2117 [47:53<22:20,  1.93s/it]                                                   {'loss': 1.1208, 'learning_rate': 0.00010645120513295412, 'epoch': 0.67}
 67%|██████▋   | 1422/2117 [47:53<22:20,  1.93s/it] 67%|██████▋   | 1423/2117 [47:55<23:32,  2.04s/it]                                                   {'loss': 1.4331, 'learning_rate': 0.00010617598498927304, 'epoch': 0.67}
 67%|██████▋   | 1423/2117 [47:55<23:32,  2.04s/it] 67%|██████▋   | 1424/2117 [47:57<23:07,  2.00s/it]                                                   {'loss': 1.4032, 'learning_rate': 0.00010590099246111394, 'epoch': 0.67}
 67%|██████▋   | 1424/2117 [47:57<23:07,  2.00s/it] 67%|██████▋   | 1425/2117 [47:59<22:29,  1.95s/it]                                                   {'loss': 1.164, 'learning_rate': 0.00010562622821560406, 'epoch': 0.67}
 67%|██████▋   | 1425/2117 [47:59<22:29,  1.95s/it] 67%|██████▋   | 1426/2117 [48:01<22:33,  1.96s/it]                                                   {'loss': 1.0663, 'learning_rate': 0.0001053516929193172, 'epoch': 0.67}
 67%|██████▋   | 1426/2117 [48:01<22:33,  1.96s/it] 67%|██████▋   | 1427/2117 [48:03<23:15,  2.02s/it]                                                   {'loss': 1.1152, 'learning_rate': 0.00010507738723827141, 'epoch': 0.67}
 67%|██████▋   | 1427/2117 [48:03<23:15,  2.02s/it] 67%|██████▋   | 1428/2117 [48:05<23:31,  2.05s/it]                                                   {'loss': 1.0993, 'learning_rate': 0.00010480331183792756, 'epoch': 0.67}
 67%|██████▋   | 1428/2117 [48:05<23:31,  2.05s/it] 68%|██████▊   | 1429/2117 [48:07<23:16,  2.03s/it]                                                   {'loss': 1.1678, 'learning_rate': 0.00010452946738318835, 'epoch': 0.67}
 68%|██████▊   | 1429/2117 [48:07<23:16,  2.03s/it] 68%|██████▊   | 1430/2117 [48:09<23:24,  2.04s/it]                                                   {'loss': 1.4099, 'learning_rate': 0.0001042558545383958, 'epoch': 0.68}
 68%|██████▊   | 1430/2117 [48:09<23:24,  2.04s/it] 68%|██████▊   | 1431/2117 [48:11<23:06,  2.02s/it]                                                   {'loss': 1.1813, 'learning_rate': 0.00010398247396733021, 'epoch': 0.68}
 68%|██████▊   | 1431/2117 [48:11<23:06,  2.02s/it] 68%|██████▊   | 1432/2117 [48:13<22:34,  1.98s/it]                                                   {'loss': 1.0752, 'learning_rate': 0.00010370932633320837, 'epoch': 0.68}
 68%|██████▊   | 1432/2117 [48:13<22:34,  1.98s/it] 68%|██████▊   | 1433/2117 [48:15<23:40,  2.08s/it]                                                   {'loss': 1.4635, 'learning_rate': 0.00010343641229868188, 'epoch': 0.68}
 68%|██████▊   | 1433/2117 [48:15<23:40,  2.08s/it] 68%|██████▊   | 1434/2117 [48:17<23:16,  2.04s/it]                                                   {'loss': 1.197, 'learning_rate': 0.00010316373252583593, 'epoch': 0.68}
 68%|██████▊   | 1434/2117 [48:17<23:16,  2.04s/it] 68%|██████▊   | 1435/2117 [48:19<22:51,  2.01s/it]                                                   {'loss': 1.1872, 'learning_rate': 0.0001028912876761869, 'epoch': 0.68}
 68%|██████▊   | 1435/2117 [48:19<22:51,  2.01s/it] 68%|██████▊   | 1436/2117 [48:21<22:19,  1.97s/it]                                                   {'loss': 1.1227, 'learning_rate': 0.00010261907841068174, 'epoch': 0.68}
 68%|██████▊   | 1436/2117 [48:21<22:19,  1.97s/it] 68%|██████▊   | 1437/2117 [48:23<23:05,  2.04s/it]                                                   {'loss': 1.2541, 'learning_rate': 0.0001023471053896956, 'epoch': 0.68}
 68%|██████▊   | 1437/2117 [48:23<23:05,  2.04s/it] 68%|██████▊   | 1438/2117 [48:25<23:15,  2.06s/it]                                                   {'loss': 1.0352, 'learning_rate': 0.00010207536927303056, 'epoch': 0.68}
 68%|██████▊   | 1438/2117 [48:25<23:15,  2.06s/it] 68%|██████▊   | 1439/2117 [48:27<22:50,  2.02s/it]                                                   {'loss': 1.1582, 'learning_rate': 0.00010180387071991395, 'epoch': 0.68}
 68%|██████▊   | 1439/2117 [48:27<22:50,  2.02s/it] 68%|██████▊   | 1440/2117 [48:29<22:05,  1.96s/it]                                                   {'loss': 1.1927, 'learning_rate': 0.00010153261038899686, 'epoch': 0.68}
 68%|██████▊   | 1440/2117 [48:29<22:05,  1.96s/it] 68%|██████▊   | 1441/2117 [48:31<21:45,  1.93s/it]                                                   {'loss': 1.1228, 'learning_rate': 0.00010126158893835231, 'epoch': 0.68}
 68%|██████▊   | 1441/2117 [48:31<21:45,  1.93s/it] 68%|██████▊   | 1442/2117 [48:33<23:00,  2.04s/it]                                                   {'loss': 1.2856, 'learning_rate': 0.00010099080702547414, 'epoch': 0.68}
 68%|██████▊   | 1442/2117 [48:33<23:00,  2.04s/it] 68%|██████▊   | 1443/2117 [48:35<22:52,  2.04s/it]                                                   {'loss': 1.4384, 'learning_rate': 0.00010072026530727448, 'epoch': 0.68}
 68%|██████▊   | 1443/2117 [48:35<22:52,  2.04s/it] 68%|██████▊   | 1444/2117 [48:38<23:33,  2.10s/it]                                                   {'loss': 1.1022, 'learning_rate': 0.00010044996444008336, 'epoch': 0.68}
 68%|██████▊   | 1444/2117 [48:38<23:33,  2.10s/it] 68%|██████▊   | 1445/2117 [48:40<24:02,  2.15s/it]                                                   {'loss': 1.3684, 'learning_rate': 0.00010017990507964619, 'epoch': 0.68}
 68%|██████▊   | 1445/2117 [48:40<24:02,  2.15s/it] 68%|██████▊   | 1446/2117 [48:42<23:27,  2.10s/it]                                                   {'loss': 1.18, 'learning_rate': 9.991008788112253e-05, 'epoch': 0.68}
 68%|██████▊   | 1446/2117 [48:42<23:27,  2.10s/it] 68%|██████▊   | 1447/2117 [48:44<23:16,  2.08s/it]                                                   {'loss': 1.4392, 'learning_rate': 9.96405134990845e-05, 'epoch': 0.68}
 68%|██████▊   | 1447/2117 [48:44<23:16,  2.08s/it] 68%|██████▊   | 1448/2117 [48:46<23:29,  2.11s/it]                                                   {'loss': 1.2864, 'learning_rate': 9.937118258751501e-05, 'epoch': 0.68}
 68%|██████▊   | 1448/2117 [48:46<23:29,  2.11s/it] 68%|██████▊   | 1449/2117 [48:48<23:28,  2.11s/it]                                                   {'loss': 1.5951, 'learning_rate': 9.910209579980671e-05, 'epoch': 0.68}
 68%|██████▊   | 1449/2117 [48:48<23:28,  2.11s/it] 68%|██████▊   | 1450/2117 [48:50<24:13,  2.18s/it]                                                   {'loss': 1.237, 'learning_rate': 9.883325378875949e-05, 'epoch': 0.68}
 68%|██████▊   | 1450/2117 [48:50<24:13,  2.18s/it] 69%|██████▊   | 1451/2117 [48:53<24:16,  2.19s/it]                                                   {'loss': 1.25, 'learning_rate': 9.856465720657966e-05, 'epoch': 0.69}
 69%|██████▊   | 1451/2117 [48:53<24:16,  2.19s/it] 69%|██████▊   | 1452/2117 [48:55<23:01,  2.08s/it]                                                   {'loss': 1.0986, 'learning_rate': 9.829630670487826e-05, 'epoch': 0.69}
 69%|██████▊   | 1452/2117 [48:55<23:01,  2.08s/it] 69%|██████▊   | 1453/2117 [48:56<22:26,  2.03s/it]                                                   {'loss': 1.3593, 'learning_rate': 9.802820293466917e-05, 'epoch': 0.69}
 69%|██████▊   | 1453/2117 [48:56<22:26,  2.03s/it] 69%|██████▊   | 1454/2117 [48:59<24:11,  2.19s/it]                                                   {'loss': 1.6713, 'learning_rate': 9.776034654636769e-05, 'epoch': 0.69}
 69%|██████▊   | 1454/2117 [48:59<24:11,  2.19s/it] 69%|██████▊   | 1455/2117 [49:01<24:06,  2.19s/it]                                                   {'loss': 1.1223, 'learning_rate': 9.749273818978908e-05, 'epoch': 0.69}
 69%|██████▊   | 1455/2117 [49:01<24:06,  2.19s/it] 69%|██████▉   | 1456/2117 [49:03<24:05,  2.19s/it]                                                   {'loss': 1.2637, 'learning_rate': 9.722537851414671e-05, 'epoch': 0.69}
 69%|██████▉   | 1456/2117 [49:03<24:05,  2.19s/it] 69%|██████▉   | 1457/2117 [49:06<24:21,  2.22s/it]                                                   {'loss': 1.3128, 'learning_rate': 9.6958268168051e-05, 'epoch': 0.69}
 69%|██████▉   | 1457/2117 [49:06<24:21,  2.22s/it] 69%|██████▉   | 1458/2117 [49:08<23:34,  2.15s/it]                                                   {'loss': 1.3434, 'learning_rate': 9.669140779950707e-05, 'epoch': 0.69}
 69%|██████▉   | 1458/2117 [49:08<23:34,  2.15s/it] 69%|██████▉   | 1459/2117 [49:10<22:39,  2.07s/it]                                                   {'loss': 1.2366, 'learning_rate': 9.642479805591378e-05, 'epoch': 0.69}
 69%|██████▉   | 1459/2117 [49:10<22:39,  2.07s/it] 69%|██████▉   | 1460/2117 [49:11<21:29,  1.96s/it]                                                   {'loss': 1.3496, 'learning_rate': 9.615843958406221e-05, 'epoch': 0.69}
 69%|██████▉   | 1460/2117 [49:11<21:29,  1.96s/it] 69%|██████▉   | 1461/2117 [49:13<21:16,  1.95s/it]                                                   {'loss': 1.1488, 'learning_rate': 9.589233303013335e-05, 'epoch': 0.69}
 69%|██████▉   | 1461/2117 [49:13<21:16,  1.95s/it] 69%|██████▉   | 1462/2117 [49:15<21:11,  1.94s/it]                                                   {'loss': 1.3925, 'learning_rate': 9.56264790396976e-05, 'epoch': 0.69}
 69%|██████▉   | 1462/2117 [49:15<21:11,  1.94s/it] 69%|██████▉   | 1463/2117 [49:17<21:34,  1.98s/it]                                                   {'loss': 1.4061, 'learning_rate': 9.536087825771222e-05, 'epoch': 0.69}
 69%|██████▉   | 1463/2117 [49:17<21:34,  1.98s/it] 69%|██████▉   | 1464/2117 [49:19<21:28,  1.97s/it]                                                   {'loss': 1.0716, 'learning_rate': 9.509553132852044e-05, 'epoch': 0.69}
 69%|██████▉   | 1464/2117 [49:19<21:28,  1.97s/it] 69%|██████▉   | 1465/2117 [49:21<21:30,  1.98s/it]                                                   {'loss': 1.3894, 'learning_rate': 9.483043889584955e-05, 'epoch': 0.69}
 69%|██████▉   | 1465/2117 [49:21<21:30,  1.98s/it] 69%|██████▉   | 1466/2117 [49:23<21:07,  1.95s/it]                                                   {'loss': 1.1413, 'learning_rate': 9.456560160280932e-05, 'epoch': 0.69}
 69%|██████▉   | 1466/2117 [49:23<21:07,  1.95s/it] 69%|██████▉   | 1467/2117 [49:25<21:18,  1.97s/it]                                                   {'loss': 1.1573, 'learning_rate': 9.430102009189086e-05, 'epoch': 0.69}
 69%|██████▉   | 1467/2117 [49:25<21:18,  1.97s/it] 69%|██████▉   | 1468/2117 [49:27<20:36,  1.91s/it]                                                   {'loss': 1.2565, 'learning_rate': 9.403669500496457e-05, 'epoch': 0.69}
 69%|██████▉   | 1468/2117 [49:27<20:36,  1.91s/it] 69%|██████▉   | 1469/2117 [49:29<20:35,  1.91s/it]                                                   {'loss': 1.3642, 'learning_rate': 9.377262698327855e-05, 'epoch': 0.69}
 69%|██████▉   | 1469/2117 [49:29<20:35,  1.91s/it] 69%|██████▉   | 1470/2117 [49:30<20:19,  1.88s/it]                                                   {'loss': 1.2612, 'learning_rate': 9.350881666745774e-05, 'epoch': 0.69}
 69%|██████▉   | 1470/2117 [49:30<20:19,  1.88s/it] 69%|██████▉   | 1471/2117 [49:32<20:08,  1.87s/it]                                                   {'loss': 1.1751, 'learning_rate': 9.324526469750154e-05, 'epoch': 0.69}
 69%|██████▉   | 1471/2117 [49:32<20:08,  1.87s/it] 70%|██████▉   | 1472/2117 [49:36<25:16,  2.35s/it]                                                   {'loss': 1.3304, 'learning_rate': 9.298197171278272e-05, 'epoch': 0.7}
 70%|██████▉   | 1472/2117 [49:36<25:16,  2.35s/it] 70%|██████▉   | 1473/2117 [49:38<25:48,  2.40s/it]                                                   {'loss': 1.3528, 'learning_rate': 9.271893835204573e-05, 'epoch': 0.7}
 70%|██████▉   | 1473/2117 [49:38<25:48,  2.40s/it] 70%|██████▉   | 1474/2117 [49:40<25:00,  2.33s/it]                                                   {'loss': 1.1737, 'learning_rate': 9.245616525340513e-05, 'epoch': 0.7}
 70%|██████▉   | 1474/2117 [49:40<25:00,  2.33s/it] 70%|██████▉   | 1475/2117 [49:43<24:00,  2.24s/it]                                                   {'loss': 1.5289, 'learning_rate': 9.219365305434436e-05, 'epoch': 0.7}
 70%|██████▉   | 1475/2117 [49:43<24:00,  2.24s/it] 70%|██████▉   | 1476/2117 [49:45<23:22,  2.19s/it]                                                   {'loss': 1.2544, 'learning_rate': 9.19314023917134e-05, 'epoch': 0.7}
 70%|██████▉   | 1476/2117 [49:45<23:22,  2.19s/it] 70%|██████▉   | 1477/2117 [49:46<22:22,  2.10s/it]                                                   {'loss': 1.4722, 'learning_rate': 9.166941390172831e-05, 'epoch': 0.7}
 70%|██████▉   | 1477/2117 [49:46<22:22,  2.10s/it] 70%|██████▉   | 1478/2117 [49:48<21:47,  2.05s/it]                                                   {'loss': 1.4618, 'learning_rate': 9.14076882199688e-05, 'epoch': 0.7}
 70%|██████▉   | 1478/2117 [49:48<21:47,  2.05s/it] 70%|██████▉   | 1479/2117 [49:50<21:14,  2.00s/it]                                                   {'loss': 1.2061, 'learning_rate': 9.114622598137706e-05, 'epoch': 0.7}
 70%|██████▉   | 1479/2117 [49:50<21:14,  2.00s/it] 70%|██████▉   | 1480/2117 [49:52<21:13,  2.00s/it]                                                   {'loss': 1.5329, 'learning_rate': 9.088502782025618e-05, 'epoch': 0.7}
 70%|██████▉   | 1480/2117 [49:52<21:13,  2.00s/it] 70%|██████▉   | 1481/2117 [49:54<20:25,  1.93s/it]                                                   {'loss': 1.1748, 'learning_rate': 9.062409437026866e-05, 'epoch': 0.7}
 70%|██████▉   | 1481/2117 [49:54<20:25,  1.93s/it] 70%|███████   | 1482/2117 [49:56<21:10,  2.00s/it]                                                   {'loss': 1.6027, 'learning_rate': 9.036342626443468e-05, 'epoch': 0.7}
 70%|███████   | 1482/2117 [49:56<21:10,  2.00s/it] 70%|███████   | 1483/2117 [49:58<21:50,  2.07s/it]                                                   {'loss': 1.1159, 'learning_rate': 9.010302413513102e-05, 'epoch': 0.7}
 70%|███████   | 1483/2117 [49:58<21:50,  2.07s/it] 70%|███████   | 1484/2117 [50:00<21:28,  2.04s/it]                                                   {'loss': 1.3043, 'learning_rate': 8.984288861408863e-05, 'epoch': 0.7}
 70%|███████   | 1484/2117 [50:00<21:28,  2.04s/it] 70%|███████   | 1485/2117 [50:02<20:37,  1.96s/it]                                                   {'loss': 1.1157, 'learning_rate': 8.95830203323923e-05, 'epoch': 0.7}
 70%|███████   | 1485/2117 [50:02<20:37,  1.96s/it] 70%|███████   | 1486/2117 [50:05<21:47,  2.07s/it]                                                   {'loss': 1.0479, 'learning_rate': 8.932341992047811e-05, 'epoch': 0.7}
 70%|███████   | 1486/2117 [50:05<21:47,  2.07s/it] 70%|███████   | 1487/2117 [50:07<21:41,  2.07s/it]                                                   {'loss': 1.1356, 'learning_rate': 8.906408800813242e-05, 'epoch': 0.7}
 70%|███████   | 1487/2117 [50:07<21:41,  2.07s/it] 70%|███████   | 1488/2117 [50:08<20:52,  1.99s/it]                                                   {'loss': 1.2109, 'learning_rate': 8.88050252244902e-05, 'epoch': 0.7}
 70%|███████   | 1488/2117 [50:08<20:52,  1.99s/it] 70%|███████   | 1489/2117 [50:11<21:20,  2.04s/it]                                                   {'loss': 1.2692, 'learning_rate': 8.854623219803341e-05, 'epoch': 0.7}
 70%|███████   | 1489/2117 [50:11<21:20,  2.04s/it] 70%|███████   | 1490/2117 [50:13<21:17,  2.04s/it]                                                   {'loss': 1.4603, 'learning_rate': 8.828770955658999e-05, 'epoch': 0.7}
 70%|███████   | 1490/2117 [50:13<21:17,  2.04s/it] 70%|███████   | 1491/2117 [50:15<21:13,  2.03s/it]                                                   {'loss': 1.3165, 'learning_rate': 8.80294579273313e-05, 'epoch': 0.7}
 70%|███████   | 1491/2117 [50:15<21:13,  2.03s/it] 70%|███████   | 1492/2117 [50:16<20:24,  1.96s/it]                                                   {'loss': 1.1158, 'learning_rate': 8.777147793677163e-05, 'epoch': 0.7}
 70%|███████   | 1492/2117 [50:16<20:24,  1.96s/it] 71%|███████   | 1493/2117 [50:18<20:09,  1.94s/it]                                                   {'loss': 1.3774, 'learning_rate': 8.751377021076634e-05, 'epoch': 0.7}
 71%|███████   | 1493/2117 [50:18<20:09,  1.94s/it] 71%|███████   | 1494/2117 [50:20<20:55,  2.02s/it]                                                   {'loss': 1.4457, 'learning_rate': 8.725633537451006e-05, 'epoch': 0.71}
 71%|███████   | 1494/2117 [50:20<20:55,  2.02s/it] 71%|███████   | 1495/2117 [50:22<20:54,  2.02s/it]                                                   {'loss': 1.2375, 'learning_rate': 8.69991740525355e-05, 'epoch': 0.71}
 71%|███████   | 1495/2117 [50:22<20:54,  2.02s/it] 71%|███████   | 1496/2117 [50:25<21:06,  2.04s/it]                                                   {'loss': 1.4202, 'learning_rate': 8.67422868687118e-05, 'epoch': 0.71}
 71%|███████   | 1496/2117 [50:25<21:06,  2.04s/it] 71%|███████   | 1497/2117 [50:27<21:07,  2.05s/it]                                                   {'loss': 1.3173, 'learning_rate': 8.648567444624296e-05, 'epoch': 0.71}
 71%|███████   | 1497/2117 [50:27<21:07,  2.05s/it] 71%|███████   | 1498/2117 [50:29<22:56,  2.22s/it]                                                   {'loss': 1.2608, 'learning_rate': 8.622933740766679e-05, 'epoch': 0.71}
 71%|███████   | 1498/2117 [50:29<22:56,  2.22s/it] 71%|███████   | 1499/2117 [50:31<21:39,  2.10s/it]                                                   {'loss': 1.4031, 'learning_rate': 8.597327637485246e-05, 'epoch': 0.71}
 71%|███████   | 1499/2117 [50:31<21:39,  2.10s/it] 71%|███████   | 1500/2117 [50:33<21:17,  2.07s/it]                                                   {'loss': 1.272, 'learning_rate': 8.571749196899987e-05, 'epoch': 0.71}
 71%|███████   | 1500/2117 [50:33<21:17,  2.07s/it] 71%|███████   | 1501/2117 [50:35<20:21,  1.98s/it]                                                   {'loss': 1.3425, 'learning_rate': 8.546198481063801e-05, 'epoch': 0.71}
 71%|███████   | 1501/2117 [50:35<20:21,  1.98s/it] 71%|███████   | 1502/2117 [50:37<20:01,  1.95s/it]                                                   {'loss': 1.1886, 'learning_rate': 8.520675551962275e-05, 'epoch': 0.71}
 71%|███████   | 1502/2117 [50:37<20:01,  1.95s/it] 71%|███████   | 1503/2117 [50:39<19:38,  1.92s/it]                                                   {'loss': 1.0558, 'learning_rate': 8.49518047151364e-05, 'epoch': 0.71}
 71%|███████   | 1503/2117 [50:39<19:38,  1.92s/it] 71%|███████   | 1504/2117 [50:41<20:01,  1.96s/it]                                                   {'loss': 1.328, 'learning_rate': 8.469713301568533e-05, 'epoch': 0.71}
 71%|███████   | 1504/2117 [50:41<20:01,  1.96s/it] 71%|███████   | 1505/2117 [50:43<20:35,  2.02s/it]                                                   {'loss': 1.1842, 'learning_rate': 8.444274103909897e-05, 'epoch': 0.71}
 71%|███████   | 1505/2117 [50:43<20:35,  2.02s/it] 71%|███████   | 1506/2117 [50:45<20:55,  2.06s/it]                                                   {'loss': 1.1098, 'learning_rate': 8.418862940252804e-05, 'epoch': 0.71}
 71%|███████   | 1506/2117 [50:45<20:55,  2.06s/it] 71%|███████   | 1507/2117 [50:47<20:45,  2.04s/it]                                                   {'loss': 1.2275, 'learning_rate': 8.39347987224431e-05, 'epoch': 0.71}
 71%|███████   | 1507/2117 [50:47<20:45,  2.04s/it] 71%|███████   | 1508/2117 [50:49<19:54,  1.96s/it]                                                   {'loss': 1.2985, 'learning_rate': 8.368124961463342e-05, 'epoch': 0.71}
 71%|███████   | 1508/2117 [50:49<19:54,  1.96s/it] 71%|███████▏  | 1509/2117 [50:51<21:37,  2.13s/it]                                                   {'loss': 1.5345, 'learning_rate': 8.342798269420495e-05, 'epoch': 0.71}
 71%|███████▏  | 1509/2117 [50:51<21:37,  2.13s/it] 71%|███████▏  | 1510/2117 [50:53<20:38,  2.04s/it]                                                   {'loss': 1.3177, 'learning_rate': 8.317499857557886e-05, 'epoch': 0.71}
 71%|███████▏  | 1510/2117 [50:53<20:38,  2.04s/it] 71%|███████▏  | 1511/2117 [50:55<20:17,  2.01s/it]                                                   {'loss': 1.1131, 'learning_rate': 8.292229787249073e-05, 'epoch': 0.71}
 71%|███████▏  | 1511/2117 [50:55<20:17,  2.01s/it] 71%|███████▏  | 1512/2117 [50:57<20:34,  2.04s/it]                                                   {'loss': 1.1952, 'learning_rate': 8.266988119798821e-05, 'epoch': 0.71}
 71%|███████▏  | 1512/2117 [50:57<20:34,  2.04s/it] 71%|███████▏  | 1513/2117 [50:59<20:39,  2.05s/it]                                                   {'loss': 1.5274, 'learning_rate': 8.241774916443003e-05, 'epoch': 0.71}
 71%|███████▏  | 1513/2117 [50:59<20:39,  2.05s/it] 72%|███████▏  | 1514/2117 [51:02<21:29,  2.14s/it]                                                   {'loss': 1.1378, 'learning_rate': 8.216590238348438e-05, 'epoch': 0.71}
 72%|███████▏  | 1514/2117 [51:02<21:29,  2.14s/it] 72%|███████▏  | 1515/2117 [51:04<22:09,  2.21s/it]                                                   {'loss': 1.2205, 'learning_rate': 8.191434146612733e-05, 'epoch': 0.72}
 72%|███████▏  | 1515/2117 [51:04<22:09,  2.21s/it] 72%|███████▏  | 1516/2117 [51:06<20:44,  2.07s/it]                                                   {'loss': 0.9346, 'learning_rate': 8.166306702264177e-05, 'epoch': 0.72}
 72%|███████▏  | 1516/2117 [51:06<20:44,  2.07s/it] 72%|███████▏  | 1517/2117 [51:08<20:04,  2.01s/it]                                                   {'loss': 1.1095, 'learning_rate': 8.141207966261509e-05, 'epoch': 0.72}
 72%|███████▏  | 1517/2117 [51:08<20:04,  2.01s/it] 72%|███████▏  | 1518/2117 [51:09<19:51,  1.99s/it]                                                   {'loss': 1.2342, 'learning_rate': 8.116137999493869e-05, 'epoch': 0.72}
 72%|███████▏  | 1518/2117 [51:09<19:51,  1.99s/it] 72%|███████▏  | 1519/2117 [51:12<20:30,  2.06s/it]                                                   {'loss': 1.2845, 'learning_rate': 8.091096862780582e-05, 'epoch': 0.72}
 72%|███████▏  | 1519/2117 [51:12<20:30,  2.06s/it] 72%|███████▏  | 1520/2117 [51:13<19:36,  1.97s/it]                                                   {'loss': 1.0934, 'learning_rate': 8.066084616871037e-05, 'epoch': 0.72}
 72%|███████▏  | 1520/2117 [51:13<19:36,  1.97s/it] 72%|███████▏  | 1521/2117 [51:16<21:35,  2.17s/it]                                                   {'loss': 1.1626, 'learning_rate': 8.041101322444526e-05, 'epoch': 0.72}
 72%|███████▏  | 1521/2117 [51:16<21:35,  2.17s/it] 72%|███████▏  | 1522/2117 [51:18<20:58,  2.11s/it]                                                   {'loss': 1.033, 'learning_rate': 8.016147040110118e-05, 'epoch': 0.72}
 72%|███████▏  | 1522/2117 [51:18<20:58,  2.11s/it] 72%|███████▏  | 1523/2117 [51:20<21:06,  2.13s/it]                                                   {'loss': 1.3303, 'learning_rate': 7.991221830406481e-05, 'epoch': 0.72}
 72%|███████▏  | 1523/2117 [51:20<21:06,  2.13s/it] 72%|███████▏  | 1524/2117 [51:22<20:04,  2.03s/it]                                                   {'loss': 1.0324, 'learning_rate': 7.966325753801792e-05, 'epoch': 0.72}
 72%|███████▏  | 1524/2117 [51:22<20:04,  2.03s/it] 72%|███████▏  | 1525/2117 [51:24<19:39,  1.99s/it]                                                   {'loss': 1.3455, 'learning_rate': 7.941458870693488e-05, 'epoch': 0.72}
 72%|███████▏  | 1525/2117 [51:24<19:39,  1.99s/it] 72%|███████▏  | 1526/2117 [51:26<18:37,  1.89s/it]                                                   {'loss': 1.2513, 'learning_rate': 7.916621241408249e-05, 'epoch': 0.72}
 72%|███████▏  | 1526/2117 [51:26<18:37,  1.89s/it] 72%|███████▏  | 1527/2117 [51:28<20:03,  2.04s/it]                                                   {'loss': 1.4107, 'learning_rate': 7.891812926201742e-05, 'epoch': 0.72}
 72%|███████▏  | 1527/2117 [51:28<20:03,  2.04s/it] 72%|███████▏  | 1528/2117 [51:30<19:53,  2.03s/it]                                                   {'loss': 1.3377, 'learning_rate': 7.867033985258541e-05, 'epoch': 0.72}
 72%|███████▏  | 1528/2117 [51:30<19:53,  2.03s/it] 72%|███████▏  | 1529/2117 [51:32<19:35,  2.00s/it]                                                   {'loss': 1.0802, 'learning_rate': 7.842284478691943e-05, 'epoch': 0.72}
 72%|███████▏  | 1529/2117 [51:32<19:35,  2.00s/it] 72%|███████▏  | 1530/2117 [51:34<19:45,  2.02s/it]                                                   {'loss': 1.2704, 'learning_rate': 7.817564466543843e-05, 'epoch': 0.72}
 72%|███████▏  | 1530/2117 [51:34<19:45,  2.02s/it] 72%|███████▏  | 1531/2117 [51:36<19:49,  2.03s/it]                                                   {'loss': 1.1902, 'learning_rate': 7.792874008784603e-05, 'epoch': 0.72}
 72%|███████▏  | 1531/2117 [51:36<19:49,  2.03s/it] 72%|███████▏  | 1532/2117 [51:38<18:54,  1.94s/it]                                                   {'loss': 1.0903, 'learning_rate': 7.76821316531285e-05, 'epoch': 0.72}
 72%|███████▏  | 1532/2117 [51:38<18:54,  1.94s/it] 72%|███████▏  | 1533/2117 [51:40<18:44,  1.93s/it]                                                   {'loss': 1.303, 'learning_rate': 7.743581995955385e-05, 'epoch': 0.72}
 72%|███████▏  | 1533/2117 [51:40<18:44,  1.93s/it] 72%|███████▏  | 1534/2117 [51:42<18:31,  1.91s/it]                                                   {'loss': 1.4708, 'learning_rate': 7.718980560467033e-05, 'epoch': 0.72}
 72%|███████▏  | 1534/2117 [51:42<18:31,  1.91s/it] 73%|███████▎  | 1535/2117 [51:44<18:51,  1.94s/it]                                                   {'loss': 1.3564, 'learning_rate': 7.694408918530469e-05, 'epoch': 0.72}
 73%|███████▎  | 1535/2117 [51:44<18:51,  1.94s/it] 73%|███████▎  | 1536/2117 [51:45<18:47,  1.94s/it]                                                   {'loss': 1.1663, 'learning_rate': 7.669867129756095e-05, 'epoch': 0.73}
 73%|███████▎  | 1536/2117 [51:45<18:47,  1.94s/it] 73%|███████▎  | 1537/2117 [51:47<18:55,  1.96s/it]                                                   {'loss': 1.1493, 'learning_rate': 7.645355253681882e-05, 'epoch': 0.73}
 73%|███████▎  | 1537/2117 [51:47<18:55,  1.96s/it] 73%|███████▎  | 1538/2117 [51:50<19:15,  2.00s/it]                                                   {'loss': 1.243, 'learning_rate': 7.620873349773239e-05, 'epoch': 0.73}
 73%|███████▎  | 1538/2117 [51:50<19:15,  2.00s/it] 73%|███████▎  | 1539/2117 [51:52<19:10,  1.99s/it]                                                   {'loss': 1.332, 'learning_rate': 7.596421477422879e-05, 'epoch': 0.73}
 73%|███████▎  | 1539/2117 [51:52<19:10,  1.99s/it] 73%|███████▎  | 1540/2117 [51:54<19:13,  2.00s/it]                                                   {'loss': 1.4258, 'learning_rate': 7.571999695950627e-05, 'epoch': 0.73}
 73%|███████▎  | 1540/2117 [51:54<19:13,  2.00s/it] 73%|███████▎  | 1541/2117 [51:55<18:38,  1.94s/it]                                                   {'loss': 1.2923, 'learning_rate': 7.54760806460332e-05, 'epoch': 0.73}
 73%|███████▎  | 1541/2117 [51:55<18:38,  1.94s/it] 73%|███████▎  | 1542/2117 [51:57<18:22,  1.92s/it]                                                   {'loss': 1.253, 'learning_rate': 7.52324664255468e-05, 'epoch': 0.73}
 73%|███████▎  | 1542/2117 [51:57<18:22,  1.92s/it] 73%|███████▎  | 1543/2117 [51:59<19:06,  2.00s/it]                                                   {'loss': 1.2166, 'learning_rate': 7.49891548890509e-05, 'epoch': 0.73}
 73%|███████▎  | 1543/2117 [51:59<19:06,  2.00s/it] 73%|███████▎  | 1544/2117 [52:02<20:11,  2.11s/it]                                                   {'loss': 1.3181, 'learning_rate': 7.474614662681547e-05, 'epoch': 0.73}
 73%|███████▎  | 1544/2117 [52:02<20:11,  2.11s/it] 73%|███████▎  | 1545/2117 [52:04<20:43,  2.17s/it]                                                   {'loss': 1.272, 'learning_rate': 7.450344222837453e-05, 'epoch': 0.73}
 73%|███████▎  | 1545/2117 [52:04<20:43,  2.17s/it] 73%|███████▎  | 1546/2117 [52:06<20:32,  2.16s/it]                                                   {'loss': 1.1434, 'learning_rate': 7.426104228252497e-05, 'epoch': 0.73}
 73%|███████▎  | 1546/2117 [52:06<20:32,  2.16s/it] 73%|███████▎  | 1547/2117 [52:08<19:09,  2.02s/it]                                                   {'loss': 1.1643, 'learning_rate': 7.401894737732506e-05, 'epoch': 0.73}
 73%|███████▎  | 1547/2117 [52:08<19:09,  2.02s/it] 73%|███████▎  | 1548/2117 [52:10<18:57,  2.00s/it]                                                   {'loss': 1.2468, 'learning_rate': 7.377715810009303e-05, 'epoch': 0.73}
 73%|███████▎  | 1548/2117 [52:10<18:57,  2.00s/it] 73%|███████▎  | 1549/2117 [52:12<19:15,  2.03s/it]                                                   {'loss': 1.2365, 'learning_rate': 7.353567503740582e-05, 'epoch': 0.73}
 73%|███████▎  | 1549/2117 [52:12<19:15,  2.03s/it] 73%|███████▎  | 1550/2117 [52:14<18:55,  2.00s/it]                                                   {'loss': 1.3432, 'learning_rate': 7.32944987750974e-05, 'epoch': 0.73}
 73%|███████▎  | 1550/2117 [52:14<18:55,  2.00s/it] 73%|███████▎  | 1551/2117 [52:16<18:30,  1.96s/it]                                                   {'loss': 1.4599, 'learning_rate': 7.305362989825719e-05, 'epoch': 0.73}
 73%|███████▎  | 1551/2117 [52:16<18:30,  1.96s/it] 73%|███████▎  | 1552/2117 [52:18<18:25,  1.96s/it]                                                   {'loss': 1.102, 'learning_rate': 7.281306899122939e-05, 'epoch': 0.73}
 73%|███████▎  | 1552/2117 [52:18<18:25,  1.96s/it] 73%|███████▎  | 1553/2117 [52:21<20:37,  2.19s/it]                                                   {'loss': 1.1645, 'learning_rate': 7.257281663761068e-05, 'epoch': 0.73}
 73%|███████▎  | 1553/2117 [52:21<20:37,  2.19s/it] 73%|███████▎  | 1554/2117 [52:22<19:28,  2.08s/it]                                                   {'loss': 1.1368, 'learning_rate': 7.233287342024941e-05, 'epoch': 0.73}
 73%|███████▎  | 1554/2117 [52:22<19:28,  2.08s/it] 73%|███████▎  | 1555/2117 [52:24<19:13,  2.05s/it]                                                   {'loss': 1.1735, 'learning_rate': 7.209323992124382e-05, 'epoch': 0.73}
 73%|███████▎  | 1555/2117 [52:24<19:13,  2.05s/it] 74%|███████▎  | 1556/2117 [52:27<20:27,  2.19s/it]                                                   {'loss': 1.1274, 'learning_rate': 7.185391672194082e-05, 'epoch': 0.73}
 74%|███████▎  | 1556/2117 [52:27<20:27,  2.19s/it] 74%|███████▎  | 1557/2117 [52:29<19:56,  2.14s/it]                                                   {'loss': 0.9405, 'learning_rate': 7.161490440293477e-05, 'epoch': 0.74}
 74%|███████▎  | 1557/2117 [52:29<19:56,  2.14s/it] 74%|███████▎  | 1558/2117 [52:31<19:04,  2.05s/it]                                                   {'loss': 0.9062, 'learning_rate': 7.137620354406535e-05, 'epoch': 0.74}
 74%|███████▎  | 1558/2117 [52:31<19:04,  2.05s/it] 74%|███████▎  | 1559/2117 [52:33<19:08,  2.06s/it]                                                   {'loss': 1.5528, 'learning_rate': 7.113781472441714e-05, 'epoch': 0.74}
 74%|███████▎  | 1559/2117 [52:33<19:08,  2.06s/it] 74%|███████▎  | 1560/2117 [52:35<18:27,  1.99s/it]                                                   {'loss': 1.3515, 'learning_rate': 7.089973852231744e-05, 'epoch': 0.74}
 74%|███████▎  | 1560/2117 [52:35<18:27,  1.99s/it] 74%|███████▎  | 1561/2117 [52:37<19:06,  2.06s/it]                                                   {'loss': 1.5267, 'learning_rate': 7.066197551533522e-05, 'epoch': 0.74}
 74%|███████▎  | 1561/2117 [52:37<19:06,  2.06s/it] 74%|███████▍  | 1562/2117 [52:39<18:54,  2.04s/it]                                                   {'loss': 1.195, 'learning_rate': 7.042452628027963e-05, 'epoch': 0.74}
 74%|███████▍  | 1562/2117 [52:39<18:54,  2.04s/it] 74%|███████▍  | 1563/2117 [52:41<18:24,  1.99s/it]                                                   {'loss': 1.2459, 'learning_rate': 7.018739139319861e-05, 'epoch': 0.74}
 74%|███████▍  | 1563/2117 [52:41<18:24,  1.99s/it] 74%|███████▍  | 1564/2117 [52:43<18:33,  2.01s/it]                                                   {'loss': 1.3211, 'learning_rate': 6.995057142937747e-05, 'epoch': 0.74}
 74%|███████▍  | 1564/2117 [52:43<18:33,  2.01s/it] 74%|███████▍  | 1565/2117 [52:45<18:32,  2.02s/it]                                                   {'loss': 1.3303, 'learning_rate': 6.971406696333771e-05, 'epoch': 0.74}
 74%|███████▍  | 1565/2117 [52:45<18:32,  2.02s/it] 74%|███████▍  | 1566/2117 [52:47<20:09,  2.19s/it]                                                   {'loss': 1.235, 'learning_rate': 6.947787856883507e-05, 'epoch': 0.74}
 74%|███████▍  | 1566/2117 [52:47<20:09,  2.19s/it] 74%|███████▍  | 1567/2117 [52:50<19:56,  2.18s/it]                                                   {'loss': 1.0975, 'learning_rate': 6.924200681885891e-05, 'epoch': 0.74}
 74%|███████▍  | 1567/2117 [52:50<19:56,  2.18s/it] 74%|███████▍  | 1568/2117 [52:52<20:22,  2.23s/it]                                                   {'loss': 1.0561, 'learning_rate': 6.900645228563014e-05, 'epoch': 0.74}
 74%|███████▍  | 1568/2117 [52:52<20:22,  2.23s/it] 74%|███████▍  | 1569/2117 [52:54<18:53,  2.07s/it]                                                   {'loss': 1.0033, 'learning_rate': 6.87712155406002e-05, 'epoch': 0.74}
 74%|███████▍  | 1569/2117 [52:54<18:53,  2.07s/it] 74%|███████▍  | 1570/2117 [52:56<18:40,  2.05s/it]                                                   {'loss': 1.0609, 'learning_rate': 6.85362971544496e-05, 'epoch': 0.74}
 74%|███████▍  | 1570/2117 [52:56<18:40,  2.05s/it] 74%|███████▍  | 1571/2117 [52:57<18:06,  1.99s/it]                                                   {'loss': 1.22, 'learning_rate': 6.83016976970864e-05, 'epoch': 0.74}
 74%|███████▍  | 1571/2117 [52:57<18:06,  1.99s/it] 74%|███████▍  | 1572/2117 [52:59<18:03,  1.99s/it]                                                   {'loss': 1.2394, 'learning_rate': 6.806741773764527e-05, 'epoch': 0.74}
 74%|███████▍  | 1572/2117 [52:59<18:03,  1.99s/it] 74%|███████▍  | 1573/2117 [53:01<17:17,  1.91s/it]                                                   {'loss': 1.1023, 'learning_rate': 6.783345784448532e-05, 'epoch': 0.74}
 74%|███████▍  | 1573/2117 [53:01<17:17,  1.91s/it] 74%|███████▍  | 1574/2117 [53:03<17:55,  1.98s/it]                                                   {'loss': 1.2294, 'learning_rate': 6.759981858518941e-05, 'epoch': 0.74}
 74%|███████▍  | 1574/2117 [53:03<17:55,  1.98s/it] 74%|███████▍  | 1575/2117 [53:05<17:47,  1.97s/it]                                                   {'loss': 1.0494, 'learning_rate': 6.736650052656271e-05, 'epoch': 0.74}
 74%|███████▍  | 1575/2117 [53:05<17:47,  1.97s/it] 74%|███████▍  | 1576/2117 [53:07<17:45,  1.97s/it]                                                   {'loss': 1.2432, 'learning_rate': 6.713350423463092e-05, 'epoch': 0.74}
 74%|███████▍  | 1576/2117 [53:07<17:45,  1.97s/it] 74%|███████▍  | 1577/2117 [53:09<16:59,  1.89s/it]                                                   {'loss': 1.0197, 'learning_rate': 6.690083027463923e-05, 'epoch': 0.74}
 74%|███████▍  | 1577/2117 [53:09<16:59,  1.89s/it] 75%|███████▍  | 1578/2117 [53:11<16:58,  1.89s/it]                                                   {'loss': 1.1944, 'learning_rate': 6.666847921105084e-05, 'epoch': 0.75}
 75%|███████▍  | 1578/2117 [53:11<16:58,  1.89s/it] 75%|███████▍  | 1579/2117 [53:13<18:09,  2.02s/it]                                                   {'loss': 0.9204, 'learning_rate': 6.643645160754559e-05, 'epoch': 0.75}
 75%|███████▍  | 1579/2117 [53:13<18:09,  2.02s/it] 75%|███████▍  | 1580/2117 [53:15<17:42,  1.98s/it]                                                   {'loss': 1.4313, 'learning_rate': 6.620474802701879e-05, 'epoch': 0.75}
 75%|███████▍  | 1580/2117 [53:15<17:42,  1.98s/it] 75%|███████▍  | 1581/2117 [53:17<18:21,  2.06s/it]                                                   {'loss': 1.2751, 'learning_rate': 6.597336903157938e-05, 'epoch': 0.75}
 75%|███████▍  | 1581/2117 [53:17<18:21,  2.06s/it] 75%|███████▍  | 1582/2117 [53:19<18:22,  2.06s/it]                                                   {'loss': 1.2733, 'learning_rate': 6.574231518254896e-05, 'epoch': 0.75}
 75%|███████▍  | 1582/2117 [53:19<18:22,  2.06s/it] 75%|███████▍  | 1583/2117 [53:21<18:14,  2.05s/it]                                                   {'loss': 1.3241, 'learning_rate': 6.551158704046061e-05, 'epoch': 0.75}
 75%|███████▍  | 1583/2117 [53:21<18:14,  2.05s/it] 75%|███████▍  | 1584/2117 [53:23<18:04,  2.03s/it]                                                   {'loss': 1.2363, 'learning_rate': 6.528118516505675e-05, 'epoch': 0.75}
 75%|███████▍  | 1584/2117 [53:23<18:04,  2.03s/it] 75%|███████▍  | 1585/2117 [53:25<18:07,  2.05s/it]                                                   {'loss': 1.5814, 'learning_rate': 6.505111011528872e-05, 'epoch': 0.75}
 75%|███████▍  | 1585/2117 [53:25<18:07,  2.05s/it] 75%|███████▍  | 1586/2117 [53:27<18:12,  2.06s/it]                                                   {'loss': 1.023, 'learning_rate': 6.482136244931483e-05, 'epoch': 0.75}
 75%|███████▍  | 1586/2117 [53:27<18:12,  2.06s/it] 75%|███████▍  | 1587/2117 [53:30<19:59,  2.26s/it]                                                   {'loss': 1.241, 'learning_rate': 6.459194272449904e-05, 'epoch': 0.75}
 75%|███████▍  | 1587/2117 [53:30<19:59,  2.26s/it] 75%|███████▌  | 1588/2117 [53:32<19:41,  2.23s/it]                                                   {'loss': 1.208, 'learning_rate': 6.436285149740995e-05, 'epoch': 0.75}
 75%|███████▌  | 1588/2117 [53:32<19:41,  2.23s/it] 75%|███████▌  | 1589/2117 [53:34<18:42,  2.13s/it]                                                   {'loss': 1.3445, 'learning_rate': 6.413408932381896e-05, 'epoch': 0.75}
 75%|███████▌  | 1589/2117 [53:34<18:42,  2.13s/it] 75%|███████▌  | 1590/2117 [53:36<17:55,  2.04s/it]                                                   {'loss': 1.2188, 'learning_rate': 6.390565675869955e-05, 'epoch': 0.75}
 75%|███████▌  | 1590/2117 [53:36<17:55,  2.04s/it] 75%|███████▌  | 1591/2117 [53:38<17:14,  1.97s/it]                                                   {'loss': 1.0361, 'learning_rate': 6.367755435622536e-05, 'epoch': 0.75}
 75%|███████▌  | 1591/2117 [53:38<17:14,  1.97s/it] 75%|███████▌  | 1592/2117 [53:40<18:11,  2.08s/it]                                                   {'loss': 1.2409, 'learning_rate': 6.344978266976886e-05, 'epoch': 0.75}
 75%|███████▌  | 1592/2117 [53:40<18:11,  2.08s/it] 75%|███████▌  | 1593/2117 [53:42<17:29,  2.00s/it]                                                   {'loss': 1.1411, 'learning_rate': 6.322234225190065e-05, 'epoch': 0.75}
 75%|███████▌  | 1593/2117 [53:42<17:29,  2.00s/it] 75%|███████▌  | 1594/2117 [53:44<18:21,  2.11s/it]                                                   {'loss': 1.1396, 'learning_rate': 6.299523365438737e-05, 'epoch': 0.75}
 75%|███████▌  | 1594/2117 [53:44<18:21,  2.11s/it] 75%|███████▌  | 1595/2117 [53:46<17:35,  2.02s/it]                                                   {'loss': 1.1535, 'learning_rate': 6.276845742819078e-05, 'epoch': 0.75}
 75%|███████▌  | 1595/2117 [53:46<17:35,  2.02s/it] 75%|███████▌  | 1596/2117 [53:48<17:29,  2.01s/it]                                                   {'loss': 1.3295, 'learning_rate': 6.254201412346626e-05, 'epoch': 0.75}
 75%|███████▌  | 1596/2117 [53:48<17:29,  2.01s/it] 75%|███████▌  | 1597/2117 [53:50<17:24,  2.01s/it]                                                   {'loss': 1.3898, 'learning_rate': 6.231590428956149e-05, 'epoch': 0.75}
 75%|███████▌  | 1597/2117 [53:50<17:24,  2.01s/it] 75%|███████▌  | 1598/2117 [53:52<16:42,  1.93s/it]                                                   {'loss': 1.2843, 'learning_rate': 6.209012847501541e-05, 'epoch': 0.75}
 75%|███████▌  | 1598/2117 [53:52<16:42,  1.93s/it] 76%|███████▌  | 1599/2117 [53:54<17:03,  1.98s/it]                                                   {'loss': 1.4253, 'learning_rate': 6.186468722755621e-05, 'epoch': 0.76}
 76%|███████▌  | 1599/2117 [53:54<17:03,  1.98s/it] 76%|███████▌  | 1600/2117 [53:56<16:09,  1.88s/it]                                                   {'loss': 1.1143, 'learning_rate': 6.163958109410084e-05, 'epoch': 0.76}
 76%|███████▌  | 1600/2117 [53:56<16:09,  1.88s/it] 76%|███████▌  | 1601/2117 [53:57<15:35,  1.81s/it]                                                   {'loss': 1.1324, 'learning_rate': 6.141481062075302e-05, 'epoch': 0.76}
 76%|███████▌  | 1601/2117 [53:57<15:35,  1.81s/it] 76%|███████▌  | 1602/2117 [54:00<16:33,  1.93s/it]                                                   {'loss': 1.176, 'learning_rate': 6.119037635280225e-05, 'epoch': 0.76}
 76%|███████▌  | 1602/2117 [54:00<16:33,  1.93s/it] 76%|███████▌  | 1603/2117 [54:02<17:03,  1.99s/it]                                                   {'loss': 1.0477, 'learning_rate': 6.0966278834722346e-05, 'epoch': 0.76}
 76%|███████▌  | 1603/2117 [54:02<17:03,  1.99s/it] 76%|███████▌  | 1604/2117 [54:04<17:00,  1.99s/it]                                                   {'loss': 1.205, 'learning_rate': 6.0742518610170266e-05, 'epoch': 0.76}
 76%|███████▌  | 1604/2117 [54:04<17:00,  1.99s/it] 76%|███████▌  | 1605/2117 [54:06<17:47,  2.09s/it]                                                   {'loss': 1.3148, 'learning_rate': 6.051909622198453e-05, 'epoch': 0.76}
 76%|███████▌  | 1605/2117 [54:06<17:47,  2.09s/it] 76%|███████▌  | 1606/2117 [54:08<17:17,  2.03s/it]                                                   {'loss': 1.2212, 'learning_rate': 6.0296012212184416e-05, 'epoch': 0.76}
 76%|███████▌  | 1606/2117 [54:08<17:17,  2.03s/it] 76%|███████▌  | 1607/2117 [54:10<16:51,  1.98s/it]                                                   {'loss': 1.1882, 'learning_rate': 6.0073267121967794e-05, 'epoch': 0.76}
 76%|███████▌  | 1607/2117 [54:10<16:51,  1.98s/it] 76%|███████▌  | 1608/2117 [54:12<16:48,  1.98s/it]                                                   {'loss': 1.2734, 'learning_rate': 5.985086149171082e-05, 'epoch': 0.76}
 76%|███████▌  | 1608/2117 [54:12<16:48,  1.98s/it] 76%|███████▌  | 1609/2117 [54:14<17:13,  2.03s/it]                                                   {'loss': 1.1069, 'learning_rate': 5.962879586096581e-05, 'epoch': 0.76}
 76%|███████▌  | 1609/2117 [54:14<17:13,  2.03s/it] 76%|███████▌  | 1610/2117 [54:16<17:03,  2.02s/it]                                                   {'loss': 1.1915, 'learning_rate': 5.940707076846035e-05, 'epoch': 0.76}
 76%|███████▌  | 1610/2117 [54:16<17:03,  2.02s/it] 76%|███████▌  | 1611/2117 [54:18<16:45,  1.99s/it]                                                   {'loss': 1.0885, 'learning_rate': 5.91856867520959e-05, 'epoch': 0.76}
 76%|███████▌  | 1611/2117 [54:18<16:45,  1.99s/it] 76%|███████▌  | 1612/2117 [54:20<16:30,  1.96s/it]                                                   {'loss': 1.2153, 'learning_rate': 5.89646443489464e-05, 'epoch': 0.76}
 76%|███████▌  | 1612/2117 [54:20<16:30,  1.96s/it] 76%|███████▌  | 1613/2117 [54:22<16:20,  1.95s/it]                                                   {'loss': 1.1803, 'learning_rate': 5.874394409525723e-05, 'epoch': 0.76}
 76%|███████▌  | 1613/2117 [54:22<16:20,  1.95s/it] 76%|███████▌  | 1614/2117 [54:24<16:40,  1.99s/it]                                                   {'loss': 1.3352, 'learning_rate': 5.852358652644343e-05, 'epoch': 0.76}
 76%|███████▌  | 1614/2117 [54:24<16:40,  1.99s/it] 76%|███████▋  | 1615/2117 [54:26<16:28,  1.97s/it]                                                   {'loss': 1.1369, 'learning_rate': 5.830357217708886e-05, 'epoch': 0.76}
 76%|███████▋  | 1615/2117 [54:26<16:28,  1.97s/it] 76%|███████▋  | 1616/2117 [54:28<18:11,  2.18s/it]                                                   {'loss': 1.3195, 'learning_rate': 5.8083901580944856e-05, 'epoch': 0.76}
 76%|███████▋  | 1616/2117 [54:28<18:11,  2.18s/it] 76%|███████▋  | 1617/2117 [54:30<17:49,  2.14s/it]                                                   {'loss': 1.2551, 'learning_rate': 5.786457527092859e-05, 'epoch': 0.76}
 76%|███████▋  | 1617/2117 [54:30<17:49,  2.14s/it] 76%|███████▋  | 1618/2117 [54:32<17:07,  2.06s/it]                                                   {'loss': 1.3172, 'learning_rate': 5.7645593779122084e-05, 'epoch': 0.76}
 76%|███████▋  | 1618/2117 [54:32<17:07,  2.06s/it] 76%|███████▋  | 1619/2117 [54:35<18:20,  2.21s/it]                                                   {'loss': 1.3458, 'learning_rate': 5.742695763677088e-05, 'epoch': 0.76}
 76%|███████▋  | 1619/2117 [54:35<18:20,  2.21s/it] 77%|███████▋  | 1620/2117 [54:37<17:52,  2.16s/it]                                                   {'loss': 1.1934, 'learning_rate': 5.720866737428261e-05, 'epoch': 0.76}
 77%|███████▋  | 1620/2117 [54:37<17:52,  2.16s/it] 77%|███████▋  | 1621/2117 [54:39<16:44,  2.02s/it]                                                   {'loss': 0.9409, 'learning_rate': 5.699072352122605e-05, 'epoch': 0.77}
 77%|███████▋  | 1621/2117 [54:39<16:44,  2.02s/it] 77%|███████▋  | 1622/2117 [54:40<16:04,  1.95s/it]                                                   {'loss': 1.162, 'learning_rate': 5.677312660632921e-05, 'epoch': 0.77}
 77%|███████▋  | 1622/2117 [54:40<16:04,  1.95s/it] 77%|███████▋  | 1623/2117 [54:42<16:26,  2.00s/it]                                                   {'loss': 1.3535, 'learning_rate': 5.6555877157478674e-05, 'epoch': 0.77}
 77%|███████▋  | 1623/2117 [54:42<16:26,  2.00s/it] 77%|███████▋  | 1624/2117 [54:44<15:59,  1.95s/it]                                                   {'loss': 1.2635, 'learning_rate': 5.633897570171813e-05, 'epoch': 0.77}
 77%|███████▋  | 1624/2117 [54:44<15:59,  1.95s/it] 77%|███████▋  | 1625/2117 [54:46<16:06,  1.96s/it]                                                   {'loss': 1.5661, 'learning_rate': 5.6122422765246905e-05, 'epoch': 0.77}
 77%|███████▋  | 1625/2117 [54:46<16:06,  1.96s/it] 77%|███████▋  | 1626/2117 [54:48<16:33,  2.02s/it]                                                   {'loss': 1.1086, 'learning_rate': 5.590621887341889e-05, 'epoch': 0.77}
 77%|███████▋  | 1626/2117 [54:48<16:33,  2.02s/it] 77%|███████▋  | 1627/2117 [54:50<16:08,  1.98s/it]                                                   {'loss': 1.0895, 'learning_rate': 5.569036455074117e-05, 'epoch': 0.77}
 77%|███████▋  | 1627/2117 [54:50<16:08,  1.98s/it] 77%|███████▋  | 1628/2117 [54:52<16:15,  2.00s/it]                                                   {'loss': 1.3535, 'learning_rate': 5.547486032087277e-05, 'epoch': 0.77}
 77%|███████▋  | 1628/2117 [54:52<16:15,  2.00s/it] 77%|███████▋  | 1629/2117 [54:54<16:17,  2.00s/it]                                                   {'loss': 1.2312, 'learning_rate': 5.525970670662344e-05, 'epoch': 0.77}
 77%|███████▋  | 1629/2117 [54:54<16:17,  2.00s/it] 77%|███████▋  | 1630/2117 [54:56<15:40,  1.93s/it]                                                   {'loss': 1.1607, 'learning_rate': 5.504490422995226e-05, 'epoch': 0.77}
 77%|███████▋  | 1630/2117 [54:56<15:40,  1.93s/it] 77%|███████▋  | 1631/2117 [54:58<15:44,  1.94s/it]                                                   {'loss': 1.2972, 'learning_rate': 5.483045341196662e-05, 'epoch': 0.77}
 77%|███████▋  | 1631/2117 [54:58<15:44,  1.94s/it] 77%|███████▋  | 1632/2117 [55:01<18:23,  2.28s/it]                                                   {'loss': 1.3073, 'learning_rate': 5.461635477292071e-05, 'epoch': 0.77}
 77%|███████▋  | 1632/2117 [55:01<18:23,  2.28s/it] 77%|███████▋  | 1633/2117 [55:03<17:31,  2.17s/it]                                                   {'loss': 1.3124, 'learning_rate': 5.440260883221413e-05, 'epoch': 0.77}
 77%|███████▋  | 1633/2117 [55:03<17:31,  2.17s/it] 77%|███████▋  | 1634/2117 [55:05<16:52,  2.10s/it]                                                   {'loss': 1.2518, 'learning_rate': 5.4189216108391205e-05, 'epoch': 0.77}
 77%|███████▋  | 1634/2117 [55:05<16:52,  2.10s/it] 77%|███████▋  | 1635/2117 [55:07<16:20,  2.04s/it]                                                   {'loss': 0.8451, 'learning_rate': 5.397617711913914e-05, 'epoch': 0.77}
 77%|███████▋  | 1635/2117 [55:07<16:20,  2.04s/it] 77%|███████▋  | 1636/2117 [55:09<16:23,  2.04s/it]                                                   {'loss': 1.5449, 'learning_rate': 5.3763492381286995e-05, 'epoch': 0.77}
 77%|███████▋  | 1636/2117 [55:09<16:23,  2.04s/it] 77%|███████▋  | 1637/2117 [55:11<16:03,  2.01s/it]                                                   {'loss': 1.1825, 'learning_rate': 5.355116241080449e-05, 'epoch': 0.77}
 77%|███████▋  | 1637/2117 [55:11<16:03,  2.01s/it] 77%|███████▋  | 1638/2117 [55:13<16:01,  2.01s/it]                                                   {'loss': 1.2807, 'learning_rate': 5.333918772280055e-05, 'epoch': 0.77}
 77%|███████▋  | 1638/2117 [55:13<16:01,  2.01s/it] 77%|███████▋  | 1639/2117 [55:15<16:22,  2.06s/it]                                                   {'loss': 1.4253, 'learning_rate': 5.312756883152252e-05, 'epoch': 0.77}
 77%|███████▋  | 1639/2117 [55:15<16:22,  2.06s/it] 77%|███████▋  | 1640/2117 [55:17<15:36,  1.96s/it]                                                   {'loss': 1.1767, 'learning_rate': 5.291630625035411e-05, 'epoch': 0.77}
 77%|███████▋  | 1640/2117 [55:17<15:36,  1.96s/it] 78%|███████▊  | 1641/2117 [55:19<16:21,  2.06s/it]                                                   {'loss': 1.1725, 'learning_rate': 5.270540049181505e-05, 'epoch': 0.77}
 78%|███████▊  | 1641/2117 [55:19<16:21,  2.06s/it] 78%|███████▊  | 1642/2117 [55:21<16:00,  2.02s/it]                                                   {'loss': 1.0447, 'learning_rate': 5.249485206755917e-05, 'epoch': 0.78}
 78%|███████▊  | 1642/2117 [55:21<16:00,  2.02s/it] 78%|███████▊  | 1643/2117 [55:23<15:46,  2.00s/it]                                                   {'loss': 0.9761, 'learning_rate': 5.228466148837352e-05, 'epoch': 0.78}
 78%|███████▊  | 1643/2117 [55:23<15:46,  2.00s/it] 78%|███████▊  | 1644/2117 [55:25<16:03,  2.04s/it]                                                   {'loss': 1.2413, 'learning_rate': 5.207482926417702e-05, 'epoch': 0.78}
 78%|███████▊  | 1644/2117 [55:25<16:03,  2.04s/it] 78%|███████▊  | 1645/2117 [55:27<16:11,  2.06s/it]                                                   {'loss': 1.1953, 'learning_rate': 5.186535590401915e-05, 'epoch': 0.78}
 78%|███████▊  | 1645/2117 [55:27<16:11,  2.06s/it] 78%|███████▊  | 1646/2117 [55:30<17:16,  2.20s/it]                                                   {'loss': 1.2767, 'learning_rate': 5.165624191607883e-05, 'epoch': 0.78}
 78%|███████▊  | 1646/2117 [55:30<17:16,  2.20s/it] 78%|███████▊  | 1647/2117 [55:32<17:02,  2.18s/it]                                                   {'loss': 0.9696, 'learning_rate': 5.1447487807663306e-05, 'epoch': 0.78}
 78%|███████▊  | 1647/2117 [55:32<17:02,  2.18s/it] 78%|███████▊  | 1648/2117 [55:34<16:59,  2.17s/it]                                                   {'loss': 1.145, 'learning_rate': 5.123909408520644e-05, 'epoch': 0.78}
 78%|███████▊  | 1648/2117 [55:34<16:59,  2.17s/it] 78%|███████▊  | 1649/2117 [55:36<17:15,  2.21s/it]                                                   {'loss': 1.4862, 'learning_rate': 5.103106125426811e-05, 'epoch': 0.78}
 78%|███████▊  | 1649/2117 [55:36<17:15,  2.21s/it] 78%|███████▊  | 1650/2117 [55:38<16:28,  2.12s/it]                                                   {'loss': 0.9743, 'learning_rate': 5.082338981953254e-05, 'epoch': 0.78}
 78%|███████▊  | 1650/2117 [55:38<16:28,  2.12s/it] 78%|███████▊  | 1651/2117 [55:40<16:09,  2.08s/it]                                                   {'loss': 1.2537, 'learning_rate': 5.0616080284807175e-05, 'epoch': 0.78}
 78%|███████▊  | 1651/2117 [55:40<16:09,  2.08s/it] 78%|███████▊  | 1652/2117 [55:43<17:26,  2.25s/it]                                                   {'loss': 1.4724, 'learning_rate': 5.0409133153021606e-05, 'epoch': 0.78}
 78%|███████▊  | 1652/2117 [55:43<17:26,  2.25s/it] 78%|███████▊  | 1653/2117 [55:46<18:34,  2.40s/it]                                                   {'loss': 1.4174, 'learning_rate': 5.0202548926226066e-05, 'epoch': 0.78}
 78%|███████▊  | 1653/2117 [55:46<18:34,  2.40s/it] 78%|███████▊  | 1654/2117 [55:48<17:56,  2.32s/it]                                                   {'loss': 1.5319, 'learning_rate': 4.99963281055907e-05, 'epoch': 0.78}
 78%|███████▊  | 1654/2117 [55:48<17:56,  2.32s/it] 78%|███████▊  | 1655/2117 [55:50<17:43,  2.30s/it]                                                   {'loss': 1.5159, 'learning_rate': 4.9790471191403674e-05, 'epoch': 0.78}
 78%|███████▊  | 1655/2117 [55:50<17:43,  2.30s/it] 78%|███████▊  | 1656/2117 [55:52<16:42,  2.17s/it]                                                   {'loss': 0.9962, 'learning_rate': 4.958497868307048e-05, 'epoch': 0.78}
 78%|███████▊  | 1656/2117 [55:52<16:42,  2.17s/it] 78%|███████▊  | 1657/2117 [55:54<16:33,  2.16s/it]                                                   {'loss': 1.3318, 'learning_rate': 4.937985107911267e-05, 'epoch': 0.78}
 78%|███████▊  | 1657/2117 [55:54<16:33,  2.16s/it] 78%|███████▊  | 1658/2117 [55:56<16:14,  2.12s/it]                                                   {'loss': 1.3187, 'learning_rate': 4.917508887716642e-05, 'epoch': 0.78}
 78%|███████▊  | 1658/2117 [55:56<16:14,  2.12s/it] 78%|███████▊  | 1659/2117 [55:59<17:45,  2.33s/it]                                                   {'loss': 1.0479, 'learning_rate': 4.8970692573981455e-05, 'epoch': 0.78}
 78%|███████▊  | 1659/2117 [55:59<17:45,  2.33s/it] 78%|███████▊  | 1660/2117 [56:01<17:16,  2.27s/it]                                                   {'loss': 1.1313, 'learning_rate': 4.876666266541987e-05, 'epoch': 0.78}
 78%|███████▊  | 1660/2117 [56:01<17:16,  2.27s/it] 78%|███████▊  | 1661/2117 [56:03<16:55,  2.23s/it]                                                   {'loss': 1.1031, 'learning_rate': 4.856299964645481e-05, 'epoch': 0.78}
 78%|███████▊  | 1661/2117 [56:03<16:55,  2.23s/it] 79%|███████▊  | 1662/2117 [56:05<16:11,  2.14s/it]                                                   {'loss': 0.955, 'learning_rate': 4.835970401116958e-05, 'epoch': 0.78}
 79%|███████▊  | 1662/2117 [56:05<16:11,  2.14s/it] 79%|███████▊  | 1663/2117 [56:07<15:48,  2.09s/it]                                                   {'loss': 1.2066, 'learning_rate': 4.815677625275592e-05, 'epoch': 0.79}
 79%|███████▊  | 1663/2117 [56:07<15:48,  2.09s/it] 79%|███████▊  | 1664/2117 [56:09<15:24,  2.04s/it]                                                   {'loss': 1.1384, 'learning_rate': 4.79542168635132e-05, 'epoch': 0.79}
 79%|███████▊  | 1664/2117 [56:09<15:24,  2.04s/it] 79%|███████▊  | 1665/2117 [56:11<15:40,  2.08s/it]                                                   {'loss': 1.3048, 'learning_rate': 4.775202633484732e-05, 'epoch': 0.79}
 79%|███████▊  | 1665/2117 [56:11<15:40,  2.08s/it] 79%|███████▊  | 1666/2117 [56:13<14:49,  1.97s/it]                                                   {'loss': 1.223, 'learning_rate': 4.7550205157269134e-05, 'epoch': 0.79}
 79%|███████▊  | 1666/2117 [56:13<14:49,  1.97s/it] 79%|███████▊  | 1667/2117 [56:15<14:16,  1.90s/it]                                                   {'loss': 1.2406, 'learning_rate': 4.73487538203935e-05, 'epoch': 0.79}
 79%|███████▊  | 1667/2117 [56:15<14:16,  1.90s/it] 79%|███████▉  | 1668/2117 [56:16<13:50,  1.85s/it]                                                   {'loss': 1.0293, 'learning_rate': 4.7147672812938034e-05, 'epoch': 0.79}
 79%|███████▉  | 1668/2117 [56:16<13:50,  1.85s/it] 79%|███████▉  | 1669/2117 [56:18<14:12,  1.90s/it]                                                   {'loss': 1.1029, 'learning_rate': 4.6946962622722e-05, 'epoch': 0.79}
 79%|███████▉  | 1669/2117 [56:18<14:12,  1.90s/it] 79%|███████▉  | 1670/2117 [56:20<14:03,  1.89s/it]                                                   {'loss': 1.3801, 'learning_rate': 4.674662373666503e-05, 'epoch': 0.79}
 79%|███████▉  | 1670/2117 [56:20<14:03,  1.89s/it] 79%|███████▉  | 1671/2117 [56:22<14:26,  1.94s/it]                                                   {'loss': 1.3824, 'learning_rate': 4.654665664078588e-05, 'epoch': 0.79}
 79%|███████▉  | 1671/2117 [56:22<14:26,  1.94s/it] 79%|███████▉  | 1672/2117 [56:25<15:27,  2.08s/it]                                                   {'loss': 1.3021, 'learning_rate': 4.634706182020161e-05, 'epoch': 0.79}
 79%|███████▉  | 1672/2117 [56:25<15:27,  2.08s/it] 79%|███████▉  | 1673/2117 [56:27<15:13,  2.06s/it]                                                   {'loss': 1.2043, 'learning_rate': 4.6147839759125936e-05, 'epoch': 0.79}
 79%|███████▉  | 1673/2117 [56:27<15:13,  2.06s/it] 79%|███████▉  | 1674/2117 [56:29<14:58,  2.03s/it]                                                   {'loss': 1.1829, 'learning_rate': 4.5948990940868175e-05, 'epoch': 0.79}
 79%|███████▉  | 1674/2117 [56:29<14:58,  2.03s/it] 79%|███████▉  | 1675/2117 [56:31<14:51,  2.02s/it]                                                   {'loss': 1.1432, 'learning_rate': 4.5750515847832434e-05, 'epoch': 0.79}
 79%|███████▉  | 1675/2117 [56:31<14:51,  2.02s/it] 79%|███████▉  | 1676/2117 [56:32<14:35,  1.99s/it]                                                   {'loss': 1.2856, 'learning_rate': 4.555241496151603e-05, 'epoch': 0.79}
 79%|███████▉  | 1676/2117 [56:32<14:35,  1.99s/it] 79%|███████▉  | 1677/2117 [56:34<14:29,  1.98s/it]                                                   {'loss': 1.1847, 'learning_rate': 4.535468876250841e-05, 'epoch': 0.79}
 79%|███████▉  | 1677/2117 [56:34<14:29,  1.98s/it] 79%|███████▉  | 1678/2117 [56:36<13:57,  1.91s/it]                                                   {'loss': 0.8359, 'learning_rate': 4.5157337730490135e-05, 'epoch': 0.79}
 79%|███████▉  | 1678/2117 [56:36<13:57,  1.91s/it] 79%|███████▉  | 1679/2117 [56:39<16:01,  2.19s/it]                                                   {'loss': 1.1477, 'learning_rate': 4.4960362344231466e-05, 'epoch': 0.79}
 79%|███████▉  | 1679/2117 [56:39<16:01,  2.19s/it] 79%|███████▉  | 1680/2117 [56:41<15:46,  2.17s/it]                                                   {'loss': 1.1412, 'learning_rate': 4.4763763081591694e-05, 'epoch': 0.79}
 79%|███████▉  | 1680/2117 [56:41<15:46,  2.17s/it] 79%|███████▉  | 1681/2117 [56:43<15:26,  2.13s/it]                                                   {'loss': 1.3056, 'learning_rate': 4.4567540419517115e-05, 'epoch': 0.79}
 79%|███████▉  | 1681/2117 [56:43<15:26,  2.13s/it] 79%|███████▉  | 1682/2117 [56:46<16:40,  2.30s/it]                                                   {'loss': 1.3224, 'learning_rate': 4.437169483404091e-05, 'epoch': 0.79}
 79%|███████▉  | 1682/2117 [56:46<16:40,  2.30s/it] 79%|███████▉  | 1683/2117 [56:48<16:22,  2.26s/it]                                                   {'loss': 1.2936, 'learning_rate': 4.41762268002812e-05, 'epoch': 0.79}
 79%|███████▉  | 1683/2117 [56:48<16:22,  2.26s/it] 80%|███████▉  | 1684/2117 [56:50<15:30,  2.15s/it]                                                   {'loss': 0.9675, 'learning_rate': 4.398113679244018e-05, 'epoch': 0.8}
 80%|███████▉  | 1684/2117 [56:50<15:30,  2.15s/it] 80%|███████▉  | 1685/2117 [56:52<15:17,  2.12s/it]                                                   {'loss': 1.3418, 'learning_rate': 4.378642528380306e-05, 'epoch': 0.8}
 80%|███████▉  | 1685/2117 [56:52<15:17,  2.12s/it] 80%|███████▉  | 1686/2117 [56:54<14:48,  2.06s/it]                                                   {'loss': 1.1064, 'learning_rate': 4.359209274673675e-05, 'epoch': 0.8}
 80%|███████▉  | 1686/2117 [56:54<14:48,  2.06s/it] 80%|███████▉  | 1687/2117 [56:56<14:51,  2.07s/it]                                                   {'loss': 1.1713, 'learning_rate': 4.339813965268873e-05, 'epoch': 0.8}
 80%|███████▉  | 1687/2117 [56:56<14:51,  2.07s/it] 80%|███████▉  | 1688/2117 [56:58<14:58,  2.09s/it]                                                   {'loss': 1.2932, 'learning_rate': 4.3204566472186204e-05, 'epoch': 0.8}
 80%|███████▉  | 1688/2117 [56:58<14:58,  2.09s/it] 80%|███████▉  | 1689/2117 [57:00<14:12,  1.99s/it]                                                   {'loss': 1.3301, 'learning_rate': 4.301137367483432e-05, 'epoch': 0.8}
 80%|███████▉  | 1689/2117 [57:00<14:12,  1.99s/it] 80%|███████▉  | 1690/2117 [57:02<13:57,  1.96s/it]                                                   {'loss': 0.9956, 'learning_rate': 4.2818561729315795e-05, 'epoch': 0.8}
 80%|███████▉  | 1690/2117 [57:02<13:57,  1.96s/it] 80%|███████▉  | 1691/2117 [57:04<14:23,  2.03s/it]                                                   {'loss': 1.5543, 'learning_rate': 4.26261311033892e-05, 'epoch': 0.8}
 80%|███████▉  | 1691/2117 [57:04<14:23,  2.03s/it] 80%|███████▉  | 1692/2117 [57:06<14:26,  2.04s/it]                                                   {'loss': 1.2308, 'learning_rate': 4.243408226388808e-05, 'epoch': 0.8}
 80%|███████▉  | 1692/2117 [57:06<14:26,  2.04s/it] 80%|███████▉  | 1693/2117 [57:08<13:45,  1.95s/it]                                                   {'loss': 1.2872, 'learning_rate': 4.2242415676719736e-05, 'epoch': 0.8}
 80%|███████▉  | 1693/2117 [57:08<13:45,  1.95s/it] 80%|████████  | 1694/2117 [57:10<13:28,  1.91s/it]                                                   {'loss': 1.3242, 'learning_rate': 4.205113180686415e-05, 'epoch': 0.8}
 80%|████████  | 1694/2117 [57:10<13:28,  1.91s/it] 80%|████████  | 1695/2117 [57:12<13:28,  1.92s/it]                                                   {'loss': 1.2402, 'learning_rate': 4.1860231118373004e-05, 'epoch': 0.8}
 80%|████████  | 1695/2117 [57:12<13:28,  1.92s/it] 80%|████████  | 1696/2117 [57:13<13:26,  1.92s/it]                                                   {'loss': 1.3378, 'learning_rate': 4.166971407436806e-05, 'epoch': 0.8}
 80%|████████  | 1696/2117 [57:13<13:26,  1.92s/it] 80%|████████  | 1697/2117 [57:16<13:50,  1.98s/it]                                                   {'loss': 1.103, 'learning_rate': 4.147958113704058e-05, 'epoch': 0.8}
 80%|████████  | 1697/2117 [57:16<13:50,  1.98s/it] 80%|████████  | 1698/2117 [57:18<14:00,  2.01s/it]                                                   {'loss': 1.1262, 'learning_rate': 4.1289832767650015e-05, 'epoch': 0.8}
 80%|████████  | 1698/2117 [57:18<14:00,  2.01s/it] 80%|████████  | 1699/2117 [57:20<13:38,  1.96s/it]                                                   {'loss': 1.3142, 'learning_rate': 4.110046942652279e-05, 'epoch': 0.8}
 80%|████████  | 1699/2117 [57:20<13:38,  1.96s/it] 80%|████████  | 1700/2117 [57:21<13:32,  1.95s/it]                                                   {'loss': 1.1188, 'learning_rate': 4.091149157305123e-05, 'epoch': 0.8}
 80%|████████  | 1700/2117 [57:21<13:32,  1.95s/it] 80%|████████  | 1701/2117 [57:23<13:30,  1.95s/it]                                                   {'loss': 1.1387, 'learning_rate': 4.072289966569252e-05, 'epoch': 0.8}
 80%|████████  | 1701/2117 [57:23<13:30,  1.95s/it] 80%|████████  | 1702/2117 [57:25<13:17,  1.92s/it]                                                   {'loss': 1.2965, 'learning_rate': 4.0534694161967465e-05, 'epoch': 0.8}
 80%|████████  | 1702/2117 [57:25<13:17,  1.92s/it] 80%|████████  | 1703/2117 [57:28<14:04,  2.04s/it]                                                   {'loss': 1.4459, 'learning_rate': 4.034687551845975e-05, 'epoch': 0.8}
 80%|████████  | 1703/2117 [57:28<14:04,  2.04s/it] 80%|████████  | 1704/2117 [57:29<13:47,  2.00s/it]                                                   {'loss': 1.072, 'learning_rate': 4.01594441908141e-05, 'epoch': 0.8}
 80%|████████  | 1704/2117 [57:29<13:47,  2.00s/it] 81%|████████  | 1705/2117 [57:31<13:33,  1.97s/it]                                                   {'loss': 0.9118, 'learning_rate': 3.9972400633735865e-05, 'epoch': 0.81}
 81%|████████  | 1705/2117 [57:31<13:33,  1.97s/it] 81%|████████  | 1706/2117 [57:34<14:35,  2.13s/it]                                                   {'loss': 1.1985, 'learning_rate': 3.9785745300989753e-05, 'epoch': 0.81}
 81%|████████  | 1706/2117 [57:34<14:35,  2.13s/it] 81%|████████  | 1707/2117 [57:36<14:47,  2.16s/it]                                                   {'loss': 1.3719, 'learning_rate': 3.95994786453985e-05, 'epoch': 0.81}
 81%|████████  | 1707/2117 [57:36<14:47,  2.16s/it] 81%|████████  | 1708/2117 [57:38<14:27,  2.12s/it]                                                   {'loss': 1.3824, 'learning_rate': 3.9413601118841935e-05, 'epoch': 0.81}
 81%|████████  | 1708/2117 [57:38<14:27,  2.12s/it] 81%|████████  | 1709/2117 [57:40<14:04,  2.07s/it]                                                   {'loss': 1.2938, 'learning_rate': 3.92281131722559e-05, 'epoch': 0.81}
 81%|████████  | 1709/2117 [57:40<14:04,  2.07s/it] 81%|████████  | 1710/2117 [57:42<13:19,  1.96s/it]                                                   {'loss': 0.9944, 'learning_rate': 3.904301525563112e-05, 'epoch': 0.81}
 81%|████████  | 1710/2117 [57:42<13:19,  1.96s/it] 81%|████████  | 1711/2117 [57:44<13:27,  1.99s/it]                                                   {'loss': 1.3555, 'learning_rate': 3.885830781801212e-05, 'epoch': 0.81}
 81%|████████  | 1711/2117 [57:44<13:27,  1.99s/it] 81%|████████  | 1712/2117 [57:46<13:58,  2.07s/it]                                                   {'loss': 1.1441, 'learning_rate': 3.8673991307496004e-05, 'epoch': 0.81}
 81%|████████  | 1712/2117 [57:46<13:58,  2.07s/it] 81%|████████  | 1713/2117 [57:48<13:59,  2.08s/it]                                                   {'loss': 1.3109, 'learning_rate': 3.849006617123179e-05, 'epoch': 0.81}
 81%|████████  | 1713/2117 [57:48<13:59,  2.08s/it] 81%|████████  | 1714/2117 [57:50<12:55,  1.92s/it]                                                   {'loss': 1.0028, 'learning_rate': 3.830653285541877e-05, 'epoch': 0.81}
 81%|████████  | 1714/2117 [57:50<12:55,  1.92s/it] 81%|████████  | 1715/2117 [57:52<12:42,  1.90s/it]                                                   {'loss': 1.1562, 'learning_rate': 3.812339180530564e-05, 'epoch': 0.81}
 81%|████████  | 1715/2117 [57:52<12:42,  1.90s/it] 81%|████████  | 1716/2117 [57:53<12:29,  1.87s/it]                                                   {'loss': 1.0405, 'learning_rate': 3.794064346518973e-05, 'epoch': 0.81}
 81%|████████  | 1716/2117 [57:53<12:29,  1.87s/it] 81%|████████  | 1717/2117 [57:55<12:36,  1.89s/it]                                                   {'loss': 1.2983, 'learning_rate': 3.7758288278415455e-05, 'epoch': 0.81}
 81%|████████  | 1717/2117 [57:55<12:36,  1.89s/it] 81%|████████  | 1718/2117 [57:58<13:07,  1.97s/it]                                                   {'loss': 1.2136, 'learning_rate': 3.7576326687373545e-05, 'epoch': 0.81}
 81%|████████  | 1718/2117 [57:58<13:07,  1.97s/it] 81%|████████  | 1719/2117 [57:59<13:01,  1.96s/it]                                                   {'loss': 1.2544, 'learning_rate': 3.739475913349981e-05, 'epoch': 0.81}
 81%|████████  | 1719/2117 [57:59<13:01,  1.96s/it] 81%|████████  | 1720/2117 [58:01<13:07,  1.98s/it]                                                   {'loss': 1.1806, 'learning_rate': 3.72135860572741e-05, 'epoch': 0.81}
 81%|████████  | 1720/2117 [58:01<13:07,  1.98s/it] 81%|████████▏ | 1721/2117 [58:03<13:05,  1.98s/it]                                                   {'loss': 1.5005, 'learning_rate': 3.703280789821948e-05, 'epoch': 0.81}
 81%|████████▏ | 1721/2117 [58:03<13:05,  1.98s/it] 81%|████████▏ | 1722/2117 [58:06<13:16,  2.02s/it]                                                   {'loss': 1.3666, 'learning_rate': 3.685242509490061e-05, 'epoch': 0.81}
 81%|████████▏ | 1722/2117 [58:06<13:16,  2.02s/it] 81%|████████▏ | 1723/2117 [58:07<12:45,  1.94s/it]                                                   {'loss': 1.2283, 'learning_rate': 3.6672438084923376e-05, 'epoch': 0.81}
 81%|████████▏ | 1723/2117 [58:07<12:45,  1.94s/it] 81%|████████▏ | 1724/2117 [58:10<13:29,  2.06s/it]                                                   {'loss': 1.3949, 'learning_rate': 3.649284730493323e-05, 'epoch': 0.81}
 81%|████████▏ | 1724/2117 [58:10<13:29,  2.06s/it] 81%|████████▏ | 1725/2117 [58:12<13:55,  2.13s/it]                                                   {'loss': 1.0868, 'learning_rate': 3.631365319061448e-05, 'epoch': 0.81}
 81%|████████▏ | 1725/2117 [58:12<13:55,  2.13s/it] 82%|████████▏ | 1726/2117 [58:14<13:06,  2.01s/it]                                                   {'loss': 1.089, 'learning_rate': 3.6134856176689126e-05, 'epoch': 0.82}
 82%|████████▏ | 1726/2117 [58:14<13:06,  2.01s/it] 82%|████████▏ | 1727/2117 [58:16<13:10,  2.03s/it]                                                   {'loss': 1.2464, 'learning_rate': 3.5956456696915765e-05, 'epoch': 0.82}
 82%|████████▏ | 1727/2117 [58:16<13:10,  2.03s/it] 82%|████████▏ | 1728/2117 [58:18<12:40,  1.96s/it]                                                   {'loss': 0.941, 'learning_rate': 3.577845518408856e-05, 'epoch': 0.82}
 82%|████████▏ | 1728/2117 [58:18<12:40,  1.96s/it] 82%|████████▏ | 1729/2117 [58:19<12:29,  1.93s/it]                                                   {'loss': 1.198, 'learning_rate': 3.5600852070036406e-05, 'epoch': 0.82}
 82%|████████▏ | 1729/2117 [58:19<12:29,  1.93s/it] 82%|████████▏ | 1730/2117 [58:22<12:50,  1.99s/it]                                                   {'loss': 1.1854, 'learning_rate': 3.542364778562137e-05, 'epoch': 0.82}
 82%|████████▏ | 1730/2117 [58:22<12:50,  1.99s/it] 82%|████████▏ | 1731/2117 [58:24<13:54,  2.16s/it]                                                   {'loss': 1.2015, 'learning_rate': 3.5246842760738265e-05, 'epoch': 0.82}
 82%|████████▏ | 1731/2117 [58:24<13:54,  2.16s/it] 82%|████████▏ | 1732/2117 [58:26<13:35,  2.12s/it]                                                   {'loss': 1.1797, 'learning_rate': 3.5070437424313176e-05, 'epoch': 0.82}
 82%|████████▏ | 1732/2117 [58:26<13:35,  2.12s/it] 82%|████████▏ | 1733/2117 [58:28<13:40,  2.14s/it]                                                   {'loss': 1.3385, 'learning_rate': 3.489443220430251e-05, 'epoch': 0.82}
 82%|████████▏ | 1733/2117 [58:28<13:40,  2.14s/it] 82%|████████▏ | 1734/2117 [58:30<13:38,  2.14s/it]                                                   {'loss': 1.3971, 'learning_rate': 3.4718827527692044e-05, 'epoch': 0.82}
 82%|████████▏ | 1734/2117 [58:30<13:38,  2.14s/it] 82%|████████▏ | 1735/2117 [58:32<13:01,  2.05s/it]                                                   {'loss': 1.0747, 'learning_rate': 3.454362382049583e-05, 'epoch': 0.82}
 82%|████████▏ | 1735/2117 [58:32<13:01,  2.05s/it] 82%|████████▏ | 1736/2117 [58:34<13:02,  2.05s/it]                                                   {'loss': 1.0842, 'learning_rate': 3.4368821507755336e-05, 'epoch': 0.82}
 82%|████████▏ | 1736/2117 [58:34<13:02,  2.05s/it] 82%|████████▏ | 1737/2117 [58:36<12:50,  2.03s/it]                                                   {'loss': 1.1598, 'learning_rate': 3.4194421013537914e-05, 'epoch': 0.82}
 82%|████████▏ | 1737/2117 [58:36<12:50,  2.03s/it] 82%|████████▏ | 1738/2117 [58:38<12:37,  2.00s/it]                                                   {'loss': 1.2907, 'learning_rate': 3.4020422760936335e-05, 'epoch': 0.82}
 82%|████████▏ | 1738/2117 [58:38<12:37,  2.00s/it] 82%|████████▏ | 1739/2117 [58:40<12:49,  2.03s/it]                                                   {'loss': 1.3287, 'learning_rate': 3.38468271720676e-05, 'epoch': 0.82}
 82%|████████▏ | 1739/2117 [58:40<12:49,  2.03s/it] 82%|████████▏ | 1740/2117 [58:42<12:24,  1.97s/it]                                                   {'loss': 1.0782, 'learning_rate': 3.367363466807172e-05, 'epoch': 0.82}
 82%|████████▏ | 1740/2117 [58:42<12:24,  1.97s/it] 82%|████████▏ | 1741/2117 [58:44<12:22,  1.97s/it]                                                   {'loss': 1.4371, 'learning_rate': 3.350084566911087e-05, 'epoch': 0.82}
 82%|████████▏ | 1741/2117 [58:44<12:22,  1.97s/it] 82%|████████▏ | 1742/2117 [58:46<12:42,  2.03s/it]                                                   {'loss': 1.1154, 'learning_rate': 3.332846059436831e-05, 'epoch': 0.82}
 82%|████████▏ | 1742/2117 [58:46<12:42,  2.03s/it] 82%|████████▏ | 1743/2117 [58:48<12:20,  1.98s/it]                                                   {'loss': 1.1617, 'learning_rate': 3.3156479862047375e-05, 'epoch': 0.82}
 82%|████████▏ | 1743/2117 [58:48<12:20,  1.98s/it] 82%|████████▏ | 1744/2117 [58:50<12:13,  1.97s/it]                                                   {'loss': 1.1814, 'learning_rate': 3.2984903889370634e-05, 'epoch': 0.82}
 82%|████████▏ | 1744/2117 [58:50<12:13,  1.97s/it] 82%|████████▏ | 1745/2117 [58:52<12:16,  1.98s/it]                                                   {'loss': 1.3911, 'learning_rate': 3.281373309257842e-05, 'epoch': 0.82}
 82%|████████▏ | 1745/2117 [58:52<12:16,  1.98s/it] 82%|████████▏ | 1746/2117 [58:54<12:37,  2.04s/it]                                                   {'loss': 1.2625, 'learning_rate': 3.264296788692833e-05, 'epoch': 0.82}
 82%|████████▏ | 1746/2117 [58:54<12:37,  2.04s/it] 83%|████████▎ | 1747/2117 [58:56<12:26,  2.02s/it]                                                   {'loss': 1.1116, 'learning_rate': 3.2472608686694015e-05, 'epoch': 0.82}
 83%|████████▎ | 1747/2117 [58:56<12:26,  2.02s/it] 83%|████████▎ | 1748/2117 [58:59<12:49,  2.08s/it]                                                   {'loss': 1.3004, 'learning_rate': 3.230265590516408e-05, 'epoch': 0.83}
 83%|████████▎ | 1748/2117 [58:59<12:49,  2.08s/it] 83%|████████▎ | 1749/2117 [59:00<12:21,  2.01s/it]                                                   {'loss': 1.0188, 'learning_rate': 3.213310995464114e-05, 'epoch': 0.83}
 83%|████████▎ | 1749/2117 [59:00<12:21,  2.01s/it] 83%|████████▎ | 1750/2117 [59:02<12:24,  2.03s/it]                                                   {'loss': 1.3164, 'learning_rate': 3.1963971246440924e-05, 'epoch': 0.83}
 83%|████████▎ | 1750/2117 [59:02<12:24,  2.03s/it] 83%|████████▎ | 1751/2117 [59:04<12:03,  1.98s/it]                                                   {'loss': 1.0501, 'learning_rate': 3.179524019089117e-05, 'epoch': 0.83}
 83%|████████▎ | 1751/2117 [59:04<12:03,  1.98s/it] 83%|████████▎ | 1752/2117 [59:07<13:46,  2.26s/it]                                                   {'loss': 1.2515, 'learning_rate': 3.1626917197330616e-05, 'epoch': 0.83}
 83%|████████▎ | 1752/2117 [59:07<13:46,  2.26s/it] 83%|████████▎ | 1753/2117 [59:09<13:15,  2.19s/it]                                                   {'loss': 1.2192, 'learning_rate': 3.1459002674108085e-05, 'epoch': 0.83}
 83%|████████▎ | 1753/2117 [59:09<13:15,  2.19s/it] 83%|████████▎ | 1754/2117 [59:11<12:36,  2.08s/it]                                                   {'loss': 1.1618, 'learning_rate': 3.1291497028581516e-05, 'epoch': 0.83}
 83%|████████▎ | 1754/2117 [59:11<12:36,  2.08s/it] 83%|████████▎ | 1755/2117 [59:13<11:54,  1.97s/it]                                                   {'loss': 1.1596, 'learning_rate': 3.1124400667116884e-05, 'epoch': 0.83}
 83%|████████▎ | 1755/2117 [59:13<11:54,  1.97s/it] 83%|████████▎ | 1756/2117 [59:15<11:33,  1.92s/it]                                                   {'loss': 1.2991, 'learning_rate': 3.095771399508705e-05, 'epoch': 0.83}
 83%|████████▎ | 1756/2117 [59:15<11:33,  1.92s/it] 83%|████████▎ | 1757/2117 [59:17<11:29,  1.92s/it]                                                   {'loss': 1.1086, 'learning_rate': 3.0791437416871316e-05, 'epoch': 0.83}
 83%|████████▎ | 1757/2117 [59:17<11:29,  1.92s/it] 83%|████████▎ | 1758/2117 [59:19<11:51,  1.98s/it]                                                   {'loss': 1.3552, 'learning_rate': 3.0625571335853864e-05, 'epoch': 0.83}
 83%|████████▎ | 1758/2117 [59:19<11:51,  1.98s/it] 83%|████████▎ | 1759/2117 [59:20<11:11,  1.88s/it]                                                   {'loss': 1.1716, 'learning_rate': 3.0460116154423102e-05, 'epoch': 0.83}
 83%|████████▎ | 1759/2117 [59:20<11:11,  1.88s/it] 83%|████████▎ | 1760/2117 [59:22<11:38,  1.96s/it]                                                   {'loss': 1.1182, 'learning_rate': 3.0295072273970592e-05, 'epoch': 0.83}
 83%|████████▎ | 1760/2117 [59:22<11:38,  1.96s/it] 83%|████████▎ | 1761/2117 [59:24<11:27,  1.93s/it]                                                   {'loss': 1.2788, 'learning_rate': 3.0130440094890033e-05, 'epoch': 0.83}
 83%|████████▎ | 1761/2117 [59:24<11:27,  1.93s/it] 83%|████████▎ | 1762/2117 [59:26<11:38,  1.97s/it]                                                   {'loss': 1.5593, 'learning_rate': 2.996622001657652e-05, 'epoch': 0.83}
 83%|████████▎ | 1762/2117 [59:26<11:38,  1.97s/it] 83%|████████▎ | 1763/2117 [59:28<11:30,  1.95s/it]                                                   {'loss': 1.216, 'learning_rate': 2.9802412437425077e-05, 'epoch': 0.83}
 83%|████████▎ | 1763/2117 [59:28<11:30,  1.95s/it] 83%|████████▎ | 1764/2117 [59:30<11:33,  1.96s/it]                                                   {'loss': 1.5077, 'learning_rate': 2.9639017754830377e-05, 'epoch': 0.83}
 83%|████████▎ | 1764/2117 [59:30<11:33,  1.96s/it] 83%|████████▎ | 1765/2117 [59:33<12:38,  2.15s/it]                                                   {'loss': 1.362, 'learning_rate': 2.9476036365185166e-05, 'epoch': 0.83}
 83%|████████▎ | 1765/2117 [59:33<12:38,  2.15s/it] 83%|████████▎ | 1766/2117 [59:35<12:19,  2.11s/it]                                                   {'loss': 1.3215, 'learning_rate': 2.931346866387963e-05, 'epoch': 0.83}
 83%|████████▎ | 1766/2117 [59:35<12:19,  2.11s/it] 83%|████████▎ | 1767/2117 [59:37<11:57,  2.05s/it]                                                   {'loss': 1.2743, 'learning_rate': 2.9151315045300353e-05, 'epoch': 0.83}
 83%|████████▎ | 1767/2117 [59:37<11:57,  2.05s/it] 84%|████████▎ | 1768/2117 [59:39<11:57,  2.06s/it]                                                   {'loss': 1.3791, 'learning_rate': 2.8989575902829334e-05, 'epoch': 0.83}
 84%|████████▎ | 1768/2117 [59:39<11:57,  2.06s/it] 84%|████████▎ | 1769/2117 [59:41<11:26,  1.97s/it]                                                   {'loss': 0.9143, 'learning_rate': 2.8828251628843083e-05, 'epoch': 0.84}
 84%|████████▎ | 1769/2117 [59:41<11:26,  1.97s/it] 84%|████████▎ | 1770/2117 [59:43<11:48,  2.04s/it]                                                   {'loss': 1.1611, 'learning_rate': 2.8667342614711733e-05, 'epoch': 0.84}
 84%|████████▎ | 1770/2117 [59:43<11:48,  2.04s/it] 84%|████████▎ | 1771/2117 [59:45<11:22,  1.97s/it]                                                   {'loss': 1.0213, 'learning_rate': 2.850684925079774e-05, 'epoch': 0.84}
 84%|████████▎ | 1771/2117 [59:45<11:22,  1.97s/it] 84%|████████▎ | 1772/2117 [59:47<11:41,  2.03s/it]                                                   {'loss': 1.2423, 'learning_rate': 2.834677192645552e-05, 'epoch': 0.84}
 84%|████████▎ | 1772/2117 [59:47<11:41,  2.03s/it] 84%|████████▍ | 1773/2117 [59:49<11:58,  2.09s/it]                                                   {'loss': 1.2826, 'learning_rate': 2.818711103003e-05, 'epoch': 0.84}
 84%|████████▍ | 1773/2117 [59:49<11:58,  2.09s/it] 84%|████████▍ | 1774/2117 [59:51<11:37,  2.03s/it]                                                   {'loss': 1.0059, 'learning_rate': 2.8027866948855862e-05, 'epoch': 0.84}
 84%|████████▍ | 1774/2117 [59:51<11:37,  2.03s/it] 84%|████████▍ | 1775/2117 [59:53<11:29,  2.01s/it]                                                   {'loss': 1.2449, 'learning_rate': 2.786904006925668e-05, 'epoch': 0.84}
 84%|████████▍ | 1775/2117 [59:53<11:29,  2.01s/it] 84%|████████▍ | 1776/2117 [59:55<11:39,  2.05s/it]                                                   {'loss': 1.4577, 'learning_rate': 2.771063077654383e-05, 'epoch': 0.84}
 84%|████████▍ | 1776/2117 [59:55<11:39,  2.05s/it] 84%|████████▍ | 1777/2117 [59:57<12:00,  2.12s/it]                                                   {'loss': 1.354, 'learning_rate': 2.7552639455015672e-05, 'epoch': 0.84}
 84%|████████▍ | 1777/2117 [59:57<12:00,  2.12s/it] 84%|████████▍ | 1778/2117 [59:59<11:19,  2.01s/it]                                                   {'loss': 1.3385, 'learning_rate': 2.7395066487956557e-05, 'epoch': 0.84}
 84%|████████▍ | 1778/2117 [59:59<11:19,  2.01s/it] 84%|████████▍ | 1779/2117 [1:00:01<11:20,  2.01s/it]                                                     {'loss': 1.1573, 'learning_rate': 2.7237912257635877e-05, 'epoch': 0.84}
 84%|████████▍ | 1779/2117 [1:00:01<11:20,  2.01s/it] 84%|████████▍ | 1780/2117 [1:00:03<11:40,  2.08s/it]                                                     {'loss': 1.2943, 'learning_rate': 2.7081177145307314e-05, 'epoch': 0.84}
 84%|████████▍ | 1780/2117 [1:00:03<11:40,  2.08s/it] 84%|████████▍ | 1781/2117 [1:00:05<11:21,  2.03s/it]                                                     {'loss': 1.3373, 'learning_rate': 2.6924861531207613e-05, 'epoch': 0.84}
 84%|████████▍ | 1781/2117 [1:00:05<11:21,  2.03s/it] 84%|████████▍ | 1782/2117 [1:00:08<12:16,  2.20s/it]                                                     {'loss': 1.4295, 'learning_rate': 2.67689657945559e-05, 'epoch': 0.84}
 84%|████████▍ | 1782/2117 [1:00:08<12:16,  2.20s/it] 84%|████████▍ | 1783/2117 [1:00:10<12:00,  2.16s/it]                                                     {'loss': 1.5029, 'learning_rate': 2.6613490313552693e-05, 'epoch': 0.84}
 84%|████████▍ | 1783/2117 [1:00:10<12:00,  2.16s/it] 84%|████████▍ | 1784/2117 [1:00:12<11:34,  2.09s/it]                                                     {'loss': 1.4016, 'learning_rate': 2.6458435465378895e-05, 'epoch': 0.84}
 84%|████████▍ | 1784/2117 [1:00:12<11:34,  2.09s/it] 84%|████████▍ | 1785/2117 [1:00:14<11:31,  2.08s/it]                                                     {'loss': 1.1433, 'learning_rate': 2.6303801626195168e-05, 'epoch': 0.84}
 84%|████████▍ | 1785/2117 [1:00:14<11:31,  2.08s/it] 84%|████████▍ | 1786/2117 [1:00:16<11:27,  2.08s/it]                                                     {'loss': 1.0045, 'learning_rate': 2.614958917114052e-05, 'epoch': 0.84}
 84%|████████▍ | 1786/2117 [1:00:16<11:27,  2.08s/it] 84%|████████▍ | 1787/2117 [1:00:18<11:17,  2.05s/it]                                                     {'loss': 1.2273, 'learning_rate': 2.5995798474331868e-05, 'epoch': 0.84}
 84%|████████▍ | 1787/2117 [1:00:18<11:17,  2.05s/it] 84%|████████▍ | 1788/2117 [1:00:20<10:47,  1.97s/it]                                                     {'loss': 0.8235, 'learning_rate': 2.5842429908862986e-05, 'epoch': 0.84}
 84%|████████▍ | 1788/2117 [1:00:20<10:47,  1.97s/it] 85%|████████▍ | 1789/2117 [1:00:22<10:44,  1.96s/it]                                                     {'loss': 1.2355, 'learning_rate': 2.5689483846803475e-05, 'epoch': 0.84}
 85%|████████▍ | 1789/2117 [1:00:22<10:44,  1.96s/it] 85%|████████▍ | 1790/2117 [1:00:24<11:06,  2.04s/it]                                                     {'loss': 1.1482, 'learning_rate': 2.553696065919795e-05, 'epoch': 0.85}
 85%|████████▍ | 1790/2117 [1:00:24<11:06,  2.04s/it] 85%|████████▍ | 1791/2117 [1:00:26<10:57,  2.02s/it]                                                     {'loss': 1.0946, 'learning_rate': 2.5384860716065183e-05, 'epoch': 0.85}
 85%|████████▍ | 1791/2117 [1:00:26<10:57,  2.02s/it] 85%|████████▍ | 1792/2117 [1:00:28<10:59,  2.03s/it]                                                     {'loss': 1.2652, 'learning_rate': 2.5233184386397146e-05, 'epoch': 0.85}
 85%|████████▍ | 1792/2117 [1:00:28<10:59,  2.03s/it] 85%|████████▍ | 1793/2117 [1:00:31<11:54,  2.21s/it]                                                     {'loss': 0.9681, 'learning_rate': 2.5081932038158094e-05, 'epoch': 0.85}
 85%|████████▍ | 1793/2117 [1:00:31<11:54,  2.21s/it] 85%|████████▍ | 1794/2117 [1:00:34<13:57,  2.59s/it]                                                     {'loss': 1.1351, 'learning_rate': 2.4931104038283738e-05, 'epoch': 0.85}
 85%|████████▍ | 1794/2117 [1:00:34<13:57,  2.59s/it] 85%|████████▍ | 1795/2117 [1:00:36<13:22,  2.49s/it]                                                     {'loss': 1.0974, 'learning_rate': 2.4780700752680397e-05, 'epoch': 0.85}
 85%|████████▍ | 1795/2117 [1:00:36<13:22,  2.49s/it] 85%|████████▍ | 1796/2117 [1:00:38<12:17,  2.30s/it]                                                     {'loss': 0.9365, 'learning_rate': 2.4630722546223983e-05, 'epoch': 0.85}
 85%|████████▍ | 1796/2117 [1:00:38<12:17,  2.30s/it] 85%|████████▍ | 1797/2117 [1:00:40<12:16,  2.30s/it]                                                     {'loss': 1.2426, 'learning_rate': 2.448116978275905e-05, 'epoch': 0.85}
 85%|████████▍ | 1797/2117 [1:00:40<12:16,  2.30s/it] 85%|████████▍ | 1798/2117 [1:00:42<11:48,  2.22s/it]                                                     {'loss': 1.2849, 'learning_rate': 2.4332042825098245e-05, 'epoch': 0.85}
 85%|████████▍ | 1798/2117 [1:00:42<11:48,  2.22s/it] 85%|████████▍ | 1799/2117 [1:00:44<11:15,  2.12s/it]                                                     {'loss': 1.3706, 'learning_rate': 2.4183342035021107e-05, 'epoch': 0.85}
 85%|████████▍ | 1799/2117 [1:00:44<11:15,  2.12s/it] 85%|████████▌ | 1800/2117 [1:00:47<11:24,  2.16s/it]                                                     {'loss': 1.1806, 'learning_rate': 2.403506777327329e-05, 'epoch': 0.85}
 85%|████████▌ | 1800/2117 [1:00:47<11:24,  2.16s/it] 85%|████████▌ | 1801/2117 [1:00:48<10:46,  2.05s/it]                                                     {'loss': 1.3546, 'learning_rate': 2.3887220399565745e-05, 'epoch': 0.85}
 85%|████████▌ | 1801/2117 [1:00:48<10:46,  2.05s/it] 85%|████████▌ | 1802/2117 [1:00:50<10:21,  1.97s/it]                                                     {'loss': 1.2827, 'learning_rate': 2.373980027257374e-05, 'epoch': 0.85}
 85%|████████▌ | 1802/2117 [1:00:50<10:21,  1.97s/it] 85%|████████▌ | 1803/2117 [1:00:52<10:22,  1.98s/it]                                                     {'loss': 1.2513, 'learning_rate': 2.3592807749936196e-05, 'epoch': 0.85}
 85%|████████▌ | 1803/2117 [1:00:52<10:22,  1.98s/it] 85%|████████▌ | 1804/2117 [1:00:54<10:51,  2.08s/it]                                                     {'loss': 1.3511, 'learning_rate': 2.344624318825439e-05, 'epoch': 0.85}
 85%|████████▌ | 1804/2117 [1:00:54<10:51,  2.08s/it] 85%|████████▌ | 1805/2117 [1:00:57<10:55,  2.10s/it]                                                     {'loss': 1.1903, 'learning_rate': 2.330010694309168e-05, 'epoch': 0.85}
 85%|████████▌ | 1805/2117 [1:00:57<10:55,  2.10s/it] 85%|████████▌ | 1806/2117 [1:00:59<10:31,  2.03s/it]                                                     {'loss': 1.1434, 'learning_rate': 2.3154399368972167e-05, 'epoch': 0.85}
 85%|████████▌ | 1806/2117 [1:00:59<10:31,  2.03s/it] 85%|████████▌ | 1807/2117 [1:01:00<10:05,  1.95s/it]                                                     {'loss': 1.0491, 'learning_rate': 2.3009120819380026e-05, 'epoch': 0.85}
 85%|████████▌ | 1807/2117 [1:01:00<10:05,  1.95s/it] 85%|████████▌ | 1808/2117 [1:01:02<10:16,  2.00s/it]                                                     {'loss': 1.1442, 'learning_rate': 2.286427164675862e-05, 'epoch': 0.85}
 85%|████████▌ | 1808/2117 [1:01:02<10:16,  2.00s/it] 85%|████████▌ | 1809/2117 [1:01:05<11:09,  2.17s/it]                                                     {'loss': 1.2043, 'learning_rate': 2.2719852202509695e-05, 'epoch': 0.85}
 85%|████████▌ | 1809/2117 [1:01:05<11:09,  2.17s/it] 85%|████████▌ | 1810/2117 [1:01:07<10:57,  2.14s/it]                                                     {'loss': 1.289, 'learning_rate': 2.25758628369924e-05, 'epoch': 0.85}
 85%|████████▌ | 1810/2117 [1:01:07<10:57,  2.14s/it] 86%|████████▌ | 1811/2117 [1:01:09<10:25,  2.04s/it]                                                     {'loss': 1.1428, 'learning_rate': 2.2432303899522712e-05, 'epoch': 0.86}
 86%|████████▌ | 1811/2117 [1:01:09<10:25,  2.04s/it] 86%|████████▌ | 1812/2117 [1:01:11<10:07,  1.99s/it]                                                     {'loss': 0.963, 'learning_rate': 2.2289175738372083e-05, 'epoch': 0.86}
 86%|████████▌ | 1812/2117 [1:01:11<10:07,  1.99s/it] 86%|████████▌ | 1813/2117 [1:01:13<09:53,  1.95s/it]                                                     {'loss': 1.487, 'learning_rate': 2.2146478700767205e-05, 'epoch': 0.86}
 86%|████████▌ | 1813/2117 [1:01:13<09:53,  1.95s/it] 86%|████████▌ | 1814/2117 [1:01:14<09:39,  1.91s/it]                                                     {'loss': 1.1215, 'learning_rate': 2.2004213132888696e-05, 'epoch': 0.86}
 86%|████████▌ | 1814/2117 [1:01:14<09:39,  1.91s/it] 86%|████████▌ | 1815/2117 [1:01:16<09:36,  1.91s/it]                                                     {'loss': 1.2184, 'learning_rate': 2.1862379379870525e-05, 'epoch': 0.86}
 86%|████████▌ | 1815/2117 [1:01:16<09:36,  1.91s/it] 86%|████████▌ | 1816/2117 [1:01:18<09:46,  1.95s/it]                                                     {'loss': 1.0798, 'learning_rate': 2.1720977785799046e-05, 'epoch': 0.86}
 86%|████████▌ | 1816/2117 [1:01:18<09:46,  1.95s/it] 86%|████████▌ | 1817/2117 [1:01:20<09:32,  1.91s/it]                                                     {'loss': 1.3635, 'learning_rate': 2.1580008693712173e-05, 'epoch': 0.86}
 86%|████████▌ | 1817/2117 [1:01:20<09:32,  1.91s/it] 86%|████████▌ | 1818/2117 [1:01:22<09:25,  1.89s/it]                                                     {'loss': 1.087, 'learning_rate': 2.1439472445598653e-05, 'epoch': 0.86}
 86%|████████▌ | 1818/2117 [1:01:22<09:25,  1.89s/it] 86%|████████▌ | 1819/2117 [1:01:24<09:58,  2.01s/it]                                                     {'loss': 1.2251, 'learning_rate': 2.1299369382397093e-05, 'epoch': 0.86}
 86%|████████▌ | 1819/2117 [1:01:24<09:58,  2.01s/it] 86%|████████▌ | 1820/2117 [1:01:26<09:46,  1.97s/it]                                                     {'loss': 1.1589, 'learning_rate': 2.1159699843995217e-05, 'epoch': 0.86}
 86%|████████▌ | 1820/2117 [1:01:26<09:46,  1.97s/it] 86%|████████▌ | 1821/2117 [1:01:28<09:44,  1.97s/it]                                                     {'loss': 1.2955, 'learning_rate': 2.102046416922907e-05, 'epoch': 0.86}
 86%|████████▌ | 1821/2117 [1:01:28<09:44,  1.97s/it] 86%|████████▌ | 1822/2117 [1:01:31<10:20,  2.10s/it]                                                     {'loss': 1.5373, 'learning_rate': 2.088166269588212e-05, 'epoch': 0.86}
 86%|████████▌ | 1822/2117 [1:01:31<10:20,  2.10s/it] 86%|████████▌ | 1823/2117 [1:01:32<10:00,  2.04s/it]                                                     {'loss': 1.3092, 'learning_rate': 2.0743295760684435e-05, 'epoch': 0.86}
 86%|████████▌ | 1823/2117 [1:01:32<10:00,  2.04s/it] 86%|████████▌ | 1824/2117 [1:01:35<10:15,  2.10s/it]                                                     {'loss': 1.17, 'learning_rate': 2.0605363699311943e-05, 'epoch': 0.86}
 86%|████████▌ | 1824/2117 [1:01:35<10:15,  2.10s/it] 86%|████████▌ | 1825/2117 [1:01:37<10:18,  2.12s/it]                                                     {'loss': 1.191, 'learning_rate': 2.0467866846385507e-05, 'epoch': 0.86}
 86%|████████▌ | 1825/2117 [1:01:37<10:18,  2.12s/it] 86%|████████▋ | 1826/2117 [1:01:39<09:48,  2.02s/it]                                                     {'loss': 1.0686, 'learning_rate': 2.03308055354704e-05, 'epoch': 0.86}
 86%|████████▋ | 1826/2117 [1:01:39<09:48,  2.02s/it] 86%|████████▋ | 1827/2117 [1:01:41<09:49,  2.03s/it]                                                     {'loss': 1.1097, 'learning_rate': 2.0194180099074943e-05, 'epoch': 0.86}
 86%|████████▋ | 1827/2117 [1:01:41<09:49,  2.03s/it] 86%|████████▋ | 1828/2117 [1:01:43<09:41,  2.01s/it]                                                     {'loss': 1.1788, 'learning_rate': 2.0057990868650234e-05, 'epoch': 0.86}
 86%|████████▋ | 1828/2117 [1:01:43<09:41,  2.01s/it] 86%|████████▋ | 1829/2117 [1:01:45<09:39,  2.01s/it]                                                     {'loss': 1.2758, 'learning_rate': 1.9922238174589202e-05, 'epoch': 0.86}
 86%|████████▋ | 1829/2117 [1:01:45<09:39,  2.01s/it] 86%|████████▋ | 1830/2117 [1:01:47<09:44,  2.04s/it]                                                     {'loss': 1.5553, 'learning_rate': 1.978692234622559e-05, 'epoch': 0.86}
 86%|████████▋ | 1830/2117 [1:01:47<09:44,  2.04s/it] 86%|████████▋ | 1831/2117 [1:01:49<09:40,  2.03s/it]                                                     {'loss': 1.0434, 'learning_rate': 1.9652043711833402e-05, 'epoch': 0.86}
 86%|████████▋ | 1831/2117 [1:01:49<09:40,  2.03s/it] 87%|████████▋ | 1832/2117 [1:01:51<10:04,  2.12s/it]                                                     {'loss': 1.3425, 'learning_rate': 1.9517602598625983e-05, 'epoch': 0.87}
 87%|████████▋ | 1832/2117 [1:01:51<10:04,  2.12s/it] 87%|████████▋ | 1833/2117 [1:01:53<10:07,  2.14s/it]                                                     {'loss': 1.4005, 'learning_rate': 1.9383599332755266e-05, 'epoch': 0.87}
 87%|████████▋ | 1833/2117 [1:01:53<10:07,  2.14s/it] 87%|████████▋ | 1834/2117 [1:01:55<09:43,  2.06s/it]                                                     {'loss': 1.1019, 'learning_rate': 1.9250034239310975e-05, 'epoch': 0.87}
 87%|████████▋ | 1834/2117 [1:01:55<09:43,  2.06s/it] 87%|████████▋ | 1835/2117 [1:01:57<09:23,  2.00s/it]                                                     {'loss': 1.5482, 'learning_rate': 1.911690764231979e-05, 'epoch': 0.87}
 87%|████████▋ | 1835/2117 [1:01:57<09:23,  2.00s/it] 87%|████████▋ | 1836/2117 [1:01:59<09:16,  1.98s/it]                                                     {'loss': 1.1322, 'learning_rate': 1.8984219864744768e-05, 'epoch': 0.87}
 87%|████████▋ | 1836/2117 [1:01:59<09:16,  1.98s/it] 87%|████████▋ | 1837/2117 [1:02:01<09:45,  2.09s/it]                                                     {'loss': 1.3651, 'learning_rate': 1.8851971228484233e-05, 'epoch': 0.87}
 87%|████████▋ | 1837/2117 [1:02:01<09:45,  2.09s/it] 87%|████████▋ | 1838/2117 [1:02:04<09:53,  2.13s/it]                                                     {'loss': 1.5033, 'learning_rate': 1.8720162054371126e-05, 'epoch': 0.87}
 87%|████████▋ | 1838/2117 [1:02:04<09:53,  2.13s/it] 87%|████████▋ | 1839/2117 [1:02:06<09:44,  2.10s/it]                                                     {'loss': 1.1742, 'learning_rate': 1.858879266217246e-05, 'epoch': 0.87}
 87%|████████▋ | 1839/2117 [1:02:06<09:44,  2.10s/it] 87%|████████▋ | 1840/2117 [1:02:08<09:28,  2.05s/it]                                                     {'loss': 1.2404, 'learning_rate': 1.845786337058817e-05, 'epoch': 0.87}
 87%|████████▋ | 1840/2117 [1:02:08<09:28,  2.05s/it] 87%|████████▋ | 1841/2117 [1:02:10<10:18,  2.24s/it]                                                     {'loss': 1.2239, 'learning_rate': 1.8327374497250572e-05, 'epoch': 0.87}
 87%|████████▋ | 1841/2117 [1:02:10<10:18,  2.24s/it] 87%|████████▋ | 1842/2117 [1:02:12<10:05,  2.20s/it]                                                     {'loss': 1.4019, 'learning_rate': 1.8197326358723533e-05, 'epoch': 0.87}
 87%|████████▋ | 1842/2117 [1:02:12<10:05,  2.20s/it] 87%|████████▋ | 1843/2117 [1:02:14<10:00,  2.19s/it]                                                     {'loss': 0.9853, 'learning_rate': 1.806771927050166e-05, 'epoch': 0.87}
 87%|████████▋ | 1843/2117 [1:02:14<10:00,  2.19s/it] 87%|████████▋ | 1844/2117 [1:02:16<09:14,  2.03s/it]                                                     {'loss': 0.8759, 'learning_rate': 1.7938553547009774e-05, 'epoch': 0.87}
 87%|████████▋ | 1844/2117 [1:02:16<09:14,  2.03s/it] 87%|████████▋ | 1845/2117 [1:02:18<09:14,  2.04s/it]                                                     {'loss': 1.1722, 'learning_rate': 1.7809829501601594e-05, 'epoch': 0.87}
 87%|████████▋ | 1845/2117 [1:02:18<09:14,  2.04s/it] 87%|████████▋ | 1846/2117 [1:02:20<09:11,  2.03s/it]                                                     {'loss': 1.3178, 'learning_rate': 1.7681547446559722e-05, 'epoch': 0.87}
 87%|████████▋ | 1846/2117 [1:02:20<09:11,  2.03s/it] 87%|████████▋ | 1847/2117 [1:02:22<08:59,  2.00s/it]                                                     {'loss': 1.494, 'learning_rate': 1.7553707693094213e-05, 'epoch': 0.87}
 87%|████████▋ | 1847/2117 [1:02:22<08:59,  2.00s/it] 87%|████████▋ | 1848/2117 [1:02:24<08:37,  1.92s/it]                                                     {'loss': 1.1439, 'learning_rate': 1.7426310551342273e-05, 'epoch': 0.87}
 87%|████████▋ | 1848/2117 [1:02:24<08:37,  1.92s/it] 87%|████████▋ | 1849/2117 [1:02:26<08:42,  1.95s/it]                                                     {'loss': 1.1022, 'learning_rate': 1.7299356330367256e-05, 'epoch': 0.87}
 87%|████████▋ | 1849/2117 [1:02:26<08:42,  1.95s/it] 87%|████████▋ | 1850/2117 [1:02:28<08:41,  1.95s/it]                                                     {'loss': 1.3888, 'learning_rate': 1.7172845338157995e-05, 'epoch': 0.87}
 87%|████████▋ | 1850/2117 [1:02:28<08:41,  1.95s/it] 87%|████████▋ | 1851/2117 [1:02:30<08:23,  1.89s/it]                                                     {'loss': 1.177, 'learning_rate': 1.7046777881628095e-05, 'epoch': 0.87}
 87%|████████▋ | 1851/2117 [1:02:30<08:23,  1.89s/it] 87%|████████▋ | 1852/2117 [1:02:32<08:23,  1.90s/it]                                                     {'loss': 1.0688, 'learning_rate': 1.69211542666152e-05, 'epoch': 0.87}
 87%|████████▋ | 1852/2117 [1:02:32<08:23,  1.90s/it] 88%|████████▊ | 1853/2117 [1:02:34<08:46,  1.99s/it]                                                     {'loss': 1.4828, 'learning_rate': 1.679597479788002e-05, 'epoch': 0.87}
 88%|████████▊ | 1853/2117 [1:02:34<08:46,  1.99s/it] 88%|████████▊ | 1854/2117 [1:02:36<08:40,  1.98s/it]                                                     {'loss': 1.4438, 'learning_rate': 1.6671239779106008e-05, 'epoch': 0.88}
 88%|████████▊ | 1854/2117 [1:02:36<08:40,  1.98s/it] 88%|████████▊ | 1855/2117 [1:02:38<08:47,  2.01s/it]                                                     {'loss': 1.5251, 'learning_rate': 1.6546949512898236e-05, 'epoch': 0.88}
 88%|████████▊ | 1855/2117 [1:02:38<08:47,  2.01s/it] 88%|████████▊ | 1856/2117 [1:02:40<08:45,  2.01s/it]                                                     {'loss': 1.1282, 'learning_rate': 1.6423104300782822e-05, 'epoch': 0.88}
 88%|████████▊ | 1856/2117 [1:02:40<08:45,  2.01s/it] 88%|████████▊ | 1857/2117 [1:02:42<08:25,  1.95s/it]                                                     {'loss': 1.0136, 'learning_rate': 1.6299704443206253e-05, 'epoch': 0.88}
 88%|████████▊ | 1857/2117 [1:02:42<08:25,  1.95s/it] 88%|████████▊ | 1858/2117 [1:02:43<08:20,  1.93s/it]                                                     {'loss': 1.2888, 'learning_rate': 1.6176750239534555e-05, 'epoch': 0.88}
 88%|████████▊ | 1858/2117 [1:02:43<08:20,  1.93s/it] 88%|████████▊ | 1859/2117 [1:02:45<08:14,  1.92s/it]                                                     {'loss': 1.0351, 'learning_rate': 1.6054241988052608e-05, 'epoch': 0.88}
 88%|████████▊ | 1859/2117 [1:02:45<08:14,  1.92s/it] 88%|████████▊ | 1860/2117 [1:02:47<08:11,  1.91s/it]                                                     {'loss': 1.3194, 'learning_rate': 1.5932179985963412e-05, 'epoch': 0.88}
 88%|████████▊ | 1860/2117 [1:02:47<08:11,  1.91s/it] 88%|████████▊ | 1861/2117 [1:02:49<08:11,  1.92s/it]                                                     {'loss': 1.1395, 'learning_rate': 1.581056452938736e-05, 'epoch': 0.88}
 88%|████████▊ | 1861/2117 [1:02:49<08:11,  1.92s/it] 88%|████████▊ | 1862/2117 [1:02:51<07:55,  1.87s/it]                                                     {'loss': 1.1652, 'learning_rate': 1.5689395913361603e-05, 'epoch': 0.88}
 88%|████████▊ | 1862/2117 [1:02:51<07:55,  1.87s/it] 88%|████████▊ | 1863/2117 [1:02:53<07:55,  1.87s/it]                                                     {'loss': 1.2574, 'learning_rate': 1.5568674431839224e-05, 'epoch': 0.88}
 88%|████████▊ | 1863/2117 [1:02:53<07:55,  1.87s/it] 88%|████████▊ | 1864/2117 [1:02:55<08:14,  1.95s/it]                                                     {'loss': 1.3462, 'learning_rate': 1.544840037768851e-05, 'epoch': 0.88}
 88%|████████▊ | 1864/2117 [1:02:55<08:14,  1.95s/it] 88%|████████▊ | 1865/2117 [1:02:57<08:21,  1.99s/it]                                                     {'loss': 1.5134, 'learning_rate': 1.5328574042692368e-05, 'epoch': 0.88}
 88%|████████▊ | 1865/2117 [1:02:57<08:21,  1.99s/it] 88%|████████▊ | 1866/2117 [1:02:59<08:28,  2.03s/it]                                                     {'loss': 1.0249, 'learning_rate': 1.5209195717547486e-05, 'epoch': 0.88}
 88%|████████▊ | 1866/2117 [1:02:59<08:28,  2.03s/it] 88%|████████▊ | 1867/2117 [1:03:01<08:33,  2.05s/it]                                                     {'loss': 1.2759, 'learning_rate': 1.5090265691863848e-05, 'epoch': 0.88}
 88%|████████▊ | 1867/2117 [1:03:01<08:33,  2.05s/it] 88%|████████▊ | 1868/2117 [1:03:04<08:46,  2.11s/it]                                                     {'loss': 1.3408, 'learning_rate': 1.497178425416359e-05, 'epoch': 0.88}
 88%|████████▊ | 1868/2117 [1:03:04<08:46,  2.11s/it] 88%|████████▊ | 1869/2117 [1:03:06<08:37,  2.09s/it]                                                     {'loss': 1.2896, 'learning_rate': 1.485375169188079e-05, 'epoch': 0.88}
 88%|████████▊ | 1869/2117 [1:03:06<08:37,  2.09s/it] 88%|████████▊ | 1870/2117 [1:03:08<08:34,  2.08s/it]                                                     {'loss': 1.3258, 'learning_rate': 1.4736168291360552e-05, 'epoch': 0.88}
 88%|████████▊ | 1870/2117 [1:03:08<08:34,  2.08s/it] 88%|████████▊ | 1871/2117 [1:03:10<08:22,  2.04s/it]                                                     {'loss': 1.3167, 'learning_rate': 1.4619034337858229e-05, 'epoch': 0.88}
 88%|████████▊ | 1871/2117 [1:03:10<08:22,  2.04s/it] 88%|████████▊ | 1872/2117 [1:03:12<08:15,  2.02s/it]                                                     {'loss': 1.3734, 'learning_rate': 1.450235011553891e-05, 'epoch': 0.88}
 88%|████████▊ | 1872/2117 [1:03:12<08:15,  2.02s/it] 88%|████████▊ | 1873/2117 [1:03:14<08:10,  2.01s/it]                                                     {'loss': 1.1074, 'learning_rate': 1.438611590747656e-05, 'epoch': 0.88}
 88%|████████▊ | 1873/2117 [1:03:14<08:10,  2.01s/it] 89%|████████▊ | 1874/2117 [1:03:15<08:03,  1.99s/it]                                                     {'loss': 1.6006, 'learning_rate': 1.4270331995653507e-05, 'epoch': 0.88}
 89%|████████▊ | 1874/2117 [1:03:15<08:03,  1.99s/it] 89%|████████▊ | 1875/2117 [1:03:18<08:13,  2.04s/it]                                                     {'loss': 1.131, 'learning_rate': 1.4154998660959596e-05, 'epoch': 0.89}
 89%|████████▊ | 1875/2117 [1:03:18<08:13,  2.04s/it] 89%|████████▊ | 1876/2117 [1:03:20<08:17,  2.06s/it]                                                     {'loss': 1.4408, 'learning_rate': 1.4040116183191587e-05, 'epoch': 0.89}
 89%|████████▊ | 1876/2117 [1:03:20<08:17,  2.06s/it] 89%|████████▊ | 1877/2117 [1:03:22<08:40,  2.17s/it]                                                     {'loss': 1.2286, 'learning_rate': 1.3925684841052545e-05, 'epoch': 0.89}
 89%|████████▊ | 1877/2117 [1:03:22<08:40,  2.17s/it] 89%|████████▊ | 1878/2117 [1:03:24<08:17,  2.08s/it]                                                     {'loss': 1.1798, 'learning_rate': 1.3811704912151024e-05, 'epoch': 0.89}
 89%|████████▊ | 1878/2117 [1:03:24<08:17,  2.08s/it] 89%|████████▉ | 1879/2117 [1:03:26<08:03,  2.03s/it]                                                     {'loss': 1.0013, 'learning_rate': 1.3698176673000351e-05, 'epoch': 0.89}
 89%|████████▉ | 1879/2117 [1:03:26<08:03,  2.03s/it] 89%|████████▉ | 1880/2117 [1:03:28<08:15,  2.09s/it]                                                     {'loss': 1.1529, 'learning_rate': 1.3585100399018324e-05, 'epoch': 0.89}
 89%|████████▉ | 1880/2117 [1:03:28<08:15,  2.09s/it] 89%|████████▉ | 1881/2117 [1:03:30<07:59,  2.03s/it]                                                     {'loss': 1.1891, 'learning_rate': 1.3472476364526043e-05, 'epoch': 0.89}
 89%|████████▉ | 1881/2117 [1:03:30<07:59,  2.03s/it] 89%|████████▉ | 1882/2117 [1:03:32<07:49,  2.00s/it]                                                     {'loss': 1.3186, 'learning_rate': 1.3360304842747595e-05, 'epoch': 0.89}
 89%|████████▉ | 1882/2117 [1:03:32<07:49,  2.00s/it] 89%|████████▉ | 1883/2117 [1:03:34<07:27,  1.91s/it]                                                     {'loss': 1.0345, 'learning_rate': 1.3248586105809235e-05, 'epoch': 0.89}
 89%|████████▉ | 1883/2117 [1:03:34<07:27,  1.91s/it] 89%|████████▉ | 1884/2117 [1:03:36<07:43,  1.99s/it]                                                     {'loss': 1.1464, 'learning_rate': 1.3137320424738764e-05, 'epoch': 0.89}
 89%|████████▉ | 1884/2117 [1:03:36<07:43,  1.99s/it] 89%|████████▉ | 1885/2117 [1:03:38<07:56,  2.05s/it]                                                     {'loss': 0.9625, 'learning_rate': 1.3026508069465016e-05, 'epoch': 0.89}
 89%|████████▉ | 1885/2117 [1:03:38<07:56,  2.05s/it] 89%|████████▉ | 1886/2117 [1:03:40<07:53,  2.05s/it]                                                     {'loss': 1.3932, 'learning_rate': 1.2916149308816793e-05, 'epoch': 0.89}
 89%|████████▉ | 1886/2117 [1:03:40<07:53,  2.05s/it] 89%|████████▉ | 1887/2117 [1:03:42<07:48,  2.04s/it]                                                     {'loss': 1.0426, 'learning_rate': 1.2806244410522739e-05, 'epoch': 0.89}
 89%|████████▉ | 1887/2117 [1:03:42<07:48,  2.04s/it] 89%|████████▉ | 1888/2117 [1:03:44<07:41,  2.02s/it]                                                     {'loss': 1.2517, 'learning_rate': 1.2696793641210303e-05, 'epoch': 0.89}
 89%|████████▉ | 1888/2117 [1:03:44<07:41,  2.02s/it] 89%|████████▉ | 1889/2117 [1:03:46<07:20,  1.93s/it]                                                     {'loss': 1.0455, 'learning_rate': 1.2587797266405265e-05, 'epoch': 0.89}
 89%|████████▉ | 1889/2117 [1:03:46<07:20,  1.93s/it] 89%|████████▉ | 1890/2117 [1:03:48<07:19,  1.94s/it]                                                     {'loss': 1.3104, 'learning_rate': 1.2479255550531044e-05, 'epoch': 0.89}
 89%|████████▉ | 1890/2117 [1:03:48<07:19,  1.94s/it] 89%|████████▉ | 1891/2117 [1:03:50<07:33,  2.01s/it]                                                     {'loss': 1.1541, 'learning_rate': 1.237116875690807e-05, 'epoch': 0.89}
 89%|████████▉ | 1891/2117 [1:03:50<07:33,  2.01s/it] 89%|████████▉ | 1892/2117 [1:03:52<07:21,  1.96s/it]                                                     {'loss': 1.0212, 'learning_rate': 1.226353714775308e-05, 'epoch': 0.89}
 89%|████████▉ | 1892/2117 [1:03:52<07:21,  1.96s/it] 89%|████████▉ | 1893/2117 [1:03:54<07:31,  2.01s/it]                                                     {'loss': 1.1716, 'learning_rate': 1.2156360984178672e-05, 'epoch': 0.89}
 89%|████████▉ | 1893/2117 [1:03:54<07:31,  2.01s/it] 89%|████████▉ | 1894/2117 [1:03:56<07:31,  2.03s/it]                                                     {'loss': 1.1511, 'learning_rate': 1.2049640526192396e-05, 'epoch': 0.89}
 89%|████████▉ | 1894/2117 [1:03:56<07:31,  2.03s/it] 90%|████████▉ | 1895/2117 [1:03:58<07:33,  2.04s/it]                                                     {'loss': 1.4378, 'learning_rate': 1.1943376032696374e-05, 'epoch': 0.89}
 90%|████████▉ | 1895/2117 [1:03:58<07:33,  2.04s/it] 90%|████████▉ | 1896/2117 [1:04:00<07:31,  2.04s/it]                                                     {'loss': 1.1137, 'learning_rate': 1.18375677614865e-05, 'epoch': 0.9}
 90%|████████▉ | 1896/2117 [1:04:00<07:31,  2.04s/it] 90%|████████▉ | 1897/2117 [1:04:02<07:40,  2.09s/it]                                                     {'loss': 1.2647, 'learning_rate': 1.1732215969251936e-05, 'epoch': 0.9}
 90%|████████▉ | 1897/2117 [1:04:02<07:40,  2.09s/it] 90%|████████▉ | 1898/2117 [1:04:04<07:32,  2.06s/it]                                                     {'loss': 1.2192, 'learning_rate': 1.1627320911574369e-05, 'epoch': 0.9}
 90%|████████▉ | 1898/2117 [1:04:04<07:32,  2.06s/it] 90%|████████▉ | 1899/2117 [1:04:06<07:29,  2.06s/it]                                                     {'loss': 1.2002, 'learning_rate': 1.1522882842927507e-05, 'epoch': 0.9}
 90%|████████▉ | 1899/2117 [1:04:06<07:29,  2.06s/it] 90%|████████▉ | 1900/2117 [1:04:08<07:19,  2.03s/it]                                                     {'loss': 1.12, 'learning_rate': 1.1418902016676392e-05, 'epoch': 0.9}
 90%|████████▉ | 1900/2117 [1:04:08<07:19,  2.03s/it] 90%|████████▉ | 1901/2117 [1:04:10<07:14,  2.01s/it]                                                     {'loss': 1.2486, 'learning_rate': 1.1315378685076793e-05, 'epoch': 0.9}
 90%|████████▉ | 1901/2117 [1:04:10<07:14,  2.01s/it] 90%|████████▉ | 1902/2117 [1:04:12<07:04,  1.98s/it]                                                     {'loss': 1.2119, 'learning_rate': 1.1212313099274596e-05, 'epoch': 0.9}
 90%|████████▉ | 1902/2117 [1:04:12<07:04,  1.98s/it] 90%|████████▉ | 1903/2117 [1:04:15<07:25,  2.08s/it]                                                     {'loss': 1.2259, 'learning_rate': 1.1109705509305256e-05, 'epoch': 0.9}
 90%|████████▉ | 1903/2117 [1:04:15<07:25,  2.08s/it] 90%|████████▉ | 1904/2117 [1:04:16<07:03,  1.99s/it]                                                     {'loss': 1.1457, 'learning_rate': 1.1007556164093125e-05, 'epoch': 0.9}
 90%|████████▉ | 1904/2117 [1:04:16<07:03,  1.99s/it] 90%|████████▉ | 1905/2117 [1:04:18<06:55,  1.96s/it]                                                     {'loss': 1.1518, 'learning_rate': 1.0905865311450792e-05, 'epoch': 0.9}
 90%|████████▉ | 1905/2117 [1:04:18<06:55,  1.96s/it] 90%|█████████ | 1906/2117 [1:04:20<06:50,  1.95s/it]                                                     {'loss': 1.0608, 'learning_rate': 1.0804633198078606e-05, 'epoch': 0.9}
 90%|█████████ | 1906/2117 [1:04:20<06:50,  1.95s/it] 90%|█████████ | 1907/2117 [1:04:22<06:49,  1.95s/it]                                                     {'loss': 1.1139, 'learning_rate': 1.0703860069564009e-05, 'epoch': 0.9}
 90%|█████████ | 1907/2117 [1:04:22<06:49,  1.95s/it] 90%|█████████ | 1908/2117 [1:04:24<06:50,  1.97s/it]                                                     {'loss': 1.2249, 'learning_rate': 1.0603546170381018e-05, 'epoch': 0.9}
 90%|█████████ | 1908/2117 [1:04:24<06:50,  1.97s/it] 90%|█████████ | 1909/2117 [1:04:26<06:56,  2.00s/it]                                                     {'loss': 1.4376, 'learning_rate': 1.0503691743889455e-05, 'epoch': 0.9}
 90%|█████████ | 1909/2117 [1:04:26<06:56,  2.00s/it] 90%|█████████ | 1910/2117 [1:04:28<06:55,  2.01s/it]                                                     {'loss': 1.115, 'learning_rate': 1.0404297032334476e-05, 'epoch': 0.9}
 90%|█████████ | 1910/2117 [1:04:28<06:55,  2.01s/it] 90%|█████████ | 1911/2117 [1:04:31<07:20,  2.14s/it]                                                     {'loss': 1.1447, 'learning_rate': 1.0305362276846131e-05, 'epoch': 0.9}
 90%|█████████ | 1911/2117 [1:04:31<07:20,  2.14s/it] 90%|█████████ | 1912/2117 [1:04:33<07:04,  2.07s/it]                                                     {'loss': 1.3071, 'learning_rate': 1.020688771743843e-05, 'epoch': 0.9}
 90%|█████████ | 1912/2117 [1:04:33<07:04,  2.07s/it] 90%|█████████ | 1913/2117 [1:04:35<07:04,  2.08s/it]                                                     {'loss': 1.4344, 'learning_rate': 1.0108873593009071e-05, 'epoch': 0.9}
 90%|█████████ | 1913/2117 [1:04:35<07:04,  2.08s/it] 90%|█████████ | 1914/2117 [1:04:36<06:45,  2.00s/it]                                                     {'loss': 1.3076, 'learning_rate': 1.0011320141338721e-05, 'epoch': 0.9}
 90%|█████████ | 1914/2117 [1:04:36<06:45,  2.00s/it] 90%|█████████ | 1915/2117 [1:04:38<06:25,  1.91s/it]                                                     {'loss': 1.2095, 'learning_rate': 9.914227599090442e-06, 'epoch': 0.9}
 90%|█████████ | 1915/2117 [1:04:38<06:25,  1.91s/it] 91%|█████████ | 1916/2117 [1:04:40<06:42,  2.00s/it]                                                     {'loss': 1.0488, 'learning_rate': 9.817596201809132e-06, 'epoch': 0.9}
 91%|█████████ | 1916/2117 [1:04:40<06:42,  2.00s/it] 91%|█████████ | 1917/2117 [1:04:42<06:34,  1.97s/it]                                                     {'loss': 1.0581, 'learning_rate': 9.72142618392098e-06, 'epoch': 0.91}
 91%|█████████ | 1917/2117 [1:04:42<06:34,  1.97s/it] 91%|█████████ | 1918/2117 [1:04:44<06:22,  1.92s/it]                                                     {'loss': 1.5264, 'learning_rate': 9.625717778732913e-06, 'epoch': 0.91}
 91%|█████████ | 1918/2117 [1:04:44<06:22,  1.92s/it] 91%|█████████ | 1919/2117 [1:04:46<06:01,  1.83s/it]                                                     {'loss': 0.7503, 'learning_rate': 9.530471218431957e-06, 'epoch': 0.91}
 91%|█████████ | 1919/2117 [1:04:46<06:01,  1.83s/it] 91%|█████████ | 1920/2117 [1:04:48<06:10,  1.88s/it]                                                     {'loss': 1.1666, 'learning_rate': 9.435686734084614e-06, 'epoch': 0.91}
 91%|█████████ | 1920/2117 [1:04:48<06:10,  1.88s/it] 91%|█████████ | 1921/2117 [1:04:50<06:17,  1.93s/it]                                                     {'loss': 1.1909, 'learning_rate': 9.341364555636568e-06, 'epoch': 0.91}
 91%|█████████ | 1921/2117 [1:04:50<06:17,  1.93s/it] 91%|█████████ | 1922/2117 [1:04:52<06:10,  1.90s/it]                                                     {'loss': 1.2914, 'learning_rate': 9.247504911911865e-06, 'epoch': 0.91}
 91%|█████████ | 1922/2117 [1:04:52<06:10,  1.90s/it] 91%|█████████ | 1923/2117 [1:04:53<05:58,  1.85s/it]                                                     {'loss': 1.0331, 'learning_rate': 9.154108030612451e-06, 'epoch': 0.91}
 91%|█████████ | 1923/2117 [1:04:53<05:58,  1.85s/it] 91%|█████████ | 1924/2117 [1:04:55<05:58,  1.86s/it]                                                     {'loss': 1.2396, 'learning_rate': 9.06117413831764e-06, 'epoch': 0.91}
 91%|█████████ | 1924/2117 [1:04:55<05:58,  1.86s/it] 91%|█████████ | 1925/2117 [1:04:58<06:36,  2.06s/it]                                                     {'loss': 1.3323, 'learning_rate': 8.968703460483508e-06, 'epoch': 0.91}
 91%|█████████ | 1925/2117 [1:04:58<06:36,  2.06s/it] 91%|█████████ | 1926/2117 [1:05:00<06:38,  2.08s/it]                                                     {'loss': 1.4465, 'learning_rate': 8.87669622144245e-06, 'epoch': 0.91}
 91%|█████████ | 1926/2117 [1:05:00<06:38,  2.08s/it] 91%|█████████ | 1927/2117 [1:05:02<06:28,  2.04s/it]                                                     {'loss': 1.2658, 'learning_rate': 8.78515264440245e-06, 'epoch': 0.91}
 91%|█████████ | 1927/2117 [1:05:02<06:28,  2.04s/it] 91%|█████████ | 1928/2117 [1:05:04<06:20,  2.01s/it]                                                     {'loss': 1.1626, 'learning_rate': 8.694072951446775e-06, 'epoch': 0.91}
 91%|█████████ | 1928/2117 [1:05:04<06:20,  2.01s/it] 91%|█████████ | 1929/2117 [1:05:05<05:58,  1.91s/it]                                                     {'loss': 1.1752, 'learning_rate': 8.603457363533274e-06, 'epoch': 0.91}
 91%|█████████ | 1929/2117 [1:05:05<05:58,  1.91s/it] 91%|█████████ | 1930/2117 [1:05:07<05:56,  1.91s/it]                                                     {'loss': 1.1018, 'learning_rate': 8.513306100493834e-06, 'epoch': 0.91}
 91%|█████████ | 1930/2117 [1:05:07<05:56,  1.91s/it] 91%|█████████ | 1931/2117 [1:05:09<05:54,  1.90s/it]                                                     {'loss': 1.2596, 'learning_rate': 8.423619381033997e-06, 'epoch': 0.91}
 91%|█████████ | 1931/2117 [1:05:09<05:54,  1.90s/it] 91%|█████████▏| 1932/2117 [1:05:12<06:21,  2.06s/it]                                                     {'loss': 1.0342, 'learning_rate': 8.33439742273221e-06, 'epoch': 0.91}
 91%|█████████▏| 1932/2117 [1:05:12<06:21,  2.06s/it] 91%|█████████▏| 1933/2117 [1:05:14<06:14,  2.03s/it]                                                     {'loss': 1.3798, 'learning_rate': 8.245640442039504e-06, 'epoch': 0.91}
 91%|█████████▏| 1933/2117 [1:05:14<06:14,  2.03s/it] 91%|█████████▏| 1934/2117 [1:05:16<06:10,  2.02s/it]                                                     {'loss': 1.1456, 'learning_rate': 8.157348654278906e-06, 'epoch': 0.91}
 91%|█████████▏| 1934/2117 [1:05:16<06:10,  2.02s/it] 91%|█████████▏| 1935/2117 [1:05:17<06:01,  1.99s/it]                                                     {'loss': 1.2221, 'learning_rate': 8.06952227364477e-06, 'epoch': 0.91}
 91%|█████████▏| 1935/2117 [1:05:17<06:01,  1.99s/it] 91%|█████████▏| 1936/2117 [1:05:19<05:53,  1.95s/it]                                                     {'loss': 1.2754, 'learning_rate': 7.982161513202502e-06, 'epoch': 0.91}
 91%|█████████▏| 1936/2117 [1:05:19<05:53,  1.95s/it] 91%|█████████▏| 1937/2117 [1:05:21<05:48,  1.94s/it]                                                     {'loss': 0.9985, 'learning_rate': 7.895266584887884e-06, 'epoch': 0.91}
 91%|█████████▏| 1937/2117 [1:05:21<05:48,  1.94s/it] 92%|█████████▏| 1938/2117 [1:05:23<05:45,  1.93s/it]                                                     {'loss': 1.544, 'learning_rate': 7.808837699506556e-06, 'epoch': 0.92}
 92%|█████████▏| 1938/2117 [1:05:23<05:45,  1.93s/it] 92%|█████████▏| 1939/2117 [1:05:25<05:53,  1.98s/it]                                                     {'loss': 1.1587, 'learning_rate': 7.722875066733593e-06, 'epoch': 0.92}
 92%|█████████▏| 1939/2117 [1:05:25<05:53,  1.98s/it] 92%|█████████▏| 1940/2117 [1:05:27<05:52,  1.99s/it]                                                     {'loss': 1.3164, 'learning_rate': 7.637378895112911e-06, 'epoch': 0.92}
 92%|█████████▏| 1940/2117 [1:05:27<05:52,  1.99s/it] 92%|█████████▏| 1941/2117 [1:05:29<05:40,  1.93s/it]                                                     {'loss': 1.1158, 'learning_rate': 7.552349392056867e-06, 'epoch': 0.92}
 92%|█████████▏| 1941/2117 [1:05:29<05:40,  1.93s/it] 92%|█████████▏| 1942/2117 [1:05:31<05:45,  1.97s/it]                                                     {'loss': 0.9729, 'learning_rate': 7.467786763845586e-06, 'epoch': 0.92}
 92%|█████████▏| 1942/2117 [1:05:31<05:45,  1.97s/it] 92%|█████████▏| 1943/2117 [1:05:33<05:45,  1.99s/it]                                                     {'loss': 1.238, 'learning_rate': 7.383691215626632e-06, 'epoch': 0.92}
 92%|█████████▏| 1943/2117 [1:05:33<05:45,  1.99s/it] 92%|█████████▏| 1944/2117 [1:05:35<05:54,  2.05s/it]                                                     {'loss': 1.0044, 'learning_rate': 7.300062951414455e-06, 'epoch': 0.92}
 92%|█████████▏| 1944/2117 [1:05:35<05:54,  2.05s/it] 92%|█████████▏| 1945/2117 [1:05:37<05:40,  1.98s/it]                                                     {'loss': 1.0541, 'learning_rate': 7.2169021740898346e-06, 'epoch': 0.92}
 92%|█████████▏| 1945/2117 [1:05:37<05:40,  1.98s/it] 92%|█████████▏| 1946/2117 [1:05:39<05:50,  2.05s/it]                                                     {'loss': 1.2909, 'learning_rate': 7.134209085399457e-06, 'epoch': 0.92}
 92%|█████████▏| 1946/2117 [1:05:39<05:50,  2.05s/it] 92%|█████████▏| 1947/2117 [1:05:41<05:44,  2.02s/it]                                                     {'loss': 1.2217, 'learning_rate': 7.051983885955404e-06, 'epoch': 0.92}
 92%|█████████▏| 1947/2117 [1:05:41<05:44,  2.02s/it] 92%|█████████▏| 1948/2117 [1:05:44<05:53,  2.09s/it]                                                     {'loss': 1.309, 'learning_rate': 6.970226775234623e-06, 'epoch': 0.92}
 92%|█████████▏| 1948/2117 [1:05:44<05:53,  2.09s/it] 92%|█████████▏| 1949/2117 [1:05:46<05:59,  2.14s/it]                                                     {'loss': 1.2958, 'learning_rate': 6.888937951578589e-06, 'epoch': 0.92}
 92%|█████████▏| 1949/2117 [1:05:46<05:59,  2.14s/it] 92%|█████████▏| 1950/2117 [1:05:48<06:12,  2.23s/it]                                                     {'loss': 0.9312, 'learning_rate': 6.808117612192599e-06, 'epoch': 0.92}
 92%|█████████▏| 1950/2117 [1:05:48<06:12,  2.23s/it] 92%|█████████▏| 1951/2117 [1:05:51<06:22,  2.30s/it]                                                     {'loss': 1.1902, 'learning_rate': 6.727765953145482e-06, 'epoch': 0.92}
 92%|█████████▏| 1951/2117 [1:05:51<06:22,  2.30s/it] 92%|█████████▏| 1952/2117 [1:05:53<05:59,  2.18s/it]                                                     {'loss': 1.0265, 'learning_rate': 6.647883169369085e-06, 'epoch': 0.92}
 92%|█████████▏| 1952/2117 [1:05:53<05:59,  2.18s/it] 92%|█████████▏| 1953/2117 [1:05:55<06:00,  2.20s/it]                                                     {'loss': 1.1769, 'learning_rate': 6.568469454657677e-06, 'epoch': 0.92}
 92%|█████████▏| 1953/2117 [1:05:55<06:00,  2.20s/it] 92%|█████████▏| 1954/2117 [1:05:57<05:59,  2.21s/it]                                                     {'loss': 1.3831, 'learning_rate': 6.4895250016676625e-06, 'epoch': 0.92}
 92%|█████████▏| 1954/2117 [1:05:57<05:59,  2.21s/it] 92%|█████████▏| 1955/2117 [1:05:59<06:01,  2.23s/it]                                                     {'loss': 1.3066, 'learning_rate': 6.411050001916996e-06, 'epoch': 0.92}
 92%|█████████▏| 1955/2117 [1:05:59<06:01,  2.23s/it] 92%|█████████▏| 1956/2117 [1:06:01<05:50,  2.18s/it]                                                     {'loss': 1.2549, 'learning_rate': 6.333044645784703e-06, 'epoch': 0.92}
 92%|█████████▏| 1956/2117 [1:06:01<05:50,  2.18s/it] 92%|█████████▏| 1957/2117 [1:06:03<05:39,  2.12s/it]                                                     {'loss': 1.1581, 'learning_rate': 6.255509122510539e-06, 'epoch': 0.92}
 92%|█████████▏| 1957/2117 [1:06:03<05:39,  2.12s/it] 92%|█████████▏| 1958/2117 [1:06:05<05:19,  2.01s/it]                                                     {'loss': 1.0347, 'learning_rate': 6.178443620194352e-06, 'epoch': 0.92}
 92%|█████████▏| 1958/2117 [1:06:05<05:19,  2.01s/it] 93%|█████████▎| 1959/2117 [1:06:07<05:03,  1.92s/it]                                                     {'loss': 1.249, 'learning_rate': 6.101848325795856e-06, 'epoch': 0.93}
 93%|█████████▎| 1959/2117 [1:06:07<05:03,  1.92s/it] 93%|█████████▎| 1960/2117 [1:06:09<05:06,  1.95s/it]                                                     {'loss': 1.1094, 'learning_rate': 6.025723425133989e-06, 'epoch': 0.93}
 93%|█████████▎| 1960/2117 [1:06:09<05:06,  1.95s/it] 93%|█████████▎| 1961/2117 [1:06:11<05:04,  1.95s/it]                                                     {'loss': 1.363, 'learning_rate': 5.950069102886402e-06, 'epoch': 0.93}
 93%|█████████▎| 1961/2117 [1:06:11<05:04,  1.95s/it] 93%|█████████▎| 1962/2117 [1:06:13<05:05,  1.97s/it]                                                     {'loss': 1.0292, 'learning_rate': 5.8748855425893475e-06, 'epoch': 0.93}
 93%|█████████▎| 1962/2117 [1:06:13<05:05,  1.97s/it] 93%|█████████▎| 1963/2117 [1:06:15<05:08,  2.00s/it]                                                     {'loss': 1.0867, 'learning_rate': 5.800172926636882e-06, 'epoch': 0.93}
 93%|█████████▎| 1963/2117 [1:06:15<05:08,  2.00s/it] 93%|█████████▎| 1964/2117 [1:06:17<05:01,  1.97s/it]                                                     {'loss': 1.2136, 'learning_rate': 5.7259314362805735e-06, 'epoch': 0.93}
 93%|█████████▎| 1964/2117 [1:06:17<05:01,  1.97s/it] 93%|█████████▎| 1965/2117 [1:06:19<05:03,  2.00s/it]                                                     {'loss': 1.3425, 'learning_rate': 5.652161251629085e-06, 'epoch': 0.93}
 93%|█████████▎| 1965/2117 [1:06:19<05:03,  2.00s/it] 93%|█████████▎| 1966/2117 [1:06:21<05:00,  1.99s/it]                                                     {'loss': 1.28, 'learning_rate': 5.578862551647612e-06, 'epoch': 0.93}
 93%|█████████▎| 1966/2117 [1:06:21<05:00,  1.99s/it] 93%|█████████▎| 1967/2117 [1:06:23<04:57,  1.98s/it]                                                     {'loss': 1.2319, 'learning_rate': 5.50603551415767e-06, 'epoch': 0.93}
 93%|█████████▎| 1967/2117 [1:06:23<04:57,  1.98s/it] 93%|█████████▎| 1968/2117 [1:06:25<05:02,  2.03s/it]                                                     {'loss': 1.3405, 'learning_rate': 5.4336803158364205e-06, 'epoch': 0.93}
 93%|█████████▎| 1968/2117 [1:06:25<05:02,  2.03s/it] 93%|█████████▎| 1969/2117 [1:06:27<05:09,  2.09s/it]                                                     {'loss': 1.2899, 'learning_rate': 5.361797132216406e-06, 'epoch': 0.93}
 93%|█████████▎| 1969/2117 [1:06:27<05:09,  2.09s/it] 93%|█████████▎| 1970/2117 [1:06:29<04:54,  2.01s/it]                                                     {'loss': 1.3527, 'learning_rate': 5.290386137685066e-06, 'epoch': 0.93}
 93%|█████████▎| 1970/2117 [1:06:29<04:54,  2.01s/it] 93%|█████████▎| 1971/2117 [1:06:31<04:54,  2.02s/it]                                                     {'loss': 1.4975, 'learning_rate': 5.219447505484243e-06, 'epoch': 0.93}
 93%|█████████▎| 1971/2117 [1:06:31<04:54,  2.02s/it] 93%|█████████▎| 1972/2117 [1:06:33<05:08,  2.13s/it]                                                     {'loss': 1.2036, 'learning_rate': 5.148981407709963e-06, 'epoch': 0.93}
 93%|█████████▎| 1972/2117 [1:06:33<05:08,  2.13s/it] 93%|█████████▎| 1973/2117 [1:06:35<05:00,  2.09s/it]                                                     {'loss': 1.0778, 'learning_rate': 5.078988015311769e-06, 'epoch': 0.93}
 93%|█████████▎| 1973/2117 [1:06:35<05:00,  2.09s/it] 93%|█████████▎| 1974/2117 [1:06:38<04:57,  2.08s/it]                                                     {'loss': 1.5373, 'learning_rate': 5.009467498092502e-06, 'epoch': 0.93}
 93%|█████████▎| 1974/2117 [1:06:38<04:57,  2.08s/it] 93%|█████████▎| 1975/2117 [1:06:39<04:46,  2.02s/it]                                                     {'loss': 1.3212, 'learning_rate': 4.9404200247078485e-06, 'epoch': 0.93}
 93%|█████████▎| 1975/2117 [1:06:39<04:46,  2.02s/it] 93%|█████████▎| 1976/2117 [1:06:41<04:32,  1.93s/it]                                                     {'loss': 1.0493, 'learning_rate': 4.8718457626657496e-06, 'epoch': 0.93}
 93%|█████████▎| 1976/2117 [1:06:41<04:32,  1.93s/it] 93%|█████████▎| 1977/2117 [1:06:43<04:32,  1.94s/it]                                                     {'loss': 1.2744, 'learning_rate': 4.803744878326311e-06, 'epoch': 0.93}
 93%|█████████▎| 1977/2117 [1:06:43<04:32,  1.94s/it] 93%|█████████▎| 1978/2117 [1:06:45<04:34,  1.98s/it]                                                     {'loss': 1.421, 'learning_rate': 4.736117536901152e-06, 'epoch': 0.93}
 93%|█████████▎| 1978/2117 [1:06:45<04:34,  1.98s/it] 93%|█████████▎| 1979/2117 [1:06:47<04:31,  1.97s/it]                                                     {'loss': 0.9075, 'learning_rate': 4.66896390245306e-06, 'epoch': 0.93}
 93%|█████████▎| 1979/2117 [1:06:47<04:31,  1.97s/it] 94%|█████████▎| 1980/2117 [1:06:49<04:35,  2.01s/it]                                                     {'loss': 1.3903, 'learning_rate': 4.602284137895696e-06, 'epoch': 0.93}
 94%|█████████▎| 1980/2117 [1:06:49<04:35,  2.01s/it] 94%|█████████▎| 1981/2117 [1:06:51<04:32,  2.00s/it]                                                     {'loss': 1.1848, 'learning_rate': 4.53607840499306e-06, 'epoch': 0.94}
 94%|█████████▎| 1981/2117 [1:06:51<04:32,  2.00s/it] 94%|█████████▎| 1982/2117 [1:06:53<04:24,  1.96s/it]                                                     {'loss': 1.0173, 'learning_rate': 4.470346864359165e-06, 'epoch': 0.94}
 94%|█████████▎| 1982/2117 [1:06:53<04:24,  1.96s/it] 94%|█████████▎| 1983/2117 [1:06:55<04:32,  2.03s/it]                                                     {'loss': 1.3709, 'learning_rate': 4.40508967545763e-06, 'epoch': 0.94}
 94%|█████████▎| 1983/2117 [1:06:55<04:32,  2.03s/it] 94%|█████████▎| 1984/2117 [1:06:57<04:20,  1.96s/it]                                                     {'loss': 1.0662, 'learning_rate': 4.340306996601351e-06, 'epoch': 0.94}
 94%|█████████▎| 1984/2117 [1:06:57<04:20,  1.96s/it] 94%|█████████▍| 1985/2117 [1:06:59<04:13,  1.92s/it]                                                     {'loss': 1.4046, 'learning_rate': 4.2759989849520785e-06, 'epoch': 0.94}
 94%|█████████▍| 1985/2117 [1:06:59<04:13,  1.92s/it] 94%|█████████▍| 1986/2117 [1:07:01<04:18,  1.97s/it]                                                     {'loss': 1.1181, 'learning_rate': 4.212165796519929e-06, 'epoch': 0.94}
 94%|█████████▍| 1986/2117 [1:07:01<04:18,  1.97s/it] 94%|█████████▍| 1987/2117 [1:07:03<04:26,  2.05s/it]                                                     {'loss': 1.2173, 'learning_rate': 4.148807586163228e-06, 'epoch': 0.94}
 94%|█████████▍| 1987/2117 [1:07:03<04:26,  2.05s/it] 94%|█████████▍| 1988/2117 [1:07:05<04:18,  2.01s/it]                                                     {'loss': 1.4524, 'learning_rate': 4.085924507587913e-06, 'epoch': 0.94}
 94%|█████████▍| 1988/2117 [1:07:05<04:18,  2.01s/it] 94%|█████████▍| 1989/2117 [1:07:07<04:16,  2.01s/it]                                                     {'loss': 1.2748, 'learning_rate': 4.0235167133473086e-06, 'epoch': 0.94}
 94%|█████████▍| 1989/2117 [1:07:07<04:16,  2.01s/it] 94%|█████████▍| 1990/2117 [1:07:09<04:08,  1.95s/it]                                                     {'loss': 1.0592, 'learning_rate': 3.96158435484173e-06, 'epoch': 0.94}
 94%|█████████▍| 1990/2117 [1:07:09<04:08,  1.95s/it] 94%|█████████▍| 1991/2117 [1:07:11<04:05,  1.95s/it]                                                     {'loss': 1.3902, 'learning_rate': 3.900127582318036e-06, 'epoch': 0.94}
 94%|█████████▍| 1991/2117 [1:07:11<04:05,  1.95s/it] 94%|█████████▍| 1992/2117 [1:07:13<04:14,  2.03s/it]                                                     {'loss': 1.1882, 'learning_rate': 3.839146544869321e-06, 'epoch': 0.94}
 94%|█████████▍| 1992/2117 [1:07:13<04:14,  2.03s/it] 94%|█████████▍| 1993/2117 [1:07:15<04:12,  2.04s/it]                                                     {'loss': 1.1128, 'learning_rate': 3.7786413904346674e-06, 'epoch': 0.94}
 94%|█████████▍| 1993/2117 [1:07:15<04:12,  2.04s/it] 94%|█████████▍| 1994/2117 [1:07:17<04:09,  2.03s/it]                                                     {'loss': 1.2136, 'learning_rate': 3.7186122657985045e-06, 'epoch': 0.94}
 94%|█████████▍| 1994/2117 [1:07:17<04:09,  2.03s/it] 94%|█████████▍| 1995/2117 [1:07:19<04:08,  2.04s/it]                                                     {'loss': 1.0755, 'learning_rate': 3.659059316590541e-06, 'epoch': 0.94}
 94%|█████████▍| 1995/2117 [1:07:19<04:08,  2.04s/it] 94%|█████████▍| 1996/2117 [1:07:21<04:04,  2.02s/it]                                                     {'loss': 1.3191, 'learning_rate': 3.599982687285275e-06, 'epoch': 0.94}
 94%|█████████▍| 1996/2117 [1:07:21<04:04,  2.02s/it] 94%|█████████▍| 1997/2117 [1:07:23<04:07,  2.06s/it]                                                     {'loss': 0.9365, 'learning_rate': 3.5413825212015973e-06, 'epoch': 0.94}
 94%|█████████▍| 1997/2117 [1:07:23<04:07,  2.06s/it] 94%|█████████▍| 1998/2117 [1:07:26<04:09,  2.10s/it]                                                     {'loss': 1.3355, 'learning_rate': 3.4832589605025666e-06, 'epoch': 0.94}
 94%|█████████▍| 1998/2117 [1:07:26<04:09,  2.10s/it] 94%|█████████▍| 1999/2117 [1:07:28<04:07,  2.09s/it]                                                     {'loss': 1.4349, 'learning_rate': 3.4256121461949676e-06, 'epoch': 0.94}
 94%|█████████▍| 1999/2117 [1:07:28<04:07,  2.09s/it] 94%|█████████▍| 2000/2117 [1:07:30<04:00,  2.06s/it]                                                     {'loss': 1.1091, 'learning_rate': 3.3684422181290864e-06, 'epoch': 0.94}
 94%|█████████▍| 2000/2117 [1:07:30<04:00,  2.06s/it]/home/aiops/duanky/miniconda3/envs/lora/lib/python3.11/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  warnings.warn(
 95%|█████████▍| 2001/2117 [1:07:32<04:05,  2.12s/it]                                                     {'loss': 1.0598, 'learning_rate': 3.3117493149981804e-06, 'epoch': 0.94}
 95%|█████████▍| 2001/2117 [1:07:32<04:05,  2.12s/it] 95%|█████████▍| 2002/2117 [1:07:34<03:53,  2.03s/it]                                                     {'loss': 1.0386, 'learning_rate': 3.2555335743382986e-06, 'epoch': 0.95}
 95%|█████████▍| 2002/2117 [1:07:34<03:53,  2.03s/it] 95%|█████████▍| 2003/2117 [1:07:36<03:53,  2.05s/it]                                                     {'loss': 1.3118, 'learning_rate': 3.1997951325279497e-06, 'epoch': 0.95}
 95%|█████████▍| 2003/2117 [1:07:36<03:53,  2.05s/it] 95%|█████████▍| 2004/2117 [1:07:38<03:40,  1.95s/it]                                                     {'loss': 1.1328, 'learning_rate': 3.144534124787657e-06, 'epoch': 0.95}
 95%|█████████▍| 2004/2117 [1:07:38<03:40,  1.95s/it] 95%|█████████▍| 2005/2117 [1:07:40<03:42,  1.99s/it]                                                     {'loss': 1.5499, 'learning_rate': 3.089750685179693e-06, 'epoch': 0.95}
 95%|█████████▍| 2005/2117 [1:07:40<03:42,  1.99s/it] 95%|█████████▍| 2006/2117 [1:07:41<03:30,  1.90s/it]                                                     {'loss': 1.2009, 'learning_rate': 3.035444946607835e-06, 'epoch': 0.95}
 95%|█████████▍| 2006/2117 [1:07:41<03:30,  1.90s/it] 95%|█████████▍| 2007/2117 [1:07:43<03:38,  1.98s/it]                                                     {'loss': 1.1264, 'learning_rate': 2.981617040816853e-06, 'epoch': 0.95}
 95%|█████████▍| 2007/2117 [1:07:43<03:38,  1.98s/it] 95%|█████████▍| 2008/2117 [1:07:46<03:38,  2.00s/it]                                                     {'loss': 1.4879, 'learning_rate': 2.928267098392401e-06, 'epoch': 0.95}
 95%|█████████▍| 2008/2117 [1:07:46<03:38,  2.00s/it] 95%|█████████▍| 2009/2117 [1:07:47<03:32,  1.97s/it]                                                     {'loss': 1.4165, 'learning_rate': 2.8753952487605705e-06, 'epoch': 0.95}
 95%|█████████▍| 2009/2117 [1:07:47<03:32,  1.97s/it] 95%|█████████▍| 2010/2117 [1:07:49<03:28,  1.95s/it]                                                     {'loss': 1.2409, 'learning_rate': 2.823001620187604e-06, 'epoch': 0.95}
 95%|█████████▍| 2010/2117 [1:07:49<03:28,  1.95s/it] 95%|█████████▍| 2011/2117 [1:07:51<03:29,  1.98s/it]                                                     {'loss': 1.2928, 'learning_rate': 2.7710863397795606e-06, 'epoch': 0.95}
 95%|█████████▍| 2011/2117 [1:07:51<03:29,  1.98s/it] 95%|█████████▌| 2012/2117 [1:07:53<03:24,  1.95s/it]                                                     {'loss': 1.0893, 'learning_rate': 2.7196495334820716e-06, 'epoch': 0.95}
 95%|█████████▌| 2012/2117 [1:07:53<03:24,  1.95s/it] 95%|█████████▌| 2013/2117 [1:07:55<03:26,  1.99s/it]                                                     {'loss': 1.6199, 'learning_rate': 2.6686913260799862e-06, 'epoch': 0.95}
 95%|█████████▌| 2013/2117 [1:07:55<03:26,  1.99s/it] 95%|█████████▌| 2014/2117 [1:07:57<03:24,  1.99s/it]                                                     {'loss': 1.1888, 'learning_rate': 2.6182118411970824e-06, 'epoch': 0.95}
 95%|█████████▌| 2014/2117 [1:07:57<03:24,  1.99s/it] 95%|█████████▌| 2015/2117 [1:07:59<03:22,  1.98s/it]                                                     {'loss': 1.2112, 'learning_rate': 2.568211201295756e-06, 'epoch': 0.95}
 95%|█████████▌| 2015/2117 [1:07:59<03:22,  1.98s/it] 95%|█████████▌| 2016/2117 [1:08:01<03:21,  1.99s/it]                                                     {'loss': 1.0949, 'learning_rate': 2.5186895276767543e-06, 'epoch': 0.95}
 95%|█████████▌| 2016/2117 [1:08:01<03:21,  1.99s/it] 95%|█████████▌| 2017/2117 [1:08:03<03:19,  2.00s/it]                                                     {'loss': 1.2379, 'learning_rate': 2.46964694047882e-06, 'epoch': 0.95}
 95%|█████████▌| 2017/2117 [1:08:03<03:19,  2.00s/it] 95%|█████████▌| 2018/2117 [1:08:06<03:24,  2.07s/it]                                                     {'loss': 1.0953, 'learning_rate': 2.421083558678494e-06, 'epoch': 0.95}
 95%|█████████▌| 2018/2117 [1:08:06<03:24,  2.07s/it] 95%|█████████▌| 2019/2117 [1:08:08<03:28,  2.12s/it]                                                     {'loss': 1.5901, 'learning_rate': 2.372999500089712e-06, 'epoch': 0.95}
 95%|█████████▌| 2019/2117 [1:08:08<03:28,  2.12s/it] 95%|█████████▌| 2020/2117 [1:08:10<03:20,  2.07s/it]                                                     {'loss': 1.1182, 'learning_rate': 2.3253948813636517e-06, 'epoch': 0.95}
 95%|█████████▌| 2020/2117 [1:08:10<03:20,  2.07s/it] 95%|█████████▌| 2021/2117 [1:08:12<03:13,  2.02s/it]                                                     {'loss': 1.3545, 'learning_rate': 2.27826981798831e-06, 'epoch': 0.95}
 95%|█████████▌| 2021/2117 [1:08:12<03:13,  2.02s/it] 96%|█████████▌| 2022/2117 [1:08:13<03:07,  1.97s/it]                                                     {'loss': 1.092, 'learning_rate': 2.2316244242883254e-06, 'epoch': 0.95}
 96%|█████████▌| 2022/2117 [1:08:13<03:07,  1.97s/it] 96%|█████████▌| 2023/2117 [1:08:16<03:29,  2.23s/it]                                                     {'loss': 1.0355, 'learning_rate': 2.1854588134246456e-06, 'epoch': 0.96}
 96%|█████████▌| 2023/2117 [1:08:16<03:29,  2.23s/it] 96%|█████████▌| 2024/2117 [1:08:18<03:14,  2.10s/it]                                                     {'loss': 0.9079, 'learning_rate': 2.1397730973943044e-06, 'epoch': 0.96}
 96%|█████████▌| 2024/2117 [1:08:18<03:14,  2.10s/it] 96%|█████████▌| 2025/2117 [1:08:20<03:12,  2.09s/it]                                                     {'loss': 0.9498, 'learning_rate': 2.0945673870300665e-06, 'epoch': 0.96}
 96%|█████████▌| 2025/2117 [1:08:20<03:12,  2.09s/it] 96%|█████████▌| 2026/2117 [1:08:22<03:09,  2.09s/it]                                                     {'loss': 1.3112, 'learning_rate': 2.0498417920002954e-06, 'epoch': 0.96}
 96%|█████████▌| 2026/2117 [1:08:22<03:09,  2.09s/it] 96%|█████████▌| 2027/2117 [1:08:25<03:24,  2.28s/it]                                                     {'loss': 1.1017, 'learning_rate': 2.005596420808531e-06, 'epoch': 0.96}
 96%|█████████▌| 2027/2117 [1:08:25<03:24,  2.28s/it] 96%|█████████▌| 2028/2117 [1:08:27<03:15,  2.20s/it]                                                     {'loss': 1.2787, 'learning_rate': 1.961831380793311e-06, 'epoch': 0.96}
 96%|█████████▌| 2028/2117 [1:08:27<03:15,  2.20s/it] 96%|█████████▌| 2029/2117 [1:08:29<03:07,  2.13s/it]                                                     {'loss': 1.5248, 'learning_rate': 1.9185467781278833e-06, 'epoch': 0.96}
 96%|█████████▌| 2029/2117 [1:08:29<03:07,  2.13s/it] 96%|█████████▌| 2030/2117 [1:08:31<02:55,  2.02s/it]                                                     {'loss': 0.958, 'learning_rate': 1.8757427178200282e-06, 'epoch': 0.96}
 96%|█████████▌| 2030/2117 [1:08:31<02:55,  2.02s/it] 96%|█████████▌| 2031/2117 [1:08:33<02:57,  2.06s/it]                                                     {'loss': 1.4269, 'learning_rate': 1.8334193037116808e-06, 'epoch': 0.96}
 96%|█████████▌| 2031/2117 [1:08:33<02:57,  2.06s/it] 96%|█████████▌| 2032/2117 [1:08:36<03:14,  2.29s/it]                                                     {'loss': 1.4362, 'learning_rate': 1.7915766384787315e-06, 'epoch': 0.96}
 96%|█████████▌| 2032/2117 [1:08:36<03:14,  2.29s/it] 96%|█████████▌| 2033/2117 [1:08:37<02:56,  2.10s/it]                                                     {'loss': 1.1436, 'learning_rate': 1.7502148236308025e-06, 'epoch': 0.96}
 96%|█████████▌| 2033/2117 [1:08:37<02:56,  2.10s/it] 96%|█████████▌| 2034/2117 [1:08:40<02:58,  2.15s/it]                                                     {'loss': 1.081, 'learning_rate': 1.7093339595109836e-06, 'epoch': 0.96}
 96%|█████████▌| 2034/2117 [1:08:40<02:58,  2.15s/it] 96%|█████████▌| 2035/2117 [1:08:41<02:49,  2.07s/it]                                                     {'loss': 1.3747, 'learning_rate': 1.6689341452956087e-06, 'epoch': 0.96}
 96%|█████████▌| 2035/2117 [1:08:42<02:49,  2.07s/it] 96%|█████████▌| 2036/2117 [1:08:43<02:44,  2.03s/it]                                                     {'loss': 1.4293, 'learning_rate': 1.6290154789939227e-06, 'epoch': 0.96}
 96%|█████████▌| 2036/2117 [1:08:43<02:44,  2.03s/it] 96%|█████████▌| 2037/2117 [1:08:45<02:37,  1.97s/it]                                                     {'loss': 1.1918, 'learning_rate': 1.5895780574479713e-06, 'epoch': 0.96}
 96%|█████████▌| 2037/2117 [1:08:45<02:37,  1.97s/it] 96%|█████████▋| 2038/2117 [1:08:48<02:45,  2.09s/it]                                                     {'loss': 1.0524, 'learning_rate': 1.5506219763323115e-06, 'epoch': 0.96}
 96%|█████████▋| 2038/2117 [1:08:48<02:45,  2.09s/it] 96%|█████████▋| 2039/2117 [1:08:50<02:42,  2.08s/it]                                                     {'loss': 1.4233, 'learning_rate': 1.5121473301537236e-06, 'epoch': 0.96}
 96%|█████████▋| 2039/2117 [1:08:50<02:42,  2.08s/it] 96%|█████████▋| 2040/2117 [1:08:52<02:38,  2.06s/it]                                                     {'loss': 1.2141, 'learning_rate': 1.4741542122510776e-06, 'epoch': 0.96}
 96%|█████████▋| 2040/2117 [1:08:52<02:38,  2.06s/it] 96%|█████████▋| 2041/2117 [1:08:54<02:39,  2.09s/it]                                                     {'loss': 1.2927, 'learning_rate': 1.4366427147950667e-06, 'epoch': 0.96}
 96%|█████████▋| 2041/2117 [1:08:54<02:39,  2.09s/it] 96%|█████████▋| 2042/2117 [1:08:57<02:57,  2.37s/it]                                                     {'loss': 1.3775, 'learning_rate': 1.3996129287879856e-06, 'epoch': 0.96}
 96%|█████████▋| 2042/2117 [1:08:57<02:57,  2.37s/it] 97%|█████████▋| 2043/2117 [1:08:59<02:39,  2.15s/it]                                                     {'loss': 0.9907, 'learning_rate': 1.3630649440634413e-06, 'epoch': 0.96}
 97%|█████████▋| 2043/2117 [1:08:59<02:39,  2.15s/it] 97%|█████████▋| 2044/2117 [1:09:01<02:35,  2.13s/it]                                                     {'loss': 1.3086, 'learning_rate': 1.3269988492862873e-06, 'epoch': 0.97}
 97%|█████████▋| 2044/2117 [1:09:01<02:35,  2.13s/it] 97%|█████████▋| 2045/2117 [1:09:03<02:30,  2.09s/it]                                                     {'loss': 1.1149, 'learning_rate': 1.2914147319522452e-06, 'epoch': 0.97}
 97%|█████████▋| 2045/2117 [1:09:03<02:30,  2.09s/it] 97%|█████████▋| 2046/2117 [1:09:04<02:21,  2.00s/it]                                                     {'loss': 1.1868, 'learning_rate': 1.2563126783878166e-06, 'epoch': 0.97}
 97%|█████████▋| 2046/2117 [1:09:04<02:21,  2.00s/it] 97%|█████████▋| 2047/2117 [1:09:07<02:22,  2.04s/it]                                                     {'loss': 1.2968, 'learning_rate': 1.2216927737500162e-06, 'epoch': 0.97}
 97%|█████████▋| 2047/2117 [1:09:07<02:22,  2.04s/it] 97%|█████████▋| 2048/2117 [1:09:09<02:21,  2.06s/it]                                                     {'loss': 1.3774, 'learning_rate': 1.1875551020261499e-06, 'epoch': 0.97}
 97%|█████████▋| 2048/2117 [1:09:09<02:21,  2.06s/it] 97%|█████████▋| 2049/2117 [1:09:11<02:16,  2.01s/it]                                                     {'loss': 1.2125, 'learning_rate': 1.1538997460336598e-06, 'epoch': 0.97}
 97%|█████████▋| 2049/2117 [1:09:11<02:16,  2.01s/it] 97%|█████████▋| 2050/2117 [1:09:12<02:13,  2.00s/it]                                                     {'loss': 1.0231, 'learning_rate': 1.120726787419879e-06, 'epoch': 0.97}
 97%|█████████▋| 2050/2117 [1:09:12<02:13,  2.00s/it] 97%|█████████▋| 2051/2117 [1:09:14<02:07,  1.94s/it]                                                     {'loss': 1.3167, 'learning_rate': 1.088036306661877e-06, 'epoch': 0.97}
 97%|█████████▋| 2051/2117 [1:09:14<02:07,  1.94s/it] 97%|█████████▋| 2052/2117 [1:09:16<02:07,  1.96s/it]                                                     {'loss': 1.215, 'learning_rate': 1.0558283830662152e-06, 'epoch': 0.97}
 97%|█████████▋| 2052/2117 [1:09:16<02:07,  1.96s/it] 97%|█████████▋| 2053/2117 [1:09:18<02:03,  1.92s/it]                                                     {'loss': 1.15, 'learning_rate': 1.024103094768769e-06, 'epoch': 0.97}
 97%|█████████▋| 2053/2117 [1:09:18<02:03,  1.92s/it] 97%|█████████▋| 2054/2117 [1:09:20<02:04,  1.98s/it]                                                     {'loss': 1.2415, 'learning_rate': 9.928605187345952e-07, 'epoch': 0.97}
 97%|█████████▋| 2054/2117 [1:09:20<02:04,  1.98s/it] 97%|█████████▋| 2055/2117 [1:09:22<01:58,  1.91s/it]                                                     {'loss': 1.0944, 'learning_rate': 9.621007307576424e-07, 'epoch': 0.97}
 97%|█████████▋| 2055/2117 [1:09:22<01:58,  1.91s/it] 97%|█████████▋| 2056/2117 [1:09:24<01:58,  1.94s/it]                                                     {'loss': 1.3806, 'learning_rate': 9.318238054606854e-07, 'epoch': 0.97}
 97%|█████████▋| 2056/2117 [1:09:24<01:58,  1.94s/it] 97%|█████████▋| 2057/2117 [1:09:26<01:51,  1.86s/it]                                                     {'loss': 1.2383, 'learning_rate': 9.020298162950358e-07, 'epoch': 0.97}
 97%|█████████▋| 2057/2117 [1:09:26<01:51,  1.86s/it] 97%|█████████▋| 2058/2117 [1:09:28<01:58,  2.01s/it]                                                     {'loss': 1.2303, 'learning_rate': 8.727188355404092e-07, 'epoch': 0.97}
 97%|█████████▋| 2058/2117 [1:09:28<01:58,  2.01s/it] 97%|█████████▋| 2059/2117 [1:09:30<01:53,  1.96s/it]                                                     {'loss': 1.3226, 'learning_rate': 8.438909343047696e-07, 'epoch': 0.97}
 97%|█████████▋| 2059/2117 [1:09:30<01:53,  1.96s/it] 97%|█████████▋| 2060/2117 [1:09:32<01:54,  2.01s/it]                                                     {'loss': 1.1489, 'learning_rate': 8.155461825241517e-07, 'epoch': 0.97}
 97%|█████████▋| 2060/2117 [1:09:32<01:54,  2.01s/it] 97%|█████████▋| 2061/2117 [1:09:34<01:53,  2.02s/it]                                                     {'loss': 1.2313, 'learning_rate': 7.87684648962439e-07, 'epoch': 0.97}
 97%|█████████▋| 2061/2117 [1:09:34<01:53,  2.02s/it] 97%|█████████▋| 2062/2117 [1:09:36<01:55,  2.11s/it]                                                     {'loss': 1.3428, 'learning_rate': 7.603064012112749e-07, 'epoch': 0.97}
 97%|█████████▋| 2062/2117 [1:09:36<01:55,  2.11s/it] 97%|█████████▋| 2063/2117 [1:09:39<01:54,  2.12s/it]                                                     {'loss': 1.1658, 'learning_rate': 7.334115056897961e-07, 'epoch': 0.97}
 97%|█████████▋| 2063/2117 [1:09:39<01:54,  2.12s/it] 97%|█████████▋| 2064/2117 [1:09:41<01:51,  2.10s/it]                                                     {'loss': 1.3241, 'learning_rate': 7.070000276446331e-07, 'epoch': 0.97}
 97%|█████████▋| 2064/2117 [1:09:41<01:51,  2.10s/it] 98%|█████████▊| 2065/2117 [1:09:43<01:47,  2.07s/it]                                                     {'loss': 1.2988, 'learning_rate': 6.810720311495545e-07, 'epoch': 0.98}
 98%|█████████▊| 2065/2117 [1:09:43<01:47,  2.07s/it] 98%|█████████▊| 2066/2117 [1:09:45<01:44,  2.05s/it]                                                     {'loss': 1.4357, 'learning_rate': 6.556275791054889e-07, 'epoch': 0.98}
 98%|█████████▊| 2066/2117 [1:09:45<01:44,  2.05s/it] 98%|█████████▊| 2067/2117 [1:09:46<01:39,  1.98s/it]                                                     {'loss': 1.1898, 'learning_rate': 6.306667332402372e-07, 'epoch': 0.98}
 98%|█████████▊| 2067/2117 [1:09:46<01:39,  1.98s/it] 98%|█████████▊| 2068/2117 [1:09:48<01:34,  1.93s/it]                                                     {'loss': 1.177, 'learning_rate': 6.061895541084051e-07, 'epoch': 0.98}
 98%|█████████▊| 2068/2117 [1:09:48<01:34,  1.93s/it] 98%|█████████▊| 2069/2117 [1:09:50<01:31,  1.91s/it]                                                     {'loss': 1.4331, 'learning_rate': 5.821961010912258e-07, 'epoch': 0.98}
 98%|█████████▊| 2069/2117 [1:09:50<01:31,  1.91s/it] 98%|█████████▊| 2070/2117 [1:09:52<01:26,  1.85s/it]                                                     {'loss': 1.0653, 'learning_rate': 5.586864323964492e-07, 'epoch': 0.98}
 98%|█████████▊| 2070/2117 [1:09:52<01:26,  1.85s/it] 98%|█████████▊| 2071/2117 [1:09:54<01:24,  1.83s/it]                                                     {'loss': 0.831, 'learning_rate': 5.35660605058097e-07, 'epoch': 0.98}
 98%|█████████▊| 2071/2117 [1:09:54<01:24,  1.83s/it] 98%|█████████▊| 2072/2117 [1:09:55<01:20,  1.78s/it]                                                     {'loss': 1.2124, 'learning_rate': 5.13118674936508e-07, 'epoch': 0.98}
 98%|█████████▊| 2072/2117 [1:09:55<01:20,  1.78s/it] 98%|█████████▊| 2073/2117 [1:09:57<01:21,  1.84s/it]                                                     {'loss': 1.3714, 'learning_rate': 4.910606967179821e-07, 'epoch': 0.98}
 98%|█████████▊| 2073/2117 [1:09:57<01:21,  1.84s/it] 98%|█████████▊| 2074/2117 [1:09:59<01:18,  1.84s/it]                                                     {'loss': 1.2559, 'learning_rate': 4.6948672391484707e-07, 'epoch': 0.98}
 98%|█████████▊| 2074/2117 [1:09:59<01:18,  1.84s/it] 98%|█████████▊| 2075/2117 [1:10:01<01:23,  1.98s/it]                                                     {'loss': 1.3044, 'learning_rate': 4.483968088651924e-07, 'epoch': 0.98}
 98%|█████████▊| 2075/2117 [1:10:01<01:23,  1.98s/it] 98%|█████████▊| 2076/2117 [1:10:03<01:22,  2.02s/it]                                                     {'loss': 1.2726, 'learning_rate': 4.277910027328025e-07, 'epoch': 0.98}
 98%|█████████▊| 2076/2117 [1:10:03<01:22,  2.02s/it] 98%|█████████▊| 2077/2117 [1:10:05<01:20,  2.01s/it]                                                     {'loss': 1.058, 'learning_rate': 4.076693555070232e-07, 'epoch': 0.98}
 98%|█████████▊| 2077/2117 [1:10:05<01:20,  2.01s/it] 98%|█████████▊| 2078/2117 [1:10:08<01:20,  2.06s/it]                                                     {'loss': 1.3026, 'learning_rate': 3.8803191600267353e-07, 'epoch': 0.98}
 98%|█████████▊| 2078/2117 [1:10:08<01:20,  2.06s/it] 98%|█████████▊| 2079/2117 [1:10:10<01:18,  2.06s/it]                                                     {'loss': 1.2977, 'learning_rate': 3.6887873185982305e-07, 'epoch': 0.98}
 98%|█████████▊| 2079/2117 [1:10:10<01:18,  2.06s/it] 98%|█████████▊| 2080/2117 [1:10:12<01:16,  2.07s/it]                                                     {'loss': 1.2887, 'learning_rate': 3.5020984954379223e-07, 'epoch': 0.98}
 98%|█████████▊| 2080/2117 [1:10:12<01:16,  2.07s/it] 98%|█████████▊| 2081/2117 [1:10:14<01:11,  1.98s/it]                                                     {'loss': 1.0595, 'learning_rate': 3.3202531434497475e-07, 'epoch': 0.98}
 98%|█████████▊| 2081/2117 [1:10:14<01:11,  1.98s/it] 98%|█████████▊| 2082/2117 [1:10:15<01:07,  1.92s/it]                                                     {'loss': 1.11, 'learning_rate': 3.1432517037879307e-07, 'epoch': 0.98}
 98%|█████████▊| 2082/2117 [1:10:15<01:07,  1.92s/it] 98%|█████████▊| 2083/2117 [1:10:17<01:04,  1.89s/it]                                                     {'loss': 0.9806, 'learning_rate': 2.9710946058547626e-07, 'epoch': 0.98}
 98%|█████████▊| 2083/2117 [1:10:17<01:04,  1.89s/it] 98%|█████████▊| 2084/2117 [1:10:19<01:03,  1.92s/it]                                                     {'loss': 1.2319, 'learning_rate': 2.803782267300381e-07, 'epoch': 0.98}
 98%|█████████▊| 2084/2117 [1:10:19<01:03,  1.92s/it] 98%|█████████▊| 2085/2117 [1:10:21<01:01,  1.91s/it]                                                     {'loss': 1.3135, 'learning_rate': 2.641315094022101e-07, 'epoch': 0.98}
 98%|█████████▊| 2085/2117 [1:10:21<01:01,  1.91s/it] 99%|█████████▊| 2086/2117 [1:10:23<01:03,  2.04s/it]                                                     {'loss': 1.11, 'learning_rate': 2.483693480162419e-07, 'epoch': 0.99}
 99%|█████████▊| 2086/2117 [1:10:23<01:03,  2.04s/it] 99%|█████████▊| 2087/2117 [1:10:26<01:02,  2.08s/it]                                                     {'loss': 1.0388, 'learning_rate': 2.3309178081087902e-07, 'epoch': 0.99}
 99%|█████████▊| 2087/2117 [1:10:26<01:02,  2.08s/it] 99%|█████████▊| 2088/2117 [1:10:28<00:59,  2.04s/it]                                                     {'loss': 1.2167, 'learning_rate': 2.1829884484925178e-07, 'epoch': 0.99}
 99%|█████████▊| 2088/2117 [1:10:28<00:59,  2.04s/it] 99%|█████████▊| 2089/2117 [1:10:30<00:59,  2.14s/it]                                                     {'loss': 1.3077, 'learning_rate': 2.0399057601880878e-07, 'epoch': 0.99}
 99%|█████████▊| 2089/2117 [1:10:30<00:59,  2.14s/it] 99%|█████████▊| 2090/2117 [1:10:32<00:56,  2.09s/it]                                                     {'loss': 1.1231, 'learning_rate': 1.9016700903111694e-07, 'epoch': 0.99}
 99%|█████████▊| 2090/2117 [1:10:32<00:56,  2.09s/it] 99%|█████████▉| 2091/2117 [1:10:34<00:55,  2.12s/it]                                                     {'loss': 1.1667, 'learning_rate': 1.7682817742197266e-07, 'epoch': 0.99}
 99%|█████████▉| 2091/2117 [1:10:34<00:55,  2.12s/it] 99%|█████████▉| 2092/2117 [1:10:36<00:52,  2.11s/it]                                                     {'loss': 1.1733, 'learning_rate': 1.6397411355115743e-07, 'epoch': 0.99}
 99%|█████████▉| 2092/2117 [1:10:36<00:52,  2.11s/it] 99%|█████████▉| 2093/2117 [1:10:38<00:49,  2.04s/it]                                                     {'loss': 0.9948, 'learning_rate': 1.5160484860239354e-07, 'epoch': 0.99}
 99%|█████████▉| 2093/2117 [1:10:38<00:49,  2.04s/it] 99%|█████████▉| 2094/2117 [1:10:40<00:45,  1.98s/it]                                                     {'loss': 1.3368, 'learning_rate': 1.3972041258334402e-07, 'epoch': 0.99}
 99%|█████████▉| 2094/2117 [1:10:40<00:45,  1.98s/it] 99%|█████████▉| 2095/2117 [1:10:42<00:41,  1.90s/it]                                                     {'loss': 0.9832, 'learning_rate': 1.2832083432543496e-07, 'epoch': 0.99}
 99%|█████████▉| 2095/2117 [1:10:42<00:41,  1.90s/it] 99%|█████████▉| 2096/2117 [1:10:44<00:41,  1.96s/it]                                                     {'loss': 1.3408, 'learning_rate': 1.1740614148385564e-07, 'epoch': 0.99}
 99%|█████████▉| 2096/2117 [1:10:44<00:41,  1.96s/it] 99%|█████████▉| 2097/2117 [1:10:46<00:41,  2.05s/it]                                                     {'loss': 0.9927, 'learning_rate': 1.0697636053749182e-07, 'epoch': 0.99}
 99%|█████████▉| 2097/2117 [1:10:46<00:41,  2.05s/it] 99%|█████████▉| 2098/2117 [1:10:48<00:37,  1.99s/it]                                                     {'loss': 1.0995, 'learning_rate': 9.703151678879252e-08, 'epoch': 0.99}
 99%|█████████▉| 2098/2117 [1:10:48<00:37,  1.99s/it] 99%|█████████▉| 2099/2117 [1:10:49<00:34,  1.89s/it]                                                     {'loss': 1.1784, 'learning_rate': 8.757163436381444e-08, 'epoch': 0.99}
 99%|█████████▉| 2099/2117 [1:10:49<00:34,  1.89s/it] 99%|█████████▉| 2100/2117 [1:10:51<00:32,  1.93s/it]                                                     {'loss': 1.2843, 'learning_rate': 7.859673621206654e-08, 'epoch': 0.99}
 99%|█████████▉| 2100/2117 [1:10:51<00:32,  1.93s/it] 99%|█████████▉| 2101/2117 [1:10:53<00:30,  1.89s/it]                                                     {'loss': 1.1433, 'learning_rate': 7.010684410648783e-08, 'epoch': 0.99}
 99%|█████████▉| 2101/2117 [1:10:53<00:30,  1.89s/it] 99%|█████████▉| 2102/2117 [1:10:55<00:27,  1.86s/it]                                                     {'loss': 1.2614, 'learning_rate': 6.210197864344736e-08, 'epoch': 0.99}
 99%|█████████▉| 2102/2117 [1:10:55<00:27,  1.86s/it] 99%|█████████▉| 2103/2117 [1:10:57<00:26,  1.87s/it]                                                     {'loss': 0.8912, 'learning_rate': 5.4582159242588806e-08, 'epoch': 0.99}
 99%|█████████▉| 2103/2117 [1:10:57<00:26,  1.87s/it] 99%|█████████▉| 2104/2117 [1:11:00<00:27,  2.09s/it]                                                     {'loss': 1.2502, 'learning_rate': 4.754740414687486e-08, 'epoch': 0.99}
 99%|█████████▉| 2104/2117 [1:11:00<00:27,  2.09s/it] 99%|█████████▉| 2105/2117 [1:11:01<00:24,  2.01s/it]                                                     {'loss': 1.0157, 'learning_rate': 4.099773042254284e-08, 'epoch': 0.99}
 99%|█████████▉| 2105/2117 [1:11:01<00:24,  2.01s/it] 99%|█████████▉| 2106/2117 [1:11:03<00:21,  1.99s/it]                                                     {'loss': 1.2728, 'learning_rate': 3.493315395894925e-08, 'epoch': 0.99}
 99%|█████████▉| 2106/2117 [1:11:03<00:21,  1.99s/it]100%|█████████▉| 2107/2117 [1:11:05<00:20,  2.01s/it]                                                     {'loss': 1.1902, 'learning_rate': 2.935368946868078e-08, 'epoch': 0.99}
100%|█████████▉| 2107/2117 [1:11:05<00:20,  2.01s/it]100%|█████████▉| 2108/2117 [1:11:07<00:17,  1.98s/it]                                                     {'loss': 1.0384, 'learning_rate': 2.4259350487421117e-08, 'epoch': 1.0}
100%|█████████▉| 2108/2117 [1:11:07<00:17,  1.98s/it]100%|█████████▉| 2109/2117 [1:11:09<00:15,  1.95s/it]                                                     {'loss': 1.1199, 'learning_rate': 1.9650149373950933e-08, 'epoch': 1.0}
100%|█████████▉| 2109/2117 [1:11:09<00:15,  1.95s/it]100%|█████████▉| 2110/2117 [1:11:11<00:13,  1.93s/it]                                                     {'loss': 1.3267, 'learning_rate': 1.552609731010346e-08, 'epoch': 1.0}
100%|█████████▉| 2110/2117 [1:11:11<00:13,  1.93s/it]100%|█████████▉| 2111/2117 [1:11:13<00:11,  1.93s/it]                                                     {'loss': 1.0717, 'learning_rate': 1.1887204300786715e-08, 'epoch': 1.0}
100%|█████████▉| 2111/2117 [1:11:13<00:11,  1.93s/it]100%|█████████▉| 2112/2117 [1:11:15<00:09,  1.85s/it]                                                     {'loss': 0.804, 'learning_rate': 8.733479173872461e-09, 'epoch': 1.0}
100%|█████████▉| 2112/2117 [1:11:15<00:09,  1.85s/it]100%|█████████▉| 2113/2117 [1:11:17<00:07,  1.88s/it]                                                     {'loss': 1.2645, 'learning_rate': 6.064929580285039e-09, 'epoch': 1.0}
100%|█████████▉| 2113/2117 [1:11:17<00:07,  1.88s/it]100%|█████████▉| 2114/2117 [1:11:18<00:05,  1.86s/it]                                                     {'loss': 1.2699, 'learning_rate': 3.881561993845928e-09, 'epoch': 1.0}
100%|█████████▉| 2114/2117 [1:11:18<00:05,  1.86s/it]100%|█████████▉| 2115/2117 [1:11:21<00:03,  1.94s/it]                                                     {'loss': 1.223, 'learning_rate': 2.1833817113625645e-09, 'epoch': 1.0}
100%|█████████▉| 2115/2117 [1:11:21<00:03,  1.94s/it]100%|█████████▉| 2116/2117 [1:11:22<00:01,  1.90s/it]                                                     {'loss': 0.9315, 'learning_rate': 9.703928526061389e-10, 'epoch': 1.0}
100%|█████████▉| 2116/2117 [1:11:22<00:01,  1.90s/it]100%|██████████| 2117/2117 [1:11:24<00:00,  1.91s/it]                                                     {'loss': 1.3294, 'learning_rate': 2.425983602893922e-10, 'epoch': 1.0}
100%|██████████| 2117/2117 [1:11:24<00:00,  1.91s/it]                                                     {'train_runtime': 4292.562, 'train_samples_per_second': 15.786, 'train_steps_per_second': 0.493, 'train_loss': 1.310140783374581, 'epoch': 1.0}
100%|██████████| 2117/2117 [1:11:24<00:00,  1.91s/it]100%|██████████| 2117/2117 [1:11:24<00:00,  2.02s/it]
wandb: 
wandb: Run history:
wandb:                    train/epoch ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:              train/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
wandb:            train/learning_rate ▃▅███████▇▇▇▇▇▆▆▆▅▅▅▅▄▄▄▃▃▃▃▂▂▂▂▂▁▁▁▁▁▁▁
wandb:                     train/loss ▆▆▅█▇▇▇▇▇▇▆▇▅▆▅▆▇▆▅▅▅▅▅▅▅▆▃▆▆▃▆▄▂▅▄▅▃▃▆▁
wandb:               train/total_flos ▁
wandb:               train/train_loss ▁
wandb:            train/train_runtime ▁
wandb: train/train_samples_per_second ▁
wandb:   train/train_steps_per_second ▁
wandb: 
wandb: Run summary:
wandb:                    train/epoch 1.0
wandb:              train/global_step 2117
wandb:            train/learning_rate 0.0
wandb:                     train/loss 1.3294
wandb:               train/total_flos 3.5162621858545664e+17
wandb:               train/train_loss 1.31014
wandb:            train/train_runtime 4292.562
wandb: train/train_samples_per_second 15.786
wandb:   train/train_steps_per_second 0.493
wandb: 
wandb: 🚀 View run belle_dolphine-p11 at: https://wandb.ai/nus_keyu/lora-moe/runs/koei9tvj
wandb: Synced 6 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
wandb: Find logs at: ./wandb/run-20231229_062717-koei9tvj/logs