bf16: false data_save_dir: ./save_folder/data dataset_hf: shuyuej/CC-BY-STEMM-Podcast-Transcripts-2048 device_map: auto epochs: 1 eval_pretrain: false fp16: true gpu_utilization_vllm: 0.95 gradient_accumulation_steps: 1 gradient_checkpointing: true learning_rate: 5.0e-06 log_save_platform: tensorboard logging_steps: 1 lora_alpha: 32 lora_dropout: 0.1 lora_r: 16 lr_scheduler_type: cosine max_new_tokens: 1024 model_name: shuyuej/Llama-3.3-70B-Instruct-GPTQ num_gpus_vllm: 4 optim: adamw_torch result_dir: ./results save_dir: ./save_folder save_only_model: true save_steps: 1000 save_strategy: steps save_total_limit: 1000 train_batch_size: 1 train_max_len: 2048 warmup_ratio: 0.03 weight_decay: 0.01 Start the Pre-training process...... 2024-12-13 16:34:34 - WARNING - Exllamav2 kernel is not installed, reset disable_exllamav2 to True. This may because you installed auto_gptq using a pre-build wheel on Windows, in which exllama_kernels are not compiled. To use exllama_kernels to further speedup inference, you can re-install auto_gptq from source. 2024-12-13 16:34:34 - WARNING - CUDA kernels for auto_gptq are not installed, this will result in very slow inference speed. This may because: 1. You disabled CUDA extensions compilation by setting BUILD_CUDA_EXT=0 when install auto_gptq from source. 2. You are using pytorch without CUDA support. 3. CUDA and nvcc are not installed in your device. 2024-12-13 16:34:34 - WARNING - ignoring unknown parameter in quantize_config.json: dynamic. 2024-12-13 16:34:34 - WARNING - ignoring unknown parameter in quantize_config.json: lm_head. 2024-12-13 16:34:34 - WARNING - ignoring unknown parameter in quantize_config.json: quant_method. 2024-12-13 16:34:34 - WARNING - ignoring unknown parameter in quantize_config.json: checkpoint_format. 2024-12-13 16:34:34 - WARNING - ignoring unknown parameter in quantize_config.json: meta. 2024-12-13 16:34:35 - INFO - lm_head not been quantized, will be ignored when make_quant. 2024-12-13 16:38:21 - INFO - Found 0 unique KN Linear values. 2024-12-13 16:38:21 - INFO - Warming up autotune cache ... 2024-12-13 16:38:21 - INFO - Found 0 unique fused mlp KN values. 2024-12-13 16:38:21 - INFO - Warming up autotune cache ... trainable params: 207,093,760 || all params: 10,872,856,576 || trainable%: 1.9046858436183607 2024-12-13 16:42:45 - WARNING - Detected kernel version 4.18.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher. 2024-12-13 16:43:18 - WARNING - NaN or Inf found in input tensor. {'loss': 2.4401, 'grad_norm': nan, 'learning_rate': 0.0, 'epoch': 0.0} 2024-12-13 16:43:39 - WARNING - NaN or Inf found in input tensor. {'loss': 2.5072, 'grad_norm': nan, 'learning_rate': 0.0, 'epoch': 0.0} {'loss': 2.2394, 'grad_norm': 0.6935932040214539, 'learning_rate': 8.92857142857143e-09, 'epoch': 0.0} {'loss': 2.5629, 'grad_norm': 0.677909791469574, 'learning_rate': 1.785714285714286e-08, 'epoch': 0.0} {'loss': 2.8006, 'grad_norm': 0.6475480198860168, 'learning_rate': 2.678571428571429e-08, 'epoch': 0.0} {'loss': 2.4323, 'grad_norm': 0.8326438665390015, 'learning_rate': 3.571428571428572e-08, 'epoch': 0.0} {'loss': 2.4991, 'grad_norm': 0.8124875426292419, 'learning_rate': 4.4642857142857145e-08, 'epoch': 0.0} {'loss': 2.1047, 'grad_norm': 1.1957017183303833, 'learning_rate': 5.357142857142858e-08, 'epoch': 0.0} {'loss': 2.3788, 'grad_norm': 0.759741485118866, 'learning_rate': 6.250000000000001e-08, 'epoch': 0.0} {'loss': 1.3629, 'grad_norm': 1.6295050382614136, 'learning_rate': 7.142857142857144e-08, 'epoch': 0.0} {'loss': 2.4387, 'grad_norm': 0.6981147527694702, 'learning_rate': 8.035714285714285e-08, 'epoch': 0.0} {'loss': 2.6157, 'grad_norm': 0.8827914595603943, 'learning_rate': 8.928571428571429e-08, 'epoch': 0.0} {'loss': 2.5207, 'grad_norm': 0.7324496507644653, 'learning_rate': 9.821428571428572e-08, 'epoch': 0.0} {'loss': 2.3233, 'grad_norm': 0.8087125420570374, 'learning_rate': 1.0714285714285716e-07, 'epoch': 0.0} {'loss': 2.6354, 'grad_norm': 0.7666011452674866, 'learning_rate': 1.1607142857142858e-07, 'epoch': 0.0} {'loss': 2.1957, 'grad_norm': 0.6825481057167053, 'learning_rate': 1.2500000000000002e-07, 'epoch': 0.0} {'loss': 2.4252, 'grad_norm': 0.6773061156272888, 'learning_rate': 1.3392857142857142e-07, 'epoch': 0.0} {'loss': 2.2829, 'grad_norm': 0.8494783043861389, 'learning_rate': 1.4285714285714287e-07, 'epoch': 0.0} {'loss': 2.2007, 'grad_norm': 0.8014193177223206, 'learning_rate': 1.517857142857143e-07, 'epoch': 0.0} {'loss': 2.4999, 'grad_norm': 0.8662102222442627, 'learning_rate': 1.607142857142857e-07, 'epoch': 0.0} {'loss': 2.7978, 'grad_norm': 1.2300390005111694, 'learning_rate': 1.6964285714285715e-07, 'epoch': 0.0} 2024-12-13 16:50:44 - WARNING - NaN or Inf found in input tensor. {'loss': 2.4121, 'grad_norm': nan, 'learning_rate': 1.6964285714285715e-07, 'epoch': 0.0} {'loss': 2.4236, 'grad_norm': 0.8139364123344421, 'learning_rate': 1.7857142857142858e-07, 'epoch': 0.0} {'loss': 2.4883, 'grad_norm': 0.8446831107139587, 'learning_rate': 1.875e-07, 'epoch': 0.0} {'loss': 2.1914, 'grad_norm': 0.7207334637641907, 'learning_rate': 1.9642857142857143e-07, 'epoch': 0.0} {'loss': 2.3311, 'grad_norm': 0.9601536989212036, 'learning_rate': 2.0535714285714288e-07, 'epoch': 0.0} {'loss': 2.678, 'grad_norm': 1.0330086946487427, 'learning_rate': 2.142857142857143e-07, 'epoch': 0.0} {'loss': 2.3593, 'grad_norm': 0.8670296669006348, 'learning_rate': 2.2321428571428574e-07, 'epoch': 0.0} {'loss': 2.3478, 'grad_norm': 2.535274028778076, 'learning_rate': 2.3214285714285716e-07, 'epoch': 0.0} {'loss': 2.2422, 'grad_norm': 0.9899892807006836, 'learning_rate': 2.410714285714286e-07, 'epoch': 0.0} {'loss': 2.6209, 'grad_norm': 1.1274137496948242, 'learning_rate': 2.5000000000000004e-07, 'epoch': 0.0} {'loss': 2.4619, 'grad_norm': 0.8845741748809814, 'learning_rate': 2.5892857142857147e-07, 'epoch': 0.0} {'loss': 2.6095, 'grad_norm': 1.4410101175308228, 'learning_rate': 2.6785714285714284e-07, 'epoch': 0.0} {'loss': 2.6002, 'grad_norm': 0.9437788724899292, 'learning_rate': 2.767857142857143e-07, 'epoch': 0.0} {'loss': 2.4766, 'grad_norm': 0.8635700345039368, 'learning_rate': 2.8571428571428575e-07, 'epoch': 0.0} {'loss': 2.8097, 'grad_norm': 0.8582034111022949, 'learning_rate': 2.9464285714285717e-07, 'epoch': 0.0} {'loss': 2.442, 'grad_norm': 0.8454009890556335, 'learning_rate': 3.035714285714286e-07, 'epoch': 0.0} {'loss': 2.5525, 'grad_norm': 0.7810462117195129, 'learning_rate': 3.125e-07, 'epoch': 0.0} {'loss': 2.4719, 'grad_norm': 0.6493550539016724, 'learning_rate': 3.214285714285714e-07, 'epoch': 0.0} {'loss': 2.4089, 'grad_norm': 0.9213592410087585, 'learning_rate': 3.303571428571429e-07, 'epoch': 0.0} {'loss': 2.5924, 'grad_norm': 0.6836276054382324, 'learning_rate': 3.392857142857143e-07, 'epoch': 0.0} {'loss': 2.631, 'grad_norm': 0.9182270169258118, 'learning_rate': 3.4821428571428573e-07, 'epoch': 0.0} {'loss': 2.5004, 'grad_norm': 0.7277834415435791, 'learning_rate': 3.5714285714285716e-07, 'epoch': 0.0} {'loss': 2.4053, 'grad_norm': 1.9422338008880615, 'learning_rate': 3.6607142857142864e-07, 'epoch': 0.0} {'loss': 2.5125, 'grad_norm': 0.8444631099700928, 'learning_rate': 3.75e-07, 'epoch': 0.0} 2024-12-13 16:59:14 - WARNING - NaN or Inf found in input tensor. {'loss': 2.7383, 'grad_norm': nan, 'learning_rate': 3.75e-07, 'epoch': 0.0} {'loss': 2.6818, 'grad_norm': 0.9670552015304565, 'learning_rate': 3.839285714285715e-07, 'epoch': 0.0} {'loss': 2.3875, 'grad_norm': 1.7243165969848633, 'learning_rate': 3.9285714285714286e-07, 'epoch': 0.0} {'loss': 2.5009, 'grad_norm': 0.9937056303024292, 'learning_rate': 4.0178571428571434e-07, 'epoch': 0.0} {'loss': 2.4047, 'grad_norm': 0.9792752861976624, 'learning_rate': 4.1071428571428577e-07, 'epoch': 0.0} {'loss': 2.2836, 'grad_norm': 0.67503422498703, 'learning_rate': 4.1964285714285714e-07, 'epoch': 0.0} {'loss': 2.7357, 'grad_norm': 0.8637988567352295, 'learning_rate': 4.285714285714286e-07, 'epoch': 0.0} {'loss': 2.017, 'grad_norm': 1.1493501663208008, 'learning_rate': 4.375e-07, 'epoch': 0.0} {'loss': 2.0569, 'grad_norm': 1.1174843311309814, 'learning_rate': 4.4642857142857147e-07, 'epoch': 0.0} {'loss': 2.4652, 'grad_norm': 0.9512081146240234, 'learning_rate': 4.553571428571429e-07, 'epoch': 0.0} {'loss': 2.6841, 'grad_norm': 0.7697733044624329, 'learning_rate': 4.642857142857143e-07, 'epoch': 0.0} {'loss': 2.326, 'grad_norm': 0.7791878581047058, 'learning_rate': 4.7321428571428575e-07, 'epoch': 0.0} {'loss': 2.4609, 'grad_norm': 1.6973649263381958, 'learning_rate': 4.821428571428572e-07, 'epoch': 0.0} {'loss': 2.3977, 'grad_norm': 0.8930851221084595, 'learning_rate': 4.910714285714286e-07, 'epoch': 0.0} {'loss': 2.6328, 'grad_norm': 1.0759652853012085, 'learning_rate': 5.000000000000001e-07, 'epoch': 0.0} {'loss': 2.4299, 'grad_norm': 0.760720431804657, 'learning_rate': 5.089285714285715e-07, 'epoch': 0.0} {'loss': 2.0909, 'grad_norm': 0.917052686214447, 'learning_rate': 5.178571428571429e-07, 'epoch': 0.0} {'loss': 2.4152, 'grad_norm': 0.8736194968223572, 'learning_rate': 5.267857142857143e-07, 'epoch': 0.0} {'loss': 2.4125, 'grad_norm': 1.0136430263519287, 'learning_rate': 5.357142857142857e-07, 'epoch': 0.0} {'loss': 2.2764, 'grad_norm': 1.9392871856689453, 'learning_rate': 5.446428571428572e-07, 'epoch': 0.0} {'loss': 2.4301, 'grad_norm': 1.4139771461486816, 'learning_rate': 5.535714285714286e-07, 'epoch': 0.0} {'loss': 2.4611, 'grad_norm': 0.9242576360702515, 'learning_rate': 5.625e-07, 'epoch': 0.0} {'loss': 2.6612, 'grad_norm': 0.7728210687637329, 'learning_rate': 5.714285714285715e-07, 'epoch': 0.0} {'loss': 2.3875, 'grad_norm': 0.8032379150390625, 'learning_rate': 5.80357142857143e-07, 'epoch': 0.0} {'loss': 2.4059, 'grad_norm': 0.954206645488739, 'learning_rate': 5.892857142857143e-07, 'epoch': 0.0} {'loss': 2.4556, 'grad_norm': 0.7434251308441162, 'learning_rate': 5.982142857142858e-07, 'epoch': 0.0} {'loss': 2.4441, 'grad_norm': 0.9050096273422241, 'learning_rate': 6.071428571428572e-07, 'epoch': 0.0} {'loss': 2.4783, 'grad_norm': 0.8813114166259766, 'learning_rate': 6.160714285714287e-07, 'epoch': 0.0} {'loss': 2.4637, 'grad_norm': 0.8532451391220093, 'learning_rate': 6.25e-07, 'epoch': 0.0} {'loss': 2.4099, 'grad_norm': 0.6587334275245667, 'learning_rate': 6.339285714285714e-07, 'epoch': 0.0} {'loss': 2.5932, 'grad_norm': 3.630815267562866, 'learning_rate': 6.428571428571428e-07, 'epoch': 0.0} {'loss': 2.0863, 'grad_norm': 1.041545033454895, 'learning_rate': 6.517857142857144e-07, 'epoch': 0.0} {'loss': 2.4064, 'grad_norm': 0.7904495596885681, 'learning_rate': 6.607142857142858e-07, 'epoch': 0.0} {'loss': 2.3364, 'grad_norm': 0.8185285329818726, 'learning_rate': 6.696428571428571e-07, 'epoch': 0.0} {'loss': 2.4239, 'grad_norm': 0.7770063877105713, 'learning_rate': 6.785714285714286e-07, 'epoch': 0.0} {'loss': 2.6458, 'grad_norm': 0.9059091806411743, 'learning_rate': 6.875000000000001e-07, 'epoch': 0.0} {'loss': 2.1675, 'grad_norm': 0.7613852024078369, 'learning_rate': 6.964285714285715e-07, 'epoch': 0.0} {'loss': 2.6587, 'grad_norm': 14.029939651489258, 'learning_rate': 7.053571428571429e-07, 'epoch': 0.0} {'loss': 2.612, 'grad_norm': 0.8541538715362549, 'learning_rate': 7.142857142857143e-07, 'epoch': 0.0} {'loss': 2.4127, 'grad_norm': 2.270970582962036, 'learning_rate': 7.232142857142858e-07, 'epoch': 0.0} {'loss': 2.4513, 'grad_norm': 1.2037321329116821, 'learning_rate': 7.321428571428573e-07, 'epoch': 0.0} {'loss': 2.7365, 'grad_norm': 1.0241434574127197, 'learning_rate': 7.410714285714286e-07, 'epoch': 0.0} {'loss': 2.3593, 'grad_norm': 0.6498371362686157, 'learning_rate': 7.5e-07, 'epoch': 0.0} {'loss': 2.5213, 'grad_norm': 0.9677167534828186, 'learning_rate': 7.589285714285714e-07, 'epoch': 0.0} {'loss': 2.6857, 'grad_norm': 0.8672310709953308, 'learning_rate': 7.67857142857143e-07, 'epoch': 0.0} {'loss': 2.5638, 'grad_norm': 0.9947278499603271, 'learning_rate': 7.767857142857144e-07, 'epoch': 0.0} {'loss': 2.3563, 'grad_norm': 0.7824763059616089, 'learning_rate': 7.857142857142857e-07, 'epoch': 0.0} {'loss': 2.4229, 'grad_norm': 0.759227991104126, 'learning_rate': 7.946428571428572e-07, 'epoch': 0.0} {'loss': 2.3801, 'grad_norm': 0.6327589750289917, 'learning_rate': 8.035714285714287e-07, 'epoch': 0.01} {'loss': 2.2058, 'grad_norm': 0.7244407534599304, 'learning_rate': 8.125000000000001e-07, 'epoch': 0.01} {'loss': 2.6372, 'grad_norm': 1.2423087358474731, 'learning_rate': 8.214285714285715e-07, 'epoch': 0.01} {'loss': 2.5142, 'grad_norm': 1.712682843208313, 'learning_rate': 8.303571428571429e-07, 'epoch': 0.01} {'loss': 1.9431, 'grad_norm': 0.9291441440582275, 'learning_rate': 8.392857142857143e-07, 'epoch': 0.01} {'loss': 2.4759, 'grad_norm': 2.164389133453369, 'learning_rate': 8.482142857142859e-07, 'epoch': 0.01} {'loss': 2.3094, 'grad_norm': 0.6145456433296204, 'learning_rate': 8.571428571428572e-07, 'epoch': 0.01} {'loss': 2.5706, 'grad_norm': 0.9413978457450867, 'learning_rate': 8.660714285714286e-07, 'epoch': 0.01} {'loss': 2.4966, 'grad_norm': 0.861832320690155, 'learning_rate': 8.75e-07, 'epoch': 0.01} {'loss': 2.5964, 'grad_norm': 0.7913983464241028, 'learning_rate': 8.839285714285716e-07, 'epoch': 0.01} {'loss': 2.9216, 'grad_norm': 0.9602859020233154, 'learning_rate': 8.928571428571429e-07, 'epoch': 0.01} {'loss': 2.4912, 'grad_norm': 0.6429104804992676, 'learning_rate': 9.017857142857143e-07, 'epoch': 0.01} {'loss': 2.2812, 'grad_norm': 0.8189711570739746, 'learning_rate': 9.107142857142858e-07, 'epoch': 0.01} {'loss': 2.6057, 'grad_norm': 0.686623752117157, 'learning_rate': 9.196428571428573e-07, 'epoch': 0.01} {'loss': 2.6879, 'grad_norm': 0.99550861120224, 'learning_rate': 9.285714285714287e-07, 'epoch': 0.01} {'loss': 2.5634, 'grad_norm': 1.379797339439392, 'learning_rate': 9.375000000000001e-07, 'epoch': 0.01} {'loss': 2.4607, 'grad_norm': 0.9499379396438599, 'learning_rate': 9.464285714285715e-07, 'epoch': 0.01} {'loss': 2.5644, 'grad_norm': 1.0836615562438965, 'learning_rate': 9.553571428571429e-07, 'epoch': 0.01} {'loss': 2.5347, 'grad_norm': 0.7682836651802063, 'learning_rate': 9.642857142857145e-07, 'epoch': 0.01} {'loss': 2.3035, 'grad_norm': 1.3963618278503418, 'learning_rate': 9.732142857142858e-07, 'epoch': 0.01} {'loss': 2.2037, 'grad_norm': 0.8740382194519043, 'learning_rate': 9.821428571428572e-07, 'epoch': 0.01} {'loss': 2.3938, 'grad_norm': 1.2923239469528198, 'learning_rate': 9.910714285714286e-07, 'epoch': 0.01} {'loss': 1.7977, 'grad_norm': 0.9651234149932861, 'learning_rate': 1.0000000000000002e-06, 'epoch': 0.01} {'loss': 2.6388, 'grad_norm': 1.1392234563827515, 'learning_rate': 1.0089285714285715e-06, 'epoch': 0.01} {'loss': 2.6283, 'grad_norm': 0.7700512409210205, 'learning_rate': 1.017857142857143e-06, 'epoch': 0.01} {'loss': 2.5588, 'grad_norm': 0.7713974714279175, 'learning_rate': 1.0267857142857143e-06, 'epoch': 0.01} {'loss': 2.6444, 'grad_norm': 0.9464917778968811, 'learning_rate': 1.0357142857142859e-06, 'epoch': 0.01} {'loss': 2.0531, 'grad_norm': 0.7184650897979736, 'learning_rate': 1.0446428571428572e-06, 'epoch': 0.01} {'loss': 2.4958, 'grad_norm': 0.7756190299987793, 'learning_rate': 1.0535714285714286e-06, 'epoch': 0.01} {'loss': 2.4343, 'grad_norm': 0.6817174553871155, 'learning_rate': 1.0625e-06, 'epoch': 0.01} {'loss': 2.6489, 'grad_norm': 0.8120045065879822, 'learning_rate': 1.0714285714285714e-06, 'epoch': 0.01} {'loss': 2.5889, 'grad_norm': 1.4648245573043823, 'learning_rate': 1.080357142857143e-06, 'epoch': 0.01} {'loss': 2.8112, 'grad_norm': 0.7509508728981018, 'learning_rate': 1.0892857142857143e-06, 'epoch': 0.01} {'loss': 2.2546, 'grad_norm': 4.133321285247803, 'learning_rate': 1.0982142857142857e-06, 'epoch': 0.01} {'loss': 2.3405, 'grad_norm': 0.9913201332092285, 'learning_rate': 1.1071428571428573e-06, 'epoch': 0.01} {'loss': 2.6864, 'grad_norm': 0.8450392484664917, 'learning_rate': 1.1160714285714287e-06, 'epoch': 0.01} {'loss': 2.5017, 'grad_norm': 0.6946297883987427, 'learning_rate': 1.125e-06, 'epoch': 0.01} {'loss': 2.5261, 'grad_norm': 0.7169015407562256, 'learning_rate': 1.1339285714285716e-06, 'epoch': 0.01} {'loss': 2.2022, 'grad_norm': 0.83310467004776, 'learning_rate': 1.142857142857143e-06, 'epoch': 0.01} {'loss': 2.4821, 'grad_norm': 1.942430853843689, 'learning_rate': 1.1517857142857144e-06, 'epoch': 0.01} {'loss': 2.2026, 'grad_norm': 0.6703306436538696, 'learning_rate': 1.160714285714286e-06, 'epoch': 0.01} {'loss': 2.1623, 'grad_norm': 0.9137828350067139, 'learning_rate': 1.1696428571428573e-06, 'epoch': 0.01} {'loss': 2.4106, 'grad_norm': 0.7661757469177246, 'learning_rate': 1.1785714285714287e-06, 'epoch': 0.01} {'loss': 2.1197, 'grad_norm': 0.835307240486145, 'learning_rate': 1.1875e-06, 'epoch': 0.01} {'loss': 2.5839, 'grad_norm': 1.353977918624878, 'learning_rate': 1.1964285714285717e-06, 'epoch': 0.01} {'loss': 2.6026, 'grad_norm': 0.7668522000312805, 'learning_rate': 1.205357142857143e-06, 'epoch': 0.01} {'loss': 2.5294, 'grad_norm': 0.8905326724052429, 'learning_rate': 1.2142857142857144e-06, 'epoch': 0.01} {'loss': 2.501, 'grad_norm': 0.9774091839790344, 'learning_rate': 1.2232142857142858e-06, 'epoch': 0.01} {'loss': 2.5342, 'grad_norm': 0.6075891852378845, 'learning_rate': 1.2321428571428574e-06, 'epoch': 0.01} {'loss': 2.0099, 'grad_norm': 1.0102717876434326, 'learning_rate': 1.2410714285714287e-06, 'epoch': 0.01} {'loss': 2.4802, 'grad_norm': 0.7865061163902283, 'learning_rate': 1.25e-06, 'epoch': 0.01} {'loss': 2.4817, 'grad_norm': 0.7139711976051331, 'learning_rate': 1.2589285714285715e-06, 'epoch': 0.01} {'loss': 2.5749, 'grad_norm': 0.8458415865898132, 'learning_rate': 1.2678571428571428e-06, 'epoch': 0.01} {'loss': 2.4348, 'grad_norm': 0.7011553645133972, 'learning_rate': 1.2767857142857142e-06, 'epoch': 0.01} {'loss': 2.7591, 'grad_norm': 0.7118622064590454, 'learning_rate': 1.2857142857142856e-06, 'epoch': 0.01} {'loss': 2.5427, 'grad_norm': 1.0853469371795654, 'learning_rate': 1.2946428571428574e-06, 'epoch': 0.01} {'loss': 2.3806, 'grad_norm': 0.5898392200469971, 'learning_rate': 1.3035714285714288e-06, 'epoch': 0.01} {'loss': 2.4623, 'grad_norm': 0.8301461338996887, 'learning_rate': 1.3125000000000001e-06, 'epoch': 0.01} {'loss': 2.4946, 'grad_norm': 1.341497540473938, 'learning_rate': 1.3214285714285715e-06, 'epoch': 0.01} {'loss': 2.5995, 'grad_norm': 1.0956140756607056, 'learning_rate': 1.3303571428571429e-06, 'epoch': 0.01} 2024-12-13 17:37:28 - WARNING - NaN or Inf found in input tensor. {'loss': 2.5367, 'grad_norm': nan, 'learning_rate': 1.3303571428571429e-06, 'epoch': 0.01} {'loss': 2.3598, 'grad_norm': 0.6907609105110168, 'learning_rate': 1.3392857142857143e-06, 'epoch': 0.01} {'loss': 2.2936, 'grad_norm': 0.7842445373535156, 'learning_rate': 1.3482142857142858e-06, 'epoch': 0.01} {'loss': 2.6988, 'grad_norm': 0.7514459490776062, 'learning_rate': 1.3571428571428572e-06, 'epoch': 0.01} {'loss': 2.5296, 'grad_norm': 0.8455466628074646, 'learning_rate': 1.3660714285714286e-06, 'epoch': 0.01} {'loss': 2.6835, 'grad_norm': 0.913686990737915, 'learning_rate': 1.3750000000000002e-06, 'epoch': 0.01} {'loss': 2.2973, 'grad_norm': 0.6005373001098633, 'learning_rate': 1.3839285714285715e-06, 'epoch': 0.01} {'loss': 2.2657, 'grad_norm': 1.3129281997680664, 'learning_rate': 1.392857142857143e-06, 'epoch': 0.01} {'loss': 2.5952, 'grad_norm': 0.7612324953079224, 'learning_rate': 1.4017857142857145e-06, 'epoch': 0.01} {'loss': 2.477, 'grad_norm': 0.8370961546897888, 'learning_rate': 1.4107142857142859e-06, 'epoch': 0.01} {'loss': 2.375, 'grad_norm': 0.8533289432525635, 'learning_rate': 1.4196428571428573e-06, 'epoch': 0.01} {'loss': 2.6677, 'grad_norm': 0.6898089051246643, 'learning_rate': 1.4285714285714286e-06, 'epoch': 0.01} {'loss': 2.4561, 'grad_norm': 0.7607659101486206, 'learning_rate': 1.4375e-06, 'epoch': 0.01} {'loss': 2.4179, 'grad_norm': 0.725953221321106, 'learning_rate': 1.4464285714285716e-06, 'epoch': 0.01} {'loss': 2.2374, 'grad_norm': 0.8308206796646118, 'learning_rate': 1.4553571428571432e-06, 'epoch': 0.01} {'loss': 2.1913, 'grad_norm': 1.1526063680648804, 'learning_rate': 1.4642857142857145e-06, 'epoch': 0.01} {'loss': 2.4841, 'grad_norm': 0.9452094435691833, 'learning_rate': 1.473214285714286e-06, 'epoch': 0.01} {'loss': 2.2326, 'grad_norm': 0.9099540114402771, 'learning_rate': 1.4821428571428573e-06, 'epoch': 0.01} {'loss': 2.4508, 'grad_norm': 1.041542410850525, 'learning_rate': 1.4910714285714287e-06, 'epoch': 0.01} {'loss': 2.1162, 'grad_norm': 0.7449007630348206, 'learning_rate': 1.5e-06, 'epoch': 0.01} {'loss': 2.3712, 'grad_norm': 0.8525586128234863, 'learning_rate': 1.5089285714285714e-06, 'epoch': 0.01} {'loss': 2.7238, 'grad_norm': 0.9100508689880371, 'learning_rate': 1.5178571428571428e-06, 'epoch': 0.01} {'loss': 2.5829, 'grad_norm': 0.8841806054115295, 'learning_rate': 1.5267857142857146e-06, 'epoch': 0.01} {'loss': 2.5081, 'grad_norm': 0.6963426470756531, 'learning_rate': 1.535714285714286e-06, 'epoch': 0.01} {'loss': 2.429, 'grad_norm': 0.6730285882949829, 'learning_rate': 1.5446428571428573e-06, 'epoch': 0.01} {'loss': 2.4692, 'grad_norm': 0.6490024924278259, 'learning_rate': 1.5535714285714287e-06, 'epoch': 0.01} {'loss': 2.3184, 'grad_norm': 0.6705166101455688, 'learning_rate': 1.5625e-06, 'epoch': 0.01} {'loss': 2.216, 'grad_norm': 0.6710647344589233, 'learning_rate': 1.5714285714285714e-06, 'epoch': 0.01} {'loss': 2.4681, 'grad_norm': 1.1906534433364868, 'learning_rate': 1.5803571428571428e-06, 'epoch': 0.01} {'loss': 2.187, 'grad_norm': 0.6579937934875488, 'learning_rate': 1.5892857142857144e-06, 'epoch': 0.01} {'loss': 2.4643, 'grad_norm': 0.704179584980011, 'learning_rate': 1.5982142857142858e-06, 'epoch': 0.01} {'loss': 2.5128, 'grad_norm': 0.7342430353164673, 'learning_rate': 1.6071428571428574e-06, 'epoch': 0.01} {'loss': 2.3754, 'grad_norm': 0.793552041053772, 'learning_rate': 1.6160714285714287e-06, 'epoch': 0.01} {'loss': 2.4328, 'grad_norm': 1.0377492904663086, 'learning_rate': 1.6250000000000001e-06, 'epoch': 0.01} {'loss': 2.4433, 'grad_norm': 0.6674951314926147, 'learning_rate': 1.6339285714285715e-06, 'epoch': 0.01} {'loss': 2.4011, 'grad_norm': 2.0816256999969482, 'learning_rate': 1.642857142857143e-06, 'epoch': 0.01} {'loss': 2.5995, 'grad_norm': 0.6879795789718628, 'learning_rate': 1.6517857142857144e-06, 'epoch': 0.01} {'loss': 2.614, 'grad_norm': 0.8282930850982666, 'learning_rate': 1.6607142857142858e-06, 'epoch': 0.01} {'loss': 2.4919, 'grad_norm': 0.661475658416748, 'learning_rate': 1.6696428571428572e-06, 'epoch': 0.01} {'loss': 2.3542, 'grad_norm': 0.6563178896903992, 'learning_rate': 1.6785714285714286e-06, 'epoch': 0.01} {'loss': 2.5474, 'grad_norm': 0.8732898831367493, 'learning_rate': 1.6875000000000001e-06, 'epoch': 0.01} {'loss': 2.3512, 'grad_norm': 0.7637423276901245, 'learning_rate': 1.6964285714285717e-06, 'epoch': 0.01} {'loss': 2.4901, 'grad_norm': 0.8342444896697998, 'learning_rate': 1.7053571428571431e-06, 'epoch': 0.01} {'loss': 2.6228, 'grad_norm': 0.7179602384567261, 'learning_rate': 1.7142857142857145e-06, 'epoch': 0.01} {'loss': 2.5812, 'grad_norm': 0.7071645259857178, 'learning_rate': 1.7232142857142859e-06, 'epoch': 0.01} {'loss': 2.3245, 'grad_norm': 0.6539354920387268, 'learning_rate': 1.7321428571428572e-06, 'epoch': 0.01} {'loss': 2.5033, 'grad_norm': 0.8995392322540283, 'learning_rate': 1.7410714285714286e-06, 'epoch': 0.01} {'loss': 2.3979, 'grad_norm': 0.8255943059921265, 'learning_rate': 1.75e-06, 'epoch': 0.01} {'loss': 2.4931, 'grad_norm': 1.028721809387207, 'learning_rate': 1.7589285714285718e-06, 'epoch': 0.01} {'loss': 2.4265, 'grad_norm': 0.7333868741989136, 'learning_rate': 1.7678571428571431e-06, 'epoch': 0.01} {'loss': 2.4698, 'grad_norm': 0.6806638836860657, 'learning_rate': 1.7767857142857145e-06, 'epoch': 0.01} {'loss': 2.6086, 'grad_norm': 1.7733010053634644, 'learning_rate': 1.7857142857142859e-06, 'epoch': 0.01} {'loss': 2.4403, 'grad_norm': 0.6890419125556946, 'learning_rate': 1.7946428571428573e-06, 'epoch': 0.01} {'loss': 2.272, 'grad_norm': 0.7711536884307861, 'learning_rate': 1.8035714285714286e-06, 'epoch': 0.01} {'loss': 2.2373, 'grad_norm': 0.7877945303916931, 'learning_rate': 1.8125e-06, 'epoch': 0.01} {'loss': 2.319, 'grad_norm': 0.9670550227165222, 'learning_rate': 1.8214285714285716e-06, 'epoch': 0.01} {'loss': 2.4331, 'grad_norm': 0.69708251953125, 'learning_rate': 1.830357142857143e-06, 'epoch': 0.01} {'loss': 2.3893, 'grad_norm': 0.7773550748825073, 'learning_rate': 1.8392857142857146e-06, 'epoch': 0.01} {'loss': 2.5038, 'grad_norm': 0.7683597207069397, 'learning_rate': 1.848214285714286e-06, 'epoch': 0.01} {'loss': 2.0655, 'grad_norm': 3.5412344932556152, 'learning_rate': 1.8571428571428573e-06, 'epoch': 0.01} {'loss': 2.5147, 'grad_norm': 0.6078819632530212, 'learning_rate': 1.8660714285714287e-06, 'epoch': 0.01} {'loss': 2.4078, 'grad_norm': 0.8145774602890015, 'learning_rate': 1.8750000000000003e-06, 'epoch': 0.01} {'loss': 2.3664, 'grad_norm': 1.0329651832580566, 'learning_rate': 1.8839285714285716e-06, 'epoch': 0.01} {'loss': 2.49, 'grad_norm': 0.6468517780303955, 'learning_rate': 1.892857142857143e-06, 'epoch': 0.01} {'loss': 2.4109, 'grad_norm': 0.9864062666893005, 'learning_rate': 1.9017857142857144e-06, 'epoch': 0.01} {'loss': 2.5061, 'grad_norm': 0.6388240456581116, 'learning_rate': 1.9107142857142858e-06, 'epoch': 0.01} {'loss': 2.2591, 'grad_norm': 0.680731475353241, 'learning_rate': 1.9196428571428573e-06, 'epoch': 0.01} {'loss': 2.3415, 'grad_norm': 0.8310266137123108, 'learning_rate': 1.928571428571429e-06, 'epoch': 0.01} {'loss': 2.2759, 'grad_norm': 0.6374121308326721, 'learning_rate': 1.9375e-06, 'epoch': 0.01} {'loss': 2.3178, 'grad_norm': 0.5901023149490356, 'learning_rate': 1.9464285714285717e-06, 'epoch': 0.01} {'loss': 2.3164, 'grad_norm': 0.7914515733718872, 'learning_rate': 1.955357142857143e-06, 'epoch': 0.01} {'loss': 2.447, 'grad_norm': 0.9243539571762085, 'learning_rate': 1.9642857142857144e-06, 'epoch': 0.01} {'loss': 2.4447, 'grad_norm': 0.7908656001091003, 'learning_rate': 1.973214285714286e-06, 'epoch': 0.01} {'loss': 2.6932, 'grad_norm': 0.7527483105659485, 'learning_rate': 1.982142857142857e-06, 'epoch': 0.01} {'loss': 2.5089, 'grad_norm': 0.7420084476470947, 'learning_rate': 1.9910714285714287e-06, 'epoch': 0.01} {'loss': 2.4264, 'grad_norm': 0.6847890615463257, 'learning_rate': 2.0000000000000003e-06, 'epoch': 0.01} {'loss': 2.1732, 'grad_norm': 0.7093695402145386, 'learning_rate': 2.0089285714285715e-06, 'epoch': 0.01} {'loss': 2.5147, 'grad_norm': 0.8424200415611267, 'learning_rate': 2.017857142857143e-06, 'epoch': 0.01} {'loss': 2.0074, 'grad_norm': 0.5956903696060181, 'learning_rate': 2.0267857142857147e-06, 'epoch': 0.01} {'loss': 2.5164, 'grad_norm': 1.5747441053390503, 'learning_rate': 2.035714285714286e-06, 'epoch': 0.01} {'loss': 2.3953, 'grad_norm': 0.6299461722373962, 'learning_rate': 2.0446428571428574e-06, 'epoch': 0.01} {'loss': 2.4146, 'grad_norm': 0.6784403324127197, 'learning_rate': 2.0535714285714286e-06, 'epoch': 0.01} {'loss': 2.397, 'grad_norm': 0.6467978954315186, 'learning_rate': 2.0625e-06, 'epoch': 0.01} {'loss': 2.5601, 'grad_norm': 0.7506272792816162, 'learning_rate': 2.0714285714285717e-06, 'epoch': 0.01} {'loss': 2.1411, 'grad_norm': 0.8178972601890564, 'learning_rate': 2.0803571428571433e-06, 'epoch': 0.01} {'loss': 2.5521, 'grad_norm': 1.0078363418579102, 'learning_rate': 2.0892857142857145e-06, 'epoch': 0.01} {'loss': 2.5314, 'grad_norm': 0.8121960759162903, 'learning_rate': 2.098214285714286e-06, 'epoch': 0.01} {'loss': 2.3234, 'grad_norm': 0.8223477602005005, 'learning_rate': 2.1071428571428572e-06, 'epoch': 0.01} {'loss': 2.3738, 'grad_norm': 0.6423619985580444, 'learning_rate': 2.116071428571429e-06, 'epoch': 0.01} {'loss': 2.3832, 'grad_norm': 0.6700283885002136, 'learning_rate': 2.125e-06, 'epoch': 0.01} {'loss': 2.359, 'grad_norm': 0.6296292543411255, 'learning_rate': 2.1339285714285716e-06, 'epoch': 0.01} {'loss': 2.4386, 'grad_norm': 0.7367408871650696, 'learning_rate': 2.1428571428571427e-06, 'epoch': 0.01} {'loss': 2.4242, 'grad_norm': 0.9185892939567566, 'learning_rate': 2.1517857142857147e-06, 'epoch': 0.01} {'loss': 2.0571, 'grad_norm': 0.6843007206916809, 'learning_rate': 2.160714285714286e-06, 'epoch': 0.01} {'loss': 1.8428, 'grad_norm': 0.9147751927375793, 'learning_rate': 2.1696428571428575e-06, 'epoch': 0.01} {'loss': 2.3028, 'grad_norm': 1.2487143278121948, 'learning_rate': 2.1785714285714286e-06, 'epoch': 0.01} {'loss': 2.4286, 'grad_norm': 0.7906087040901184, 'learning_rate': 2.1875000000000002e-06, 'epoch': 0.01} {'loss': 2.5569, 'grad_norm': 0.8500818610191345, 'learning_rate': 2.1964285714285714e-06, 'epoch': 0.01} {'loss': 2.4827, 'grad_norm': 0.697887659072876, 'learning_rate': 2.205357142857143e-06, 'epoch': 0.01} {'loss': 2.4049, 'grad_norm': 0.7631711959838867, 'learning_rate': 2.2142857142857146e-06, 'epoch': 0.01} {'loss': 2.2669, 'grad_norm': 0.6823691129684448, 'learning_rate': 2.2232142857142857e-06, 'epoch': 0.01} {'loss': 2.4426, 'grad_norm': 0.68162602186203, 'learning_rate': 2.2321428571428573e-06, 'epoch': 0.01} {'loss': 2.5014, 'grad_norm': 0.8350782990455627, 'learning_rate': 2.241071428571429e-06, 'epoch': 0.01} {'loss': 2.4346, 'grad_norm': 0.6530932188034058, 'learning_rate': 2.25e-06, 'epoch': 0.01} {'loss': 1.8935, 'grad_norm': 0.7705269455909729, 'learning_rate': 2.2589285714285716e-06, 'epoch': 0.01} {'loss': 2.4101, 'grad_norm': 0.7379944920539856, 'learning_rate': 2.2678571428571432e-06, 'epoch': 0.01} {'loss': 2.4687, 'grad_norm': 0.7072131633758545, 'learning_rate': 2.2767857142857144e-06, 'epoch': 0.01} {'loss': 2.3767, 'grad_norm': 0.6634659767150879, 'learning_rate': 2.285714285714286e-06, 'epoch': 0.01} {'loss': 2.3362, 'grad_norm': 0.9153283834457397, 'learning_rate': 2.294642857142857e-06, 'epoch': 0.01} {'loss': 2.3203, 'grad_norm': 0.6105332970619202, 'learning_rate': 2.3035714285714287e-06, 'epoch': 0.01} {'loss': 2.4901, 'grad_norm': 0.699830949306488, 'learning_rate': 2.3125000000000003e-06, 'epoch': 0.01} {'loss': 2.3894, 'grad_norm': 0.7631047368049622, 'learning_rate': 2.321428571428572e-06, 'epoch': 0.01} {'loss': 2.5259, 'grad_norm': 0.8344921469688416, 'learning_rate': 2.330357142857143e-06, 'epoch': 0.01} {'loss': 2.6454, 'grad_norm': 0.7504924535751343, 'learning_rate': 2.3392857142857146e-06, 'epoch': 0.01} {'loss': 2.4852, 'grad_norm': 0.7122287750244141, 'learning_rate': 2.348214285714286e-06, 'epoch': 0.01} {'loss': 2.2046, 'grad_norm': 0.6561256647109985, 'learning_rate': 2.3571428571428574e-06, 'epoch': 0.01} {'loss': 2.4976, 'grad_norm': 0.8987632393836975, 'learning_rate': 2.3660714285714285e-06, 'epoch': 0.01} {'loss': 1.9362, 'grad_norm': 0.9650809168815613, 'learning_rate': 2.375e-06, 'epoch': 0.01} {'loss': 2.0685, 'grad_norm': 0.6158315539360046, 'learning_rate': 2.3839285714285717e-06, 'epoch': 0.01} {'loss': 2.462, 'grad_norm': 0.6385294795036316, 'learning_rate': 2.3928571428571433e-06, 'epoch': 0.01} {'loss': 2.0943, 'grad_norm': 0.6893616318702698, 'learning_rate': 2.4017857142857145e-06, 'epoch': 0.01} {'loss': 2.3982, 'grad_norm': 0.8767016530036926, 'learning_rate': 2.410714285714286e-06, 'epoch': 0.01} {'loss': 2.2558, 'grad_norm': 0.7963337898254395, 'learning_rate': 2.419642857142857e-06, 'epoch': 0.01} {'loss': 2.4308, 'grad_norm': 0.7312727570533752, 'learning_rate': 2.428571428571429e-06, 'epoch': 0.01} {'loss': 2.3666, 'grad_norm': 0.8620723485946655, 'learning_rate': 2.4375e-06, 'epoch': 0.01} {'loss': 2.6281, 'grad_norm': 0.7023136615753174, 'learning_rate': 2.4464285714285715e-06, 'epoch': 0.01} {'loss': 2.5165, 'grad_norm': 0.724403440952301, 'learning_rate': 2.455357142857143e-06, 'epoch': 0.02} {'loss': 2.0925, 'grad_norm': 0.6700321435928345, 'learning_rate': 2.4642857142857147e-06, 'epoch': 0.02} {'loss': 2.3042, 'grad_norm': 0.8319527506828308, 'learning_rate': 2.473214285714286e-06, 'epoch': 0.02} {'loss': 2.6683, 'grad_norm': 0.9960564374923706, 'learning_rate': 2.4821428571428575e-06, 'epoch': 0.02} {'loss': 2.4533, 'grad_norm': 0.6869928240776062, 'learning_rate': 2.4910714285714286e-06, 'epoch': 0.02} {'loss': 2.4816, 'grad_norm': 1.1115264892578125, 'learning_rate': 2.5e-06, 'epoch': 0.02} {'loss': 2.5195, 'grad_norm': 5.782863616943359, 'learning_rate': 2.508928571428572e-06, 'epoch': 0.02} {'loss': 2.5119, 'grad_norm': 0.8223388195037842, 'learning_rate': 2.517857142857143e-06, 'epoch': 0.02} {'loss': 2.4015, 'grad_norm': 0.8225493431091309, 'learning_rate': 2.5267857142857145e-06, 'epoch': 0.02} {'loss': 2.2017, 'grad_norm': 0.6869227290153503, 'learning_rate': 2.5357142857142857e-06, 'epoch': 0.02} {'loss': 2.6262, 'grad_norm': 0.8585204482078552, 'learning_rate': 2.5446428571428573e-06, 'epoch': 0.02} {'loss': 2.4293, 'grad_norm': 0.9561352133750916, 'learning_rate': 2.5535714285714284e-06, 'epoch': 0.02} {'loss': 2.3199, 'grad_norm': 0.9420600533485413, 'learning_rate': 2.5625e-06, 'epoch': 0.02} {'loss': 2.5742, 'grad_norm': 0.985571026802063, 'learning_rate': 2.571428571428571e-06, 'epoch': 0.02} {'loss': 2.1875, 'grad_norm': 0.8489513397216797, 'learning_rate': 2.580357142857143e-06, 'epoch': 0.02} {'loss': 2.0514, 'grad_norm': 0.7616540789604187, 'learning_rate': 2.5892857142857148e-06, 'epoch': 0.02} {'loss': 2.5914, 'grad_norm': 0.7030709981918335, 'learning_rate': 2.598214285714286e-06, 'epoch': 0.02} {'loss': 2.5231, 'grad_norm': 0.5586270689964294, 'learning_rate': 2.6071428571428575e-06, 'epoch': 0.02} {'loss': 2.1521, 'grad_norm': 0.6314849853515625, 'learning_rate': 2.616071428571429e-06, 'epoch': 0.02} {'loss': 1.6596, 'grad_norm': 2.3691253662109375, 'learning_rate': 2.6250000000000003e-06, 'epoch': 0.02} {'loss': 2.5476, 'grad_norm': 0.9220977425575256, 'learning_rate': 2.633928571428572e-06, 'epoch': 0.02} {'loss': 1.7556, 'grad_norm': 0.6786535382270813, 'learning_rate': 2.642857142857143e-06, 'epoch': 0.02} {'loss': 2.6333, 'grad_norm': 0.7234790325164795, 'learning_rate': 2.6517857142857146e-06, 'epoch': 0.02} {'loss': 2.3762, 'grad_norm': 0.9879781007766724, 'learning_rate': 2.6607142857142858e-06, 'epoch': 0.02} {'loss': 2.4876, 'grad_norm': 0.8127362132072449, 'learning_rate': 2.6696428571428574e-06, 'epoch': 0.02} {'loss': 2.3795, 'grad_norm': 0.8156941533088684, 'learning_rate': 2.6785714285714285e-06, 'epoch': 0.02} {'loss': 2.3785, 'grad_norm': 0.5962357521057129, 'learning_rate': 2.6875e-06, 'epoch': 0.02} {'loss': 2.352, 'grad_norm': 0.7326784133911133, 'learning_rate': 2.6964285714285717e-06, 'epoch': 0.02} {'loss': 2.3658, 'grad_norm': 0.7983625531196594, 'learning_rate': 2.705357142857143e-06, 'epoch': 0.02} {'loss': 2.5088, 'grad_norm': 1.134830355644226, 'learning_rate': 2.7142857142857144e-06, 'epoch': 0.02} {'loss': 2.3007, 'grad_norm': 0.7062075734138489, 'learning_rate': 2.7232142857142856e-06, 'epoch': 0.02} {'loss': 2.1189, 'grad_norm': 0.7864484786987305, 'learning_rate': 2.732142857142857e-06, 'epoch': 0.02} {'loss': 2.4341, 'grad_norm': 0.9680244326591492, 'learning_rate': 2.741071428571429e-06, 'epoch': 0.02} {'loss': 2.6046, 'grad_norm': 0.841587245464325, 'learning_rate': 2.7500000000000004e-06, 'epoch': 0.02} {'loss': 2.3676, 'grad_norm': 0.7342112064361572, 'learning_rate': 2.758928571428572e-06, 'epoch': 0.02} {'loss': 2.6814, 'grad_norm': 0.7875284552574158, 'learning_rate': 2.767857142857143e-06, 'epoch': 0.02} {'loss': 2.3434, 'grad_norm': 0.8010267019271851, 'learning_rate': 2.7767857142857147e-06, 'epoch': 0.02} {'loss': 1.778, 'grad_norm': 0.7906016111373901, 'learning_rate': 2.785714285714286e-06, 'epoch': 0.02} {'loss': 2.476, 'grad_norm': 0.8270081877708435, 'learning_rate': 2.7946428571428574e-06, 'epoch': 0.02} {'loss': 2.5384, 'grad_norm': 0.8687238097190857, 'learning_rate': 2.803571428571429e-06, 'epoch': 0.02} {'loss': 2.3432, 'grad_norm': 0.7220746278762817, 'learning_rate': 2.8125e-06, 'epoch': 0.02} {'loss': 2.5135, 'grad_norm': 0.8341050148010254, 'learning_rate': 2.8214285714285718e-06, 'epoch': 0.02} {'loss': 2.4291, 'grad_norm': 0.8350667953491211, 'learning_rate': 2.830357142857143e-06, 'epoch': 0.02} {'loss': 2.0637, 'grad_norm': 1.1586958169937134, 'learning_rate': 2.8392857142857145e-06, 'epoch': 0.02} {'loss': 2.1824, 'grad_norm': 0.6313625574111938, 'learning_rate': 2.8482142857142857e-06, 'epoch': 0.02} {'loss': 2.3423, 'grad_norm': 0.9125402569770813, 'learning_rate': 2.8571428571428573e-06, 'epoch': 0.02} {'loss': 2.3292, 'grad_norm': 0.6458116173744202, 'learning_rate': 2.8660714285714284e-06, 'epoch': 0.02} {'loss': 2.0034, 'grad_norm': 0.6161265969276428, 'learning_rate': 2.875e-06, 'epoch': 0.02} {'loss': 2.276, 'grad_norm': 3.8319132328033447, 'learning_rate': 2.8839285714285716e-06, 'epoch': 0.02} {'loss': 2.0804, 'grad_norm': 0.7079542875289917, 'learning_rate': 2.892857142857143e-06, 'epoch': 0.02} {'loss': 2.4735, 'grad_norm': 1.677864909172058, 'learning_rate': 2.9017857142857148e-06, 'epoch': 0.02} {'loss': 2.3187, 'grad_norm': 0.8613357543945312, 'learning_rate': 2.9107142857142863e-06, 'epoch': 0.02} {'loss': 2.2529, 'grad_norm': 0.7053126096725464, 'learning_rate': 2.9196428571428575e-06, 'epoch': 0.02} {'loss': 2.3578, 'grad_norm': 0.6988296508789062, 'learning_rate': 2.928571428571429e-06, 'epoch': 0.02} {'loss': 2.2244, 'grad_norm': 0.7423781156539917, 'learning_rate': 2.9375000000000003e-06, 'epoch': 0.02} {'loss': 2.259, 'grad_norm': 0.6908703446388245, 'learning_rate': 2.946428571428572e-06, 'epoch': 0.02} {'loss': 2.4594, 'grad_norm': 0.8297222256660461, 'learning_rate': 2.955357142857143e-06, 'epoch': 0.02} {'loss': 2.3921, 'grad_norm': 0.8613131642341614, 'learning_rate': 2.9642857142857146e-06, 'epoch': 0.02} {'loss': 2.5854, 'grad_norm': 0.7114418148994446, 'learning_rate': 2.9732142857142857e-06, 'epoch': 0.02} {'loss': 2.5622, 'grad_norm': 0.8707160949707031, 'learning_rate': 2.9821428571428573e-06, 'epoch': 0.02} {'loss': 2.3291, 'grad_norm': 0.7687397599220276, 'learning_rate': 2.991071428571429e-06, 'epoch': 0.02} {'loss': 2.4883, 'grad_norm': 0.8099189400672913, 'learning_rate': 3e-06, 'epoch': 0.02} {'loss': 2.2135, 'grad_norm': 0.706312358379364, 'learning_rate': 3.0089285714285717e-06, 'epoch': 0.02} {'loss': 2.39, 'grad_norm': 0.6552898287773132, 'learning_rate': 3.017857142857143e-06, 'epoch': 0.02} {'loss': 2.4725, 'grad_norm': 0.6962871551513672, 'learning_rate': 3.0267857142857144e-06, 'epoch': 0.02} {'loss': 2.5443, 'grad_norm': 0.9890510439872742, 'learning_rate': 3.0357142857142856e-06, 'epoch': 0.02} {'loss': 2.0176, 'grad_norm': 0.8848845958709717, 'learning_rate': 3.044642857142857e-06, 'epoch': 0.02} {'loss': 2.2168, 'grad_norm': 1.0035433769226074, 'learning_rate': 3.053571428571429e-06, 'epoch': 0.02} {'loss': 2.5627, 'grad_norm': 0.9026788473129272, 'learning_rate': 3.0625000000000003e-06, 'epoch': 0.02} {'loss': 2.4319, 'grad_norm': 0.9245330095291138, 'learning_rate': 3.071428571428572e-06, 'epoch': 0.02} {'loss': 2.4178, 'grad_norm': 0.879179835319519, 'learning_rate': 3.080357142857143e-06, 'epoch': 0.02} {'loss': 2.6461, 'grad_norm': 0.9510053396224976, 'learning_rate': 3.0892857142857147e-06, 'epoch': 0.02} {'loss': 2.3377, 'grad_norm': 1.0390998125076294, 'learning_rate': 3.0982142857142862e-06, 'epoch': 0.02} {'loss': 2.1921, 'grad_norm': 0.7219237089157104, 'learning_rate': 3.1071428571428574e-06, 'epoch': 0.02} {'loss': 2.2453, 'grad_norm': 0.6656615138053894, 'learning_rate': 3.116071428571429e-06, 'epoch': 0.02} {'loss': 2.4842, 'grad_norm': 0.7299067378044128, 'learning_rate': 3.125e-06, 'epoch': 0.02} {'loss': 2.5188, 'grad_norm': 0.9124429225921631, 'learning_rate': 3.1339285714285717e-06, 'epoch': 0.02} {'loss': 2.4272, 'grad_norm': 1.1448966264724731, 'learning_rate': 3.142857142857143e-06, 'epoch': 0.02} {'loss': 2.5534, 'grad_norm': 0.8445751667022705, 'learning_rate': 3.1517857142857145e-06, 'epoch': 0.02} {'loss': 2.3478, 'grad_norm': 0.7917039394378662, 'learning_rate': 3.1607142857142856e-06, 'epoch': 0.02} {'loss': 2.4204, 'grad_norm': 1.1327301263809204, 'learning_rate': 3.1696428571428572e-06, 'epoch': 0.02} {'loss': 2.608, 'grad_norm': 0.7836429476737976, 'learning_rate': 3.178571428571429e-06, 'epoch': 0.02} {'loss': 2.2111, 'grad_norm': 0.7183333039283752, 'learning_rate': 3.1875e-06, 'epoch': 0.02} {'loss': 2.4022, 'grad_norm': 0.9662913680076599, 'learning_rate': 3.1964285714285716e-06, 'epoch': 0.02} {'loss': 2.6228, 'grad_norm': 0.8930501341819763, 'learning_rate': 3.2053571428571436e-06, 'epoch': 0.02} {'loss': 2.3246, 'grad_norm': 0.7898169755935669, 'learning_rate': 3.2142857142857147e-06, 'epoch': 0.02} {'loss': 2.322, 'grad_norm': 0.9395961165428162, 'learning_rate': 3.2232142857142863e-06, 'epoch': 0.02} {'loss': 2.6313, 'grad_norm': 0.6955658793449402, 'learning_rate': 3.2321428571428575e-06, 'epoch': 0.02} {'loss': 2.4888, 'grad_norm': 0.7964416742324829, 'learning_rate': 3.241071428571429e-06, 'epoch': 0.02} {'loss': 2.3438, 'grad_norm': 1.114831805229187, 'learning_rate': 3.2500000000000002e-06, 'epoch': 0.02} {'loss': 2.5248, 'grad_norm': 0.8184826374053955, 'learning_rate': 3.258928571428572e-06, 'epoch': 0.02} {'loss': 2.5176, 'grad_norm': 0.7276002168655396, 'learning_rate': 3.267857142857143e-06, 'epoch': 0.02} {'loss': 2.3598, 'grad_norm': 1.347496747970581, 'learning_rate': 3.2767857142857146e-06, 'epoch': 0.02} {'loss': 2.4211, 'grad_norm': 0.754483163356781, 'learning_rate': 3.285714285714286e-06, 'epoch': 0.02} {'loss': 2.4043, 'grad_norm': 0.7603384852409363, 'learning_rate': 3.2946428571428573e-06, 'epoch': 0.02} {'loss': 2.5342, 'grad_norm': 0.6446270942687988, 'learning_rate': 3.303571428571429e-06, 'epoch': 0.02} {'loss': 2.3929, 'grad_norm': 0.7562928795814514, 'learning_rate': 3.3125e-06, 'epoch': 0.02} {'loss': 2.5336, 'grad_norm': 0.8165103197097778, 'learning_rate': 3.3214285714285716e-06, 'epoch': 0.02} {'loss': 2.3266, 'grad_norm': 0.7981828451156616, 'learning_rate': 3.330357142857143e-06, 'epoch': 0.02} {'loss': 2.1537, 'grad_norm': 0.7669143676757812, 'learning_rate': 3.3392857142857144e-06, 'epoch': 0.02} {'loss': 2.5524, 'grad_norm': 0.7440754771232605, 'learning_rate': 3.3482142857142855e-06, 'epoch': 0.02} {'loss': 1.7568, 'grad_norm': 3.4954633712768555, 'learning_rate': 3.357142857142857e-06, 'epoch': 0.02} {'loss': 2.4094, 'grad_norm': 2.1664199829101562, 'learning_rate': 3.366071428571429e-06, 'epoch': 0.02} {'loss': 2.5279, 'grad_norm': 0.6689859628677368, 'learning_rate': 3.3750000000000003e-06, 'epoch': 0.02} {'loss': 2.3638, 'grad_norm': 0.9399182200431824, 'learning_rate': 3.383928571428572e-06, 'epoch': 0.02} {'loss': 2.3668, 'grad_norm': 0.7546661496162415, 'learning_rate': 3.3928571428571435e-06, 'epoch': 0.02} {'loss': 2.5717, 'grad_norm': 1.46944260597229, 'learning_rate': 3.4017857142857146e-06, 'epoch': 0.02} {'loss': 2.3311, 'grad_norm': 0.7063437104225159, 'learning_rate': 3.4107142857142862e-06, 'epoch': 0.02} {'loss': 2.5047, 'grad_norm': 0.6529530882835388, 'learning_rate': 3.4196428571428574e-06, 'epoch': 0.02} {'loss': 2.5642, 'grad_norm': 1.0409495830535889, 'learning_rate': 3.428571428571429e-06, 'epoch': 0.02} {'loss': 2.1276, 'grad_norm': 0.7223802208900452, 'learning_rate': 3.4375e-06, 'epoch': 0.02} {'loss': 2.4447, 'grad_norm': 1.925168752670288, 'learning_rate': 3.4464285714285717e-06, 'epoch': 0.02} {'loss': 2.5937, 'grad_norm': 0.7264248132705688, 'learning_rate': 3.455357142857143e-06, 'epoch': 0.02} {'loss': 2.694, 'grad_norm': 0.8342792987823486, 'learning_rate': 3.4642857142857145e-06, 'epoch': 0.02} {'loss': 2.3066, 'grad_norm': 0.736733078956604, 'learning_rate': 3.473214285714286e-06, 'epoch': 0.02} {'loss': 2.839, 'grad_norm': 0.8179200887680054, 'learning_rate': 3.482142857142857e-06, 'epoch': 0.02} {'loss': 2.5711, 'grad_norm': 5.501429557800293, 'learning_rate': 3.4910714285714288e-06, 'epoch': 0.02} {'loss': 2.3015, 'grad_norm': 0.892386257648468, 'learning_rate': 3.5e-06, 'epoch': 0.02} {'loss': 2.4064, 'grad_norm': 0.9194245338439941, 'learning_rate': 3.5089285714285715e-06, 'epoch': 0.02} {'loss': 1.5237, 'grad_norm': 1.5715312957763672, 'learning_rate': 3.5178571428571435e-06, 'epoch': 0.02} {'loss': 2.3794, 'grad_norm': 0.933725893497467, 'learning_rate': 3.5267857142857147e-06, 'epoch': 0.02} {'loss': 2.5775, 'grad_norm': 0.7138448357582092, 'learning_rate': 3.5357142857142863e-06, 'epoch': 0.02} {'loss': 2.5537, 'grad_norm': 1.017191767692566, 'learning_rate': 3.5446428571428574e-06, 'epoch': 0.02} {'loss': 2.3265, 'grad_norm': 0.8227158784866333, 'learning_rate': 3.553571428571429e-06, 'epoch': 0.02} {'loss': 1.9004, 'grad_norm': 1.0108470916748047, 'learning_rate': 3.5625e-06, 'epoch': 0.02} {'loss': 2.4506, 'grad_norm': 0.8835887312889099, 'learning_rate': 3.5714285714285718e-06, 'epoch': 0.02} {'loss': 2.4304, 'grad_norm': 3.7320992946624756, 'learning_rate': 3.5803571428571434e-06, 'epoch': 0.02} {'loss': 1.7832, 'grad_norm': 0.8696883916854858, 'learning_rate': 3.5892857142857145e-06, 'epoch': 0.02} {'loss': 2.2157, 'grad_norm': 0.7369847893714905, 'learning_rate': 3.598214285714286e-06, 'epoch': 0.02} {'loss': 2.1928, 'grad_norm': 0.7057186961174011, 'learning_rate': 3.6071428571428573e-06, 'epoch': 0.02} {'loss': 2.3975, 'grad_norm': 0.6958415508270264, 'learning_rate': 3.616071428571429e-06, 'epoch': 0.02} {'loss': 2.4592, 'grad_norm': 0.7458484768867493, 'learning_rate': 3.625e-06, 'epoch': 0.02} {'loss': 2.4053, 'grad_norm': 0.6370704770088196, 'learning_rate': 3.6339285714285716e-06, 'epoch': 0.02} {'loss': 2.1924, 'grad_norm': 0.7654312252998352, 'learning_rate': 3.642857142857143e-06, 'epoch': 0.02} {'loss': 2.3798, 'grad_norm': 0.8381941914558411, 'learning_rate': 3.6517857142857144e-06, 'epoch': 0.02} {'loss': 2.2003, 'grad_norm': 0.7348666191101074, 'learning_rate': 3.660714285714286e-06, 'epoch': 0.02} {'loss': 2.5562, 'grad_norm': 0.8701876401901245, 'learning_rate': 3.669642857142857e-06, 'epoch': 0.02} {'loss': 1.6158, 'grad_norm': 1.1198087930679321, 'learning_rate': 3.678571428571429e-06, 'epoch': 0.02} {'loss': 2.4437, 'grad_norm': 0.6843016743659973, 'learning_rate': 3.6875000000000007e-06, 'epoch': 0.02} {'loss': 2.1288, 'grad_norm': 0.6474888324737549, 'learning_rate': 3.696428571428572e-06, 'epoch': 0.02} {'loss': 1.8437, 'grad_norm': 0.9589895606040955, 'learning_rate': 3.7053571428571434e-06, 'epoch': 0.02} {'loss': 2.0788, 'grad_norm': 0.8810008764266968, 'learning_rate': 3.7142857142857146e-06, 'epoch': 0.02} {'loss': 2.4073, 'grad_norm': 0.7050797939300537, 'learning_rate': 3.723214285714286e-06, 'epoch': 0.02} {'loss': 2.2869, 'grad_norm': 0.8251096606254578, 'learning_rate': 3.7321428571428573e-06, 'epoch': 0.02} {'loss': 2.5954, 'grad_norm': 1.02393639087677, 'learning_rate': 3.741071428571429e-06, 'epoch': 0.02} {'loss': 2.2162, 'grad_norm': 0.8207212090492249, 'learning_rate': 3.7500000000000005e-06, 'epoch': 0.02} {'loss': 2.0438, 'grad_norm': 0.7464378476142883, 'learning_rate': 3.7589285714285717e-06, 'epoch': 0.02} {'loss': 2.3657, 'grad_norm': 0.8199927806854248, 'learning_rate': 3.7678571428571433e-06, 'epoch': 0.02} {'loss': 2.4942, 'grad_norm': 0.931246817111969, 'learning_rate': 3.7767857142857144e-06, 'epoch': 0.02} {'loss': 2.0957, 'grad_norm': 1.1280642747879028, 'learning_rate': 3.785714285714286e-06, 'epoch': 0.02} {'loss': 2.3172, 'grad_norm': 0.7328938841819763, 'learning_rate': 3.794642857142857e-06, 'epoch': 0.02} {'loss': 2.134, 'grad_norm': 0.911868691444397, 'learning_rate': 3.8035714285714288e-06, 'epoch': 0.02} {'loss': 2.5609, 'grad_norm': 0.6746270060539246, 'learning_rate': 3.8125e-06, 'epoch': 0.02} {'loss': 2.2045, 'grad_norm': 3.7394657135009766, 'learning_rate': 3.8214285714285715e-06, 'epoch': 0.02} {'loss': 2.4058, 'grad_norm': 0.9176698327064514, 'learning_rate': 3.8303571428571435e-06, 'epoch': 0.02} {'loss': 2.5748, 'grad_norm': 1.428479552268982, 'learning_rate': 3.839285714285715e-06, 'epoch': 0.02} {'loss': 2.2265, 'grad_norm': 0.7161766886711121, 'learning_rate': 3.848214285714286e-06, 'epoch': 0.02} {'loss': 2.3507, 'grad_norm': 0.7266635894775391, 'learning_rate': 3.857142857142858e-06, 'epoch': 0.02} {'loss': 2.5323, 'grad_norm': 0.7059489488601685, 'learning_rate': 3.866071428571429e-06, 'epoch': 0.02} {'loss': 2.5228, 'grad_norm': 0.7215156555175781, 'learning_rate': 3.875e-06, 'epoch': 0.02} {'loss': 2.341, 'grad_norm': 0.7039859890937805, 'learning_rate': 3.883928571428572e-06, 'epoch': 0.02} {'loss': 2.1507, 'grad_norm': 0.6339973211288452, 'learning_rate': 3.892857142857143e-06, 'epoch': 0.02} {'loss': 2.4195, 'grad_norm': 0.840636134147644, 'learning_rate': 3.9017857142857145e-06, 'epoch': 0.02} {'loss': 2.1937, 'grad_norm': 0.814447283744812, 'learning_rate': 3.910714285714286e-06, 'epoch': 0.02} {'loss': 2.4544, 'grad_norm': 1.3763039112091064, 'learning_rate': 3.919642857142858e-06, 'epoch': 0.02} {'loss': 2.2495, 'grad_norm': 0.7267353534698486, 'learning_rate': 3.928571428571429e-06, 'epoch': 0.02} {'loss': 2.3906, 'grad_norm': 0.854361891746521, 'learning_rate': 3.9375e-06, 'epoch': 0.02} {'loss': 2.6315, 'grad_norm': 0.760546863079071, 'learning_rate': 3.946428571428572e-06, 'epoch': 0.02} {'loss': 2.3172, 'grad_norm': 1.6090713739395142, 'learning_rate': 3.955357142857143e-06, 'epoch': 0.02} {'loss': 2.3899, 'grad_norm': 0.6143981218338013, 'learning_rate': 3.964285714285714e-06, 'epoch': 0.02} {'loss': 2.4754, 'grad_norm': 0.8334725499153137, 'learning_rate': 3.9732142857142855e-06, 'epoch': 0.02} {'loss': 2.2967, 'grad_norm': 0.8154469728469849, 'learning_rate': 3.9821428571428575e-06, 'epoch': 0.02} {'loss': 2.3997, 'grad_norm': 2.8558404445648193, 'learning_rate': 3.9910714285714295e-06, 'epoch': 0.02} {'loss': 2.3864, 'grad_norm': 0.8113605380058289, 'learning_rate': 4.000000000000001e-06, 'epoch': 0.02} {'loss': 2.2888, 'grad_norm': 0.7968435883522034, 'learning_rate': 4.008928571428572e-06, 'epoch': 0.02} {'loss': 2.6836, 'grad_norm': 0.8200784921646118, 'learning_rate': 4.017857142857143e-06, 'epoch': 0.02} {'loss': 2.327, 'grad_norm': 0.7798553705215454, 'learning_rate': 4.026785714285715e-06, 'epoch': 0.02} {'loss': 2.7211, 'grad_norm': 1.0361378192901611, 'learning_rate': 4.035714285714286e-06, 'epoch': 0.02} {'loss': 2.3965, 'grad_norm': 0.8387232422828674, 'learning_rate': 4.044642857142857e-06, 'epoch': 0.02} {'loss': 2.3776, 'grad_norm': 0.9912132024765015, 'learning_rate': 4.053571428571429e-06, 'epoch': 0.02} {'loss': 2.2162, 'grad_norm': 0.8059343695640564, 'learning_rate': 4.0625000000000005e-06, 'epoch': 0.02} {'loss': 2.2931, 'grad_norm': 1.1003913879394531, 'learning_rate': 4.071428571428572e-06, 'epoch': 0.02} {'loss': 2.202, 'grad_norm': 0.7562921643257141, 'learning_rate': 4.080357142857143e-06, 'epoch': 0.02} {'loss': 2.3429, 'grad_norm': 2.8305306434631348, 'learning_rate': 4.089285714285715e-06, 'epoch': 0.02} {'loss': 2.4483, 'grad_norm': 1.0779688358306885, 'learning_rate': 4.098214285714286e-06, 'epoch': 0.02} {'loss': 2.4476, 'grad_norm': 0.817470908164978, 'learning_rate': 4.107142857142857e-06, 'epoch': 0.02} {'loss': 2.4089, 'grad_norm': 0.740354597568512, 'learning_rate': 4.116071428571428e-06, 'epoch': 0.03} {'loss': 2.2781, 'grad_norm': 0.7255138754844666, 'learning_rate': 4.125e-06, 'epoch': 0.03} {'loss': 2.4642, 'grad_norm': 1.036693811416626, 'learning_rate': 4.1339285714285715e-06, 'epoch': 0.03} {'loss': 2.4157, 'grad_norm': 0.7903293967247009, 'learning_rate': 4.1428571428571435e-06, 'epoch': 0.03} {'loss': 2.4765, 'grad_norm': 1.0276495218276978, 'learning_rate': 4.151785714285715e-06, 'epoch': 0.03} {'loss': 2.123, 'grad_norm': 0.7276985049247742, 'learning_rate': 4.160714285714287e-06, 'epoch': 0.03} {'loss': 2.4313, 'grad_norm': 1.0035864114761353, 'learning_rate': 4.169642857142858e-06, 'epoch': 0.03} {'loss': 2.3478, 'grad_norm': 0.7579031586647034, 'learning_rate': 4.178571428571429e-06, 'epoch': 0.03} {'loss': 2.4483, 'grad_norm': 1.0906922817230225, 'learning_rate': 4.1875e-06, 'epoch': 0.03} {'loss': 2.4349, 'grad_norm': 0.9213836193084717, 'learning_rate': 4.196428571428572e-06, 'epoch': 0.03} {'loss': 2.3574, 'grad_norm': 0.8189167380332947, 'learning_rate': 4.205357142857143e-06, 'epoch': 0.03} {'loss': 2.5658, 'grad_norm': 0.976218044757843, 'learning_rate': 4.2142857142857145e-06, 'epoch': 0.03} {'loss': 1.7217, 'grad_norm': 0.7440518140792847, 'learning_rate': 4.223214285714286e-06, 'epoch': 0.03} {'loss': 2.279, 'grad_norm': 0.7372002601623535, 'learning_rate': 4.232142857142858e-06, 'epoch': 0.03} {'loss': 2.4355, 'grad_norm': 0.7228379845619202, 'learning_rate': 4.241071428571429e-06, 'epoch': 0.03} {'loss': 2.4328, 'grad_norm': 0.9598197340965271, 'learning_rate': 4.25e-06, 'epoch': 0.03} {'loss': 2.3871, 'grad_norm': 0.7715316414833069, 'learning_rate': 4.258928571428572e-06, 'epoch': 0.03} {'loss': 2.3437, 'grad_norm': 0.746380627155304, 'learning_rate': 4.267857142857143e-06, 'epoch': 0.03} {'loss': 2.0351, 'grad_norm': 0.6639009714126587, 'learning_rate': 4.276785714285714e-06, 'epoch': 0.03} {'loss': 2.4322, 'grad_norm': 0.8016340732574463, 'learning_rate': 4.2857142857142855e-06, 'epoch': 0.03} {'loss': 2.4124, 'grad_norm': 0.9691901803016663, 'learning_rate': 4.2946428571428575e-06, 'epoch': 0.03} {'loss': 2.5039, 'grad_norm': 0.9508801698684692, 'learning_rate': 4.3035714285714295e-06, 'epoch': 0.03} {'loss': 2.01, 'grad_norm': 0.7650073766708374, 'learning_rate': 4.312500000000001e-06, 'epoch': 0.03} {'loss': 2.233, 'grad_norm': 0.992106556892395, 'learning_rate': 4.321428571428572e-06, 'epoch': 0.03} {'loss': 2.2642, 'grad_norm': 0.7837042808532715, 'learning_rate': 4.330357142857143e-06, 'epoch': 0.03} {'loss': 2.6229, 'grad_norm': 0.7892453074455261, 'learning_rate': 4.339285714285715e-06, 'epoch': 0.03} {'loss': 2.1562, 'grad_norm': 0.9260952472686768, 'learning_rate': 4.348214285714286e-06, 'epoch': 0.03} {'loss': 2.2956, 'grad_norm': 0.8462100625038147, 'learning_rate': 4.357142857142857e-06, 'epoch': 0.03} {'loss': 2.4379, 'grad_norm': 0.7706511616706848, 'learning_rate': 4.366071428571429e-06, 'epoch': 0.03} {'loss': 2.6446, 'grad_norm': 0.8740862607955933, 'learning_rate': 4.3750000000000005e-06, 'epoch': 0.03} {'loss': 2.5206, 'grad_norm': 1.0557152032852173, 'learning_rate': 4.383928571428572e-06, 'epoch': 0.03} {'loss': 2.6486, 'grad_norm': 0.756197988986969, 'learning_rate': 4.392857142857143e-06, 'epoch': 0.03} {'loss': 2.217, 'grad_norm': 0.9108513593673706, 'learning_rate': 4.401785714285715e-06, 'epoch': 0.03} {'loss': 2.3605, 'grad_norm': 0.7217069268226624, 'learning_rate': 4.410714285714286e-06, 'epoch': 0.03} {'loss': 2.3754, 'grad_norm': 0.7229094505310059, 'learning_rate': 4.419642857142857e-06, 'epoch': 0.03} {'loss': 2.5013, 'grad_norm': 0.7486718893051147, 'learning_rate': 4.428571428571429e-06, 'epoch': 0.03} {'loss': 2.3725, 'grad_norm': 0.7304054498672485, 'learning_rate': 4.4375e-06, 'epoch': 0.03} {'loss': 2.5746, 'grad_norm': 0.8499715328216553, 'learning_rate': 4.4464285714285715e-06, 'epoch': 0.03} {'loss': 2.4701, 'grad_norm': 0.9253300428390503, 'learning_rate': 4.4553571428571435e-06, 'epoch': 0.03} {'loss': 2.543, 'grad_norm': 1.1182117462158203, 'learning_rate': 4.464285714285715e-06, 'epoch': 0.03} {'loss': 2.3858, 'grad_norm': 0.9392046332359314, 'learning_rate': 4.473214285714287e-06, 'epoch': 0.03} {'loss': 2.3558, 'grad_norm': 0.8048560619354248, 'learning_rate': 4.482142857142858e-06, 'epoch': 0.03} {'loss': 2.5773, 'grad_norm': 0.8537608981132507, 'learning_rate': 4.491071428571429e-06, 'epoch': 0.03} {'loss': 2.0719, 'grad_norm': 0.9082659482955933, 'learning_rate': 4.5e-06, 'epoch': 0.03} {'loss': 2.4638, 'grad_norm': 0.8176069259643555, 'learning_rate': 4.508928571428572e-06, 'epoch': 0.03} {'loss': 2.1148, 'grad_norm': 0.828382670879364, 'learning_rate': 4.517857142857143e-06, 'epoch': 0.03} {'loss': 1.8971, 'grad_norm': 0.7014255523681641, 'learning_rate': 4.5267857142857144e-06, 'epoch': 0.03} {'loss': 2.4437, 'grad_norm': 0.8343459963798523, 'learning_rate': 4.5357142857142865e-06, 'epoch': 0.03} {'loss': 2.4134, 'grad_norm': 0.9934781193733215, 'learning_rate': 4.544642857142858e-06, 'epoch': 0.03} {'loss': 2.3418, 'grad_norm': 0.8685812950134277, 'learning_rate': 4.553571428571429e-06, 'epoch': 0.03} {'loss': 2.3009, 'grad_norm': 0.7411813735961914, 'learning_rate': 4.5625e-06, 'epoch': 0.03} {'loss': 2.3818, 'grad_norm': 0.8920450806617737, 'learning_rate': 4.571428571428572e-06, 'epoch': 0.03} {'loss': 1.8392, 'grad_norm': 0.9877768754959106, 'learning_rate': 4.580357142857143e-06, 'epoch': 0.03} {'loss': 2.2744, 'grad_norm': 0.7175792455673218, 'learning_rate': 4.589285714285714e-06, 'epoch': 0.03} {'loss': 2.3306, 'grad_norm': 0.8334026336669922, 'learning_rate': 4.5982142857142854e-06, 'epoch': 0.03} {'loss': 2.5156, 'grad_norm': 0.840488612651825, 'learning_rate': 4.6071428571428574e-06, 'epoch': 0.03} {'loss': 2.3334, 'grad_norm': 0.8102824687957764, 'learning_rate': 4.6160714285714294e-06, 'epoch': 0.03} {'loss': 2.4241, 'grad_norm': 0.8264137506484985, 'learning_rate': 4.625000000000001e-06, 'epoch': 0.03} {'loss': 2.421, 'grad_norm': 1.9726167917251587, 'learning_rate': 4.633928571428572e-06, 'epoch': 0.03} {'loss': 2.4648, 'grad_norm': 0.9991806745529175, 'learning_rate': 4.642857142857144e-06, 'epoch': 0.03} {'loss': 2.3448, 'grad_norm': 0.8271647691726685, 'learning_rate': 4.651785714285715e-06, 'epoch': 0.03} {'loss': 2.0153, 'grad_norm': 0.7760920524597168, 'learning_rate': 4.660714285714286e-06, 'epoch': 0.03} {'loss': 2.2707, 'grad_norm': 0.9586369395256042, 'learning_rate': 4.669642857142857e-06, 'epoch': 0.03} {'loss': 2.3195, 'grad_norm': 1.0405757427215576, 'learning_rate': 4.678571428571429e-06, 'epoch': 0.03} {'loss': 2.0498, 'grad_norm': 1.0947896242141724, 'learning_rate': 4.6875000000000004e-06, 'epoch': 0.03} {'loss': 2.2677, 'grad_norm': 0.808911144733429, 'learning_rate': 4.696428571428572e-06, 'epoch': 0.03} {'loss': 2.4923, 'grad_norm': 1.011614203453064, 'learning_rate': 4.705357142857143e-06, 'epoch': 0.03} {'loss': 2.5659, 'grad_norm': 0.8231817483901978, 'learning_rate': 4.714285714285715e-06, 'epoch': 0.03} {'loss': 2.2326, 'grad_norm': 0.7618065476417542, 'learning_rate': 4.723214285714286e-06, 'epoch': 0.03} {'loss': 1.5702, 'grad_norm': 0.9810335636138916, 'learning_rate': 4.732142857142857e-06, 'epoch': 0.03} {'loss': 2.4064, 'grad_norm': 0.9005271792411804, 'learning_rate': 4.741071428571429e-06, 'epoch': 0.03} {'loss': 2.4831, 'grad_norm': 1.0362120866775513, 'learning_rate': 4.75e-06, 'epoch': 0.03} {'loss': 2.3297, 'grad_norm': 1.1122186183929443, 'learning_rate': 4.758928571428571e-06, 'epoch': 0.03} {'loss': 2.3028, 'grad_norm': 0.9291356801986694, 'learning_rate': 4.7678571428571434e-06, 'epoch': 0.03} {'loss': 2.3823, 'grad_norm': 0.9159222841262817, 'learning_rate': 4.776785714285715e-06, 'epoch': 0.03} {'loss': 2.3624, 'grad_norm': 0.7951038479804993, 'learning_rate': 4.785714285714287e-06, 'epoch': 0.03} {'loss': 2.4777, 'grad_norm': 0.9676268100738525, 'learning_rate': 4.794642857142858e-06, 'epoch': 0.03} {'loss': 2.4551, 'grad_norm': 0.8129324316978455, 'learning_rate': 4.803571428571429e-06, 'epoch': 0.03} {'loss': 2.2939, 'grad_norm': 2.837127447128296, 'learning_rate': 4.8125e-06, 'epoch': 0.03} {'loss': 2.2, 'grad_norm': 0.7300359010696411, 'learning_rate': 4.821428571428572e-06, 'epoch': 0.03} {'loss': 2.3829, 'grad_norm': 0.7897707223892212, 'learning_rate': 4.830357142857143e-06, 'epoch': 0.03} {'loss': 2.5864, 'grad_norm': 0.8719412684440613, 'learning_rate': 4.839285714285714e-06, 'epoch': 0.03} {'loss': 2.5142, 'grad_norm': 0.9915910959243774, 'learning_rate': 4.8482142857142864e-06, 'epoch': 0.03} {'loss': 2.3387, 'grad_norm': 1.4836807250976562, 'learning_rate': 4.857142857142858e-06, 'epoch': 0.03} {'loss': 2.033, 'grad_norm': 1.0107911825180054, 'learning_rate': 4.866071428571429e-06, 'epoch': 0.03} {'loss': 2.6196, 'grad_norm': 1.0573559999465942, 'learning_rate': 4.875e-06, 'epoch': 0.03} {'loss': 2.3285, 'grad_norm': 1.354737401008606, 'learning_rate': 4.883928571428572e-06, 'epoch': 0.03} {'loss': 1.9089, 'grad_norm': 0.6840674877166748, 'learning_rate': 4.892857142857143e-06, 'epoch': 0.03} {'loss': 2.3398, 'grad_norm': 0.9670092463493347, 'learning_rate': 4.901785714285714e-06, 'epoch': 0.03} {'loss': 2.279, 'grad_norm': 0.9707775115966797, 'learning_rate': 4.910714285714286e-06, 'epoch': 0.03} {'loss': 2.7126, 'grad_norm': 0.8296954035758972, 'learning_rate': 4.919642857142857e-06, 'epoch': 0.03} {'loss': 2.6278, 'grad_norm': 0.8749581575393677, 'learning_rate': 4.928571428571429e-06, 'epoch': 0.03} {'loss': 2.3957, 'grad_norm': 1.1528538465499878, 'learning_rate': 4.937500000000001e-06, 'epoch': 0.03} {'loss': 2.2382, 'grad_norm': 0.9784524440765381, 'learning_rate': 4.946428571428572e-06, 'epoch': 0.03} {'loss': 2.3094, 'grad_norm': 0.7259788513183594, 'learning_rate': 4.955357142857144e-06, 'epoch': 0.03} {'loss': 2.0797, 'grad_norm': 0.7123528718948364, 'learning_rate': 4.964285714285715e-06, 'epoch': 0.03} {'loss': 2.2912, 'grad_norm': 0.8238666653633118, 'learning_rate': 4.973214285714286e-06, 'epoch': 0.03} {'loss': 2.3714, 'grad_norm': 0.8915418386459351, 'learning_rate': 4.982142857142857e-06, 'epoch': 0.03} {'loss': 2.396, 'grad_norm': 1.8866664171218872, 'learning_rate': 4.991071428571429e-06, 'epoch': 0.03} {'loss': 2.1339, 'grad_norm': 1.5602302551269531, 'learning_rate': 5e-06, 'epoch': 0.03} {'loss': 2.3554, 'grad_norm': 0.8363792300224304, 'learning_rate': 4.999999962259043e-06, 'epoch': 0.03} {'loss': 2.4786, 'grad_norm': 0.8323478102684021, 'learning_rate': 4.999999849036174e-06, 'epoch': 0.03} {'loss': 2.2116, 'grad_norm': 0.9940460920333862, 'learning_rate': 4.999999660331397e-06, 'epoch': 0.03} {'loss': 2.2887, 'grad_norm': 0.7168157696723938, 'learning_rate': 4.999999396144716e-06, 'epoch': 0.03} {'loss': 2.5274, 'grad_norm': 0.8743246793746948, 'learning_rate': 4.99999905647614e-06, 'epoch': 0.03} {'loss': 2.2784, 'grad_norm': 0.6311125159263611, 'learning_rate': 4.999998641325678e-06, 'epoch': 0.03} {'loss': 2.3122, 'grad_norm': 0.8848361372947693, 'learning_rate': 4.999998150693345e-06, 'epoch': 0.03} {'loss': 1.9438, 'grad_norm': 0.6999986171722412, 'learning_rate': 4.999997584579154e-06, 'epoch': 0.03} {'loss': 2.2672, 'grad_norm': 0.8877727389335632, 'learning_rate': 4.999996942983122e-06, 'epoch': 0.03} {'loss': 2.4836, 'grad_norm': 0.9267008304595947, 'learning_rate': 4.99999622590527e-06, 'epoch': 0.03} {'loss': 2.3607, 'grad_norm': 1.1035044193267822, 'learning_rate': 4.999995433345618e-06, 'epoch': 0.03} {'loss': 2.4194, 'grad_norm': 0.8054925799369812, 'learning_rate': 4.999994565304191e-06, 'epoch': 0.03} {'loss': 2.1981, 'grad_norm': 0.8115206956863403, 'learning_rate': 4.999993621781013e-06, 'epoch': 0.03} {'loss': 2.2348, 'grad_norm': 0.8305758833885193, 'learning_rate': 4.999992602776116e-06, 'epoch': 0.03} {'loss': 2.4876, 'grad_norm': 0.8097905516624451, 'learning_rate': 4.999991508289527e-06, 'epoch': 0.03} {'loss': 2.4051, 'grad_norm': 0.946451723575592, 'learning_rate': 4.999990338321282e-06, 'epoch': 0.03} {'loss': 2.5064, 'grad_norm': 0.7696050405502319, 'learning_rate': 4.999989092871416e-06, 'epoch': 0.03} {'loss': 2.2645, 'grad_norm': 0.8154787421226501, 'learning_rate': 4.9999877719399645e-06, 'epoch': 0.03} {'loss': 2.5181, 'grad_norm': 0.9122997522354126, 'learning_rate': 4.99998637552697e-06, 'epoch': 0.03} {'loss': 2.6447, 'grad_norm': 0.8365505933761597, 'learning_rate': 4.999984903632473e-06, 'epoch': 0.03} {'loss': 2.5029, 'grad_norm': 0.8556792736053467, 'learning_rate': 4.999983356256519e-06, 'epoch': 0.03} {'loss': 2.6751, 'grad_norm': 0.828436017036438, 'learning_rate': 4.9999817333991525e-06, 'epoch': 0.03} {'loss': 2.2857, 'grad_norm': 0.9811944365501404, 'learning_rate': 4.999980035060426e-06, 'epoch': 0.03} {'loss': 2.2137, 'grad_norm': 0.8002449870109558, 'learning_rate': 4.999978261240388e-06, 'epoch': 0.03} {'loss': 2.4169, 'grad_norm': 0.7398699522018433, 'learning_rate': 4.999976411939092e-06, 'epoch': 0.03} {'loss': 1.8738, 'grad_norm': 1.1704624891281128, 'learning_rate': 4.999974487156597e-06, 'epoch': 0.03} {'loss': 2.1428, 'grad_norm': 0.617539644241333, 'learning_rate': 4.9999724868929564e-06, 'epoch': 0.03} {'loss': 2.3223, 'grad_norm': 0.9764933586120605, 'learning_rate': 4.999970411148235e-06, 'epoch': 0.03} {'loss': 1.9895, 'grad_norm': 0.7986540198326111, 'learning_rate': 4.999968259922493e-06, 'epoch': 0.03} {'loss': 2.2815, 'grad_norm': 0.8393023610115051, 'learning_rate': 4.9999660332157955e-06, 'epoch': 0.03} {'loss': 2.3395, 'grad_norm': 0.8658771514892578, 'learning_rate': 4.99996373102821e-06, 'epoch': 0.03} {'loss': 2.5247, 'grad_norm': 0.8444042801856995, 'learning_rate': 4.999961353359807e-06, 'epoch': 0.03} {'loss': 2.4342, 'grad_norm': 0.9189513921737671, 'learning_rate': 4.999958900210657e-06, 'epoch': 0.03} {'loss': 2.2446, 'grad_norm': 0.7856061458587646, 'learning_rate': 4.999956371580834e-06, 'epoch': 0.03} {'loss': 1.842, 'grad_norm': 1.0161802768707275, 'learning_rate': 4.999953767470416e-06, 'epoch': 0.03} {'loss': 2.6268, 'grad_norm': 1.0062010288238525, 'learning_rate': 4.99995108787948e-06, 'epoch': 0.03} {'loss': 2.4455, 'grad_norm': 0.9725028872489929, 'learning_rate': 4.9999483328081065e-06, 'epoch': 0.03} {'loss': 2.4594, 'grad_norm': 0.8319478034973145, 'learning_rate': 4.99994550225638e-06, 'epoch': 0.03} {'loss': 2.1539, 'grad_norm': 0.7323631048202515, 'learning_rate': 4.999942596224387e-06, 'epoch': 0.03} {'loss': 2.3917, 'grad_norm': 0.8496477007865906, 'learning_rate': 4.999939614712212e-06, 'epoch': 0.03} {'loss': 2.4219, 'grad_norm': 0.7720670700073242, 'learning_rate': 4.999936557719948e-06, 'epoch': 0.03} {'loss': 1.7383, 'grad_norm': 0.7344219088554382, 'learning_rate': 4.999933425247685e-06, 'epoch': 0.03} {'loss': 1.6582, 'grad_norm': 0.9333812594413757, 'learning_rate': 4.999930217295519e-06, 'epoch': 0.03} {'loss': 2.4792, 'grad_norm': 0.8230965733528137, 'learning_rate': 4.999926933863546e-06, 'epoch': 0.03} {'loss': 2.5668, 'grad_norm': 4.041313648223877, 'learning_rate': 4.999923574951866e-06, 'epoch': 0.03} {'loss': 2.1755, 'grad_norm': 0.7684834599494934, 'learning_rate': 4.999920140560582e-06, 'epoch': 0.03} {'loss': 2.3972, 'grad_norm': 1.4816479682922363, 'learning_rate': 4.999916630689793e-06, 'epoch': 0.03} {'loss': 2.5772, 'grad_norm': 1.0189032554626465, 'learning_rate': 4.9999130453396085e-06, 'epoch': 0.03} {'loss': 2.4164, 'grad_norm': 1.0986303091049194, 'learning_rate': 4.999909384510136e-06, 'epoch': 0.03} {'loss': 2.3117, 'grad_norm': 0.9175761342048645, 'learning_rate': 4.9999056482014875e-06, 'epoch': 0.03} {'loss': 2.3548, 'grad_norm': 0.8070825934410095, 'learning_rate': 4.999901836413773e-06, 'epoch': 0.03} {'loss': 2.4175, 'grad_norm': 0.956683337688446, 'learning_rate': 4.999897949147109e-06, 'epoch': 0.03} {'loss': 1.8928, 'grad_norm': 1.2388218641281128, 'learning_rate': 4.999893986401612e-06, 'epoch': 0.03} {'loss': 2.2175, 'grad_norm': 0.7838587164878845, 'learning_rate': 4.999889948177404e-06, 'epoch': 0.03} {'loss': 2.3261, 'grad_norm': 1.0134375095367432, 'learning_rate': 4.999885834474605e-06, 'epoch': 0.03} {'loss': 2.751, 'grad_norm': 1.7147351503372192, 'learning_rate': 4.999881645293339e-06, 'epoch': 0.03} {'loss': 2.3369, 'grad_norm': 2.4965734481811523, 'learning_rate': 4.999877380633733e-06, 'epoch': 0.03} {'loss': 2.4026, 'grad_norm': 0.8227230310440063, 'learning_rate': 4.999873040495916e-06, 'epoch': 0.03} {'loss': 2.1575, 'grad_norm': 0.8249292373657227, 'learning_rate': 4.999868624880019e-06, 'epoch': 0.03} {'loss': 2.4239, 'grad_norm': 0.9761359095573425, 'learning_rate': 4.999864133786175e-06, 'epoch': 0.03} {'loss': 2.3626, 'grad_norm': 1.0189385414123535, 'learning_rate': 4.99985956721452e-06, 'epoch': 0.03} {'loss': 2.2103, 'grad_norm': 0.8175013661384583, 'learning_rate': 4.999854925165192e-06, 'epoch': 0.03} {'loss': 2.5721, 'grad_norm': 0.9679737091064453, 'learning_rate': 4.99985020763833e-06, 'epoch': 0.03} {'loss': 2.2962, 'grad_norm': 0.8842343688011169, 'learning_rate': 4.999845414634077e-06, 'epoch': 0.03} {'loss': 2.4183, 'grad_norm': 1.3311737775802612, 'learning_rate': 4.999840546152579e-06, 'epoch': 0.03} {'loss': 2.3146, 'grad_norm': 0.7848086953163147, 'learning_rate': 4.999835602193981e-06, 'epoch': 0.03} {'loss': 2.471, 'grad_norm': 0.8788207769393921, 'learning_rate': 4.9998305827584335e-06, 'epoch': 0.03} {'loss': 2.3052, 'grad_norm': 2.2514638900756836, 'learning_rate': 4.999825487846088e-06, 'epoch': 0.03} {'loss': 2.3038, 'grad_norm': 0.9558051824569702, 'learning_rate': 4.999820317457098e-06, 'epoch': 0.03} {'loss': 2.2401, 'grad_norm': 7.700989246368408, 'learning_rate': 4.99981507159162e-06, 'epoch': 0.03} {'loss': 2.2652, 'grad_norm': 0.8497698307037354, 'learning_rate': 4.999809750249811e-06, 'epoch': 0.03} {'loss': 2.4668, 'grad_norm': 0.8105354309082031, 'learning_rate': 4.999804353431834e-06, 'epoch': 0.03} {'loss': 2.2942, 'grad_norm': 0.7997203469276428, 'learning_rate': 4.99979888113785e-06, 'epoch': 0.03} {'loss': 2.3791, 'grad_norm': 0.8552649617195129, 'learning_rate': 4.999793333368025e-06, 'epoch': 0.03} {'loss': 2.4304, 'grad_norm': 0.9041031002998352, 'learning_rate': 4.999787710122526e-06, 'epoch': 0.03} {'loss': 2.2387, 'grad_norm': 1.0379509925842285, 'learning_rate': 4.999782011401524e-06, 'epoch': 0.03} {'loss': 2.3903, 'grad_norm': 1.0014477968215942, 'learning_rate': 4.99977623720519e-06, 'epoch': 0.03} {'loss': 2.4231, 'grad_norm': 0.818027138710022, 'learning_rate': 4.999770387533699e-06, 'epoch': 0.03} {'loss': 2.3367, 'grad_norm': 0.9278150796890259, 'learning_rate': 4.999764462387227e-06, 'epoch': 0.03} {'loss': 2.3704, 'grad_norm': 0.8519514799118042, 'learning_rate': 4.999758461765953e-06, 'epoch': 0.03} {'loss': 2.3162, 'grad_norm': 2.329301595687866, 'learning_rate': 4.999752385670058e-06, 'epoch': 0.03} {'loss': 2.3477, 'grad_norm': 0.7948412895202637, 'learning_rate': 4.999746234099726e-06, 'epoch': 0.03} {'loss': 2.219, 'grad_norm': 0.9377961754798889, 'learning_rate': 4.999740007055142e-06, 'epoch': 0.03} {'loss': 2.226, 'grad_norm': 1.2502127885818481, 'learning_rate': 4.9997337045364955e-06, 'epoch': 0.03} {'loss': 2.2265, 'grad_norm': 0.7637403607368469, 'learning_rate': 4.9997273265439756e-06, 'epoch': 0.03} {'loss': 1.6977, 'grad_norm': 1.3224856853485107, 'learning_rate': 4.999720873077775e-06, 'epoch': 0.03} {'loss': 2.3436, 'grad_norm': 0.7775270938873291, 'learning_rate': 4.999714344138088e-06, 'epoch': 0.03} {'loss': 2.283, 'grad_norm': 0.8279511332511902, 'learning_rate': 4.999707739725113e-06, 'epoch': 0.04} {'loss': 2.3208, 'grad_norm': 1.0360100269317627, 'learning_rate': 4.999701059839048e-06, 'epoch': 0.04} {'loss': 2.297, 'grad_norm': 1.0353562831878662, 'learning_rate': 4.999694304480096e-06, 'epoch': 0.04} {'loss': 2.4866, 'grad_norm': 1.0269654989242554, 'learning_rate': 4.99968747364846e-06, 'epoch': 0.04} {'loss': 2.4508, 'grad_norm': 0.8758061528205872, 'learning_rate': 4.999680567344347e-06, 'epoch': 0.04} {'loss': 2.3333, 'grad_norm': 0.8079335689544678, 'learning_rate': 4.999673585567964e-06, 'epoch': 0.04} {'loss': 2.3997, 'grad_norm': 0.8654548525810242, 'learning_rate': 4.999666528319525e-06, 'epoch': 0.04} {'loss': 2.4132, 'grad_norm': 0.898048996925354, 'learning_rate': 4.999659395599239e-06, 'epoch': 0.04} {'loss': 2.4879, 'grad_norm': 0.706701934337616, 'learning_rate': 4.999652187407325e-06, 'epoch': 0.04} {'loss': 2.2613, 'grad_norm': 1.273048758506775, 'learning_rate': 4.999644903743998e-06, 'epoch': 0.04} {'loss': 2.1644, 'grad_norm': 1.7957842350006104, 'learning_rate': 4.999637544609479e-06, 'epoch': 0.04} {'loss': 2.425, 'grad_norm': 1.0425153970718384, 'learning_rate': 4.99963011000399e-06, 'epoch': 0.04} {'loss': 2.5267, 'grad_norm': 0.8255715370178223, 'learning_rate': 4.999622599927757e-06, 'epoch': 0.04} {'loss': 2.365, 'grad_norm': 1.2199499607086182, 'learning_rate': 4.999615014381004e-06, 'epoch': 0.04} {'loss': 2.407, 'grad_norm': 0.8043991327285767, 'learning_rate': 4.999607353363961e-06, 'epoch': 0.04} {'loss': 2.2399, 'grad_norm': 0.8119394779205322, 'learning_rate': 4.999599616876861e-06, 'epoch': 0.04} {'loss': 2.3591, 'grad_norm': 0.8173143863677979, 'learning_rate': 4.999591804919935e-06, 'epoch': 0.04} {'loss': 2.5671, 'grad_norm': 0.7705435752868652, 'learning_rate': 4.999583917493421e-06, 'epoch': 0.04} {'loss': 2.4353, 'grad_norm': 0.8844898343086243, 'learning_rate': 4.999575954597556e-06, 'epoch': 0.04} {'loss': 2.2943, 'grad_norm': 1.1428945064544678, 'learning_rate': 4.9995679162325805e-06, 'epoch': 0.04} {'loss': 2.4669, 'grad_norm': 0.8979571461677551, 'learning_rate': 4.999559802398737e-06, 'epoch': 0.04} {'loss': 2.5004, 'grad_norm': 1.020084261894226, 'learning_rate': 4.999551613096272e-06, 'epoch': 0.04} {'loss': 2.6331, 'grad_norm': 1.0453612804412842, 'learning_rate': 4.99954334832543e-06, 'epoch': 0.04} {'loss': 2.1928, 'grad_norm': 0.8666693568229675, 'learning_rate': 4.999535008086464e-06, 'epoch': 0.04} {'loss': 2.4469, 'grad_norm': 0.9827839732170105, 'learning_rate': 4.999526592379623e-06, 'epoch': 0.04} {'loss': 2.4985, 'grad_norm': 0.8393266201019287, 'learning_rate': 4.999518101205162e-06, 'epoch': 0.04} {'loss': 2.4406, 'grad_norm': 1.0076488256454468, 'learning_rate': 4.999509534563338e-06, 'epoch': 0.04} {'loss': 2.4823, 'grad_norm': 1.0385128259658813, 'learning_rate': 4.999500892454409e-06, 'epoch': 0.04} {'loss': 2.3569, 'grad_norm': 4.658494472503662, 'learning_rate': 4.9994921748786365e-06, 'epoch': 0.04} {'loss': 2.2848, 'grad_norm': 0.8108393549919128, 'learning_rate': 4.999483381836282e-06, 'epoch': 0.04} {'loss': 2.2727, 'grad_norm': 0.7995207905769348, 'learning_rate': 4.999474513327612e-06, 'epoch': 0.04} {'loss': 2.4904, 'grad_norm': 1.0003660917282104, 'learning_rate': 4.999465569352896e-06, 'epoch': 0.04} {'loss': 2.3447, 'grad_norm': 1.129424810409546, 'learning_rate': 4.999456549912402e-06, 'epoch': 0.04} {'loss': 2.4406, 'grad_norm': 0.8258870244026184, 'learning_rate': 4.999447455006402e-06, 'epoch': 0.04} {'loss': 2.3744, 'grad_norm': 0.8014585971832275, 'learning_rate': 4.9994382846351725e-06, 'epoch': 0.04} {'loss': 1.7458, 'grad_norm': 0.7724493741989136, 'learning_rate': 4.999429038798989e-06, 'epoch': 0.04} {'loss': 2.4803, 'grad_norm': 0.9295950531959534, 'learning_rate': 4.999419717498131e-06, 'epoch': 0.04} {'loss': 2.3137, 'grad_norm': 1.2042477130889893, 'learning_rate': 4.999410320732879e-06, 'epoch': 0.04} {'loss': 2.4265, 'grad_norm': 0.9284137487411499, 'learning_rate': 4.999400848503519e-06, 'epoch': 0.04} {'loss': 2.4381, 'grad_norm': 0.8523659110069275, 'learning_rate': 4.999391300810335e-06, 'epoch': 0.04} {'loss': 2.4701, 'grad_norm': 1.2447504997253418, 'learning_rate': 4.999381677653616e-06, 'epoch': 0.04} {'loss': 2.4038, 'grad_norm': 0.8053240776062012, 'learning_rate': 4.999371979033653e-06, 'epoch': 0.04} {'loss': 2.2925, 'grad_norm': 0.8771582841873169, 'learning_rate': 4.999362204950737e-06, 'epoch': 0.04} {'loss': 2.3953, 'grad_norm': 0.9519544243812561, 'learning_rate': 4.999352355405165e-06, 'epoch': 0.04} {'loss': 2.4248, 'grad_norm': 0.820660412311554, 'learning_rate': 4.9993424303972336e-06, 'epoch': 0.04} {'loss': 2.3761, 'grad_norm': 0.8565362095832825, 'learning_rate': 4.999332429927243e-06, 'epoch': 0.04} {'loss': 2.3386, 'grad_norm': 0.8427897691726685, 'learning_rate': 4.999322353995495e-06, 'epoch': 0.04} {'loss': 2.3625, 'grad_norm': 0.8358487486839294, 'learning_rate': 4.9993122026022935e-06, 'epoch': 0.04} {'loss': 2.2802, 'grad_norm': 10.18463134765625, 'learning_rate': 4.999301975747944e-06, 'epoch': 0.04} {'loss': 2.3287, 'grad_norm': 1.2484214305877686, 'learning_rate': 4.999291673432758e-06, 'epoch': 0.04} {'loss': 2.4922, 'grad_norm': 1.0467242002487183, 'learning_rate': 4.999281295657044e-06, 'epoch': 0.04} {'loss': 2.309, 'grad_norm': 0.9561108350753784, 'learning_rate': 4.9992708424211164e-06, 'epoch': 0.04} {'loss': 2.3399, 'grad_norm': 0.9839465618133545, 'learning_rate': 4.999260313725291e-06, 'epoch': 0.04} {'loss': 2.1475, 'grad_norm': 0.9964559078216553, 'learning_rate': 4.999249709569885e-06, 'epoch': 0.04} {'loss': 2.2803, 'grad_norm': 0.9006378054618835, 'learning_rate': 4.999239029955219e-06, 'epoch': 0.04} {'loss': 2.2114, 'grad_norm': 0.8732361793518066, 'learning_rate': 4.999228274881615e-06, 'epoch': 0.04} {'loss': 2.4329, 'grad_norm': 1.0166932344436646, 'learning_rate': 4.999217444349398e-06, 'epoch': 0.04} {'loss': 2.0427, 'grad_norm': 0.8104544878005981, 'learning_rate': 4.999206538358896e-06, 'epoch': 0.04} {'loss': 2.2213, 'grad_norm': 1.361675500869751, 'learning_rate': 4.999195556910437e-06, 'epoch': 0.04} {'loss': 2.4211, 'grad_norm': 0.9806872010231018, 'learning_rate': 4.9991845000043525e-06, 'epoch': 0.04} {'loss': 2.4261, 'grad_norm': 0.8754968643188477, 'learning_rate': 4.999173367640977e-06, 'epoch': 0.04} {'loss': 2.1626, 'grad_norm': 0.8951733708381653, 'learning_rate': 4.999162159820646e-06, 'epoch': 0.04} {'loss': 2.3987, 'grad_norm': 0.876552939414978, 'learning_rate': 4.999150876543699e-06, 'epoch': 0.04} {'loss': 2.5997, 'grad_norm': 0.8129255771636963, 'learning_rate': 4.999139517810476e-06, 'epoch': 0.04} {'loss': 2.0723, 'grad_norm': 0.7739890217781067, 'learning_rate': 4.99912808362132e-06, 'epoch': 0.04} {'loss': 2.3901, 'grad_norm': 0.8814245462417603, 'learning_rate': 4.999116573976576e-06, 'epoch': 0.04} {'loss': 2.2523, 'grad_norm': 0.847317099571228, 'learning_rate': 4.999104988876592e-06, 'epoch': 0.04} {'loss': 2.2159, 'grad_norm': 0.7911797165870667, 'learning_rate': 4.999093328321717e-06, 'epoch': 0.04} {'loss': 2.5269, 'grad_norm': 0.8942217826843262, 'learning_rate': 4.999081592312303e-06, 'epoch': 0.04} {'loss': 2.5405, 'grad_norm': 0.9118621349334717, 'learning_rate': 4.999069780848705e-06, 'epoch': 0.04} {'loss': 2.4317, 'grad_norm': 0.806627094745636, 'learning_rate': 4.99905789393128e-06, 'epoch': 0.04} {'loss': 2.3841, 'grad_norm': 1.011579990386963, 'learning_rate': 4.999045931560387e-06, 'epoch': 0.04} {'loss': 2.2811, 'grad_norm': 0.8012880682945251, 'learning_rate': 4.999033893736386e-06, 'epoch': 0.04} {'loss': 2.354, 'grad_norm': 0.8141025900840759, 'learning_rate': 4.9990217804596405e-06, 'epoch': 0.04} {'loss': 2.5948, 'grad_norm': 0.8222667574882507, 'learning_rate': 4.999009591730517e-06, 'epoch': 0.04} {'loss': 2.327, 'grad_norm': 0.8395331501960754, 'learning_rate': 4.998997327549383e-06, 'epoch': 0.04} {'loss': 2.1368, 'grad_norm': 0.9304442405700684, 'learning_rate': 4.99898498791661e-06, 'epoch': 0.04} {'loss': 2.2995, 'grad_norm': 1.8233082294464111, 'learning_rate': 4.998972572832568e-06, 'epoch': 0.04} {'loss': 2.0283, 'grad_norm': 0.8477112650871277, 'learning_rate': 4.998960082297634e-06, 'epoch': 0.04} {'loss': 2.2226, 'grad_norm': 0.8308610320091248, 'learning_rate': 4.9989475163121855e-06, 'epoch': 0.04} {'loss': 2.2687, 'grad_norm': 0.953279435634613, 'learning_rate': 4.998934874876601e-06, 'epoch': 0.04} {'loss': 2.4557, 'grad_norm': 0.847504734992981, 'learning_rate': 4.998922157991261e-06, 'epoch': 0.04} {'loss': 2.3774, 'grad_norm': 0.8619157671928406, 'learning_rate': 4.998909365656551e-06, 'epoch': 0.04} {'loss': 2.3729, 'grad_norm': 0.8861187100410461, 'learning_rate': 4.998896497872857e-06, 'epoch': 0.04} {'loss': 2.146, 'grad_norm': 4.534422397613525, 'learning_rate': 4.998883554640568e-06, 'epoch': 0.04} {'loss': 1.9468, 'grad_norm': 0.8690135478973389, 'learning_rate': 4.998870535960074e-06, 'epoch': 0.04} {'loss': 2.1205, 'grad_norm': 0.9731127619743347, 'learning_rate': 4.9988574418317675e-06, 'epoch': 0.04} {'loss': 2.365, 'grad_norm': 0.8011561036109924, 'learning_rate': 4.9988442722560445e-06, 'epoch': 0.04} {'loss': 1.9065, 'grad_norm': 0.9566690921783447, 'learning_rate': 4.998831027233304e-06, 'epoch': 0.04} {'loss': 2.4801, 'grad_norm': 1.4914478063583374, 'learning_rate': 4.998817706763943e-06, 'epoch': 0.04} {'loss': 2.3732, 'grad_norm': 0.8158642649650574, 'learning_rate': 4.998804310848366e-06, 'epoch': 0.04} {'loss': 2.3872, 'grad_norm': 1.379916787147522, 'learning_rate': 4.998790839486977e-06, 'epoch': 0.04} {'loss': 1.9339, 'grad_norm': 2.303086757659912, 'learning_rate': 4.998777292680182e-06, 'epoch': 0.04} {'loss': 2.5294, 'grad_norm': 0.9438580870628357, 'learning_rate': 4.998763670428391e-06, 'epoch': 0.04} {'loss': 2.1711, 'grad_norm': 0.7845317721366882, 'learning_rate': 4.998749972732014e-06, 'epoch': 0.04} {'loss': 2.1271, 'grad_norm': 0.8746833205223083, 'learning_rate': 4.998736199591466e-06, 'epoch': 0.04} {'loss': 2.5124, 'grad_norm': 0.8327506184577942, 'learning_rate': 4.998722351007163e-06, 'epoch': 0.04} {'loss': 2.3701, 'grad_norm': 0.8333725929260254, 'learning_rate': 4.998708426979521e-06, 'epoch': 0.04} {'loss': 2.4137, 'grad_norm': 0.8267025947570801, 'learning_rate': 4.998694427508962e-06, 'epoch': 0.04} {'loss': 2.3332, 'grad_norm': 0.8505074381828308, 'learning_rate': 4.99868035259591e-06, 'epoch': 0.04} {'loss': 2.1964, 'grad_norm': 0.8915570974349976, 'learning_rate': 4.998666202240786e-06, 'epoch': 0.04} {'loss': 2.5681, 'grad_norm': 1.062445878982544, 'learning_rate': 4.998651976444021e-06, 'epoch': 0.04} {'loss': 2.0857, 'grad_norm': 1.759235143661499, 'learning_rate': 4.998637675206043e-06, 'epoch': 0.04} {'loss': 2.5067, 'grad_norm': 0.9714831709861755, 'learning_rate': 4.998623298527283e-06, 'epoch': 0.04} {'loss': 2.3668, 'grad_norm': 0.8594189882278442, 'learning_rate': 4.9986088464081775e-06, 'epoch': 0.04} {'loss': 2.1719, 'grad_norm': 1.1636526584625244, 'learning_rate': 4.9985943188491605e-06, 'epoch': 0.04} {'loss': 2.317, 'grad_norm': 0.7689273357391357, 'learning_rate': 4.998579715850671e-06, 'epoch': 0.04} {'loss': 2.164, 'grad_norm': 0.7637854218482971, 'learning_rate': 4.998565037413151e-06, 'epoch': 0.04} {'loss': 2.341, 'grad_norm': 1.039669156074524, 'learning_rate': 4.9985502835370435e-06, 'epoch': 0.04} {'loss': 2.186, 'grad_norm': 0.8856495022773743, 'learning_rate': 4.998535454222793e-06, 'epoch': 0.04} {'loss': 2.175, 'grad_norm': 0.7140936851501465, 'learning_rate': 4.998520549470847e-06, 'epoch': 0.04} {'loss': 2.3984, 'grad_norm': 0.8625261783599854, 'learning_rate': 4.998505569281659e-06, 'epoch': 0.04} {'loss': 2.364, 'grad_norm': 0.9290820360183716, 'learning_rate': 4.998490513655676e-06, 'epoch': 0.04} {'loss': 2.5272, 'grad_norm': 0.8107749819755554, 'learning_rate': 4.998475382593356e-06, 'epoch': 0.04} {'loss': 1.7349, 'grad_norm': 1.0411086082458496, 'learning_rate': 4.998460176095155e-06, 'epoch': 0.04} 2024-12-13 21:14:56 - WARNING - NaN or Inf found in input tensor. {'loss': 2.3429, 'grad_norm': nan, 'learning_rate': 4.998460176095155e-06, 'epoch': 0.04} {'loss': 1.8537, 'grad_norm': 0.8158135414123535, 'learning_rate': 4.9984448941615324e-06, 'epoch': 0.04} {'loss': 2.2529, 'grad_norm': 1.0948500633239746, 'learning_rate': 4.998429536792949e-06, 'epoch': 0.04} {'loss': 2.3287, 'grad_norm': 0.8820666074752808, 'learning_rate': 4.998414103989868e-06, 'epoch': 0.04} {'loss': 2.3479, 'grad_norm': 0.8852021098136902, 'learning_rate': 4.998398595752757e-06, 'epoch': 0.04} {'loss': 2.3484, 'grad_norm': 0.7983525395393372, 'learning_rate': 4.998383012082084e-06, 'epoch': 0.04} {'loss': 2.3576, 'grad_norm': 0.917819619178772, 'learning_rate': 4.998367352978318e-06, 'epoch': 0.04} {'loss': 2.2624, 'grad_norm': 0.848444938659668, 'learning_rate': 4.998351618441933e-06, 'epoch': 0.04} {'loss': 2.0746, 'grad_norm': 1.1796140670776367, 'learning_rate': 4.998335808473404e-06, 'epoch': 0.04} {'loss': 2.304, 'grad_norm': 0.8889231085777283, 'learning_rate': 4.998319923073209e-06, 'epoch': 0.04} {'loss': 2.3869, 'grad_norm': 0.9986532330513, 'learning_rate': 4.998303962241825e-06, 'epoch': 0.04} {'loss': 2.2363, 'grad_norm': 0.8982643485069275, 'learning_rate': 4.998287925979735e-06, 'epoch': 0.04} {'loss': 2.453, 'grad_norm': 0.8382365703582764, 'learning_rate': 4.998271814287427e-06, 'epoch': 0.04} {'loss': 2.1865, 'grad_norm': 0.8186877965927124, 'learning_rate': 4.998255627165382e-06, 'epoch': 0.04} {'loss': 2.4476, 'grad_norm': 0.9079015254974365, 'learning_rate': 4.998239364614091e-06, 'epoch': 0.04} {'loss': 2.4837, 'grad_norm': 0.936324417591095, 'learning_rate': 4.998223026634046e-06, 'epoch': 0.04} {'loss': 2.2193, 'grad_norm': 0.734960675239563, 'learning_rate': 4.998206613225739e-06, 'epoch': 0.04} {'loss': 2.3412, 'grad_norm': 0.8517699241638184, 'learning_rate': 4.998190124389666e-06, 'epoch': 0.04} {'loss': 2.2964, 'grad_norm': 0.8668347597122192, 'learning_rate': 4.998173560126324e-06, 'epoch': 0.04} {'loss': 2.2286, 'grad_norm': 0.9091010689735413, 'learning_rate': 4.998156920436215e-06, 'epoch': 0.04} {'loss': 2.5874, 'grad_norm': 0.9950007796287537, 'learning_rate': 4.998140205319839e-06, 'epoch': 0.04} {'loss': 2.3062, 'grad_norm': 0.9189279079437256, 'learning_rate': 4.9981234147777025e-06, 'epoch': 0.04} {'loss': 2.3356, 'grad_norm': 1.0291131734848022, 'learning_rate': 4.998106548810312e-06, 'epoch': 0.04} {'loss': 2.3992, 'grad_norm': 0.8761991858482361, 'learning_rate': 4.9980896074181765e-06, 'epoch': 0.04} {'loss': 2.4764, 'grad_norm': 0.892407238483429, 'learning_rate': 4.998072590601808e-06, 'epoch': 0.04} {'loss': 2.4833, 'grad_norm': 0.9847999215126038, 'learning_rate': 4.998055498361719e-06, 'epoch': 0.04} {'loss': 2.3346, 'grad_norm': 1.0667805671691895, 'learning_rate': 4.998038330698427e-06, 'epoch': 0.04} {'loss': 2.4017, 'grad_norm': 0.9136879444122314, 'learning_rate': 4.99802108761245e-06, 'epoch': 0.04} {'loss': 2.2941, 'grad_norm': 0.9691357016563416, 'learning_rate': 4.9980037691043086e-06, 'epoch': 0.04} {'loss': 2.5367, 'grad_norm': 1.5764594078063965, 'learning_rate': 4.997986375174525e-06, 'epoch': 0.04} {'loss': 2.4594, 'grad_norm': 2.486959457397461, 'learning_rate': 4.997968905823626e-06, 'epoch': 0.04} {'loss': 2.4032, 'grad_norm': 0.9328217506408691, 'learning_rate': 4.997951361052136e-06, 'epoch': 0.04} {'loss': 2.249, 'grad_norm': 0.9318724274635315, 'learning_rate': 4.997933740860588e-06, 'epoch': 0.04} {'loss': 2.3779, 'grad_norm': 0.8338583111763, 'learning_rate': 4.997916045249513e-06, 'epoch': 0.04} {'loss': 2.3838, 'grad_norm': 1.0567046403884888, 'learning_rate': 4.997898274219444e-06, 'epoch': 0.04} {'loss': 2.6135, 'grad_norm': 0.87156742811203, 'learning_rate': 4.997880427770918e-06, 'epoch': 0.04} {'loss': 2.5741, 'grad_norm': 1.1943604946136475, 'learning_rate': 4.997862505904475e-06, 'epoch': 0.04} {'loss': 2.3296, 'grad_norm': 6.526900291442871, 'learning_rate': 4.9978445086206565e-06, 'epoch': 0.04} {'loss': 2.3092, 'grad_norm': 3.29752254486084, 'learning_rate': 4.997826435920003e-06, 'epoch': 0.04} {'loss': 2.2616, 'grad_norm': 0.8057052493095398, 'learning_rate': 4.997808287803063e-06, 'epoch': 0.04} {'loss': 2.4965, 'grad_norm': 1.2297816276550293, 'learning_rate': 4.997790064270383e-06, 'epoch': 0.04} {'loss': 2.2229, 'grad_norm': 0.9467470049858093, 'learning_rate': 4.997771765322515e-06, 'epoch': 0.04} {'loss': 2.2314, 'grad_norm': 1.096414566040039, 'learning_rate': 4.997753390960009e-06, 'epoch': 0.04} {'loss': 2.3368, 'grad_norm': 0.8888903260231018, 'learning_rate': 4.997734941183421e-06, 'epoch': 0.04} {'loss': 2.2053, 'grad_norm': 0.7792751789093018, 'learning_rate': 4.997716415993308e-06, 'epoch': 0.04} {'loss': 2.4439, 'grad_norm': 0.8904644846916199, 'learning_rate': 4.99769781539023e-06, 'epoch': 0.04} {'loss': 1.7341, 'grad_norm': 0.8041107058525085, 'learning_rate': 4.997679139374747e-06, 'epoch': 0.04} {'loss': 2.2739, 'grad_norm': 0.8451853394508362, 'learning_rate': 4.997660387947424e-06, 'epoch': 0.04} {'loss': 2.4701, 'grad_norm': 0.9418163895606995, 'learning_rate': 4.997641561108827e-06, 'epoch': 0.04} {'loss': 2.5012, 'grad_norm': 0.9716716408729553, 'learning_rate': 4.997622658859524e-06, 'epoch': 0.04} {'loss': 2.3483, 'grad_norm': 0.9453468918800354, 'learning_rate': 4.997603681200087e-06, 'epoch': 0.04} {'loss': 2.4222, 'grad_norm': 0.935333251953125, 'learning_rate': 4.997584628131088e-06, 'epoch': 0.04} {'loss': 2.4547, 'grad_norm': 0.9922914505004883, 'learning_rate': 4.997565499653101e-06, 'epoch': 0.04} {'loss': 2.0147, 'grad_norm': 0.7321531772613525, 'learning_rate': 4.997546295766706e-06, 'epoch': 0.04} {'loss': 2.2163, 'grad_norm': 1.4188416004180908, 'learning_rate': 4.9975270164724815e-06, 'epoch': 0.04} {'loss': 2.223, 'grad_norm': 0.8140658736228943, 'learning_rate': 4.99750766177101e-06, 'epoch': 0.04} {'loss': 2.291, 'grad_norm': 0.833301842212677, 'learning_rate': 4.9974882316628755e-06, 'epoch': 0.04} {'loss': 2.2221, 'grad_norm': 0.869111180305481, 'learning_rate': 4.997468726148664e-06, 'epoch': 0.04} {'loss': 2.225, 'grad_norm': 0.9753746390342712, 'learning_rate': 4.997449145228966e-06, 'epoch': 0.04} {'loss': 2.5246, 'grad_norm': 10.13404369354248, 'learning_rate': 4.997429488904373e-06, 'epoch': 0.04} {'loss': 2.2721, 'grad_norm': 1.0190917253494263, 'learning_rate': 4.997409757175476e-06, 'epoch': 0.04} {'loss': 2.2688, 'grad_norm': 0.941078782081604, 'learning_rate': 4.9973899500428725e-06, 'epoch': 0.04} {'loss': 2.4701, 'grad_norm': 1.8942211866378784, 'learning_rate': 4.99737006750716e-06, 'epoch': 0.04} {'loss': 2.3694, 'grad_norm': 1.5602954626083374, 'learning_rate': 4.99735010956894e-06, 'epoch': 0.04} {'loss': 2.3173, 'grad_norm': 0.8522498607635498, 'learning_rate': 4.997330076228814e-06, 'epoch': 0.04} {'loss': 2.2045, 'grad_norm': 0.8480938673019409, 'learning_rate': 4.997309967487386e-06, 'epoch': 0.04} {'loss': 2.2847, 'grad_norm': 1.0573030710220337, 'learning_rate': 4.997289783345264e-06, 'epoch': 0.04} {'loss': 2.1653, 'grad_norm': 0.7354035377502441, 'learning_rate': 4.997269523803058e-06, 'epoch': 0.04} {'loss': 2.3415, 'grad_norm': 0.9692280888557434, 'learning_rate': 4.9972491888613795e-06, 'epoch': 0.04} {'loss': 2.3051, 'grad_norm': 1.0519038438796997, 'learning_rate': 4.997228778520842e-06, 'epoch': 0.04} {'loss': 2.3875, 'grad_norm': 0.989500880241394, 'learning_rate': 4.9972082927820615e-06, 'epoch': 0.04} {'loss': 2.2299, 'grad_norm': 1.0554471015930176, 'learning_rate': 4.9971877316456575e-06, 'epoch': 0.05} {'loss': 2.7322, 'grad_norm': 1.1355721950531006, 'learning_rate': 4.99716709511225e-06, 'epoch': 0.05} {'loss': 2.5791, 'grad_norm': 0.9610007405281067, 'learning_rate': 4.997146383182462e-06, 'epoch': 0.05} {'loss': 2.2301, 'grad_norm': 0.9329342246055603, 'learning_rate': 4.99712559585692e-06, 'epoch': 0.05} {'loss': 2.4383, 'grad_norm': 0.9036456942558289, 'learning_rate': 4.99710473313625e-06, 'epoch': 0.05} {'loss': 2.264, 'grad_norm': 0.9212629795074463, 'learning_rate': 4.997083795021083e-06, 'epoch': 0.05} {'loss': 2.3024, 'grad_norm': 1.1060104370117188, 'learning_rate': 4.997062781512051e-06, 'epoch': 0.05} {'loss': 2.0985, 'grad_norm': 0.8168416023254395, 'learning_rate': 4.997041692609789e-06, 'epoch': 0.05} {'loss': 2.3652, 'grad_norm': 0.9614957571029663, 'learning_rate': 4.997020528314932e-06, 'epoch': 0.05} {'loss': 2.2806, 'grad_norm': 0.9241411089897156, 'learning_rate': 4.9969992886281195e-06, 'epoch': 0.05} {'loss': 2.1456, 'grad_norm': 1.316644310951233, 'learning_rate': 4.996977973549995e-06, 'epoch': 0.05} {'loss': 2.2959, 'grad_norm': 0.8849570155143738, 'learning_rate': 4.9969565830811995e-06, 'epoch': 0.05} {'loss': 2.1651, 'grad_norm': 0.8720526099205017, 'learning_rate': 4.99693511722238e-06, 'epoch': 0.05} {'loss': 2.3033, 'grad_norm': 0.9494382739067078, 'learning_rate': 4.996913575974184e-06, 'epoch': 0.05} {'loss': 1.6821, 'grad_norm': 0.9361014366149902, 'learning_rate': 4.996891959337263e-06, 'epoch': 0.05} {'loss': 2.3073, 'grad_norm': 0.9310194253921509, 'learning_rate': 4.996870267312268e-06, 'epoch': 0.05} {'loss': 2.2257, 'grad_norm': 1.0022679567337036, 'learning_rate': 4.996848499899856e-06, 'epoch': 0.05} {'loss': 2.0871, 'grad_norm': 0.8023546934127808, 'learning_rate': 4.9968266571006815e-06, 'epoch': 0.05} {'loss': 2.4909, 'grad_norm': 0.8610460758209229, 'learning_rate': 4.996804738915407e-06, 'epoch': 0.05} {'loss': 2.3139, 'grad_norm': 0.8212977051734924, 'learning_rate': 4.996782745344693e-06, 'epoch': 0.05} {'loss': 2.2239, 'grad_norm': 0.9452611207962036, 'learning_rate': 4.9967606763892026e-06, 'epoch': 0.05} {'loss': 2.2971, 'grad_norm': 0.9727702140808105, 'learning_rate': 4.9967385320496035e-06, 'epoch': 0.05} {'loss': 2.4018, 'grad_norm': 0.9022993445396423, 'learning_rate': 4.996716312326562e-06, 'epoch': 0.05} {'loss': 2.3533, 'grad_norm': 1.4464820623397827, 'learning_rate': 4.996694017220753e-06, 'epoch': 0.05} {'loss': 2.3145, 'grad_norm': 0.8852490186691284, 'learning_rate': 4.996671646732846e-06, 'epoch': 0.05} {'loss': 2.3308, 'grad_norm': 0.8469889760017395, 'learning_rate': 4.996649200863518e-06, 'epoch': 0.05} {'loss': 2.2454, 'grad_norm': 1.1048692464828491, 'learning_rate': 4.996626679613446e-06, 'epoch': 0.05} {'loss': 2.4458, 'grad_norm': 0.9867213368415833, 'learning_rate': 4.996604082983312e-06, 'epoch': 0.05} {'loss': 2.6875, 'grad_norm': 1.1414556503295898, 'learning_rate': 4.9965814109737955e-06, 'epoch': 0.05} {'loss': 2.4132, 'grad_norm': 1.112567663192749, 'learning_rate': 4.996558663585583e-06, 'epoch': 0.05} {'loss': 2.0656, 'grad_norm': 0.8955932855606079, 'learning_rate': 4.9965358408193595e-06, 'epoch': 0.05} {'loss': 2.5367, 'grad_norm': 0.8922957181930542, 'learning_rate': 4.996512942675816e-06, 'epoch': 0.05} {'loss': 2.4662, 'grad_norm': 0.9885995984077454, 'learning_rate': 4.996489969155644e-06, 'epoch': 0.05} {'loss': 2.2089, 'grad_norm': 0.8768265843391418, 'learning_rate': 4.996466920259534e-06, 'epoch': 0.05} {'loss': 2.2871, 'grad_norm': 1.0764960050582886, 'learning_rate': 4.996443795988185e-06, 'epoch': 0.05} {'loss': 2.2896, 'grad_norm': 0.8354368209838867, 'learning_rate': 4.996420596342294e-06, 'epoch': 0.05} {'loss': 2.578, 'grad_norm': 1.151351809501648, 'learning_rate': 4.996397321322561e-06, 'epoch': 0.05} {'loss': 2.6343, 'grad_norm': 0.9126418232917786, 'learning_rate': 4.996373970929691e-06, 'epoch': 0.05} {'loss': 2.1238, 'grad_norm': 0.8948343396186829, 'learning_rate': 4.996350545164387e-06, 'epoch': 0.05} {'loss': 2.357, 'grad_norm': 0.8587777018547058, 'learning_rate': 4.996327044027356e-06, 'epoch': 0.05} {'loss': 2.4987, 'grad_norm': 1.0722131729125977, 'learning_rate': 4.996303467519309e-06, 'epoch': 0.05} {'loss': 2.1724, 'grad_norm': 0.9111208319664001, 'learning_rate': 4.996279815640957e-06, 'epoch': 0.05} {'loss': 2.2889, 'grad_norm': 0.9679865837097168, 'learning_rate': 4.996256088393013e-06, 'epoch': 0.05} {'loss': 2.5273, 'grad_norm': 3.3809311389923096, 'learning_rate': 4.996232285776195e-06, 'epoch': 0.05} {'loss': 2.34, 'grad_norm': 5.054480075836182, 'learning_rate': 4.996208407791223e-06, 'epoch': 0.05} {'loss': 2.342, 'grad_norm': 0.9699863791465759, 'learning_rate': 4.996184454438815e-06, 'epoch': 0.05} {'loss': 2.3838, 'grad_norm': 0.8573706150054932, 'learning_rate': 4.996160425719696e-06, 'epoch': 0.05} {'loss': 2.4422, 'grad_norm': 0.9323153495788574, 'learning_rate': 4.9961363216345906e-06, 'epoch': 0.05} {'loss': 2.3562, 'grad_norm': 0.9933872222900391, 'learning_rate': 4.996112142184227e-06, 'epoch': 0.05} {'loss': 2.1378, 'grad_norm': 2.8429462909698486, 'learning_rate': 4.996087887369335e-06, 'epoch': 0.05} {'loss': 2.1772, 'grad_norm': 0.882140040397644, 'learning_rate': 4.996063557190647e-06, 'epoch': 0.05} {'loss': 2.2012, 'grad_norm': 0.9161127209663391, 'learning_rate': 4.996039151648898e-06, 'epoch': 0.05} {'loss': 2.1204, 'grad_norm': 0.8706679940223694, 'learning_rate': 4.996014670744824e-06, 'epoch': 0.05} {'loss': 2.1609, 'grad_norm': 0.9027878046035767, 'learning_rate': 4.995990114479165e-06, 'epoch': 0.05} {'loss': 2.5109, 'grad_norm': 1.4998260736465454, 'learning_rate': 4.995965482852662e-06, 'epoch': 0.05} {'loss': 2.373, 'grad_norm': 0.9449037313461304, 'learning_rate': 4.995940775866059e-06, 'epoch': 0.05} {'loss': 2.3769, 'grad_norm': 1.0213640928268433, 'learning_rate': 4.9959159935201026e-06, 'epoch': 0.05} {'loss': 2.2695, 'grad_norm': 0.8521072268486023, 'learning_rate': 4.995891135815539e-06, 'epoch': 0.05} {'loss': 2.3793, 'grad_norm': 1.093001127243042, 'learning_rate': 4.9958662027531215e-06, 'epoch': 0.05} {'loss': 2.368, 'grad_norm': 0.8218960762023926, 'learning_rate': 4.9958411943335995e-06, 'epoch': 0.05} {'loss': 2.0708, 'grad_norm': 0.7762258648872375, 'learning_rate': 4.99581611055773e-06, 'epoch': 0.05} {'loss': 2.3648, 'grad_norm': 1.0556535720825195, 'learning_rate': 4.995790951426272e-06, 'epoch': 0.05} {'loss': 2.1907, 'grad_norm': 0.8436540961265564, 'learning_rate': 4.995765716939982e-06, 'epoch': 0.05} {'loss': 2.115, 'grad_norm': 1.234887719154358, 'learning_rate': 4.995740407099624e-06, 'epoch': 0.05} {'loss': 2.2276, 'grad_norm': 3.1939470767974854, 'learning_rate': 4.9957150219059615e-06, 'epoch': 0.05} {'loss': 2.368, 'grad_norm': 0.9288572072982788, 'learning_rate': 4.99568956135976e-06, 'epoch': 0.05} {'loss': 2.4524, 'grad_norm': 1.2513632774353027, 'learning_rate': 4.99566402546179e-06, 'epoch': 0.05} {'loss': 2.4557, 'grad_norm': 0.9631871581077576, 'learning_rate': 4.995638414212821e-06, 'epoch': 0.05} {'loss': 2.4711, 'grad_norm': 1.0282517671585083, 'learning_rate': 4.995612727613628e-06, 'epoch': 0.05} {'loss': 2.3447, 'grad_norm': 0.9872168302536011, 'learning_rate': 4.9955869656649845e-06, 'epoch': 0.05} {'loss': 2.1906, 'grad_norm': 0.8003728985786438, 'learning_rate': 4.9955611283676696e-06, 'epoch': 0.05} {'loss': 2.4697, 'grad_norm': 0.8998580574989319, 'learning_rate': 4.9955352157224634e-06, 'epoch': 0.05} {'loss': 2.2342, 'grad_norm': 0.8387194275856018, 'learning_rate': 4.995509227730148e-06, 'epoch': 0.05} {'loss': 2.3268, 'grad_norm': 1.3213353157043457, 'learning_rate': 4.995483164391507e-06, 'epoch': 0.05} {'loss': 2.3417, 'grad_norm': 0.9710744023323059, 'learning_rate': 4.995457025707329e-06, 'epoch': 0.05} {'loss': 2.2967, 'grad_norm': 0.8901402354240417, 'learning_rate': 4.995430811678403e-06, 'epoch': 0.05} {'loss': 2.5677, 'grad_norm': 0.836480975151062, 'learning_rate': 4.9954045223055194e-06, 'epoch': 0.05} {'loss': 2.2087, 'grad_norm': 0.8585495352745056, 'learning_rate': 4.995378157589473e-06, 'epoch': 0.05} {'loss': 2.2611, 'grad_norm': 0.9633775949478149, 'learning_rate': 4.995351717531059e-06, 'epoch': 0.05} {'loss': 2.1993, 'grad_norm': 1.202440619468689, 'learning_rate': 4.995325202131076e-06, 'epoch': 0.05} {'loss': 2.0807, 'grad_norm': 0.9721028208732605, 'learning_rate': 4.995298611390325e-06, 'epoch': 0.05} {'loss': 1.4496, 'grad_norm': 0.9465093612670898, 'learning_rate': 4.995271945309609e-06, 'epoch': 0.05} {'loss': 2.1962, 'grad_norm': 0.9208647012710571, 'learning_rate': 4.995245203889732e-06, 'epoch': 0.05} {'loss': 1.8659, 'grad_norm': 1.8951324224472046, 'learning_rate': 4.995218387131502e-06, 'epoch': 0.05} {'loss': 2.3649, 'grad_norm': 1.0991795063018799, 'learning_rate': 4.995191495035728e-06, 'epoch': 0.05} {'loss': 2.4272, 'grad_norm': 0.9312379360198975, 'learning_rate': 4.995164527603224e-06, 'epoch': 0.05} {'loss': 2.0204, 'grad_norm': 0.9193178415298462, 'learning_rate': 4.9951374848348025e-06, 'epoch': 0.05} {'loss': 2.3051, 'grad_norm': 0.9467421174049377, 'learning_rate': 4.9951103667312795e-06, 'epoch': 0.05} {'loss': 2.4439, 'grad_norm': 0.9656423926353455, 'learning_rate': 4.995083173293475e-06, 'epoch': 0.05} {'loss': 2.148, 'grad_norm': 0.9064692258834839, 'learning_rate': 4.995055904522211e-06, 'epoch': 0.05} {'loss': 2.1648, 'grad_norm': 0.9935110211372375, 'learning_rate': 4.995028560418308e-06, 'epoch': 0.05} {'loss': 2.0844, 'grad_norm': 0.9635987281799316, 'learning_rate': 4.995001140982594e-06, 'epoch': 0.05} {'loss': 2.3084, 'grad_norm': 1.7002750635147095, 'learning_rate': 4.994973646215895e-06, 'epoch': 0.05} {'loss': 2.3338, 'grad_norm': 1.072045922279358, 'learning_rate': 4.994946076119043e-06, 'epoch': 0.05} {'loss': 2.3021, 'grad_norm': 0.8942899703979492, 'learning_rate': 4.994918430692869e-06, 'epoch': 0.05} {'loss': 1.9531, 'grad_norm': 0.9237831234931946, 'learning_rate': 4.994890709938208e-06, 'epoch': 0.05} {'loss': 2.4625, 'grad_norm': 0.9621050953865051, 'learning_rate': 4.994862913855898e-06, 'epoch': 0.05} {'loss': 2.3661, 'grad_norm': 0.9398587346076965, 'learning_rate': 4.9948350424467776e-06, 'epoch': 0.05} {'loss': 2.2331, 'grad_norm': 0.9487491250038147, 'learning_rate': 4.9948070957116864e-06, 'epoch': 0.05} {'loss': 2.3274, 'grad_norm': 1.0199170112609863, 'learning_rate': 4.9947790736514715e-06, 'epoch': 0.05} {'loss': 1.4854, 'grad_norm': 1.0984852313995361, 'learning_rate': 4.994750976266977e-06, 'epoch': 0.05} {'loss': 2.0712, 'grad_norm': 0.8496457934379578, 'learning_rate': 4.9947228035590515e-06, 'epoch': 0.05} {'loss': 2.5152, 'grad_norm': 0.9884358048439026, 'learning_rate': 4.9946945555285465e-06, 'epoch': 0.05} {'loss': 2.2755, 'grad_norm': 0.933678388595581, 'learning_rate': 4.9946662321763126e-06, 'epoch': 0.05} {'loss': 2.5286, 'grad_norm': 0.9292495846748352, 'learning_rate': 4.994637833503208e-06, 'epoch': 0.05} {'loss': 2.3116, 'grad_norm': 2.4656083583831787, 'learning_rate': 4.994609359510088e-06, 'epoch': 0.05} {'loss': 2.4318, 'grad_norm': 1.0257818698883057, 'learning_rate': 4.994580810197813e-06, 'epoch': 0.05} {'loss': 1.9486, 'grad_norm': 0.9891431331634521, 'learning_rate': 4.9945521855672445e-06, 'epoch': 0.05} {'loss': 2.1794, 'grad_norm': 0.8486548066139221, 'learning_rate': 4.994523485619248e-06, 'epoch': 0.05} {'loss': 2.3697, 'grad_norm': 0.8849818706512451, 'learning_rate': 4.994494710354688e-06, 'epoch': 0.05} {'loss': 2.3055, 'grad_norm': 1.0209705829620361, 'learning_rate': 4.994465859774436e-06, 'epoch': 0.05} {'loss': 2.4874, 'grad_norm': 0.9417099356651306, 'learning_rate': 4.99443693387936e-06, 'epoch': 0.05} {'loss': 2.3623, 'grad_norm': 1.1745842695236206, 'learning_rate': 4.994407932670336e-06, 'epoch': 0.05} {'loss': 2.1624, 'grad_norm': 0.8378251791000366, 'learning_rate': 4.994378856148238e-06, 'epoch': 0.05} {'loss': 2.0363, 'grad_norm': 0.9222257733345032, 'learning_rate': 4.994349704313945e-06, 'epoch': 0.05} {'loss': 2.417, 'grad_norm': 1.2677849531173706, 'learning_rate': 4.994320477168336e-06, 'epoch': 0.05} {'loss': 2.302, 'grad_norm': 1.0328000783920288, 'learning_rate': 4.994291174712295e-06, 'epoch': 0.05} {'loss': 2.3318, 'grad_norm': 1.087328553199768, 'learning_rate': 4.994261796946705e-06, 'epoch': 0.05} {'loss': 2.2508, 'grad_norm': 0.939976692199707, 'learning_rate': 4.994232343872454e-06, 'epoch': 0.05} {'loss': 2.2574, 'grad_norm': 0.8842934966087341, 'learning_rate': 4.994202815490431e-06, 'epoch': 0.05} {'loss': 2.4438, 'grad_norm': 1.062280297279358, 'learning_rate': 4.994173211801528e-06, 'epoch': 0.05} {'loss': 2.3252, 'grad_norm': 0.9384779334068298, 'learning_rate': 4.994143532806638e-06, 'epoch': 0.05} {'loss': 2.3258, 'grad_norm': 0.9565473198890686, 'learning_rate': 4.994113778506658e-06, 'epoch': 0.05} {'loss': 2.493, 'grad_norm': 0.8754107356071472, 'learning_rate': 4.994083948902486e-06, 'epoch': 0.05} {'loss': 2.0661, 'grad_norm': 0.7576799392700195, 'learning_rate': 4.994054043995022e-06, 'epoch': 0.05} {'loss': 2.3011, 'grad_norm': 0.798824667930603, 'learning_rate': 4.99402406378517e-06, 'epoch': 0.05} {'loss': 2.2128, 'grad_norm': 0.9284719824790955, 'learning_rate': 4.993994008273833e-06, 'epoch': 0.05} {'loss': 2.3133, 'grad_norm': 0.9260801672935486, 'learning_rate': 4.993963877461922e-06, 'epoch': 0.05} {'loss': 2.2938, 'grad_norm': 0.8682747483253479, 'learning_rate': 4.993933671350344e-06, 'epoch': 0.05} {'loss': 2.1396, 'grad_norm': 1.0938524007797241, 'learning_rate': 4.993903389940013e-06, 'epoch': 0.05} {'loss': 2.2928, 'grad_norm': 0.8743252754211426, 'learning_rate': 4.99387303323184e-06, 'epoch': 0.05} {'loss': 2.0934, 'grad_norm': 0.9667371511459351, 'learning_rate': 4.993842601226745e-06, 'epoch': 0.05} {'loss': 2.1062, 'grad_norm': 0.9245797991752625, 'learning_rate': 4.993812093925645e-06, 'epoch': 0.05} {'loss': 2.2794, 'grad_norm': 0.9028712511062622, 'learning_rate': 4.993781511329462e-06, 'epoch': 0.05} {'loss': 2.1582, 'grad_norm': 0.9455599784851074, 'learning_rate': 4.993750853439119e-06, 'epoch': 0.05} {'loss': 2.4664, 'grad_norm': 1.1080763339996338, 'learning_rate': 4.993720120255541e-06, 'epoch': 0.05} {'loss': 1.9394, 'grad_norm': 0.9499462842941284, 'learning_rate': 4.993689311779657e-06, 'epoch': 0.05} {'loss': 2.1273, 'grad_norm': 0.9132592082023621, 'learning_rate': 4.993658428012397e-06, 'epoch': 0.05} {'loss': 2.3914, 'grad_norm': 0.9829801917076111, 'learning_rate': 4.993627468954692e-06, 'epoch': 0.05} {'loss': 2.2594, 'grad_norm': 0.8828199505805969, 'learning_rate': 4.993596434607479e-06, 'epoch': 0.05} {'loss': 2.2615, 'grad_norm': 0.8871847987174988, 'learning_rate': 4.993565324971693e-06, 'epoch': 0.05} {'loss': 2.4219, 'grad_norm': 0.9502004981040955, 'learning_rate': 4.993534140048275e-06, 'epoch': 0.05} {'loss': 2.1623, 'grad_norm': 0.8645646572113037, 'learning_rate': 4.993502879838166e-06, 'epoch': 0.05} {'loss': 2.1278, 'grad_norm': 0.973790168762207, 'learning_rate': 4.9934715443423096e-06, 'epoch': 0.05} {'loss': 2.1849, 'grad_norm': 1.0120927095413208, 'learning_rate': 4.993440133561651e-06, 'epoch': 0.05} {'loss': 2.2806, 'grad_norm': 1.1030818223953247, 'learning_rate': 4.99340864749714e-06, 'epoch': 0.05} {'loss': 2.4908, 'grad_norm': 0.9871490001678467, 'learning_rate': 4.993377086149726e-06, 'epoch': 0.05} {'loss': 2.2333, 'grad_norm': 0.9324192404747009, 'learning_rate': 4.993345449520365e-06, 'epoch': 0.05} {'loss': 2.2568, 'grad_norm': 1.0024852752685547, 'learning_rate': 4.993313737610008e-06, 'epoch': 0.05} {'loss': 1.8877, 'grad_norm': 0.883892834186554, 'learning_rate': 4.993281950419614e-06, 'epoch': 0.05} {'loss': 2.6095, 'grad_norm': 1.057392954826355, 'learning_rate': 4.993250087950145e-06, 'epoch': 0.05} {'loss': 2.3811, 'grad_norm': 1.0020055770874023, 'learning_rate': 4.993218150202559e-06, 'epoch': 0.05} {'loss': 2.4358, 'grad_norm': 0.98125159740448, 'learning_rate': 4.9931861371778235e-06, 'epoch': 0.05} {'loss': 2.4128, 'grad_norm': 1.0553079843521118, 'learning_rate': 4.993154048876904e-06, 'epoch': 0.05} {'loss': 2.2179, 'grad_norm': 1.234278917312622, 'learning_rate': 4.993121885300769e-06, 'epoch': 0.05} {'loss': 2.328, 'grad_norm': 0.9815464019775391, 'learning_rate': 4.99308964645039e-06, 'epoch': 0.05} {'loss': 2.2669, 'grad_norm': 1.090070366859436, 'learning_rate': 4.99305733232674e-06, 'epoch': 0.05} {'loss': 2.379, 'grad_norm': 0.9559518694877625, 'learning_rate': 4.993024942930794e-06, 'epoch': 0.05} {'loss': 2.3017, 'grad_norm': 1.1252349615097046, 'learning_rate': 4.992992478263533e-06, 'epoch': 0.05} {'loss': 2.4054, 'grad_norm': 1.450621247291565, 'learning_rate': 4.992959938325933e-06, 'epoch': 0.05} {'loss': 2.5405, 'grad_norm': 0.9781585931777954, 'learning_rate': 4.99292732311898e-06, 'epoch': 0.05} {'loss': 2.2508, 'grad_norm': 0.8734198212623596, 'learning_rate': 4.992894632643657e-06, 'epoch': 0.05} {'loss': 2.2035, 'grad_norm': 0.9765375852584839, 'learning_rate': 4.992861866900951e-06, 'epoch': 0.05} {'loss': 2.3465, 'grad_norm': 0.941493809223175, 'learning_rate': 4.992829025891851e-06, 'epoch': 0.05} {'loss': 2.2142, 'grad_norm': 0.83364337682724, 'learning_rate': 4.99279610961735e-06, 'epoch': 0.05} {'loss': 2.2616, 'grad_norm': 0.9412592649459839, 'learning_rate': 4.9927631180784405e-06, 'epoch': 0.05} {'loss': 2.4217, 'grad_norm': 1.1956979036331177, 'learning_rate': 4.992730051276119e-06, 'epoch': 0.05} {'loss': 2.1793, 'grad_norm': 0.8592537045478821, 'learning_rate': 4.992696909211384e-06, 'epoch': 0.05} {'loss': 2.0678, 'grad_norm': 0.9625216126441956, 'learning_rate': 4.992663691885237e-06, 'epoch': 0.05} {'loss': 2.2504, 'grad_norm': 0.8811043500900269, 'learning_rate': 4.992630399298679e-06, 'epoch': 0.05} {'loss': 2.365, 'grad_norm': 0.8211297392845154, 'learning_rate': 4.9925970314527164e-06, 'epoch': 0.05} {'loss': 2.2074, 'grad_norm': 1.2517651319503784, 'learning_rate': 4.992563588348357e-06, 'epoch': 0.05} {'loss': 2.4019, 'grad_norm': 4.096930027008057, 'learning_rate': 4.992530069986609e-06, 'epoch': 0.05} {'loss': 2.2887, 'grad_norm': 0.8329586982727051, 'learning_rate': 4.992496476368486e-06, 'epoch': 0.05} {'loss': 2.5454, 'grad_norm': 1.034111499786377, 'learning_rate': 4.992462807495002e-06, 'epoch': 0.05} {'loss': 2.068, 'grad_norm': 0.8501675128936768, 'learning_rate': 4.992429063367173e-06, 'epoch': 0.05} {'loss': 2.4044, 'grad_norm': 1.1050831079483032, 'learning_rate': 4.992395243986018e-06, 'epoch': 0.05} {'loss': 2.1468, 'grad_norm': 1.5501147508621216, 'learning_rate': 4.992361349352558e-06, 'epoch': 0.05} {'loss': 2.3387, 'grad_norm': 1.1415302753448486, 'learning_rate': 4.992327379467817e-06, 'epoch': 0.05} {'loss': 2.1255, 'grad_norm': 0.968172013759613, 'learning_rate': 4.992293334332821e-06, 'epoch': 0.05} {'loss': 2.2578, 'grad_norm': 0.9503417611122131, 'learning_rate': 4.992259213948596e-06, 'epoch': 0.05} {'loss': 2.4178, 'grad_norm': 0.9569436311721802, 'learning_rate': 4.992225018316173e-06, 'epoch': 0.05} {'loss': 2.4738, 'grad_norm': 0.8677228689193726, 'learning_rate': 4.992190747436585e-06, 'epoch': 0.05} {'loss': 2.4001, 'grad_norm': 0.978649914264679, 'learning_rate': 4.992156401310867e-06, 'epoch': 0.05} {'loss': 2.3634, 'grad_norm': 1.0024888515472412, 'learning_rate': 4.992121979940055e-06, 'epoch': 0.05} {'loss': 2.2777, 'grad_norm': 0.9719534516334534, 'learning_rate': 4.99208748332519e-06, 'epoch': 0.05} {'loss': 2.5464, 'grad_norm': 1.948480486869812, 'learning_rate': 4.9920529114673115e-06, 'epoch': 0.05} {'loss': 2.5148, 'grad_norm': 1.2344721555709839, 'learning_rate': 4.992018264367464e-06, 'epoch': 0.06} {'loss': 2.2271, 'grad_norm': 0.8931727409362793, 'learning_rate': 4.991983542026694e-06, 'epoch': 0.06} {'loss': 2.2034, 'grad_norm': 1.0193794965744019, 'learning_rate': 4.9919487444460495e-06, 'epoch': 0.06} {'loss': 2.3504, 'grad_norm': 1.0055073499679565, 'learning_rate': 4.991913871626581e-06, 'epoch': 0.06} {'loss': 2.4353, 'grad_norm': 1.1442534923553467, 'learning_rate': 4.991878923569342e-06, 'epoch': 0.06} {'loss': 2.3237, 'grad_norm': 0.9306530952453613, 'learning_rate': 4.991843900275388e-06, 'epoch': 0.06} {'loss': 2.2958, 'grad_norm': 0.9179642796516418, 'learning_rate': 4.991808801745775e-06, 'epoch': 0.06} {'loss': 2.2479, 'grad_norm': 1.267077088356018, 'learning_rate': 4.991773627981563e-06, 'epoch': 0.06} {'loss': 2.5535, 'grad_norm': 1.0775796175003052, 'learning_rate': 4.991738378983816e-06, 'epoch': 0.06} {'loss': 2.2049, 'grad_norm': 0.8064876794815063, 'learning_rate': 4.991703054753596e-06, 'epoch': 0.06} {'loss': 2.1659, 'grad_norm': 1.4190459251403809, 'learning_rate': 4.99166765529197e-06, 'epoch': 0.06} {'loss': 2.4983, 'grad_norm': 1.1851986646652222, 'learning_rate': 4.991632180600008e-06, 'epoch': 0.06} {'loss': 2.2609, 'grad_norm': 0.9262078404426575, 'learning_rate': 4.991596630678779e-06, 'epoch': 0.06} {'loss': 2.3509, 'grad_norm': 0.9049752354621887, 'learning_rate': 4.991561005529358e-06, 'epoch': 0.06} {'loss': 2.316, 'grad_norm': 0.9508761763572693, 'learning_rate': 4.99152530515282e-06, 'epoch': 0.06} {'loss': 2.5277, 'grad_norm': 2.8029944896698, 'learning_rate': 4.991489529550244e-06, 'epoch': 0.06} {'loss': 2.2536, 'grad_norm': 0.9777684211730957, 'learning_rate': 4.991453678722708e-06, 'epoch': 0.06} {'loss': 2.2791, 'grad_norm': 0.9265131950378418, 'learning_rate': 4.991417752671296e-06, 'epoch': 0.06} {'loss': 2.325, 'grad_norm': 0.9356545805931091, 'learning_rate': 4.991381751397093e-06, 'epoch': 0.06} {'loss': 2.2737, 'grad_norm': 1.0545375347137451, 'learning_rate': 4.991345674901185e-06, 'epoch': 0.06} {'loss': 2.3858, 'grad_norm': 1.0303090810775757, 'learning_rate': 4.991309523184661e-06, 'epoch': 0.06} {'loss': 2.184, 'grad_norm': 1.0034732818603516, 'learning_rate': 4.991273296248614e-06, 'epoch': 0.06} {'loss': 2.479, 'grad_norm': 1.0190399885177612, 'learning_rate': 4.991236994094137e-06, 'epoch': 0.06} {'loss': 2.2572, 'grad_norm': 0.9503771662712097, 'learning_rate': 4.9912006167223246e-06, 'epoch': 0.06} {'loss': 2.0203, 'grad_norm': 1.3302894830703735, 'learning_rate': 4.991164164134278e-06, 'epoch': 0.06} {'loss': 2.4065, 'grad_norm': 0.9612857103347778, 'learning_rate': 4.991127636331095e-06, 'epoch': 0.06} {'loss': 2.2189, 'grad_norm': 1.0276907682418823, 'learning_rate': 4.99109103331388e-06, 'epoch': 0.06} {'loss': 2.0793, 'grad_norm': 0.879024088382721, 'learning_rate': 4.9910543550837394e-06, 'epoch': 0.06} {'loss': 2.3557, 'grad_norm': 8.64822769165039, 'learning_rate': 4.991017601641777e-06, 'epoch': 0.06} {'loss': 2.1938, 'grad_norm': 1.0720820426940918, 'learning_rate': 4.990980772989107e-06, 'epoch': 0.06} {'loss': 2.3726, 'grad_norm': 1.3528854846954346, 'learning_rate': 4.990943869126838e-06, 'epoch': 0.06} {'loss': 1.9999, 'grad_norm': 0.9055727124214172, 'learning_rate': 4.990906890056084e-06, 'epoch': 0.06} {'loss': 2.557, 'grad_norm': 0.9075988531112671, 'learning_rate': 4.990869835777964e-06, 'epoch': 0.06} {'loss': 2.186, 'grad_norm': 1.028501272201538, 'learning_rate': 4.990832706293596e-06, 'epoch': 0.06} {'loss': 2.4308, 'grad_norm': 1.1125520467758179, 'learning_rate': 4.990795501604099e-06, 'epoch': 0.06} {'loss': 2.186, 'grad_norm': 0.8248952031135559, 'learning_rate': 4.9907582217105985e-06, 'epoch': 0.06} {'loss': 2.3525, 'grad_norm': 0.9849532842636108, 'learning_rate': 4.99072086661422e-06, 'epoch': 0.06} {'loss': 2.2078, 'grad_norm': 0.9275630116462708, 'learning_rate': 4.990683436316091e-06, 'epoch': 0.06} {'loss': 2.1465, 'grad_norm': 0.8727232813835144, 'learning_rate': 4.99064593081734e-06, 'epoch': 0.06} {'loss': 2.4233, 'grad_norm': 1.146936058998108, 'learning_rate': 4.9906083501191014e-06, 'epoch': 0.06} {'loss': 2.3894, 'grad_norm': 0.9624524116516113, 'learning_rate': 4.9905706942225095e-06, 'epoch': 0.06} {'loss': 2.5176, 'grad_norm': 1.0129231214523315, 'learning_rate': 4.990532963128701e-06, 'epoch': 0.06} {'loss': 2.377, 'grad_norm': 1.0094066858291626, 'learning_rate': 4.990495156838815e-06, 'epoch': 0.06} {'loss': 2.2352, 'grad_norm': 0.8860799074172974, 'learning_rate': 4.990457275353993e-06, 'epoch': 0.06} {'loss': 2.1897, 'grad_norm': 0.9399589896202087, 'learning_rate': 4.990419318675379e-06, 'epoch': 0.06} {'loss': 2.0189, 'grad_norm': 0.8149527907371521, 'learning_rate': 4.990381286804119e-06, 'epoch': 0.06} {'loss': 2.0401, 'grad_norm': 0.9436704516410828, 'learning_rate': 4.99034317974136e-06, 'epoch': 0.06} {'loss': 2.4895, 'grad_norm': 1.4298005104064941, 'learning_rate': 4.990304997488256e-06, 'epoch': 0.06} {'loss': 1.6837, 'grad_norm': 1.0987980365753174, 'learning_rate': 4.990266740045955e-06, 'epoch': 0.06} {'loss': 2.2359, 'grad_norm': 0.9572760462760925, 'learning_rate': 4.990228407415616e-06, 'epoch': 0.06} {'loss': 2.1813, 'grad_norm': 1.0550768375396729, 'learning_rate': 4.990189999598395e-06, 'epoch': 0.06} {'loss': 2.2302, 'grad_norm': 0.8116125464439392, 'learning_rate': 4.9901515165954514e-06, 'epoch': 0.06} {'loss': 2.3111, 'grad_norm': 0.8613325953483582, 'learning_rate': 4.990112958407947e-06, 'epoch': 0.06} {'loss': 2.3226, 'grad_norm': 1.0418342351913452, 'learning_rate': 4.9900743250370465e-06, 'epoch': 0.06} {'loss': 2.4795, 'grad_norm': 0.9930688142776489, 'learning_rate': 4.990035616483917e-06, 'epoch': 0.06} {'loss': 2.1391, 'grad_norm': 0.9675402641296387, 'learning_rate': 4.989996832749725e-06, 'epoch': 0.06} {'loss': 2.1439, 'grad_norm': 0.8295792937278748, 'learning_rate': 4.989957973835644e-06, 'epoch': 0.06} {'loss': 2.149, 'grad_norm': 38.84608459472656, 'learning_rate': 4.989919039742846e-06, 'epoch': 0.06} {'loss': 2.2328, 'grad_norm': 1.051656723022461, 'learning_rate': 4.9898800304725055e-06, 'epoch': 0.06} {'loss': 2.3645, 'grad_norm': 1.083837866783142, 'learning_rate': 4.9898409460258025e-06, 'epoch': 0.06} {'loss': 2.4859, 'grad_norm': 1.4535505771636963, 'learning_rate': 4.989801786403916e-06, 'epoch': 0.06} {'loss': 2.1956, 'grad_norm': 1.1062170267105103, 'learning_rate': 4.9897625516080285e-06, 'epoch': 0.06} {'loss': 2.5209, 'grad_norm': 0.9202542304992676, 'learning_rate': 4.989723241639324e-06, 'epoch': 0.06} {'loss': 2.1728, 'grad_norm': 0.9678305387496948, 'learning_rate': 4.989683856498989e-06, 'epoch': 0.06} {'loss': 2.4742, 'grad_norm': 0.9611050486564636, 'learning_rate': 4.989644396188214e-06, 'epoch': 0.06} {'loss': 2.2895, 'grad_norm': 0.9415873885154724, 'learning_rate': 4.9896048607081914e-06, 'epoch': 0.06} {'loss': 2.0405, 'grad_norm': 1.0929332971572876, 'learning_rate': 4.989565250060112e-06, 'epoch': 0.06} {'loss': 2.5565, 'grad_norm': 0.9018646478652954, 'learning_rate': 4.989525564245173e-06, 'epoch': 0.06} {'loss': 2.2524, 'grad_norm': 0.899653971195221, 'learning_rate': 4.989485803264575e-06, 'epoch': 0.06} {'loss': 1.9871, 'grad_norm': 1.0592292547225952, 'learning_rate': 4.989445967119514e-06, 'epoch': 0.06} {'loss': 2.4744, 'grad_norm': 0.9516764283180237, 'learning_rate': 4.9894060558111955e-06, 'epoch': 0.06} {'loss': 2.5211, 'grad_norm': 0.9141608476638794, 'learning_rate': 4.989366069340824e-06, 'epoch': 0.06} {'loss': 2.4658, 'grad_norm': 2.9615654945373535, 'learning_rate': 4.989326007709606e-06, 'epoch': 0.06} {'loss': 2.2703, 'grad_norm': 1.3978153467178345, 'learning_rate': 4.989285870918753e-06, 'epoch': 0.06} {'loss': 2.5142, 'grad_norm': 0.9596801400184631, 'learning_rate': 4.989245658969476e-06, 'epoch': 0.06} {'loss': 2.1275, 'grad_norm': 1.232269287109375, 'learning_rate': 4.989205371862988e-06, 'epoch': 0.06} {'loss': 2.4595, 'grad_norm': 1.0570298433303833, 'learning_rate': 4.9891650096005074e-06, 'epoch': 0.06} {'loss': 1.9981, 'grad_norm': 1.0608618259429932, 'learning_rate': 4.989124572183251e-06, 'epoch': 0.06} {'loss': 2.3069, 'grad_norm': 0.9068223834037781, 'learning_rate': 4.9890840596124405e-06, 'epoch': 0.06} {'loss': 2.0232, 'grad_norm': 0.9125115275382996, 'learning_rate': 4.9890434718893e-06, 'epoch': 0.06} {'loss': 2.431, 'grad_norm': 0.9936618804931641, 'learning_rate': 4.989002809015052e-06, 'epoch': 0.06} {'loss': 2.3961, 'grad_norm': 0.9919398427009583, 'learning_rate': 4.988962070990928e-06, 'epoch': 0.06} {'loss': 1.4218, 'grad_norm': 1.279747486114502, 'learning_rate': 4.988921257818154e-06, 'epoch': 0.06} {'loss': 2.4498, 'grad_norm': 0.9825503826141357, 'learning_rate': 4.988880369497967e-06, 'epoch': 0.06} {'loss': 2.4965, 'grad_norm': 1.653053641319275, 'learning_rate': 4.988839406031597e-06, 'epoch': 0.06} {'loss': 2.3924, 'grad_norm': 0.9315429329872131, 'learning_rate': 4.988798367420284e-06, 'epoch': 0.06} {'loss': 2.3973, 'grad_norm': 1.2868900299072266, 'learning_rate': 4.988757253665266e-06, 'epoch': 0.06} {'loss': 2.4751, 'grad_norm': 1.0158864259719849, 'learning_rate': 4.988716064767784e-06, 'epoch': 0.06} {'loss': 2.3294, 'grad_norm': 1.1413277387619019, 'learning_rate': 4.9886748007290805e-06, 'epoch': 0.06} {'loss': 2.1325, 'grad_norm': 0.8365909457206726, 'learning_rate': 4.988633461550404e-06, 'epoch': 0.06} {'loss': 2.4654, 'grad_norm': 1.0290286540985107, 'learning_rate': 4.988592047233001e-06, 'epoch': 0.06} {'loss': 2.4101, 'grad_norm': 0.9697268009185791, 'learning_rate': 4.988550557778123e-06, 'epoch': 0.06} {'loss': 2.251, 'grad_norm': 0.9565639495849609, 'learning_rate': 4.98850899318702e-06, 'epoch': 0.06} {'loss': 2.0026, 'grad_norm': 0.8121193051338196, 'learning_rate': 4.9884673534609505e-06, 'epoch': 0.06} {'loss': 2.1174, 'grad_norm': 1.6524022817611694, 'learning_rate': 4.9884256386011685e-06, 'epoch': 0.06} {'loss': 2.2118, 'grad_norm': 2.40254807472229, 'learning_rate': 4.9883838486089365e-06, 'epoch': 0.06} {'loss': 2.2518, 'grad_norm': 0.9734964966773987, 'learning_rate': 4.988341983485515e-06, 'epoch': 0.06} {'loss': 2.187, 'grad_norm': 0.9296643733978271, 'learning_rate': 4.988300043232167e-06, 'epoch': 0.06} {'loss': 2.4545, 'grad_norm': 1.008583903312683, 'learning_rate': 4.98825802785016e-06, 'epoch': 0.06} {'loss': 2.4791, 'grad_norm': 0.995166540145874, 'learning_rate': 4.988215937340762e-06, 'epoch': 0.06} {'loss': 2.5079, 'grad_norm': 0.8931052684783936, 'learning_rate': 4.988173771705244e-06, 'epoch': 0.06} {'loss': 2.5299, 'grad_norm': 0.9702426791191101, 'learning_rate': 4.988131530944879e-06, 'epoch': 0.06} {'loss': 2.4213, 'grad_norm': 1.0601887702941895, 'learning_rate': 4.9880892150609424e-06, 'epoch': 0.06} {'loss': 2.2857, 'grad_norm': 1.0227653980255127, 'learning_rate': 4.988046824054713e-06, 'epoch': 0.06} {'loss': 2.3232, 'grad_norm': 0.926737904548645, 'learning_rate': 4.988004357927468e-06, 'epoch': 0.06} {'loss': 2.2568, 'grad_norm': 0.8746935725212097, 'learning_rate': 4.987961816680493e-06, 'epoch': 0.06} {'loss': 2.427, 'grad_norm': 0.8764224648475647, 'learning_rate': 4.987919200315069e-06, 'epoch': 0.06} {'loss': 2.3657, 'grad_norm': 0.9093576073646545, 'learning_rate': 4.987876508832485e-06, 'epoch': 0.06} {'loss': 2.2756, 'grad_norm': 0.9841018319129944, 'learning_rate': 4.98783374223403e-06, 'epoch': 0.06} {'loss': 2.3376, 'grad_norm': 1.6909751892089844, 'learning_rate': 4.987790900520993e-06, 'epoch': 0.06} {'loss': 2.3721, 'grad_norm': 0.9900720715522766, 'learning_rate': 4.987747983694671e-06, 'epoch': 0.06} {'loss': 2.3909, 'grad_norm': 0.9804003238677979, 'learning_rate': 4.987704991756356e-06, 'epoch': 0.06} {'loss': 2.5192, 'grad_norm': 1.2065123319625854, 'learning_rate': 4.987661924707349e-06, 'epoch': 0.06} {'loss': 2.4687, 'grad_norm': 0.9317047595977783, 'learning_rate': 4.9876187825489486e-06, 'epoch': 0.06} {'loss': 2.3379, 'grad_norm': 1.1988011598587036, 'learning_rate': 4.987575565282459e-06, 'epoch': 0.06} {'loss': 2.178, 'grad_norm': 1.0506364107131958, 'learning_rate': 4.987532272909183e-06, 'epoch': 0.06} {'loss': 2.2426, 'grad_norm': 1.0984842777252197, 'learning_rate': 4.987488905430429e-06, 'epoch': 0.06} {'loss': 2.624, 'grad_norm': 1.0500613451004028, 'learning_rate': 4.987445462847506e-06, 'epoch': 0.06} {'loss': 2.1887, 'grad_norm': 1.079162359237671, 'learning_rate': 4.987401945161726e-06, 'epoch': 0.06} {'loss': 2.2531, 'grad_norm': 0.9197587966918945, 'learning_rate': 4.9873583523744025e-06, 'epoch': 0.06} {'loss': 2.2592, 'grad_norm': 0.8580393195152283, 'learning_rate': 4.9873146844868525e-06, 'epoch': 0.06} {'loss': 2.427, 'grad_norm': 1.0936763286590576, 'learning_rate': 4.987270941500393e-06, 'epoch': 0.06} {'loss': 2.2279, 'grad_norm': 0.9202926754951477, 'learning_rate': 4.987227123416346e-06, 'epoch': 0.06} {'loss': 2.1709, 'grad_norm': 0.8660621047019958, 'learning_rate': 4.987183230236034e-06, 'epoch': 0.06} {'loss': 2.3055, 'grad_norm': 0.9105360507965088, 'learning_rate': 4.987139261960782e-06, 'epoch': 0.06} {'loss': 2.3814, 'grad_norm': 1.1920312643051147, 'learning_rate': 4.987095218591919e-06, 'epoch': 0.06} {'loss': 2.4826, 'grad_norm': 0.9380356073379517, 'learning_rate': 4.987051100130772e-06, 'epoch': 0.06} {'loss': 2.137, 'grad_norm': 0.9523796439170837, 'learning_rate': 4.987006906578676e-06, 'epoch': 0.06} {'loss': 2.102, 'grad_norm': 1.0403015613555908, 'learning_rate': 4.986962637936963e-06, 'epoch': 0.06} {'loss': 2.1992, 'grad_norm': 1.1150732040405273, 'learning_rate': 4.986918294206972e-06, 'epoch': 0.06} {'loss': 2.328, 'grad_norm': 1.2442398071289062, 'learning_rate': 4.986873875390039e-06, 'epoch': 0.06} {'loss': 2.5701, 'grad_norm': 1.0945496559143066, 'learning_rate': 4.9868293814875064e-06, 'epoch': 0.06} {'loss': 2.6029, 'grad_norm': 0.9511393308639526, 'learning_rate': 4.986784812500719e-06, 'epoch': 0.06} {'loss': 2.4729, 'grad_norm': 0.9506328105926514, 'learning_rate': 4.98674016843102e-06, 'epoch': 0.06} {'loss': 2.3917, 'grad_norm': 0.9968279004096985, 'learning_rate': 4.98669544927976e-06, 'epoch': 0.06} {'loss': 2.2191, 'grad_norm': 0.9288352131843567, 'learning_rate': 4.986650655048287e-06, 'epoch': 0.06} {'loss': 2.272, 'grad_norm': 1.005597710609436, 'learning_rate': 4.9866057857379545e-06, 'epoch': 0.06} {'loss': 1.4605, 'grad_norm': 2.23844575881958, 'learning_rate': 4.986560841350116e-06, 'epoch': 0.06} {'loss': 2.5551, 'grad_norm': 0.93501216173172, 'learning_rate': 4.986515821886131e-06, 'epoch': 0.06} {'loss': 2.0815, 'grad_norm': 1.2463313341140747, 'learning_rate': 4.986470727347356e-06, 'epoch': 0.06} {'loss': 2.2435, 'grad_norm': 0.9285088181495667, 'learning_rate': 4.986425557735154e-06, 'epoch': 0.06} {'loss': 2.2972, 'grad_norm': 1.2001177072525024, 'learning_rate': 4.986380313050889e-06, 'epoch': 0.06} {'loss': 2.3177, 'grad_norm': 1.4643712043762207, 'learning_rate': 4.9863349932959256e-06, 'epoch': 0.06} {'loss': 2.1132, 'grad_norm': 0.9649955630302429, 'learning_rate': 4.9862895984716345e-06, 'epoch': 0.06} {'loss': 2.372, 'grad_norm': 1.084575891494751, 'learning_rate': 4.986244128579384e-06, 'epoch': 0.06} {'loss': 2.3409, 'grad_norm': 0.9651587605476379, 'learning_rate': 4.9861985836205485e-06, 'epoch': 0.06} {'loss': 2.382, 'grad_norm': 0.9547308087348938, 'learning_rate': 4.986152963596502e-06, 'epoch': 0.06} {'loss': 2.1951, 'grad_norm': 1.0556073188781738, 'learning_rate': 4.986107268508622e-06, 'epoch': 0.06} {'loss': 1.8858, 'grad_norm': 1.031585693359375, 'learning_rate': 4.98606149835829e-06, 'epoch': 0.06} {'loss': 2.2312, 'grad_norm': 0.875927209854126, 'learning_rate': 4.986015653146885e-06, 'epoch': 0.06} {'loss': 2.3268, 'grad_norm': 0.9850233793258667, 'learning_rate': 4.985969732875794e-06, 'epoch': 0.06} {'loss': 2.4564, 'grad_norm': 1.0025520324707031, 'learning_rate': 4.985923737546401e-06, 'epoch': 0.06} {'loss': 2.3502, 'grad_norm': 1.0855391025543213, 'learning_rate': 4.985877667160096e-06, 'epoch': 0.06} {'loss': 2.2287, 'grad_norm': 0.8323860168457031, 'learning_rate': 4.9858315217182705e-06, 'epoch': 0.06} {'loss': 2.3254, 'grad_norm': 1.0464768409729004, 'learning_rate': 4.985785301222317e-06, 'epoch': 0.06} {'loss': 1.9804, 'grad_norm': 0.8289233446121216, 'learning_rate': 4.985739005673631e-06, 'epoch': 0.06} {'loss': 2.3365, 'grad_norm': 1.034662127494812, 'learning_rate': 4.98569263507361e-06, 'epoch': 0.06} {'loss': 2.1938, 'grad_norm': 0.9792503118515015, 'learning_rate': 4.985646189423655e-06, 'epoch': 0.06} {'loss': 2.4219, 'grad_norm': 1.6392652988433838, 'learning_rate': 4.985599668725168e-06, 'epoch': 0.06} {'loss': 2.4656, 'grad_norm': 0.9966708421707153, 'learning_rate': 4.985553072979553e-06, 'epoch': 0.06} {'loss': 2.3186, 'grad_norm': 1.1187785863876343, 'learning_rate': 4.985506402188217e-06, 'epoch': 0.06} {'loss': 2.1474, 'grad_norm': 2.5858256816864014, 'learning_rate': 4.98545965635257e-06, 'epoch': 0.06} {'loss': 2.1916, 'grad_norm': 1.1409443616867065, 'learning_rate': 4.985412835474023e-06, 'epoch': 0.06} {'loss': 2.3183, 'grad_norm': 1.0248135328292847, 'learning_rate': 4.985365939553989e-06, 'epoch': 0.06} {'loss': 2.2232, 'grad_norm': 0.9299795627593994, 'learning_rate': 4.985318968593884e-06, 'epoch': 0.06} {'loss': 1.9589, 'grad_norm': 1.0572593212127686, 'learning_rate': 4.985271922595127e-06, 'epoch': 0.06} {'loss': 2.2186, 'grad_norm': 0.9500041604042053, 'learning_rate': 4.985224801559137e-06, 'epoch': 0.06} {'loss': 2.4164, 'grad_norm': 1.4783669710159302, 'learning_rate': 4.985177605487339e-06, 'epoch': 0.06} {'loss': 2.2274, 'grad_norm': 1.0400598049163818, 'learning_rate': 4.985130334381156e-06, 'epoch': 0.06} {'loss': 2.0441, 'grad_norm': 0.9037993550300598, 'learning_rate': 4.985082988242017e-06, 'epoch': 0.06} {'loss': 2.3994, 'grad_norm': 1.4019476175308228, 'learning_rate': 4.9850355670713495e-06, 'epoch': 0.06} {'loss': 2.5683, 'grad_norm': 3.3732125759124756, 'learning_rate': 4.984988070870586e-06, 'epoch': 0.06} {'loss': 2.2068, 'grad_norm': 0.9091217517852783, 'learning_rate': 4.984940499641161e-06, 'epoch': 0.06} {'loss': 2.3488, 'grad_norm': 0.9493944644927979, 'learning_rate': 4.984892853384511e-06, 'epoch': 0.06} {'loss': 2.3602, 'grad_norm': 1.0054129362106323, 'learning_rate': 4.984845132102073e-06, 'epoch': 0.06} {'loss': 2.3265, 'grad_norm': 1.0504363775253296, 'learning_rate': 4.98479733579529e-06, 'epoch': 0.06} {'loss': 2.156, 'grad_norm': 1.0254640579223633, 'learning_rate': 4.984749464465604e-06, 'epoch': 0.06} {'loss': 2.3433, 'grad_norm': 1.132319450378418, 'learning_rate': 4.98470151811446e-06, 'epoch': 0.06} {'loss': 2.3781, 'grad_norm': 1.229435682296753, 'learning_rate': 4.984653496743306e-06, 'epoch': 0.06} {'loss': 2.2183, 'grad_norm': 0.8927853107452393, 'learning_rate': 4.984605400353591e-06, 'epoch': 0.06} {'loss': 2.231, 'grad_norm': 0.999556839466095, 'learning_rate': 4.98455722894677e-06, 'epoch': 0.06} {'loss': 2.1922, 'grad_norm': 1.519758701324463, 'learning_rate': 4.984508982524295e-06, 'epoch': 0.06} {'loss': 1.9918, 'grad_norm': 0.8093305826187134, 'learning_rate': 4.984460661087623e-06, 'epoch': 0.06} {'loss': 2.3328, 'grad_norm': 1.0123575925827026, 'learning_rate': 4.984412264638213e-06, 'epoch': 0.06} {'loss': 2.2817, 'grad_norm': 0.9538084864616394, 'learning_rate': 4.984363793177527e-06, 'epoch': 0.06} {'loss': 2.4669, 'grad_norm': 1.329424262046814, 'learning_rate': 4.984315246707027e-06, 'epoch': 0.06} {'loss': 2.2738, 'grad_norm': 0.9524489045143127, 'learning_rate': 4.98426662522818e-06, 'epoch': 0.07} {'loss': 2.1967, 'grad_norm': 1.0620826482772827, 'learning_rate': 4.984217928742454e-06, 'epoch': 0.07} {'loss': 2.5653, 'grad_norm': 1.919254183769226, 'learning_rate': 4.984169157251319e-06, 'epoch': 0.07} {'loss': 2.3789, 'grad_norm': 1.1565606594085693, 'learning_rate': 4.9841203107562476e-06, 'epoch': 0.07} {'loss': 2.4212, 'grad_norm': 1.0749967098236084, 'learning_rate': 4.984071389258714e-06, 'epoch': 0.07} {'loss': 2.1944, 'grad_norm': 0.951046347618103, 'learning_rate': 4.984022392760196e-06, 'epoch': 0.07} {'loss': 2.4214, 'grad_norm': 1.1085155010223389, 'learning_rate': 4.983973321262173e-06, 'epoch': 0.07} {'loss': 1.6983, 'grad_norm': 0.9239466190338135, 'learning_rate': 4.983924174766126e-06, 'epoch': 0.07} {'loss': 1.6961, 'grad_norm': 1.2276287078857422, 'learning_rate': 4.98387495327354e-06, 'epoch': 0.07} {'loss': 2.2611, 'grad_norm': 1.0233432054519653, 'learning_rate': 4.983825656785899e-06, 'epoch': 0.07} {'loss': 2.0637, 'grad_norm': 0.8634902834892273, 'learning_rate': 4.983776285304694e-06, 'epoch': 0.07} {'loss': 2.0678, 'grad_norm': 1.2154033184051514, 'learning_rate': 4.983726838831413e-06, 'epoch': 0.07} {'loss': 2.4238, 'grad_norm': 0.8645827174186707, 'learning_rate': 4.983677317367551e-06, 'epoch': 0.07} {'loss': 2.4546, 'grad_norm': 1.046346664428711, 'learning_rate': 4.983627720914603e-06, 'epoch': 0.07} {'loss': 2.1418, 'grad_norm': 1.1527621746063232, 'learning_rate': 4.983578049474066e-06, 'epoch': 0.07} {'loss': 2.2632, 'grad_norm': 1.0037026405334473, 'learning_rate': 4.9835283030474394e-06, 'epoch': 0.07} {'loss': 2.1971, 'grad_norm': 0.9696345329284668, 'learning_rate': 4.983478481636225e-06, 'epoch': 0.07} {'loss': 2.4703, 'grad_norm': 1.151303768157959, 'learning_rate': 4.983428585241928e-06, 'epoch': 0.07} {'loss': 2.3845, 'grad_norm': 0.9496086835861206, 'learning_rate': 4.983378613866055e-06, 'epoch': 0.07} {'loss': 2.5167, 'grad_norm': 1.027260184288025, 'learning_rate': 4.983328567510113e-06, 'epoch': 0.07} {'loss': 2.1535, 'grad_norm': 1.0592864751815796, 'learning_rate': 4.983278446175615e-06, 'epoch': 0.07} {'loss': 2.2636, 'grad_norm': 1.2062712907791138, 'learning_rate': 4.983228249864073e-06, 'epoch': 0.07} {'loss': 2.1669, 'grad_norm': 0.9164139628410339, 'learning_rate': 4.9831779785770034e-06, 'epoch': 0.07} {'loss': 2.2491, 'grad_norm': 0.9456780552864075, 'learning_rate': 4.983127632315924e-06, 'epoch': 0.07} {'loss': 2.3742, 'grad_norm': 0.9188715219497681, 'learning_rate': 4.983077211082355e-06, 'epoch': 0.07} {'loss': 2.6262, 'grad_norm': 1.416751742362976, 'learning_rate': 4.983026714877816e-06, 'epoch': 0.07} {'loss': 2.3965, 'grad_norm': 1.0176416635513306, 'learning_rate': 4.982976143703837e-06, 'epoch': 0.07} {'loss': 2.482, 'grad_norm': 0.9725081324577332, 'learning_rate': 4.98292549756194e-06, 'epoch': 0.07} {'loss': 2.1112, 'grad_norm': 1.0572484731674194, 'learning_rate': 4.982874776453657e-06, 'epoch': 0.07} {'loss': 2.4197, 'grad_norm': 1.1000754833221436, 'learning_rate': 4.982823980380518e-06, 'epoch': 0.07} {'loss': 1.6994, 'grad_norm': 0.9540502429008484, 'learning_rate': 4.982773109344058e-06, 'epoch': 0.07} {'loss': 2.3514, 'grad_norm': 1.0147403478622437, 'learning_rate': 4.98272216334581e-06, 'epoch': 0.07} {'loss': 2.2504, 'grad_norm': 1.1577200889587402, 'learning_rate': 4.982671142387316e-06, 'epoch': 0.07} {'loss': 2.3619, 'grad_norm': 0.9553468823432922, 'learning_rate': 4.982620046470115e-06, 'epoch': 0.07} {'loss': 2.2313, 'grad_norm': 1.835162878036499, 'learning_rate': 4.982568875595748e-06, 'epoch': 0.07} {'loss': 2.1041, 'grad_norm': 0.8699524402618408, 'learning_rate': 4.982517629765762e-06, 'epoch': 0.07} {'loss': 2.3486, 'grad_norm': 1.0222312211990356, 'learning_rate': 4.982466308981704e-06, 'epoch': 0.07} {'loss': 2.4572, 'grad_norm': 1.0730657577514648, 'learning_rate': 4.982414913245123e-06, 'epoch': 0.07} {'loss': 2.2972, 'grad_norm': 1.5996443033218384, 'learning_rate': 4.982363442557571e-06, 'epoch': 0.07} {'loss': 2.2365, 'grad_norm': 0.9231743216514587, 'learning_rate': 4.982311896920602e-06, 'epoch': 0.07} {'loss': 2.3674, 'grad_norm': 0.9723864793777466, 'learning_rate': 4.982260276335772e-06, 'epoch': 0.07} {'loss': 2.2334, 'grad_norm': 1.8816993236541748, 'learning_rate': 4.98220858080464e-06, 'epoch': 0.07} {'loss': 2.3304, 'grad_norm': 1.128426432609558, 'learning_rate': 4.9821568103287675e-06, 'epoch': 0.07} {'loss': 2.448, 'grad_norm': 0.9466338157653809, 'learning_rate': 4.982104964909717e-06, 'epoch': 0.07} {'loss': 2.3047, 'grad_norm': 0.9969996213912964, 'learning_rate': 4.982053044549053e-06, 'epoch': 0.07} {'loss': 2.3733, 'grad_norm': 1.0799095630645752, 'learning_rate': 4.982001049248344e-06, 'epoch': 0.07} {'loss': 2.161, 'grad_norm': 1.7526142597198486, 'learning_rate': 4.981948979009159e-06, 'epoch': 0.07} {'loss': 2.4371, 'grad_norm': 1.012143611907959, 'learning_rate': 4.981896833833072e-06, 'epoch': 0.07} {'loss': 2.0336, 'grad_norm': 0.9565131664276123, 'learning_rate': 4.9818446137216545e-06, 'epoch': 0.07} {'loss': 2.2727, 'grad_norm': 1.119325041770935, 'learning_rate': 4.981792318676487e-06, 'epoch': 0.07} {'loss': 2.2803, 'grad_norm': 0.8959728479385376, 'learning_rate': 4.981739948699145e-06, 'epoch': 0.07} {'loss': 2.2523, 'grad_norm': 1.1167850494384766, 'learning_rate': 4.981687503791211e-06, 'epoch': 0.07} {'loss': 2.6639, 'grad_norm': 1.2471730709075928, 'learning_rate': 4.981634983954268e-06, 'epoch': 0.07} {'loss': 2.2953, 'grad_norm': 1.421600341796875, 'learning_rate': 4.981582389189904e-06, 'epoch': 0.07} {'loss': 2.2799, 'grad_norm': 1.0473721027374268, 'learning_rate': 4.981529719499704e-06, 'epoch': 0.07} {'loss': 2.3155, 'grad_norm': 0.9871096611022949, 'learning_rate': 4.98147697488526e-06, 'epoch': 0.07} {'loss': 2.0745, 'grad_norm': 1.0446598529815674, 'learning_rate': 4.9814241553481635e-06, 'epoch': 0.07} {'loss': 2.428, 'grad_norm': 1.3474087715148926, 'learning_rate': 4.98137126089001e-06, 'epoch': 0.07} {'loss': 2.5069, 'grad_norm': 1.1699421405792236, 'learning_rate': 4.981318291512396e-06, 'epoch': 0.07} {'loss': 2.4165, 'grad_norm': 0.9889071583747864, 'learning_rate': 4.981265247216921e-06, 'epoch': 0.07} {'loss': 2.0656, 'grad_norm': 5.230331897735596, 'learning_rate': 4.981212128005187e-06, 'epoch': 0.07} {'loss': 2.1492, 'grad_norm': 0.8876602649688721, 'learning_rate': 4.9811589338787965e-06, 'epoch': 0.07} {'loss': 2.1517, 'grad_norm': 1.0285910367965698, 'learning_rate': 4.981105664839358e-06, 'epoch': 0.07} {'loss': 1.9139, 'grad_norm': 1.3014415502548218, 'learning_rate': 4.981052320888476e-06, 'epoch': 0.07} {'loss': 2.2074, 'grad_norm': 0.9376952648162842, 'learning_rate': 4.980998902027765e-06, 'epoch': 0.07} {'loss': 2.2472, 'grad_norm': 0.94576096534729, 'learning_rate': 4.980945408258836e-06, 'epoch': 0.07} {'loss': 1.6485, 'grad_norm': 0.9819731116294861, 'learning_rate': 4.980891839583305e-06, 'epoch': 0.07} {'loss': 2.3349, 'grad_norm': 0.9782082438468933, 'learning_rate': 4.980838196002788e-06, 'epoch': 0.07} {'loss': 2.2468, 'grad_norm': 0.9362853765487671, 'learning_rate': 4.980784477518906e-06, 'epoch': 0.07} {'loss': 2.4428, 'grad_norm': 1.3191250562667847, 'learning_rate': 4.98073068413328e-06, 'epoch': 0.07} {'loss': 2.427, 'grad_norm': 1.1156028509140015, 'learning_rate': 4.980676815847534e-06, 'epoch': 0.07} {'loss': 2.2113, 'grad_norm': 7.49153995513916, 'learning_rate': 4.980622872663296e-06, 'epoch': 0.07} {'loss': 2.2779, 'grad_norm': 1.0203325748443604, 'learning_rate': 4.980568854582193e-06, 'epoch': 0.07} {'loss': 2.2174, 'grad_norm': 3.292227268218994, 'learning_rate': 4.980514761605857e-06, 'epoch': 0.07} {'loss': 2.2696, 'grad_norm': 0.9186006188392639, 'learning_rate': 4.9804605937359205e-06, 'epoch': 0.07} {'loss': 2.3914, 'grad_norm': 1.049167513847351, 'learning_rate': 4.9804063509740194e-06, 'epoch': 0.07} {'loss': 2.101, 'grad_norm': 0.8847677111625671, 'learning_rate': 4.980352033321792e-06, 'epoch': 0.07} {'loss': 2.4535, 'grad_norm': 1.3655288219451904, 'learning_rate': 4.980297640780876e-06, 'epoch': 0.07} {'loss': 2.1485, 'grad_norm': 1.1724376678466797, 'learning_rate': 4.980243173352916e-06, 'epoch': 0.07} {'loss': 2.2599, 'grad_norm': 1.0108832120895386, 'learning_rate': 4.980188631039557e-06, 'epoch': 0.07} {'loss': 2.0973, 'grad_norm': 1.0784542560577393, 'learning_rate': 4.9801340138424425e-06, 'epoch': 0.07} {'loss': 1.662, 'grad_norm': 1.2918726205825806, 'learning_rate': 4.980079321763225e-06, 'epoch': 0.07} {'loss': 2.2273, 'grad_norm': 1.0497658252716064, 'learning_rate': 4.980024554803554e-06, 'epoch': 0.07} {'loss': 2.2664, 'grad_norm': 1.080718994140625, 'learning_rate': 4.979969712965084e-06, 'epoch': 0.07} {'loss': 1.6957, 'grad_norm': 2.7959582805633545, 'learning_rate': 4.97991479624947e-06, 'epoch': 0.07} {'loss': 2.5288, 'grad_norm': 1.1994774341583252, 'learning_rate': 4.979859804658371e-06, 'epoch': 0.07} {'loss': 2.2021, 'grad_norm': 0.9972768425941467, 'learning_rate': 4.9798047381934464e-06, 'epoch': 0.07} {'loss': 2.3284, 'grad_norm': 1.1177918910980225, 'learning_rate': 4.9797495968563595e-06, 'epoch': 0.07} {'loss': 2.6212, 'grad_norm': 1.208223581314087, 'learning_rate': 4.979694380648774e-06, 'epoch': 0.07} {'loss': 2.2783, 'grad_norm': 1.0205754041671753, 'learning_rate': 4.9796390895723575e-06, 'epoch': 0.07} {'loss': 2.0492, 'grad_norm': 1.001619577407837, 'learning_rate': 4.9795837236287814e-06, 'epoch': 0.07} {'loss': 2.1374, 'grad_norm': 0.8463701605796814, 'learning_rate': 4.979528282819715e-06, 'epoch': 0.07} {'loss': 2.3688, 'grad_norm': 1.023215413093567, 'learning_rate': 4.979472767146833e-06, 'epoch': 0.07} {'loss': 2.3346, 'grad_norm': 1.1979265213012695, 'learning_rate': 4.979417176611811e-06, 'epoch': 0.07} {'loss': 2.7218, 'grad_norm': 1.452760100364685, 'learning_rate': 4.979361511216329e-06, 'epoch': 0.07} {'loss': 2.1939, 'grad_norm': 0.979247510433197, 'learning_rate': 4.979305770962065e-06, 'epoch': 0.07} {'loss': 2.333, 'grad_norm': 1.400586485862732, 'learning_rate': 4.9792499558507054e-06, 'epoch': 0.07} {'loss': 2.3749, 'grad_norm': 0.9813389778137207, 'learning_rate': 4.979194065883932e-06, 'epoch': 0.07} {'loss': 2.4122, 'grad_norm': 0.9473187327384949, 'learning_rate': 4.9791381010634355e-06, 'epoch': 0.07} {'loss': 2.1777, 'grad_norm': 2.2443084716796875, 'learning_rate': 4.979082061390903e-06, 'epoch': 0.07} {'loss': 2.3809, 'grad_norm': 0.936434805393219, 'learning_rate': 4.9790259468680275e-06, 'epoch': 0.07} {'loss': 2.3822, 'grad_norm': 1.2129138708114624, 'learning_rate': 4.978969757496503e-06, 'epoch': 0.07} {'loss': 2.5653, 'grad_norm': 1.1773587465286255, 'learning_rate': 4.978913493278027e-06, 'epoch': 0.07} {'loss': 2.171, 'grad_norm': 0.9448917508125305, 'learning_rate': 4.978857154214297e-06, 'epoch': 0.07} {'loss': 2.2974, 'grad_norm': 1.2923929691314697, 'learning_rate': 4.978800740307015e-06, 'epoch': 0.07} {'loss': 1.6862, 'grad_norm': 1.136430263519287, 'learning_rate': 4.978744251557884e-06, 'epoch': 0.07} {'loss': 2.45, 'grad_norm': 1.0014485120773315, 'learning_rate': 4.978687687968609e-06, 'epoch': 0.07} {'loss': 2.351, 'grad_norm': 1.0103057622909546, 'learning_rate': 4.978631049540898e-06, 'epoch': 0.07} {'loss': 2.2677, 'grad_norm': 1.5005868673324585, 'learning_rate': 4.9785743362764615e-06, 'epoch': 0.07} {'loss': 1.3249, 'grad_norm': 1.5612396001815796, 'learning_rate': 4.978517548177012e-06, 'epoch': 0.07} {'loss': 2.2995, 'grad_norm': 1.2271084785461426, 'learning_rate': 4.9784606852442626e-06, 'epoch': 0.07} {'loss': 2.3148, 'grad_norm': 1.063094973564148, 'learning_rate': 4.978403747479933e-06, 'epoch': 0.07} {'loss': 2.0725, 'grad_norm': 0.9872644543647766, 'learning_rate': 4.9783467348857396e-06, 'epoch': 0.07} {'loss': 2.2094, 'grad_norm': 1.2497276067733765, 'learning_rate': 4.978289647463405e-06, 'epoch': 0.07} {'loss': 2.3647, 'grad_norm': 1.0279934406280518, 'learning_rate': 4.978232485214652e-06, 'epoch': 0.07} {'loss': 2.2508, 'grad_norm': 0.89280766248703, 'learning_rate': 4.978175248141207e-06, 'epoch': 0.07} {'loss': 2.2822, 'grad_norm': 1.3410364389419556, 'learning_rate': 4.978117936244799e-06, 'epoch': 0.07} {'loss': 2.3824, 'grad_norm': 1.0980582237243652, 'learning_rate': 4.9780605495271575e-06, 'epoch': 0.07} {'loss': 2.2999, 'grad_norm': 1.0156686305999756, 'learning_rate': 4.978003087990014e-06, 'epoch': 0.07} {'loss': 2.2908, 'grad_norm': 4.5208940505981445, 'learning_rate': 4.977945551635106e-06, 'epoch': 0.07} {'loss': 2.278, 'grad_norm': 1.0811820030212402, 'learning_rate': 4.977887940464169e-06, 'epoch': 0.07} {'loss': 2.3086, 'grad_norm': 1.040591835975647, 'learning_rate': 4.977830254478943e-06, 'epoch': 0.07} {'loss': 2.1737, 'grad_norm': 1.2930958271026611, 'learning_rate': 4.9777724936811696e-06, 'epoch': 0.07} {'loss': 2.3511, 'grad_norm': 1.0584529638290405, 'learning_rate': 4.977714658072592e-06, 'epoch': 0.07} {'loss': 2.3503, 'grad_norm': 1.032886266708374, 'learning_rate': 4.977656747654958e-06, 'epoch': 0.07} {'loss': 2.1372, 'grad_norm': 1.0458582639694214, 'learning_rate': 4.977598762430015e-06, 'epoch': 0.07} {'loss': 2.2492, 'grad_norm': 0.995593786239624, 'learning_rate': 4.977540702399513e-06, 'epoch': 0.07} {'loss': 2.3414, 'grad_norm': 1.0863360166549683, 'learning_rate': 4.977482567565207e-06, 'epoch': 0.07} {'loss': 2.3559, 'grad_norm': 1.0745601654052734, 'learning_rate': 4.9774243579288505e-06, 'epoch': 0.07} {'loss': 2.379, 'grad_norm': 1.1351815462112427, 'learning_rate': 4.977366073492202e-06, 'epoch': 0.07} {'loss': 2.2358, 'grad_norm': 0.9772175550460815, 'learning_rate': 4.977307714257021e-06, 'epoch': 0.07} {'loss': 2.1606, 'grad_norm': 1.0001784563064575, 'learning_rate': 4.977249280225068e-06, 'epoch': 0.07} {'loss': 2.3239, 'grad_norm': 1.0162519216537476, 'learning_rate': 4.977190771398111e-06, 'epoch': 0.07} {'loss': 2.5, 'grad_norm': 1.2197778224945068, 'learning_rate': 4.977132187777912e-06, 'epoch': 0.07} {'loss': 2.0576, 'grad_norm': 0.8744888305664062, 'learning_rate': 4.977073529366244e-06, 'epoch': 0.07} {'loss': 2.3018, 'grad_norm': 1.0663422346115112, 'learning_rate': 4.977014796164875e-06, 'epoch': 0.07} {'loss': 2.3851, 'grad_norm': 1.0181113481521606, 'learning_rate': 4.97695598817558e-06, 'epoch': 0.07} {'loss': 1.9353, 'grad_norm': 1.0137766599655151, 'learning_rate': 4.976897105400134e-06, 'epoch': 0.07} {'loss': 1.9168, 'grad_norm': 1.0173087120056152, 'learning_rate': 4.976838147840314e-06, 'epoch': 0.07} {'loss': 2.2792, 'grad_norm': 0.9286210536956787, 'learning_rate': 4.976779115497901e-06, 'epoch': 0.07} {'loss': 2.5175, 'grad_norm': 1.0620357990264893, 'learning_rate': 4.976720008374679e-06, 'epoch': 0.07} {'loss': 2.1318, 'grad_norm': 1.0661815404891968, 'learning_rate': 4.976660826472429e-06, 'epoch': 0.07} {'loss': 2.2953, 'grad_norm': 1.3985929489135742, 'learning_rate': 4.9766015697929414e-06, 'epoch': 0.07} {'loss': 2.4896, 'grad_norm': 1.268054723739624, 'learning_rate': 4.976542238338003e-06, 'epoch': 0.07} {'loss': 2.2571, 'grad_norm': 0.9607091546058655, 'learning_rate': 4.976482832109406e-06, 'epoch': 0.07} {'loss': 2.3569, 'grad_norm': 1.0794057846069336, 'learning_rate': 4.976423351108943e-06, 'epoch': 0.07} {'loss': 2.0614, 'grad_norm': 1.0689151287078857, 'learning_rate': 4.976363795338412e-06, 'epoch': 0.07} {'loss': 2.4995, 'grad_norm': 0.9918772578239441, 'learning_rate': 4.97630416479961e-06, 'epoch': 0.07} {'loss': 2.4073, 'grad_norm': 1.0323249101638794, 'learning_rate': 4.976244459494336e-06, 'epoch': 0.07} {'loss': 2.4763, 'grad_norm': 1.168944239616394, 'learning_rate': 4.976184679424395e-06, 'epoch': 0.07} {'loss': 2.418, 'grad_norm': 1.1609365940093994, 'learning_rate': 4.9761248245915915e-06, 'epoch': 0.07} {'loss': 2.4265, 'grad_norm': 1.0638235807418823, 'learning_rate': 4.9760648949977316e-06, 'epoch': 0.07} {'loss': 2.4424, 'grad_norm': 1.0396552085876465, 'learning_rate': 4.976004890644625e-06, 'epoch': 0.07} {'loss': 1.9612, 'grad_norm': 0.8740794062614441, 'learning_rate': 4.975944811534084e-06, 'epoch': 0.07} {'loss': 2.5256, 'grad_norm': 2.43509840965271, 'learning_rate': 4.975884657667922e-06, 'epoch': 0.07} {'loss': 1.6288, 'grad_norm': 1.0254740715026855, 'learning_rate': 4.975824429047956e-06, 'epoch': 0.07} {'loss': 1.6648, 'grad_norm': 0.9655486345291138, 'learning_rate': 4.9757641256760035e-06, 'epoch': 0.07} {'loss': 2.3519, 'grad_norm': 1.0243462324142456, 'learning_rate': 4.9757037475538865e-06, 'epoch': 0.07} {'loss': 2.4679, 'grad_norm': 1.113011121749878, 'learning_rate': 4.975643294683426e-06, 'epoch': 0.07} {'loss': 2.3772, 'grad_norm': 1.161157488822937, 'learning_rate': 4.975582767066449e-06, 'epoch': 0.07} {'loss': 2.6519, 'grad_norm': 1.1884695291519165, 'learning_rate': 4.975522164704782e-06, 'epoch': 0.07} {'loss': 2.2491, 'grad_norm': 0.9771613478660583, 'learning_rate': 4.975461487600255e-06, 'epoch': 0.07} {'loss': 2.3346, 'grad_norm': 1.149491310119629, 'learning_rate': 4.975400735754701e-06, 'epoch': 0.07} {'loss': 2.351, 'grad_norm': 1.282455325126648, 'learning_rate': 4.975339909169952e-06, 'epoch': 0.07} {'loss': 1.8217, 'grad_norm': 0.9327060580253601, 'learning_rate': 4.975279007847847e-06, 'epoch': 0.07} {'loss': 2.2291, 'grad_norm': 1.1702831983566284, 'learning_rate': 4.975218031790223e-06, 'epoch': 0.07} {'loss': 2.523, 'grad_norm': 1.1040705442428589, 'learning_rate': 4.9751569809989225e-06, 'epoch': 0.07} {'loss': 2.413, 'grad_norm': 1.0453336238861084, 'learning_rate': 4.975095855475788e-06, 'epoch': 0.07} {'loss': 2.2, 'grad_norm': 1.1374396085739136, 'learning_rate': 4.9750346552226645e-06, 'epoch': 0.07} {'loss': 2.5627, 'grad_norm': 1.015295386314392, 'learning_rate': 4.9749733802414e-06, 'epoch': 0.07} {'loss': 2.4583, 'grad_norm': 0.9965130686759949, 'learning_rate': 4.974912030533846e-06, 'epoch': 0.07} {'loss': 2.0452, 'grad_norm': 1.0276066064834595, 'learning_rate': 4.974850606101854e-06, 'epoch': 0.07} {'loss': 2.2192, 'grad_norm': 0.9480687975883484, 'learning_rate': 4.974789106947278e-06, 'epoch': 0.07} {'loss': 2.3217, 'grad_norm': 3.404052257537842, 'learning_rate': 4.974727533071975e-06, 'epoch': 0.07} {'loss': 2.3553, 'grad_norm': 1.065765380859375, 'learning_rate': 4.974665884477803e-06, 'epoch': 0.07} {'loss': 2.4147, 'grad_norm': 0.9770095944404602, 'learning_rate': 4.9746041611666266e-06, 'epoch': 0.07} {'loss': 2.2474, 'grad_norm': 1.0051023960113525, 'learning_rate': 4.974542363140306e-06, 'epoch': 0.07} {'loss': 2.2348, 'grad_norm': 1.0955405235290527, 'learning_rate': 4.974480490400709e-06, 'epoch': 0.07} {'loss': 2.1132, 'grad_norm': 1.1394176483154297, 'learning_rate': 4.974418542949703e-06, 'epoch': 0.07} {'loss': 2.2965, 'grad_norm': 0.9789254069328308, 'learning_rate': 4.974356520789159e-06, 'epoch': 0.07} {'loss': 2.2101, 'grad_norm': 1.038822889328003, 'learning_rate': 4.974294423920949e-06, 'epoch': 0.07} {'loss': 2.4068, 'grad_norm': 0.9869319796562195, 'learning_rate': 4.9742322523469475e-06, 'epoch': 0.07} {'loss': 2.2668, 'grad_norm': 0.9765912890434265, 'learning_rate': 4.974170006069032e-06, 'epoch': 0.07} {'loss': 2.3885, 'grad_norm': 1.6876389980316162, 'learning_rate': 4.974107685089083e-06, 'epoch': 0.07} {'loss': 2.2538, 'grad_norm': 1.2938416004180908, 'learning_rate': 4.974045289408981e-06, 'epoch': 0.07} {'loss': 2.4949, 'grad_norm': 0.9978740215301514, 'learning_rate': 4.97398281903061e-06, 'epoch': 0.07} {'loss': 2.3806, 'grad_norm': 0.977267324924469, 'learning_rate': 4.973920273955855e-06, 'epoch': 0.07} {'loss': 2.2677, 'grad_norm': 1.0162580013275146, 'learning_rate': 4.973857654186607e-06, 'epoch': 0.08} {'loss': 2.2722, 'grad_norm': 0.880977213382721, 'learning_rate': 4.973794959724755e-06, 'epoch': 0.08} {'loss': 2.1507, 'grad_norm': 0.9718684554100037, 'learning_rate': 4.9737321905721915e-06, 'epoch': 0.08} {'loss': 2.1471, 'grad_norm': 1.0685368776321411, 'learning_rate': 4.973669346730813e-06, 'epoch': 0.08} {'loss': 2.204, 'grad_norm': 1.0438332557678223, 'learning_rate': 4.973606428202516e-06, 'epoch': 0.08} {'loss': 2.545, 'grad_norm': 1.1545586585998535, 'learning_rate': 4.973543434989201e-06, 'epoch': 0.08} {'loss': 2.4578, 'grad_norm': 2.0891075134277344, 'learning_rate': 4.973480367092769e-06, 'epoch': 0.08} {'loss': 2.4318, 'grad_norm': 1.1711297035217285, 'learning_rate': 4.973417224515126e-06, 'epoch': 0.08} {'loss': 2.2352, 'grad_norm': 1.000867486000061, 'learning_rate': 4.973354007258175e-06, 'epoch': 0.08} {'loss': 2.0343, 'grad_norm': 0.9216778874397278, 'learning_rate': 4.973290715323829e-06, 'epoch': 0.08} {'loss': 2.0836, 'grad_norm': 0.8999906778335571, 'learning_rate': 4.973227348713995e-06, 'epoch': 0.08} {'loss': 2.3079, 'grad_norm': 1.1049591302871704, 'learning_rate': 4.973163907430588e-06, 'epoch': 0.08} {'loss': 2.1857, 'grad_norm': 1.0142604112625122, 'learning_rate': 4.973100391475524e-06, 'epoch': 0.08} {'loss': 2.1685, 'grad_norm': 0.9644139409065247, 'learning_rate': 4.97303680085072e-06, 'epoch': 0.08} {'loss': 2.2221, 'grad_norm': 1.0186855792999268, 'learning_rate': 4.972973135558097e-06, 'epoch': 0.08} {'loss': 2.1043, 'grad_norm': 1.1210620403289795, 'learning_rate': 4.972909395599575e-06, 'epoch': 0.08} {'loss': 2.3634, 'grad_norm': 1.0287531614303589, 'learning_rate': 4.97284558097708e-06, 'epoch': 0.08} {'loss': 2.3914, 'grad_norm': 1.0717772245407104, 'learning_rate': 4.97278169169254e-06, 'epoch': 0.08} {'loss': 2.5441, 'grad_norm': 1.0899219512939453, 'learning_rate': 4.972717727747881e-06, 'epoch': 0.08} {'loss': 2.3993, 'grad_norm': 1.3384462594985962, 'learning_rate': 4.9726536891450365e-06, 'epoch': 0.08} {'loss': 2.3021, 'grad_norm': 0.8986116051673889, 'learning_rate': 4.972589575885939e-06, 'epoch': 0.08} {'loss': 2.3461, 'grad_norm': 0.8991843461990356, 'learning_rate': 4.972525387972525e-06, 'epoch': 0.08} {'loss': 2.4223, 'grad_norm': 1.085938572883606, 'learning_rate': 4.972461125406732e-06, 'epoch': 0.08} {'loss': 2.2198, 'grad_norm': 1.02108633518219, 'learning_rate': 4.972396788190501e-06, 'epoch': 0.08} {'loss': 1.7834, 'grad_norm': 1.1626222133636475, 'learning_rate': 4.972332376325773e-06, 'epoch': 0.08} {'loss': 2.3768, 'grad_norm': 1.1069952249526978, 'learning_rate': 4.972267889814494e-06, 'epoch': 0.08} {'loss': 2.4191, 'grad_norm': 1.2132041454315186, 'learning_rate': 4.97220332865861e-06, 'epoch': 0.08} {'loss': 2.5987, 'grad_norm': 1.1763595342636108, 'learning_rate': 4.972138692860072e-06, 'epoch': 0.08} {'loss': 2.339, 'grad_norm': 1.1088312864303589, 'learning_rate': 4.97207398242083e-06, 'epoch': 0.08} {'loss': 2.1076, 'grad_norm': 1.031510829925537, 'learning_rate': 4.9720091973428385e-06, 'epoch': 0.08} {'loss': 2.2307, 'grad_norm': 0.9312414526939392, 'learning_rate': 4.971944337628053e-06, 'epoch': 0.08} {'loss': 2.209, 'grad_norm': 1.063948631286621, 'learning_rate': 4.971879403278432e-06, 'epoch': 0.08} {'loss': 2.2513, 'grad_norm': 0.9697802662849426, 'learning_rate': 4.971814394295936e-06, 'epoch': 0.08} {'loss': 2.2531, 'grad_norm': 8.346556663513184, 'learning_rate': 4.971749310682529e-06, 'epoch': 0.08} {'loss': 2.3754, 'grad_norm': 0.9593003392219543, 'learning_rate': 4.9716841524401745e-06, 'epoch': 0.08} {'loss': 2.451, 'grad_norm': 1.1474682092666626, 'learning_rate': 4.97161891957084e-06, 'epoch': 0.08} {'loss': 2.373, 'grad_norm': 0.9977197647094727, 'learning_rate': 4.971553612076495e-06, 'epoch': 0.08} {'loss': 2.2546, 'grad_norm': 1.1065374612808228, 'learning_rate': 4.9714882299591125e-06, 'epoch': 0.08} {'loss': 2.3658, 'grad_norm': 1.0937299728393555, 'learning_rate': 4.971422773220666e-06, 'epoch': 0.08} {'loss': 1.9396, 'grad_norm': 0.9734066128730774, 'learning_rate': 4.971357241863131e-06, 'epoch': 0.08} {'loss': 2.3663, 'grad_norm': 0.8513569831848145, 'learning_rate': 4.971291635888487e-06, 'epoch': 0.08} {'loss': 2.3839, 'grad_norm': 1.2299129962921143, 'learning_rate': 4.971225955298714e-06, 'epoch': 0.08} {'loss': 2.3399, 'grad_norm': 1.3104857206344604, 'learning_rate': 4.9711602000957964e-06, 'epoch': 0.08} {'loss': 2.2779, 'grad_norm': 0.9283754825592041, 'learning_rate': 4.971094370281718e-06, 'epoch': 0.08} {'loss': 2.4216, 'grad_norm': 1.1517002582550049, 'learning_rate': 4.971028465858468e-06, 'epoch': 0.08} {'loss': 2.2931, 'grad_norm': 1.0854661464691162, 'learning_rate': 4.970962486828034e-06, 'epoch': 0.08} {'loss': 2.4358, 'grad_norm': 1.1306616067886353, 'learning_rate': 4.9708964331924105e-06, 'epoch': 0.08} {'loss': 2.419, 'grad_norm': 1.0557206869125366, 'learning_rate': 4.97083030495359e-06, 'epoch': 0.08} {'loss': 1.942, 'grad_norm': 1.566414475440979, 'learning_rate': 4.97076410211357e-06, 'epoch': 0.08} {'loss': 2.4146, 'grad_norm': 7.868310928344727, 'learning_rate': 4.9706978246743495e-06, 'epoch': 0.08} {'loss': 2.0977, 'grad_norm': 0.9003645777702332, 'learning_rate': 4.970631472637929e-06, 'epoch': 0.08} {'loss': 2.4292, 'grad_norm': 0.9081676006317139, 'learning_rate': 4.970565046006312e-06, 'epoch': 0.08} {'loss': 2.1994, 'grad_norm': 0.9508426785469055, 'learning_rate': 4.970498544781505e-06, 'epoch': 0.08} {'loss': 2.6188, 'grad_norm': 1.0169605016708374, 'learning_rate': 4.970431968965515e-06, 'epoch': 0.08} {'loss': 2.2672, 'grad_norm': 1.2397761344909668, 'learning_rate': 4.970365318560351e-06, 'epoch': 0.08} {'loss': 2.3372, 'grad_norm': 1.0348191261291504, 'learning_rate': 4.970298593568027e-06, 'epoch': 0.08} {'loss': 1.3533, 'grad_norm': 1.3939028978347778, 'learning_rate': 4.9702317939905575e-06, 'epoch': 0.08} {'loss': 2.2791, 'grad_norm': 1.0024003982543945, 'learning_rate': 4.97016491982996e-06, 'epoch': 0.08} {'loss': 2.3451, 'grad_norm': 1.1704720258712769, 'learning_rate': 4.970097971088251e-06, 'epoch': 0.08} {'loss': 1.9494, 'grad_norm': 1.1526343822479248, 'learning_rate': 4.970030947767455e-06, 'epoch': 0.08} {'loss': 1.8429, 'grad_norm': 3.485053539276123, 'learning_rate': 4.969963849869593e-06, 'epoch': 0.08} {'loss': 2.4239, 'grad_norm': 1.1040962934494019, 'learning_rate': 4.969896677396693e-06, 'epoch': 0.08} {'loss': 2.3071, 'grad_norm': 1.2002966403961182, 'learning_rate': 4.969829430350781e-06, 'epoch': 0.08} {'loss': 2.3301, 'grad_norm': 1.0308129787445068, 'learning_rate': 4.969762108733889e-06, 'epoch': 0.08} {'loss': 2.3967, 'grad_norm': 1.0292377471923828, 'learning_rate': 4.969694712548049e-06, 'epoch': 0.08} {'loss': 2.4276, 'grad_norm': 1.1803817749023438, 'learning_rate': 4.969627241795297e-06, 'epoch': 0.08} {'loss': 2.4163, 'grad_norm': 0.984775960445404, 'learning_rate': 4.969559696477668e-06, 'epoch': 0.08} {'loss': 2.2875, 'grad_norm': 1.029131531715393, 'learning_rate': 4.969492076597203e-06, 'epoch': 0.08} {'loss': 2.4018, 'grad_norm': 1.2231156826019287, 'learning_rate': 4.969424382155943e-06, 'epoch': 0.08} {'loss': 2.2569, 'grad_norm': 1.2237415313720703, 'learning_rate': 4.969356613155932e-06, 'epoch': 0.08} {'loss': 2.2986, 'grad_norm': 1.0500431060791016, 'learning_rate': 4.969288769599217e-06, 'epoch': 0.08} {'loss': 2.0929, 'grad_norm': 0.9005617499351501, 'learning_rate': 4.9692208514878445e-06, 'epoch': 0.08} {'loss': 2.1493, 'grad_norm': 0.9856646656990051, 'learning_rate': 4.969152858823867e-06, 'epoch': 0.08} {'loss': 2.4362, 'grad_norm': 1.258678674697876, 'learning_rate': 4.969084791609336e-06, 'epoch': 0.08} {'loss': 2.0765, 'grad_norm': 1.1616809368133545, 'learning_rate': 4.969016649846308e-06, 'epoch': 0.08} {'loss': 2.4387, 'grad_norm': 1.0906788110733032, 'learning_rate': 4.968948433536839e-06, 'epoch': 0.08} {'loss': 2.3865, 'grad_norm': 1.141611933708191, 'learning_rate': 4.968880142682988e-06, 'epoch': 0.08} {'loss': 2.2554, 'grad_norm': 1.0800232887268066, 'learning_rate': 4.96881177728682e-06, 'epoch': 0.08} {'loss': 2.2166, 'grad_norm': 1.5412439107894897, 'learning_rate': 4.968743337350397e-06, 'epoch': 0.08} {'loss': 2.3943, 'grad_norm': 1.1633332967758179, 'learning_rate': 4.968674822875785e-06, 'epoch': 0.08} {'loss': 2.4994, 'grad_norm': 1.0530400276184082, 'learning_rate': 4.968606233865054e-06, 'epoch': 0.08} {'loss': 2.1843, 'grad_norm': 1.0710266828536987, 'learning_rate': 4.968537570320274e-06, 'epoch': 0.08} {'loss': 2.3688, 'grad_norm': 0.9292663335800171, 'learning_rate': 4.968468832243518e-06, 'epoch': 0.08} {'loss': 2.1584, 'grad_norm': 0.9833860993385315, 'learning_rate': 4.968400019636862e-06, 'epoch': 0.08} {'loss': 2.1803, 'grad_norm': 1.1426249742507935, 'learning_rate': 4.968331132502383e-06, 'epoch': 0.08} {'loss': 2.1976, 'grad_norm': 1.9897398948669434, 'learning_rate': 4.968262170842162e-06, 'epoch': 0.08} {'loss': 2.245, 'grad_norm': 1.028342604637146, 'learning_rate': 4.968193134658279e-06, 'epoch': 0.08} {'loss': 2.189, 'grad_norm': 1.072307825088501, 'learning_rate': 4.968124023952822e-06, 'epoch': 0.08} {'loss': 2.2567, 'grad_norm': 1.0869473218917847, 'learning_rate': 4.968054838727874e-06, 'epoch': 0.08} {'loss': 2.2626, 'grad_norm': 1.1065728664398193, 'learning_rate': 4.967985578985525e-06, 'epoch': 0.08} {'loss': 2.3589, 'grad_norm': 1.05400550365448, 'learning_rate': 4.967916244727868e-06, 'epoch': 0.08} {'loss': 2.0856, 'grad_norm': 1.0734738111495972, 'learning_rate': 4.967846835956993e-06, 'epoch': 0.08} {'loss': 2.3669, 'grad_norm': 1.056257724761963, 'learning_rate': 4.967777352674999e-06, 'epoch': 0.08} {'loss': 2.3447, 'grad_norm': 1.1005325317382812, 'learning_rate': 4.967707794883982e-06, 'epoch': 0.08} {'loss': 2.2176, 'grad_norm': 0.9405511617660522, 'learning_rate': 4.9676381625860424e-06, 'epoch': 0.08} {'loss': 2.3169, 'grad_norm': 1.039394497871399, 'learning_rate': 4.967568455783283e-06, 'epoch': 0.08} {'loss': 2.3251, 'grad_norm': 1.0795094966888428, 'learning_rate': 4.967498674477807e-06, 'epoch': 0.08} {'loss': 2.2366, 'grad_norm': 0.9734029173851013, 'learning_rate': 4.9674288186717244e-06, 'epoch': 0.08} {'loss': 2.3378, 'grad_norm': 0.8638395071029663, 'learning_rate': 4.967358888367141e-06, 'epoch': 0.08} {'loss': 2.465, 'grad_norm': 1.0712440013885498, 'learning_rate': 4.967288883566171e-06, 'epoch': 0.08} {'loss': 2.4646, 'grad_norm': 1.140532374382019, 'learning_rate': 4.967218804270926e-06, 'epoch': 0.08} {'loss': 2.5469, 'grad_norm': 1.0432919263839722, 'learning_rate': 4.967148650483522e-06, 'epoch': 0.08} {'loss': 2.1109, 'grad_norm': 1.0415621995925903, 'learning_rate': 4.967078422206077e-06, 'epoch': 0.08} {'loss': 2.1967, 'grad_norm': 1.091618537902832, 'learning_rate': 4.967008119440714e-06, 'epoch': 0.08} {'loss': 2.3264, 'grad_norm': 1.1757445335388184, 'learning_rate': 4.966937742189553e-06, 'epoch': 0.08} {'loss': 2.5584, 'grad_norm': 1.1083757877349854, 'learning_rate': 4.966867290454719e-06, 'epoch': 0.08} {'loss': 2.2323, 'grad_norm': 0.9487075209617615, 'learning_rate': 4.96679676423834e-06, 'epoch': 0.08} {'loss': 2.2459, 'grad_norm': 0.9605690240859985, 'learning_rate': 4.966726163542545e-06, 'epoch': 0.08} {'loss': 2.2793, 'grad_norm': 1.1166452169418335, 'learning_rate': 4.966655488369466e-06, 'epoch': 0.08} {'loss': 2.4728, 'grad_norm': 0.9237282872200012, 'learning_rate': 4.966584738721236e-06, 'epoch': 0.08} {'loss': 2.1329, 'grad_norm': 1.134324312210083, 'learning_rate': 4.966513914599993e-06, 'epoch': 0.08} {'loss': 2.3196, 'grad_norm': 1.199369192123413, 'learning_rate': 4.966443016007873e-06, 'epoch': 0.08} {'loss': 2.4594, 'grad_norm': 1.2491835355758667, 'learning_rate': 4.966372042947018e-06, 'epoch': 0.08} {'loss': 2.2045, 'grad_norm': 2.467543125152588, 'learning_rate': 4.966300995419571e-06, 'epoch': 0.08} {'loss': 2.3926, 'grad_norm': 1.171787977218628, 'learning_rate': 4.966229873427676e-06, 'epoch': 0.08} {'loss': 2.4775, 'grad_norm': 0.9942606687545776, 'learning_rate': 4.966158676973482e-06, 'epoch': 0.08} {'loss': 2.4135, 'grad_norm': 1.0077043771743774, 'learning_rate': 4.9660874060591365e-06, 'epoch': 0.08} {'loss': 2.1191, 'grad_norm': 1.1150081157684326, 'learning_rate': 4.966016060686794e-06, 'epoch': 0.08} {'loss': 2.3586, 'grad_norm': 3.168137311935425, 'learning_rate': 4.965944640858606e-06, 'epoch': 0.08} {'loss': 2.3359, 'grad_norm': 1.1107186079025269, 'learning_rate': 4.96587314657673e-06, 'epoch': 0.08} {'loss': 2.2309, 'grad_norm': 1.3944618701934814, 'learning_rate': 4.9658015778433256e-06, 'epoch': 0.08} {'loss': 2.3432, 'grad_norm': 1.0401256084442139, 'learning_rate': 4.965729934660553e-06, 'epoch': 0.08} {'loss': 2.2907, 'grad_norm': 0.9296973943710327, 'learning_rate': 4.965658217030574e-06, 'epoch': 0.08} {'loss': 2.2639, 'grad_norm': 0.9325800538063049, 'learning_rate': 4.965586424955555e-06, 'epoch': 0.08} {'loss': 2.4326, 'grad_norm': 1.0755035877227783, 'learning_rate': 4.965514558437664e-06, 'epoch': 0.08} {'loss': 2.0137, 'grad_norm': 1.4959969520568848, 'learning_rate': 4.965442617479071e-06, 'epoch': 0.08} {'loss': 2.2494, 'grad_norm': 1.0266350507736206, 'learning_rate': 4.965370602081946e-06, 'epoch': 0.08} {'loss': 2.4622, 'grad_norm': 0.9980213642120361, 'learning_rate': 4.965298512248466e-06, 'epoch': 0.08} {'loss': 2.3288, 'grad_norm': 1.038623332977295, 'learning_rate': 4.965226347980806e-06, 'epoch': 0.08} {'loss': 2.3771, 'grad_norm': 1.8606276512145996, 'learning_rate': 4.965154109281145e-06, 'epoch': 0.08} {'loss': 2.2242, 'grad_norm': 1.4848978519439697, 'learning_rate': 4.965081796151665e-06, 'epoch': 0.08} {'loss': 2.2002, 'grad_norm': 0.9233113527297974, 'learning_rate': 4.965009408594549e-06, 'epoch': 0.08} {'loss': 2.6403, 'grad_norm': 1.1974916458129883, 'learning_rate': 4.964936946611983e-06, 'epoch': 0.08} {'loss': 2.4027, 'grad_norm': 1.0628743171691895, 'learning_rate': 4.964864410206152e-06, 'epoch': 0.08} {'loss': 2.25, 'grad_norm': 0.9386650323867798, 'learning_rate': 4.9647917993792496e-06, 'epoch': 0.08} {'loss': 2.325, 'grad_norm': 1.109528660774231, 'learning_rate': 4.964719114133466e-06, 'epoch': 0.08} {'loss': 2.1007, 'grad_norm': 0.9987028241157532, 'learning_rate': 4.964646354470997e-06, 'epoch': 0.08} {'loss': 2.3758, 'grad_norm': 1.5527077913284302, 'learning_rate': 4.964573520394038e-06, 'epoch': 0.08} {'loss': 2.2112, 'grad_norm': 1.2129688262939453, 'learning_rate': 4.964500611904791e-06, 'epoch': 0.08} {'loss': 2.28, 'grad_norm': 1.1084346771240234, 'learning_rate': 4.964427629005454e-06, 'epoch': 0.08} {'loss': 2.2874, 'grad_norm': 0.9709970951080322, 'learning_rate': 4.964354571698231e-06, 'epoch': 0.08} {'loss': 1.2996, 'grad_norm': 1.2608736753463745, 'learning_rate': 4.96428143998533e-06, 'epoch': 0.08} {'loss': 2.2147, 'grad_norm': 1.2486788034439087, 'learning_rate': 4.964208233868957e-06, 'epoch': 0.08} {'loss': 2.3057, 'grad_norm': 1.1228344440460205, 'learning_rate': 4.9641349533513235e-06, 'epoch': 0.08} {'loss': 2.3837, 'grad_norm': 1.055301308631897, 'learning_rate': 4.964061598434641e-06, 'epoch': 0.08} {'loss': 2.237, 'grad_norm': 0.8575541377067566, 'learning_rate': 4.963988169121125e-06, 'epoch': 0.08} {'loss': 2.4651, 'grad_norm': 1.2017253637313843, 'learning_rate': 4.963914665412992e-06, 'epoch': 0.08} {'loss': 2.6758, 'grad_norm': 1.2050693035125732, 'learning_rate': 4.963841087312462e-06, 'epoch': 0.08} {'loss': 2.5102, 'grad_norm': 1.0124294757843018, 'learning_rate': 4.963767434821757e-06, 'epoch': 0.08} {'loss': 2.4136, 'grad_norm': 1.078139305114746, 'learning_rate': 4.963693707943099e-06, 'epoch': 0.08} {'loss': 2.1272, 'grad_norm': 1.0511324405670166, 'learning_rate': 4.963619906678715e-06, 'epoch': 0.08} {'loss': 2.1734, 'grad_norm': 1.0642032623291016, 'learning_rate': 4.9635460310308335e-06, 'epoch': 0.08} {'loss': 2.4462, 'grad_norm': 0.9766706228256226, 'learning_rate': 4.963472081001684e-06, 'epoch': 0.08} {'loss': 1.8817, 'grad_norm': 1.5284464359283447, 'learning_rate': 4.9633980565935e-06, 'epoch': 0.08} {'loss': 2.0977, 'grad_norm': 0.9357942938804626, 'learning_rate': 4.9633239578085175e-06, 'epoch': 0.08} {'loss': 2.2126, 'grad_norm': 1.0891377925872803, 'learning_rate': 4.963249784648972e-06, 'epoch': 0.08} {'loss': 2.5116, 'grad_norm': 1.7222974300384521, 'learning_rate': 4.963175537117104e-06, 'epoch': 0.08} {'loss': 2.3834, 'grad_norm': 0.9710643887519836, 'learning_rate': 4.963101215215155e-06, 'epoch': 0.08} {'loss': 2.5579, 'grad_norm': 2.442746877670288, 'learning_rate': 4.963026818945369e-06, 'epoch': 0.08} {'loss': 2.4129, 'grad_norm': 1.247110366821289, 'learning_rate': 4.962952348309991e-06, 'epoch': 0.08} {'loss': 2.4015, 'grad_norm': 1.1250485181808472, 'learning_rate': 4.9628778033112715e-06, 'epoch': 0.08} {'loss': 2.4529, 'grad_norm': 1.0553501844406128, 'learning_rate': 4.962803183951461e-06, 'epoch': 0.08} {'loss': 2.2815, 'grad_norm': 1.24652099609375, 'learning_rate': 4.962728490232811e-06, 'epoch': 0.08} {'loss': 2.1128, 'grad_norm': 1.631174087524414, 'learning_rate': 4.962653722157577e-06, 'epoch': 0.08} {'loss': 2.4024, 'grad_norm': 1.0755717754364014, 'learning_rate': 4.962578879728018e-06, 'epoch': 0.08} {'loss': 2.2104, 'grad_norm': 0.9437095522880554, 'learning_rate': 4.962503962946393e-06, 'epoch': 0.08} {'loss': 2.3054, 'grad_norm': 1.0856975317001343, 'learning_rate': 4.962428971814963e-06, 'epoch': 0.08} {'loss': 2.1173, 'grad_norm': 0.9859164953231812, 'learning_rate': 4.962353906335993e-06, 'epoch': 0.08} {'loss': 2.3045, 'grad_norm': 1.337965965270996, 'learning_rate': 4.962278766511749e-06, 'epoch': 0.08} {'loss': 2.6629, 'grad_norm': 1.0456466674804688, 'learning_rate': 4.9622035523445e-06, 'epoch': 0.08} {'loss': 2.2184, 'grad_norm': 5.553250312805176, 'learning_rate': 4.962128263836518e-06, 'epoch': 0.08} {'loss': 2.4818, 'grad_norm': 1.127160906791687, 'learning_rate': 4.962052900990073e-06, 'epoch': 0.08} {'loss': 2.3773, 'grad_norm': 1.0883961915969849, 'learning_rate': 4.961977463807444e-06, 'epoch': 0.08} {'loss': 2.2293, 'grad_norm': 0.972382128238678, 'learning_rate': 4.961901952290906e-06, 'epoch': 0.08} {'loss': 1.9719, 'grad_norm': 0.8943543434143066, 'learning_rate': 4.9618263664427405e-06, 'epoch': 0.08} {'loss': 2.3782, 'grad_norm': 1.0477933883666992, 'learning_rate': 4.961750706265229e-06, 'epoch': 0.08} {'loss': 2.4484, 'grad_norm': 1.7300524711608887, 'learning_rate': 4.961674971760657e-06, 'epoch': 0.08} {'loss': 2.431, 'grad_norm': 1.2619285583496094, 'learning_rate': 4.9615991629313095e-06, 'epoch': 0.08} {'loss': 2.2616, 'grad_norm': 1.0125261545181274, 'learning_rate': 4.961523279779475e-06, 'epoch': 0.08} {'loss': 2.3122, 'grad_norm': 1.1749234199523926, 'learning_rate': 4.9614473223074475e-06, 'epoch': 0.08} {'loss': 1.7698, 'grad_norm': 0.9323041439056396, 'learning_rate': 4.961371290517518e-06, 'epoch': 0.08} {'loss': 2.2894, 'grad_norm': 1.215304970741272, 'learning_rate': 4.961295184411981e-06, 'epoch': 0.08} {'loss': 2.1761, 'grad_norm': 1.7376598119735718, 'learning_rate': 4.961219003993138e-06, 'epoch': 0.08} {'loss': 2.0947, 'grad_norm': 1.0124722719192505, 'learning_rate': 4.961142749263287e-06, 'epoch': 0.08} {'loss': 2.3621, 'grad_norm': 1.1788444519042969, 'learning_rate': 4.961066420224729e-06, 'epoch': 0.08} {'loss': 2.6198, 'grad_norm': 1.0883941650390625, 'learning_rate': 4.960990016879771e-06, 'epoch': 0.08} {'loss': 2.3472, 'grad_norm': 1.1471115350723267, 'learning_rate': 4.960913539230719e-06, 'epoch': 0.09} {'loss': 2.5777, 'grad_norm': 1.0778883695602417, 'learning_rate': 4.960836987279881e-06, 'epoch': 0.09} {'loss': 2.3872, 'grad_norm': 1.1139392852783203, 'learning_rate': 4.9607603610295704e-06, 'epoch': 0.09} {'loss': 2.1972, 'grad_norm': 0.9776027202606201, 'learning_rate': 4.960683660482099e-06, 'epoch': 0.09} {'loss': 2.5403, 'grad_norm': 1.1770435571670532, 'learning_rate': 4.960606885639784e-06, 'epoch': 0.09} {'loss': 2.206, 'grad_norm': 0.9870885610580444, 'learning_rate': 4.960530036504942e-06, 'epoch': 0.09} {'loss': 2.373, 'grad_norm': 1.0582643747329712, 'learning_rate': 4.960453113079894e-06, 'epoch': 0.09} {'loss': 2.4604, 'grad_norm': 1.0486334562301636, 'learning_rate': 4.9603761153669625e-06, 'epoch': 0.09} {'loss': 2.2057, 'grad_norm': 1.0280712842941284, 'learning_rate': 4.960299043368472e-06, 'epoch': 0.09} {'loss': 2.3821, 'grad_norm': 1.0404623746871948, 'learning_rate': 4.96022189708675e-06, 'epoch': 0.09} {'loss': 2.1799, 'grad_norm': 1.085313320159912, 'learning_rate': 4.9601446765241245e-06, 'epoch': 0.09} {'loss': 2.2951, 'grad_norm': 1.0947303771972656, 'learning_rate': 4.960067381682929e-06, 'epoch': 0.09} {'loss': 2.2234, 'grad_norm': 1.0661115646362305, 'learning_rate': 4.959990012565497e-06, 'epoch': 0.09} {'loss': 2.4343, 'grad_norm': 2.8304338455200195, 'learning_rate': 4.959912569174163e-06, 'epoch': 0.09} {'loss': 2.3118, 'grad_norm': 1.0539566278457642, 'learning_rate': 4.959835051511265e-06, 'epoch': 0.09} {'loss': 2.3641, 'grad_norm': 0.9918525815010071, 'learning_rate': 4.9597574595791455e-06, 'epoch': 0.09} {'loss': 2.0454, 'grad_norm': 1.1240812540054321, 'learning_rate': 4.959679793380146e-06, 'epoch': 0.09} {'loss': 2.2489, 'grad_norm': 2.01190185546875, 'learning_rate': 4.959602052916612e-06, 'epoch': 0.09} {'loss': 2.3604, 'grad_norm': 1.1215431690216064, 'learning_rate': 4.95952423819089e-06, 'epoch': 0.09} {'loss': 2.3864, 'grad_norm': 1.0536242723464966, 'learning_rate': 4.959446349205329e-06, 'epoch': 0.09} {'loss': 2.4603, 'grad_norm': 10.067190170288086, 'learning_rate': 4.959368385962282e-06, 'epoch': 0.09} {'loss': 1.5238, 'grad_norm': 1.2379369735717773, 'learning_rate': 4.959290348464103e-06, 'epoch': 0.09} {'loss': 1.8978, 'grad_norm': 1.1681138277053833, 'learning_rate': 4.959212236713147e-06, 'epoch': 0.09} {'loss': 2.1748, 'grad_norm': 0.9545812606811523, 'learning_rate': 4.959134050711774e-06, 'epoch': 0.09} {'loss': 2.343, 'grad_norm': 0.9710696935653687, 'learning_rate': 4.959055790462342e-06, 'epoch': 0.09} {'loss': 2.3228, 'grad_norm': 1.082421064376831, 'learning_rate': 4.958977455967216e-06, 'epoch': 0.09} {'loss': 2.2326, 'grad_norm': 1.0215240716934204, 'learning_rate': 4.958899047228761e-06, 'epoch': 0.09} {'loss': 2.3295, 'grad_norm': 1.154728889465332, 'learning_rate': 4.958820564249344e-06, 'epoch': 0.09} {'loss': 2.5871, 'grad_norm': 1.0604885816574097, 'learning_rate': 4.958742007031334e-06, 'epoch': 0.09} {'loss': 2.1844, 'grad_norm': 1.0388280153274536, 'learning_rate': 4.958663375577104e-06, 'epoch': 0.09} {'loss': 2.4078, 'grad_norm': 1.0665380954742432, 'learning_rate': 4.958584669889028e-06, 'epoch': 0.09} {'loss': 2.3011, 'grad_norm': 1.0188113451004028, 'learning_rate': 4.9585058899694814e-06, 'epoch': 0.09} {'loss': 2.3958, 'grad_norm': 0.9401970505714417, 'learning_rate': 4.958427035820843e-06, 'epoch': 0.09} {'loss': 2.3002, 'grad_norm': 1.1738519668579102, 'learning_rate': 4.958348107445494e-06, 'epoch': 0.09} {'loss': 2.3413, 'grad_norm': 1.0160599946975708, 'learning_rate': 4.958269104845818e-06, 'epoch': 0.09} {'loss': 2.2245, 'grad_norm': 1.0429478883743286, 'learning_rate': 4.958190028024199e-06, 'epoch': 0.09} {'loss': 1.6608, 'grad_norm': 0.7835602164268494, 'learning_rate': 4.958110876983026e-06, 'epoch': 0.09} {'loss': 2.3192, 'grad_norm': 1.061514973640442, 'learning_rate': 4.958031651724687e-06, 'epoch': 0.09} {'loss': 2.3736, 'grad_norm': 1.1347829103469849, 'learning_rate': 4.957952352251576e-06, 'epoch': 0.09} {'loss': 2.1625, 'grad_norm': 1.0647541284561157, 'learning_rate': 4.957872978566087e-06, 'epoch': 0.09} {'loss': 2.2361, 'grad_norm': 0.9151790738105774, 'learning_rate': 4.957793530670615e-06, 'epoch': 0.09} {'loss': 2.3458, 'grad_norm': 1.250340461730957, 'learning_rate': 4.957714008567559e-06, 'epoch': 0.09} {'loss': 2.6657, 'grad_norm': 1.1014546155929565, 'learning_rate': 4.957634412259321e-06, 'epoch': 0.09} {'loss': 2.4369, 'grad_norm': 0.9861351847648621, 'learning_rate': 4.957554741748305e-06, 'epoch': 0.09} {'loss': 2.5287, 'grad_norm': 0.9996386766433716, 'learning_rate': 4.957474997036914e-06, 'epoch': 0.09} {'loss': 2.348, 'grad_norm': 0.9537687301635742, 'learning_rate': 4.9573951781275575e-06, 'epoch': 0.09} {'loss': 2.0845, 'grad_norm': 1.0618668794631958, 'learning_rate': 4.957315285022645e-06, 'epoch': 0.09} {'loss': 2.1804, 'grad_norm': 1.057807207107544, 'learning_rate': 4.957235317724588e-06, 'epoch': 0.09} {'loss': 2.1999, 'grad_norm': 0.9793893694877625, 'learning_rate': 4.957155276235802e-06, 'epoch': 0.09} {'loss': 2.3085, 'grad_norm': 1.0972487926483154, 'learning_rate': 4.957075160558704e-06, 'epoch': 0.09} {'loss': 2.2562, 'grad_norm': 2.310936689376831, 'learning_rate': 4.956994970695712e-06, 'epoch': 0.09} {'loss': 2.3215, 'grad_norm': 1.8515785932540894, 'learning_rate': 4.956914706649246e-06, 'epoch': 0.09} {'loss': 2.2949, 'grad_norm': 0.9569388628005981, 'learning_rate': 4.9568343684217325e-06, 'epoch': 0.09} {'loss': 1.5326, 'grad_norm': 1.075890302658081, 'learning_rate': 4.956753956015594e-06, 'epoch': 0.09} {'loss': 2.3118, 'grad_norm': 0.9892435669898987, 'learning_rate': 4.9566734694332604e-06, 'epoch': 0.09} {'loss': 2.2008, 'grad_norm': 1.394315481185913, 'learning_rate': 4.9565929086771616e-06, 'epoch': 0.09} {'loss': 2.5041, 'grad_norm': 1.2070680856704712, 'learning_rate': 4.956512273749728e-06, 'epoch': 0.09} {'loss': 2.3386, 'grad_norm': 1.5568751096725464, 'learning_rate': 4.956431564653398e-06, 'epoch': 0.09} {'loss': 2.2702, 'grad_norm': 0.926261305809021, 'learning_rate': 4.956350781390604e-06, 'epoch': 0.09} {'loss': 2.4138, 'grad_norm': 1.0699083805084229, 'learning_rate': 4.956269923963788e-06, 'epoch': 0.09} {'loss': 2.3312, 'grad_norm': 0.9699431657791138, 'learning_rate': 4.9561889923753906e-06, 'epoch': 0.09} {'loss': 2.3921, 'grad_norm': 1.1991177797317505, 'learning_rate': 4.956107986627855e-06, 'epoch': 0.09} {'loss': 1.8947, 'grad_norm': 1.1849983930587769, 'learning_rate': 4.9560269067236275e-06, 'epoch': 0.09} {'loss': 2.193, 'grad_norm': 0.9640688896179199, 'learning_rate': 4.9559457526651566e-06, 'epoch': 0.09} {'loss': 2.381, 'grad_norm': 1.068498134613037, 'learning_rate': 4.9558645244548905e-06, 'epoch': 0.09} {'loss': 2.2937, 'grad_norm': 0.9630306363105774, 'learning_rate': 4.955783222095284e-06, 'epoch': 0.09} {'loss': 2.2244, 'grad_norm': 0.9491444826126099, 'learning_rate': 4.955701845588791e-06, 'epoch': 0.09} {'loss': 2.5038, 'grad_norm': 1.047086238861084, 'learning_rate': 4.955620394937868e-06, 'epoch': 0.09} {'loss': 2.1733, 'grad_norm': 1.1465414762496948, 'learning_rate': 4.955538870144974e-06, 'epoch': 0.09} {'loss': 2.2205, 'grad_norm': 1.1305711269378662, 'learning_rate': 4.955457271212571e-06, 'epoch': 0.09} {'loss': 2.407, 'grad_norm': 10.776774406433105, 'learning_rate': 4.955375598143124e-06, 'epoch': 0.09} {'loss': 2.2355, 'grad_norm': 1.152079463005066, 'learning_rate': 4.955293850939096e-06, 'epoch': 0.09} {'loss': 2.4639, 'grad_norm': 1.032520055770874, 'learning_rate': 4.955212029602959e-06, 'epoch': 0.09} {'loss': 2.2825, 'grad_norm': 1.1614201068878174, 'learning_rate': 4.955130134137179e-06, 'epoch': 0.09} {'loss': 2.3736, 'grad_norm': 9.3829984664917, 'learning_rate': 4.955048164544232e-06, 'epoch': 0.09} {'loss': 2.1657, 'grad_norm': 0.9842097163200378, 'learning_rate': 4.954966120826592e-06, 'epoch': 0.09} {'loss': 2.0849, 'grad_norm': 1.2840720415115356, 'learning_rate': 4.954884002986737e-06, 'epoch': 0.09} {'loss': 2.3069, 'grad_norm': 1.6244661808013916, 'learning_rate': 4.954801811027143e-06, 'epoch': 0.09} {'loss': 2.3526, 'grad_norm': 1.2511205673217773, 'learning_rate': 4.954719544950295e-06, 'epoch': 0.09} {'loss': 2.2934, 'grad_norm': 1.004133701324463, 'learning_rate': 4.954637204758675e-06, 'epoch': 0.09} {'loss': 2.3493, 'grad_norm': 0.9755863547325134, 'learning_rate': 4.954554790454771e-06, 'epoch': 0.09} {'loss': 2.2953, 'grad_norm': 1.164946436882019, 'learning_rate': 4.9544723020410695e-06, 'epoch': 0.09} {'loss': 2.193, 'grad_norm': 1.0282413959503174, 'learning_rate': 4.954389739520062e-06, 'epoch': 0.09} {'loss': 2.3295, 'grad_norm': 1.0469257831573486, 'learning_rate': 4.9543071028942405e-06, 'epoch': 0.09} {'loss': 1.7702, 'grad_norm': 1.0027525424957275, 'learning_rate': 4.954224392166101e-06, 'epoch': 0.09} {'loss': 2.3216, 'grad_norm': 1.0576199293136597, 'learning_rate': 4.95414160733814e-06, 'epoch': 0.09} {'loss': 2.3048, 'grad_norm': 1.091983437538147, 'learning_rate': 4.954058748412858e-06, 'epoch': 0.09} {'loss': 2.2796, 'grad_norm': 1.375794768333435, 'learning_rate': 4.953975815392755e-06, 'epoch': 0.09} {'loss': 2.3907, 'grad_norm': 1.1275479793548584, 'learning_rate': 4.953892808280336e-06, 'epoch': 0.09} {'loss': 2.5191, 'grad_norm': 0.9899151921272278, 'learning_rate': 4.953809727078108e-06, 'epoch': 0.09} {'loss': 2.4469, 'grad_norm': 1.0902293920516968, 'learning_rate': 4.953726571788578e-06, 'epoch': 0.09} {'loss': 2.3083, 'grad_norm': 1.140784502029419, 'learning_rate': 4.953643342414257e-06, 'epoch': 0.09} {'loss': 2.3227, 'grad_norm': 1.101956844329834, 'learning_rate': 4.953560038957659e-06, 'epoch': 0.09} {'loss': 2.191, 'grad_norm': 1.2096384763717651, 'learning_rate': 4.953476661421299e-06, 'epoch': 0.09} {'loss': 2.4302, 'grad_norm': 1.170034408569336, 'learning_rate': 4.9533932098076935e-06, 'epoch': 0.09} {'loss': 2.2372, 'grad_norm': 1.2253456115722656, 'learning_rate': 4.953309684119362e-06, 'epoch': 0.09} {'loss': 2.2459, 'grad_norm': 1.0534791946411133, 'learning_rate': 4.9532260843588265e-06, 'epoch': 0.09} {'loss': 2.0874, 'grad_norm': 0.9997828602790833, 'learning_rate': 4.953142410528612e-06, 'epoch': 0.09} {'loss': 2.2832, 'grad_norm': 1.0342515707015991, 'learning_rate': 4.953058662631244e-06, 'epoch': 0.09} {'loss': 2.316, 'grad_norm': 1.0536489486694336, 'learning_rate': 4.952974840669251e-06, 'epoch': 0.09} {'loss': 2.1653, 'grad_norm': 1.1113282442092896, 'learning_rate': 4.952890944645165e-06, 'epoch': 0.09} {'loss': 2.2952, 'grad_norm': 0.96253901720047, 'learning_rate': 4.952806974561518e-06, 'epoch': 0.09} {'loss': 2.2718, 'grad_norm': 1.232043743133545, 'learning_rate': 4.952722930420846e-06, 'epoch': 0.09} {'loss': 2.6271, 'grad_norm': 1.027339220046997, 'learning_rate': 4.9526388122256856e-06, 'epoch': 0.09} {'loss': 2.1693, 'grad_norm': 1.070208191871643, 'learning_rate': 4.952554619978577e-06, 'epoch': 0.09} {'loss': 2.4926, 'grad_norm': 1.5996330976486206, 'learning_rate': 4.952470353682061e-06, 'epoch': 0.09} {'loss': 2.1305, 'grad_norm': 1.0628859996795654, 'learning_rate': 4.952386013338685e-06, 'epoch': 0.09} {'loss': 2.1313, 'grad_norm': 1.0918407440185547, 'learning_rate': 4.952301598950993e-06, 'epoch': 0.09} {'loss': 2.4062, 'grad_norm': 1.1832183599472046, 'learning_rate': 4.952217110521534e-06, 'epoch': 0.09} {'loss': 2.0866, 'grad_norm': 0.9799538254737854, 'learning_rate': 4.952132548052859e-06, 'epoch': 0.09} {'loss': 2.4577, 'grad_norm': 1.0728163719177246, 'learning_rate': 4.952047911547522e-06, 'epoch': 0.09} {'loss': 2.0425, 'grad_norm': 1.0580471754074097, 'learning_rate': 4.9519632010080765e-06, 'epoch': 0.09} {'loss': 2.4083, 'grad_norm': 1.1906814575195312, 'learning_rate': 4.951878416437082e-06, 'epoch': 0.09} {'loss': 2.262, 'grad_norm': 1.040137767791748, 'learning_rate': 4.951793557837098e-06, 'epoch': 0.09} {'loss': 2.2536, 'grad_norm': 1.469665765762329, 'learning_rate': 4.951708625210686e-06, 'epoch': 0.09} {'loss': 2.2682, 'grad_norm': 1.0200997591018677, 'learning_rate': 4.9516236185604115e-06, 'epoch': 0.09} {'loss': 2.392, 'grad_norm': 1.045822262763977, 'learning_rate': 4.951538537888839e-06, 'epoch': 0.09} {'loss': 2.0184, 'grad_norm': 0.9028156995773315, 'learning_rate': 4.95145338319854e-06, 'epoch': 0.09} {'loss': 2.3039, 'grad_norm': 0.9939229488372803, 'learning_rate': 4.951368154492083e-06, 'epoch': 0.09} {'loss': 2.3283, 'grad_norm': 1.1573246717453003, 'learning_rate': 4.9512828517720435e-06, 'epoch': 0.09} {'loss': 2.4557, 'grad_norm': 1.1356160640716553, 'learning_rate': 4.951197475040996e-06, 'epoch': 0.09} {'loss': 2.2512, 'grad_norm': 1.3603020906448364, 'learning_rate': 4.951112024301518e-06, 'epoch': 0.09} {'loss': 2.3796, 'grad_norm': 1.5410436391830444, 'learning_rate': 4.95102649955619e-06, 'epoch': 0.09} {'loss': 2.2622, 'grad_norm': 1.0808476209640503, 'learning_rate': 4.9509409008075934e-06, 'epoch': 0.09} {'loss': 2.1981, 'grad_norm': 1.0631842613220215, 'learning_rate': 4.950855228058313e-06, 'epoch': 0.09} {'loss': 2.2875, 'grad_norm': 1.033604621887207, 'learning_rate': 4.950769481310936e-06, 'epoch': 0.09} {'loss': 2.4262, 'grad_norm': 1.089732050895691, 'learning_rate': 4.950683660568052e-06, 'epoch': 0.09} {'loss': 2.4652, 'grad_norm': 1.0868736505508423, 'learning_rate': 4.9505977658322504e-06, 'epoch': 0.09} {'loss': 2.3041, 'grad_norm': 1.0220608711242676, 'learning_rate': 4.950511797106125e-06, 'epoch': 0.09} {'loss': 2.3992, 'grad_norm': 0.9999760389328003, 'learning_rate': 4.950425754392274e-06, 'epoch': 0.09} {'loss': 2.3228, 'grad_norm': 1.0831005573272705, 'learning_rate': 4.950339637693291e-06, 'epoch': 0.09} {'loss': 2.1657, 'grad_norm': 1.117891788482666, 'learning_rate': 4.950253447011779e-06, 'epoch': 0.09} {'loss': 2.3328, 'grad_norm': 1.136479139328003, 'learning_rate': 4.95016718235034e-06, 'epoch': 0.09} {'loss': 2.3971, 'grad_norm': 1.0672374963760376, 'learning_rate': 4.9500808437115775e-06, 'epoch': 0.09} {'loss': 2.0962, 'grad_norm': 1.0088444948196411, 'learning_rate': 4.949994431098099e-06, 'epoch': 0.09} {'loss': 2.3995, 'grad_norm': 1.1689600944519043, 'learning_rate': 4.949907944512514e-06, 'epoch': 0.09} {'loss': 2.3243, 'grad_norm': 1.145004391670227, 'learning_rate': 4.9498213839574325e-06, 'epoch': 0.09} {'loss': 2.3647, 'grad_norm': 1.1102570295333862, 'learning_rate': 4.94973474943547e-06, 'epoch': 0.09} {'loss': 2.2818, 'grad_norm': 1.1830644607543945, 'learning_rate': 4.94964804094924e-06, 'epoch': 0.09} {'loss': 2.2592, 'grad_norm': 0.9842121601104736, 'learning_rate': 4.949561258501361e-06, 'epoch': 0.09} {'loss': 2.4808, 'grad_norm': 1.0975236892700195, 'learning_rate': 4.949474402094454e-06, 'epoch': 0.09} {'loss': 2.3101, 'grad_norm': 1.018229603767395, 'learning_rate': 4.949387471731142e-06, 'epoch': 0.09} {'loss': 2.3446, 'grad_norm': 1.0171138048171997, 'learning_rate': 4.949300467414049e-06, 'epoch': 0.09} {'loss': 2.4478, 'grad_norm': 1.1310986280441284, 'learning_rate': 4.949213389145801e-06, 'epoch': 0.09} {'loss': 2.3096, 'grad_norm': 0.9898760914802551, 'learning_rate': 4.949126236929027e-06, 'epoch': 0.09} {'loss': 2.4148, 'grad_norm': 1.0996556282043457, 'learning_rate': 4.94903901076636e-06, 'epoch': 0.09} {'loss': 1.6594, 'grad_norm': 1.2774583101272583, 'learning_rate': 4.948951710660432e-06, 'epoch': 0.09} {'loss': 2.1715, 'grad_norm': 1.0694501399993896, 'learning_rate': 4.948864336613881e-06, 'epoch': 0.09} {'loss': 2.4923, 'grad_norm': 1.0541152954101562, 'learning_rate': 4.948776888629343e-06, 'epoch': 0.09} {'loss': 2.19, 'grad_norm': 0.9381615519523621, 'learning_rate': 4.948689366709459e-06, 'epoch': 0.09} {'loss': 2.3973, 'grad_norm': 1.3243545293807983, 'learning_rate': 4.948601770856871e-06, 'epoch': 0.09} {'loss': 2.134, 'grad_norm': 1.1936115026474, 'learning_rate': 4.948514101074225e-06, 'epoch': 0.09} {'loss': 2.2175, 'grad_norm': 1.2958829402923584, 'learning_rate': 4.948426357364166e-06, 'epoch': 0.09} {'loss': 2.3002, 'grad_norm': 1.3500028848648071, 'learning_rate': 4.948338539729346e-06, 'epoch': 0.09} {'loss': 2.2178, 'grad_norm': 0.9945364594459534, 'learning_rate': 4.948250648172415e-06, 'epoch': 0.09} {'loss': 2.357, 'grad_norm': 1.2498462200164795, 'learning_rate': 4.948162682696026e-06, 'epoch': 0.09} {'loss': 1.5793, 'grad_norm': 1.1835029125213623, 'learning_rate': 4.948074643302835e-06, 'epoch': 0.09} {'loss': 1.4786, 'grad_norm': 0.9677000641822815, 'learning_rate': 4.947986529995501e-06, 'epoch': 0.09} {'loss': 2.3803, 'grad_norm': 1.1027590036392212, 'learning_rate': 4.947898342776685e-06, 'epoch': 0.09} {'loss': 2.2293, 'grad_norm': 1.6241215467453003, 'learning_rate': 4.947810081649048e-06, 'epoch': 0.09} {'loss': 2.555, 'grad_norm': 1.0730262994766235, 'learning_rate': 4.947721746615256e-06, 'epoch': 0.09} {'loss': 2.334, 'grad_norm': 6.772916793823242, 'learning_rate': 4.9476333376779745e-06, 'epoch': 0.09} {'loss': 2.283, 'grad_norm': 1.1642218828201294, 'learning_rate': 4.947544854839875e-06, 'epoch': 0.09} {'loss': 2.6901, 'grad_norm': 1.220048427581787, 'learning_rate': 4.947456298103627e-06, 'epoch': 0.09} {'loss': 2.2687, 'grad_norm': 1.0343363285064697, 'learning_rate': 4.947367667471907e-06, 'epoch': 0.09} {'loss': 2.1069, 'grad_norm': 1.0181132555007935, 'learning_rate': 4.9472789629473875e-06, 'epoch': 0.09} {'loss': 2.2887, 'grad_norm': 0.9533340930938721, 'learning_rate': 4.947190184532749e-06, 'epoch': 0.09} {'loss': 2.2671, 'grad_norm': 1.0199658870697021, 'learning_rate': 4.947101332230671e-06, 'epoch': 0.09} {'loss': 2.5089, 'grad_norm': 1.2576285600662231, 'learning_rate': 4.947012406043837e-06, 'epoch': 0.09} {'loss': 2.3635, 'grad_norm': 1.522181510925293, 'learning_rate': 4.9469234059749325e-06, 'epoch': 0.09} {'loss': 2.3087, 'grad_norm': 1.002143144607544, 'learning_rate': 4.946834332026643e-06, 'epoch': 0.09} {'loss': 2.2812, 'grad_norm': 1.1013399362564087, 'learning_rate': 4.946745184201659e-06, 'epoch': 0.09} {'loss': 2.2395, 'grad_norm': 0.9937084317207336, 'learning_rate': 4.946655962502671e-06, 'epoch': 0.09} {'loss': 2.1548, 'grad_norm': 1.0199317932128906, 'learning_rate': 4.946566666932374e-06, 'epoch': 0.09} {'loss': 2.1739, 'grad_norm': 1.004987120628357, 'learning_rate': 4.946477297493464e-06, 'epoch': 0.09} {'loss': 2.2052, 'grad_norm': 1.0001802444458008, 'learning_rate': 4.946387854188638e-06, 'epoch': 0.09} {'loss': 2.0537, 'grad_norm': 1.0096222162246704, 'learning_rate': 4.946298337020599e-06, 'epoch': 0.09} {'loss': 2.2358, 'grad_norm': 1.0804417133331299, 'learning_rate': 4.9462087459920476e-06, 'epoch': 0.09} {'loss': 2.1773, 'grad_norm': 0.9764360785484314, 'learning_rate': 4.9461190811056886e-06, 'epoch': 0.09} {'loss': 2.0455, 'grad_norm': 1.0284818410873413, 'learning_rate': 4.9460293423642315e-06, 'epoch': 0.09} {'loss': 2.2671, 'grad_norm': 1.0948991775512695, 'learning_rate': 4.945939529770383e-06, 'epoch': 0.09} {'loss': 2.2466, 'grad_norm': 0.9731478095054626, 'learning_rate': 4.945849643326857e-06, 'epoch': 0.09} {'loss': 2.0396, 'grad_norm': 1.0813003778457642, 'learning_rate': 4.945759683036367e-06, 'epoch': 0.09} {'loss': 2.034, 'grad_norm': 1.5196201801300049, 'learning_rate': 4.945669648901628e-06, 'epoch': 0.09} {'loss': 2.1557, 'grad_norm': 1.1343860626220703, 'learning_rate': 4.945579540925359e-06, 'epoch': 0.09} {'loss': 2.5308, 'grad_norm': 1.2273834943771362, 'learning_rate': 4.9454893591102815e-06, 'epoch': 0.09} {'loss': 2.7067, 'grad_norm': 1.316330909729004, 'learning_rate': 4.945399103459117e-06, 'epoch': 0.1} {'loss': 2.2812, 'grad_norm': 4.036048889160156, 'learning_rate': 4.945308773974592e-06, 'epoch': 0.1} {'loss': 2.3493, 'grad_norm': 1.1160069704055786, 'learning_rate': 4.945218370659433e-06, 'epoch': 0.1} {'loss': 2.2586, 'grad_norm': 0.9403936266899109, 'learning_rate': 4.945127893516368e-06, 'epoch': 0.1} {'loss': 2.41, 'grad_norm': 1.2135741710662842, 'learning_rate': 4.945037342548131e-06, 'epoch': 0.1} {'loss': 2.1145, 'grad_norm': 0.9958726763725281, 'learning_rate': 4.944946717757455e-06, 'epoch': 0.1} {'loss': 2.2265, 'grad_norm': 0.9738193154335022, 'learning_rate': 4.944856019147078e-06, 'epoch': 0.1} {'loss': 1.6814, 'grad_norm': 0.9824439287185669, 'learning_rate': 4.944765246719735e-06, 'epoch': 0.1} {'loss': 2.2942, 'grad_norm': 1.069852590560913, 'learning_rate': 4.9446744004781685e-06, 'epoch': 0.1} {'loss': 2.2711, 'grad_norm': 1.1017260551452637, 'learning_rate': 4.944583480425123e-06, 'epoch': 0.1} {'loss': 2.2792, 'grad_norm': 1.0956183671951294, 'learning_rate': 4.94449248656334e-06, 'epoch': 0.1} {'loss': 2.439, 'grad_norm': 1.3162893056869507, 'learning_rate': 4.94440141889557e-06, 'epoch': 0.1} {'loss': 2.2786, 'grad_norm': 1.1342337131500244, 'learning_rate': 4.944310277424562e-06, 'epoch': 0.1} {'loss': 2.3417, 'grad_norm': 1.0669126510620117, 'learning_rate': 4.944219062153066e-06, 'epoch': 0.1} {'loss': 2.3123, 'grad_norm': 0.9310864210128784, 'learning_rate': 4.944127773083839e-06, 'epoch': 0.1} {'loss': 2.283, 'grad_norm': 0.9087014198303223, 'learning_rate': 4.944036410219635e-06, 'epoch': 0.1} {'loss': 2.3887, 'grad_norm': 1.1928151845932007, 'learning_rate': 4.943944973563212e-06, 'epoch': 0.1} {'loss': 1.9903, 'grad_norm': 1.0142813920974731, 'learning_rate': 4.943853463117333e-06, 'epoch': 0.1} {'loss': 2.6434, 'grad_norm': 0.969001293182373, 'learning_rate': 4.94376187888476e-06, 'epoch': 0.1} {'loss': 2.3612, 'grad_norm': 1.0098637342453003, 'learning_rate': 4.943670220868258e-06, 'epoch': 0.1} {'loss': 2.3741, 'grad_norm': 1.0917390584945679, 'learning_rate': 4.943578489070593e-06, 'epoch': 0.1} {'loss': 2.422, 'grad_norm': 1.5210977792739868, 'learning_rate': 4.943486683494537e-06, 'epoch': 0.1} {'loss': 2.3609, 'grad_norm': 1.3402745723724365, 'learning_rate': 4.943394804142861e-06, 'epoch': 0.1} {'loss': 2.1588, 'grad_norm': 1.1966967582702637, 'learning_rate': 4.943302851018339e-06, 'epoch': 0.1} {'loss': 2.3092, 'grad_norm': 1.168697476387024, 'learning_rate': 4.943210824123746e-06, 'epoch': 0.1} {'loss': 2.3025, 'grad_norm': 2.0943479537963867, 'learning_rate': 4.943118723461864e-06, 'epoch': 0.1} {'loss': 2.3494, 'grad_norm': 1.0429822206497192, 'learning_rate': 4.94302654903547e-06, 'epoch': 0.1} {'loss': 2.1772, 'grad_norm': 1.0660500526428223, 'learning_rate': 4.94293430084735e-06, 'epoch': 0.1} {'loss': 2.3166, 'grad_norm': 0.9309167861938477, 'learning_rate': 4.942841978900287e-06, 'epoch': 0.1} {'loss': 2.3415, 'grad_norm': 1.264136791229248, 'learning_rate': 4.942749583197069e-06, 'epoch': 0.1} {'loss': 2.2775, 'grad_norm': 1.0385442972183228, 'learning_rate': 4.942657113740486e-06, 'epoch': 0.1} {'loss': 2.062, 'grad_norm': 0.9580645561218262, 'learning_rate': 4.94256457053333e-06, 'epoch': 0.1} {'loss': 2.2797, 'grad_norm': 0.9761534333229065, 'learning_rate': 4.942471953578396e-06, 'epoch': 0.1} {'loss': 2.3796, 'grad_norm': 1.1233505010604858, 'learning_rate': 4.942379262878478e-06, 'epoch': 0.1} {'loss': 2.1946, 'grad_norm': 1.0904690027236938, 'learning_rate': 4.942286498436377e-06, 'epoch': 0.1} {'loss': 2.1587, 'grad_norm': 1.2603479623794556, 'learning_rate': 4.942193660254893e-06, 'epoch': 0.1} {'loss': 2.3472, 'grad_norm': 1.2668986320495605, 'learning_rate': 4.942100748336828e-06, 'epoch': 0.1} {'loss': 2.6664, 'grad_norm': 1.2179588079452515, 'learning_rate': 4.942007762684988e-06, 'epoch': 0.1} {'loss': 2.4886, 'grad_norm': 3.2700676918029785, 'learning_rate': 4.941914703302181e-06, 'epoch': 0.1} {'loss': 2.4749, 'grad_norm': 1.0173689126968384, 'learning_rate': 4.941821570191217e-06, 'epoch': 0.1} {'loss': 2.2142, 'grad_norm': 1.240060806274414, 'learning_rate': 4.941728363354906e-06, 'epoch': 0.1} {'loss': 2.2299, 'grad_norm': 1.0010547637939453, 'learning_rate': 4.941635082796065e-06, 'epoch': 0.1} {'loss': 2.4874, 'grad_norm': 1.383365273475647, 'learning_rate': 4.941541728517507e-06, 'epoch': 0.1} {'loss': 2.2708, 'grad_norm': 1.5537402629852295, 'learning_rate': 4.941448300522054e-06, 'epoch': 0.1} {'loss': 2.2645, 'grad_norm': 1.1356617212295532, 'learning_rate': 4.941354798812524e-06, 'epoch': 0.1} {'loss': 2.2893, 'grad_norm': 1.0561602115631104, 'learning_rate': 4.941261223391743e-06, 'epoch': 0.1} {'loss': 2.2233, 'grad_norm': 1.0381650924682617, 'learning_rate': 4.941167574262533e-06, 'epoch': 0.1} {'loss': 2.0981, 'grad_norm': 1.0750852823257446, 'learning_rate': 4.941073851427725e-06, 'epoch': 0.1} {'loss': 2.3254, 'grad_norm': 1.0661476850509644, 'learning_rate': 4.940980054890146e-06, 'epoch': 0.1} {'loss': 2.1913, 'grad_norm': 2.4237892627716064, 'learning_rate': 4.940886184652628e-06, 'epoch': 0.1} {'loss': 2.2936, 'grad_norm': 1.1221319437026978, 'learning_rate': 4.940792240718007e-06, 'epoch': 0.1} {'loss': 2.2268, 'grad_norm': 1.2436867952346802, 'learning_rate': 4.940698223089119e-06, 'epoch': 0.1} {'loss': 2.1855, 'grad_norm': 1.1578826904296875, 'learning_rate': 4.9406041317688014e-06, 'epoch': 0.1} {'loss': 2.417, 'grad_norm': 1.3151758909225464, 'learning_rate': 4.9405099667598965e-06, 'epoch': 0.1} {'loss': 2.5327, 'grad_norm': 1.1388425827026367, 'learning_rate': 4.9404157280652466e-06, 'epoch': 0.1} {'loss': 2.1574, 'grad_norm': 0.9641751646995544, 'learning_rate': 4.940321415687697e-06, 'epoch': 0.1} {'loss': 2.4034, 'grad_norm': 1.0384544134140015, 'learning_rate': 4.940227029630096e-06, 'epoch': 0.1} {'loss': 2.4003, 'grad_norm': 1.4834786653518677, 'learning_rate': 4.940132569895292e-06, 'epoch': 0.1} {'loss': 2.2569, 'grad_norm': 1.011629581451416, 'learning_rate': 4.940038036486139e-06, 'epoch': 0.1} {'loss': 2.3708, 'grad_norm': 1.2222284078598022, 'learning_rate': 4.93994342940549e-06, 'epoch': 0.1} {'loss': 2.4804, 'grad_norm': 1.1567062139511108, 'learning_rate': 4.939848748656201e-06, 'epoch': 0.1} {'loss': 2.2564, 'grad_norm': 1.0491682291030884, 'learning_rate': 4.93975399424113e-06, 'epoch': 0.1} {'loss': 2.8533, 'grad_norm': 1.2224682569503784, 'learning_rate': 4.939659166163141e-06, 'epoch': 0.1} {'loss': 2.6133, 'grad_norm': 1.135331630706787, 'learning_rate': 4.939564264425094e-06, 'epoch': 0.1} {'loss': 2.508, 'grad_norm': 1.3518239259719849, 'learning_rate': 4.939469289029857e-06, 'epoch': 0.1} {'loss': 2.3498, 'grad_norm': 1.1037099361419678, 'learning_rate': 4.939374239980295e-06, 'epoch': 0.1} {'loss': 2.5604, 'grad_norm': 1.0083069801330566, 'learning_rate': 4.9392791172792784e-06, 'epoch': 0.1} {'loss': 2.118, 'grad_norm': 0.9932397603988647, 'learning_rate': 4.939183920929681e-06, 'epoch': 0.1} {'loss': 2.3314, 'grad_norm': 1.0175913572311401, 'learning_rate': 4.9390886509343756e-06, 'epoch': 0.1} {'loss': 2.1229, 'grad_norm': 1.057472586631775, 'learning_rate': 4.938993307296238e-06, 'epoch': 0.1} {'loss': 2.4538, 'grad_norm': 1.3059980869293213, 'learning_rate': 4.9388978900181486e-06, 'epoch': 0.1} {'loss': 2.3827, 'grad_norm': 0.9771423935890198, 'learning_rate': 4.938802399102987e-06, 'epoch': 0.1} {'loss': 2.2894, 'grad_norm': 0.9960698485374451, 'learning_rate': 4.938706834553637e-06, 'epoch': 0.1} {'loss': 2.1061, 'grad_norm': 1.1310608386993408, 'learning_rate': 4.938611196372984e-06, 'epoch': 0.1} {'loss': 2.3323, 'grad_norm': 0.985736608505249, 'learning_rate': 4.938515484563915e-06, 'epoch': 0.1} {'loss': 2.3304, 'grad_norm': 1.3505454063415527, 'learning_rate': 4.93841969912932e-06, 'epoch': 0.1} {'loss': 2.378, 'grad_norm': 1.1021395921707153, 'learning_rate': 4.9383238400720925e-06, 'epoch': 0.1} {'loss': 2.2652, 'grad_norm': 1.4619157314300537, 'learning_rate': 4.938227907395123e-06, 'epoch': 0.1} {'loss': 2.4661, 'grad_norm': 1.2272729873657227, 'learning_rate': 4.9381319011013125e-06, 'epoch': 0.1} {'loss': 2.4801, 'grad_norm': 1.2520153522491455, 'learning_rate': 4.9380358211935566e-06, 'epoch': 0.1} {'loss': 2.348, 'grad_norm': 2.0115866661071777, 'learning_rate': 4.937939667674757e-06, 'epoch': 0.1} {'loss': 2.2388, 'grad_norm': 1.3581775426864624, 'learning_rate': 4.937843440547818e-06, 'epoch': 0.1} {'loss': 2.4461, 'grad_norm': 1.0846054553985596, 'learning_rate': 4.937747139815643e-06, 'epoch': 0.1} {'loss': 2.3485, 'grad_norm': 1.0130946636199951, 'learning_rate': 4.937650765481141e-06, 'epoch': 0.1} {'loss': 2.338, 'grad_norm': 1.190429925918579, 'learning_rate': 4.9375543175472216e-06, 'epoch': 0.1} {'loss': 2.424, 'grad_norm': 1.199324369430542, 'learning_rate': 4.937457796016797e-06, 'epoch': 0.1} {'loss': 1.8118, 'grad_norm': 0.9469640254974365, 'learning_rate': 4.93736120089278e-06, 'epoch': 0.1} {'loss': 2.2803, 'grad_norm': 1.030418038368225, 'learning_rate': 4.9372645321780885e-06, 'epoch': 0.1} {'loss': 2.41, 'grad_norm': 1.013992428779602, 'learning_rate': 4.937167789875641e-06, 'epoch': 0.1} {'loss': 2.3248, 'grad_norm': 0.9556620121002197, 'learning_rate': 4.937070973988358e-06, 'epoch': 0.1} {'loss': 2.4167, 'grad_norm': 1.1075009107589722, 'learning_rate': 4.936974084519164e-06, 'epoch': 0.1} {'loss': 2.1338, 'grad_norm': 1.0543617010116577, 'learning_rate': 4.936877121470982e-06, 'epoch': 0.1} {'loss': 2.3586, 'grad_norm': 1.0831676721572876, 'learning_rate': 4.936780084846741e-06, 'epoch': 0.1} {'loss': 2.3999, 'grad_norm': 1.0894944667816162, 'learning_rate': 4.936682974649371e-06, 'epoch': 0.1} {'loss': 2.4621, 'grad_norm': 1.329052209854126, 'learning_rate': 4.9365857908818034e-06, 'epoch': 0.1} {'loss': 2.4173, 'grad_norm': 0.9984211325645447, 'learning_rate': 4.936488533546974e-06, 'epoch': 0.1} {'loss': 2.1486, 'grad_norm': 1.033639907836914, 'learning_rate': 4.936391202647816e-06, 'epoch': 0.1} {'loss': 2.1526, 'grad_norm': 1.1027116775512695, 'learning_rate': 4.936293798187272e-06, 'epoch': 0.1} {'loss': 2.1665, 'grad_norm': 1.2518665790557861, 'learning_rate': 4.93619632016828e-06, 'epoch': 0.1} {'loss': 2.302, 'grad_norm': 1.0929193496704102, 'learning_rate': 4.9360987685937835e-06, 'epoch': 0.1} {'loss': 2.0748, 'grad_norm': 1.1017314195632935, 'learning_rate': 4.936001143466729e-06, 'epoch': 0.1} {'loss': 2.3387, 'grad_norm': 1.0110530853271484, 'learning_rate': 4.935903444790063e-06, 'epoch': 0.1} {'loss': 2.2271, 'grad_norm': 1.0448200702667236, 'learning_rate': 4.935805672566737e-06, 'epoch': 0.1} {'loss': 2.4846, 'grad_norm': 1.0159937143325806, 'learning_rate': 4.935707826799702e-06, 'epoch': 0.1} {'loss': 2.1506, 'grad_norm': 1.311103343963623, 'learning_rate': 4.93560990749191e-06, 'epoch': 0.1} {'loss': 2.2024, 'grad_norm': 1.0946451425552368, 'learning_rate': 4.935511914646321e-06, 'epoch': 0.1} {'loss': 2.3616, 'grad_norm': 1.112795352935791, 'learning_rate': 4.9354138482658934e-06, 'epoch': 0.1} {'loss': 2.2085, 'grad_norm': 3.6566877365112305, 'learning_rate': 4.935315708353585e-06, 'epoch': 0.1} {'loss': 2.4051, 'grad_norm': 1.154276967048645, 'learning_rate': 4.935217494912362e-06, 'epoch': 0.1} {'loss': 2.204, 'grad_norm': 1.085336685180664, 'learning_rate': 4.935119207945188e-06, 'epoch': 0.1} {'loss': 2.7957, 'grad_norm': 1.0241410732269287, 'learning_rate': 4.935020847455031e-06, 'epoch': 0.1} {'loss': 1.8139, 'grad_norm': 1.4265036582946777, 'learning_rate': 4.9349224134448616e-06, 'epoch': 0.1} {'loss': 2.465, 'grad_norm': 1.04610013961792, 'learning_rate': 4.93482390591765e-06, 'epoch': 0.1} {'loss': 2.3437, 'grad_norm': 0.9944731593132019, 'learning_rate': 4.934725324876372e-06, 'epoch': 0.1} {'loss': 2.3373, 'grad_norm': 1.1450241804122925, 'learning_rate': 4.934626670324003e-06, 'epoch': 0.1} {'loss': 2.1985, 'grad_norm': 0.9581221342086792, 'learning_rate': 4.934527942263524e-06, 'epoch': 0.1} {'loss': 2.3517, 'grad_norm': 1.0833932161331177, 'learning_rate': 4.934429140697913e-06, 'epoch': 0.1} {'loss': 2.4213, 'grad_norm': 1.4144988059997559, 'learning_rate': 4.934330265630153e-06, 'epoch': 0.1} {'loss': 2.2352, 'grad_norm': 1.1171783208847046, 'learning_rate': 4.934231317063232e-06, 'epoch': 0.1} {'loss': 2.4924, 'grad_norm': 4.830934524536133, 'learning_rate': 4.934132295000136e-06, 'epoch': 0.1} {'loss': 2.3649, 'grad_norm': 1.2319527864456177, 'learning_rate': 4.934033199443854e-06, 'epoch': 0.1} {'loss': 2.6161, 'grad_norm': 1.0994936227798462, 'learning_rate': 4.933934030397379e-06, 'epoch': 0.1} {'loss': 2.3718, 'grad_norm': 1.039217472076416, 'learning_rate': 4.9338347878637044e-06, 'epoch': 0.1} {'loss': 1.7425, 'grad_norm': 1.1979058980941772, 'learning_rate': 4.933735471845827e-06, 'epoch': 0.1} {'loss': 2.371, 'grad_norm': 1.2812947034835815, 'learning_rate': 4.933636082346746e-06, 'epoch': 0.1} {'loss': 1.9442, 'grad_norm': 1.1178780794143677, 'learning_rate': 4.9335366193694625e-06, 'epoch': 0.1} {'loss': 2.2253, 'grad_norm': 1.063353419303894, 'learning_rate': 4.933437082916979e-06, 'epoch': 0.1} {'loss': 2.1623, 'grad_norm': 1.1093535423278809, 'learning_rate': 4.933337472992299e-06, 'epoch': 0.1} {'loss': 2.2017, 'grad_norm': 0.9737566709518433, 'learning_rate': 4.933237789598433e-06, 'epoch': 0.1} {'loss': 2.3247, 'grad_norm': 1.0472688674926758, 'learning_rate': 4.933138032738388e-06, 'epoch': 0.1} {'loss': 2.3406, 'grad_norm': 1.1580147743225098, 'learning_rate': 4.9330382024151795e-06, 'epoch': 0.1} {'loss': 2.4166, 'grad_norm': 0.9940545558929443, 'learning_rate': 4.932938298631818e-06, 'epoch': 0.1} {'loss': 2.2958, 'grad_norm': 1.0722543001174927, 'learning_rate': 4.932838321391321e-06, 'epoch': 0.1} {'loss': 2.3119, 'grad_norm': 1.3596563339233398, 'learning_rate': 4.932738270696708e-06, 'epoch': 0.1} {'loss': 2.4007, 'grad_norm': 2.106581687927246, 'learning_rate': 4.932638146550998e-06, 'epoch': 0.1} {'loss': 2.4845, 'grad_norm': 1.0810281038284302, 'learning_rate': 4.9325379489572165e-06, 'epoch': 0.1} {'loss': 2.2538, 'grad_norm': 0.9764095544815063, 'learning_rate': 4.932437677918387e-06, 'epoch': 0.1} {'loss': 2.1681, 'grad_norm': 1.1815199851989746, 'learning_rate': 4.932337333437538e-06, 'epoch': 0.1} {'loss': 2.055, 'grad_norm': 1.2199777364730835, 'learning_rate': 4.932236915517697e-06, 'epoch': 0.1} {'loss': 2.4388, 'grad_norm': 1.1175533533096313, 'learning_rate': 4.9321364241619e-06, 'epoch': 0.1} {'loss': 2.2443, 'grad_norm': 1.08524489402771, 'learning_rate': 4.932035859373177e-06, 'epoch': 0.1} {'loss': 2.1838, 'grad_norm': 1.004044532775879, 'learning_rate': 4.931935221154566e-06, 'epoch': 0.1} {'loss': 2.4456, 'grad_norm': 0.9978200793266296, 'learning_rate': 4.931834509509105e-06, 'epoch': 0.1} {'loss': 2.2105, 'grad_norm': 1.1172590255737305, 'learning_rate': 4.931733724439837e-06, 'epoch': 0.1} {'loss': 2.1631, 'grad_norm': 1.3385688066482544, 'learning_rate': 4.931632865949801e-06, 'epoch': 0.1} {'loss': 2.3465, 'grad_norm': 0.9395245909690857, 'learning_rate': 4.931531934042047e-06, 'epoch': 0.1} {'loss': 2.2796, 'grad_norm': 1.017091989517212, 'learning_rate': 4.9314309287196175e-06, 'epoch': 0.1} {'loss': 2.4611, 'grad_norm': 1.107131838798523, 'learning_rate': 4.931329849985566e-06, 'epoch': 0.1} {'loss': 2.2878, 'grad_norm': 1.0355887413024902, 'learning_rate': 4.9312286978429415e-06, 'epoch': 0.1} {'loss': 2.1973, 'grad_norm': 1.1842552423477173, 'learning_rate': 4.9311274722948e-06, 'epoch': 0.1} {'loss': 2.2489, 'grad_norm': 1.0049989223480225, 'learning_rate': 4.931026173344198e-06, 'epoch': 0.1} {'loss': 2.4495, 'grad_norm': 1.1443963050842285, 'learning_rate': 4.930924800994192e-06, 'epoch': 0.1} {'loss': 2.212, 'grad_norm': 1.4274924993515015, 'learning_rate': 4.930823355247844e-06, 'epoch': 0.1} {'loss': 2.2976, 'grad_norm': 7.714043140411377, 'learning_rate': 4.930721836108217e-06, 'epoch': 0.1} {'loss': 2.2925, 'grad_norm': 1.056976318359375, 'learning_rate': 4.930620243578376e-06, 'epoch': 0.1} {'loss': 2.0442, 'grad_norm': 0.9453772902488708, 'learning_rate': 4.930518577661388e-06, 'epoch': 0.1} {'loss': 2.2092, 'grad_norm': 1.0958707332611084, 'learning_rate': 4.930416838360323e-06, 'epoch': 0.1} {'loss': 2.35, 'grad_norm': 1.2005515098571777, 'learning_rate': 4.930315025678253e-06, 'epoch': 0.1} {'loss': 2.2942, 'grad_norm': 1.1472572088241577, 'learning_rate': 4.930213139618252e-06, 'epoch': 0.1} {'loss': 2.1626, 'grad_norm': 1.045853853225708, 'learning_rate': 4.930111180183395e-06, 'epoch': 0.1} {'loss': 2.3185, 'grad_norm': 1.09354567527771, 'learning_rate': 4.930009147376762e-06, 'epoch': 0.1} {'loss': 2.2059, 'grad_norm': 2.403632879257202, 'learning_rate': 4.9299070412014325e-06, 'epoch': 0.1} {'loss': 2.4014, 'grad_norm': 1.2445405721664429, 'learning_rate': 4.9298048616604896e-06, 'epoch': 0.1} {'loss': 2.5393, 'grad_norm': 1.114967703819275, 'learning_rate': 4.929702608757019e-06, 'epoch': 0.1} {'loss': 2.4063, 'grad_norm': 1.0352331399917603, 'learning_rate': 4.929600282494108e-06, 'epoch': 0.1} {'loss': 2.1798, 'grad_norm': 0.9813822507858276, 'learning_rate': 4.929497882874845e-06, 'epoch': 0.1} {'loss': 2.5353, 'grad_norm': 1.2553036212921143, 'learning_rate': 4.929395409902323e-06, 'epoch': 0.1} {'loss': 2.2866, 'grad_norm': 1.0444730520248413, 'learning_rate': 4.929292863579635e-06, 'epoch': 0.1} {'loss': 2.3918, 'grad_norm': 1.1428064107894897, 'learning_rate': 4.929190243909878e-06, 'epoch': 0.1} {'loss': 2.2525, 'grad_norm': 1.1962543725967407, 'learning_rate': 4.92908755089615e-06, 'epoch': 0.1} {'loss': 2.478, 'grad_norm': 1.271498441696167, 'learning_rate': 4.928984784541552e-06, 'epoch': 0.1} {'loss': 2.5222, 'grad_norm': 1.0881752967834473, 'learning_rate': 4.928881944849185e-06, 'epoch': 0.1} {'loss': 2.366, 'grad_norm': 1.0832735300064087, 'learning_rate': 4.9287790318221564e-06, 'epoch': 0.1} {'loss': 2.3721, 'grad_norm': 3.5342414379119873, 'learning_rate': 4.928676045463572e-06, 'epoch': 0.1} {'loss': 2.2232, 'grad_norm': 1.0153589248657227, 'learning_rate': 4.9285729857765415e-06, 'epoch': 0.1} {'loss': 2.2672, 'grad_norm': 1.118100881576538, 'learning_rate': 4.928469852764176e-06, 'epoch': 0.1} {'loss': 2.3697, 'grad_norm': 1.0871555805206299, 'learning_rate': 4.928366646429591e-06, 'epoch': 0.1} {'loss': 2.0967, 'grad_norm': 1.074065923690796, 'learning_rate': 4.928263366775902e-06, 'epoch': 0.1} {'loss': 2.2788, 'grad_norm': 1.1531176567077637, 'learning_rate': 4.928160013806226e-06, 'epoch': 0.1} {'loss': 2.2864, 'grad_norm': 1.138756275177002, 'learning_rate': 4.9280565875236845e-06, 'epoch': 0.1} {'loss': 2.2341, 'grad_norm': 1.1232471466064453, 'learning_rate': 4.927953087931401e-06, 'epoch': 0.1} {'loss': 2.3101, 'grad_norm': 1.1913272142410278, 'learning_rate': 4.927849515032499e-06, 'epoch': 0.1} {'loss': 2.2592, 'grad_norm': 1.4608371257781982, 'learning_rate': 4.927745868830105e-06, 'epoch': 0.1} {'loss': 2.2051, 'grad_norm': 1.4135850667953491, 'learning_rate': 4.9276421493273515e-06, 'epoch': 0.1} {'loss': 2.036, 'grad_norm': 0.9767780303955078, 'learning_rate': 4.9275383565273674e-06, 'epoch': 0.1} {'loss': 2.5222, 'grad_norm': 1.2478094100952148, 'learning_rate': 4.927434490433288e-06, 'epoch': 0.1} {'loss': 2.357, 'grad_norm': 1.1460052728652954, 'learning_rate': 4.927330551048248e-06, 'epoch': 0.1} {'loss': 2.3932, 'grad_norm': 1.182121992111206, 'learning_rate': 4.927226538375386e-06, 'epoch': 0.11} {'loss': 2.1304, 'grad_norm': 1.0653690099716187, 'learning_rate': 4.9271224524178426e-06, 'epoch': 0.11} {'loss': 2.2088, 'grad_norm': 1.0397404432296753, 'learning_rate': 4.927018293178761e-06, 'epoch': 0.11} {'loss': 2.2125, 'grad_norm': 0.9816562533378601, 'learning_rate': 4.926914060661285e-06, 'epoch': 0.11} {'loss': 2.4095, 'grad_norm': 1.1414966583251953, 'learning_rate': 4.926809754868562e-06, 'epoch': 0.11} {'loss': 2.1286, 'grad_norm': 1.167049527168274, 'learning_rate': 4.926705375803742e-06, 'epoch': 0.11} {'loss': 2.2912, 'grad_norm': 1.0355244874954224, 'learning_rate': 4.926600923469977e-06, 'epoch': 0.11} {'loss': 2.5648, 'grad_norm': 1.4339945316314697, 'learning_rate': 4.926496397870418e-06, 'epoch': 0.11} {'loss': 2.4167, 'grad_norm': 1.3985776901245117, 'learning_rate': 4.926391799008223e-06, 'epoch': 0.11} {'loss': 2.2605, 'grad_norm': 1.1102783679962158, 'learning_rate': 4.926287126886551e-06, 'epoch': 0.11} {'loss': 2.4972, 'grad_norm': 1.1157299280166626, 'learning_rate': 4.926182381508559e-06, 'epoch': 0.11} {'loss': 2.4844, 'grad_norm': 1.1610889434814453, 'learning_rate': 4.926077562877413e-06, 'epoch': 0.11} {'loss': 2.2345, 'grad_norm': 0.9723529815673828, 'learning_rate': 4.925972670996276e-06, 'epoch': 0.11} {'loss': 1.9923, 'grad_norm': 1.03019380569458, 'learning_rate': 4.925867705868316e-06, 'epoch': 0.11} {'loss': 2.1057, 'grad_norm': 1.1678401231765747, 'learning_rate': 4.925762667496701e-06, 'epoch': 0.11} {'loss': 2.0989, 'grad_norm': 1.1231210231781006, 'learning_rate': 4.925657555884603e-06, 'epoch': 0.11} {'loss': 2.4159, 'grad_norm': 1.1615835428237915, 'learning_rate': 4.925552371035195e-06, 'epoch': 0.11} {'loss': 2.4731, 'grad_norm': 1.2831733226776123, 'learning_rate': 4.925447112951654e-06, 'epoch': 0.11} {'loss': 2.2235, 'grad_norm': 0.980715811252594, 'learning_rate': 4.925341781637158e-06, 'epoch': 0.11} {'loss': 2.125, 'grad_norm': 1.0056291818618774, 'learning_rate': 4.9252363770948855e-06, 'epoch': 0.11} {'loss': 2.2584, 'grad_norm': 1.4800682067871094, 'learning_rate': 4.92513089932802e-06, 'epoch': 0.11} {'loss': 2.0517, 'grad_norm': 1.5279347896575928, 'learning_rate': 4.925025348339747e-06, 'epoch': 0.11} {'loss': 2.5768, 'grad_norm': 1.0320872068405151, 'learning_rate': 4.924919724133253e-06, 'epoch': 0.11} {'loss': 2.2437, 'grad_norm': 1.095285415649414, 'learning_rate': 4.924814026711726e-06, 'epoch': 0.11} {'loss': 2.0973, 'grad_norm': 0.9614364504814148, 'learning_rate': 4.924708256078358e-06, 'epoch': 0.11} {'loss': 2.4361, 'grad_norm': 1.0558069944381714, 'learning_rate': 4.924602412236343e-06, 'epoch': 0.11} {'loss': 1.8443, 'grad_norm': 0.8254480957984924, 'learning_rate': 4.924496495188875e-06, 'epoch': 0.11} {'loss': 2.2969, 'grad_norm': 1.9961565732955933, 'learning_rate': 4.924390504939155e-06, 'epoch': 0.11} {'loss': 1.6461, 'grad_norm': 0.976161539554596, 'learning_rate': 4.92428444149038e-06, 'epoch': 0.11} {'loss': 1.9044, 'grad_norm': 0.8726969957351685, 'learning_rate': 4.924178304845755e-06, 'epoch': 0.11} {'loss': 2.0086, 'grad_norm': 1.0752164125442505, 'learning_rate': 4.924072095008482e-06, 'epoch': 0.11} {'loss': 2.0153, 'grad_norm': 1.0471471548080444, 'learning_rate': 4.92396581198177e-06, 'epoch': 0.11} {'loss': 2.1906, 'grad_norm': 0.928613543510437, 'learning_rate': 4.923859455768826e-06, 'epoch': 0.11} {'loss': 2.5508, 'grad_norm': 1.2925628423690796, 'learning_rate': 4.923753026372863e-06, 'epoch': 0.11} {'loss': 2.4359, 'grad_norm': 1.3501696586608887, 'learning_rate': 4.923646523797093e-06, 'epoch': 0.11} {'loss': 2.3111, 'grad_norm': 1.0489870309829712, 'learning_rate': 4.923539948044732e-06, 'epoch': 0.11} {'loss': 2.2358, 'grad_norm': 1.2146090269088745, 'learning_rate': 4.923433299119e-06, 'epoch': 0.11} {'loss': 2.3723, 'grad_norm': 1.218310832977295, 'learning_rate': 4.923326577023112e-06, 'epoch': 0.11} {'loss': 2.1674, 'grad_norm': 1.011652946472168, 'learning_rate': 4.923219781760295e-06, 'epoch': 0.11} {'loss': 2.5299, 'grad_norm': 1.1200813055038452, 'learning_rate': 4.923112913333771e-06, 'epoch': 0.11} {'loss': 2.6529, 'grad_norm': 1.0726518630981445, 'learning_rate': 4.923005971746768e-06, 'epoch': 0.11} {'loss': 2.1025, 'grad_norm': 1.5433592796325684, 'learning_rate': 4.922898957002514e-06, 'epoch': 0.11} {'loss': 2.3683, 'grad_norm': 1.0829018354415894, 'learning_rate': 4.922791869104241e-06, 'epoch': 0.11} {'loss': 2.0909, 'grad_norm': 1.2019517421722412, 'learning_rate': 4.9226847080551794e-06, 'epoch': 0.11} {'loss': 1.503, 'grad_norm': 2.1196649074554443, 'learning_rate': 4.922577473858569e-06, 'epoch': 0.11} {'loss': 2.2892, 'grad_norm': 1.0655595064163208, 'learning_rate': 4.922470166517644e-06, 'epoch': 0.11} {'loss': 2.0564, 'grad_norm': 1.2319308519363403, 'learning_rate': 4.922362786035647e-06, 'epoch': 0.11} {'loss': 2.1837, 'grad_norm': 1.0345441102981567, 'learning_rate': 4.922255332415818e-06, 'epoch': 0.11} {'loss': 2.2578, 'grad_norm': 1.1513289213180542, 'learning_rate': 4.922147805661402e-06, 'epoch': 0.11} {'loss': 2.244, 'grad_norm': 13.099942207336426, 'learning_rate': 4.9220402057756455e-06, 'epoch': 0.11} {'loss': 2.3677, 'grad_norm': 1.1152081489562988, 'learning_rate': 4.921932532761798e-06, 'epoch': 0.11} {'loss': 2.4963, 'grad_norm': 1.0645225048065186, 'learning_rate': 4.92182478662311e-06, 'epoch': 0.11} {'loss': 2.5965, 'grad_norm': 1.2022515535354614, 'learning_rate': 4.9217169673628326e-06, 'epoch': 0.11} {'loss': 2.2841, 'grad_norm': 1.4064871072769165, 'learning_rate': 4.921609074984225e-06, 'epoch': 0.11} {'loss': 2.2971, 'grad_norm': 1.1635982990264893, 'learning_rate': 4.921501109490542e-06, 'epoch': 0.11} {'loss': 2.3114, 'grad_norm': 1.1491824388504028, 'learning_rate': 4.921393070885044e-06, 'epoch': 0.11} {'loss': 2.3269, 'grad_norm': 1.0140197277069092, 'learning_rate': 4.921284959170994e-06, 'epoch': 0.11} {'loss': 2.357, 'grad_norm': 1.2919663190841675, 'learning_rate': 4.9211767743516544e-06, 'epoch': 0.11} {'loss': 2.51, 'grad_norm': 1.280945897102356, 'learning_rate': 4.921068516430293e-06, 'epoch': 0.11} {'loss': 2.5031, 'grad_norm': 1.1772642135620117, 'learning_rate': 4.920960185410178e-06, 'epoch': 0.11} {'loss': 2.182, 'grad_norm': 1.0220706462860107, 'learning_rate': 4.92085178129458e-06, 'epoch': 0.11} {'loss': 2.2457, 'grad_norm': 1.0696314573287964, 'learning_rate': 4.920743304086772e-06, 'epoch': 0.11} {'loss': 2.4338, 'grad_norm': 1.0832674503326416, 'learning_rate': 4.92063475379003e-06, 'epoch': 0.11} {'loss': 2.2127, 'grad_norm': 1.7219007015228271, 'learning_rate': 4.92052613040763e-06, 'epoch': 0.11} {'loss': 2.1214, 'grad_norm': 1.0856860876083374, 'learning_rate': 4.920417433942853e-06, 'epoch': 0.11} {'loss': 2.2878, 'grad_norm': 1.1084561347961426, 'learning_rate': 4.920308664398981e-06, 'epoch': 0.11} {'loss': 1.9212, 'grad_norm': 1.4390372037887573, 'learning_rate': 4.920199821779297e-06, 'epoch': 0.11} {'loss': 2.2565, 'grad_norm': 1.0123540163040161, 'learning_rate': 4.920090906087086e-06, 'epoch': 0.11} {'loss': 2.3559, 'grad_norm': 1.1613882780075073, 'learning_rate': 4.91998191732564e-06, 'epoch': 0.11} {'loss': 2.2019, 'grad_norm': 1.4327887296676636, 'learning_rate': 4.919872855498247e-06, 'epoch': 0.11} {'loss': 2.5622, 'grad_norm': 6.1417131423950195, 'learning_rate': 4.919763720608201e-06, 'epoch': 0.11} {'loss': 2.355, 'grad_norm': 1.6055347919464111, 'learning_rate': 4.919654512658797e-06, 'epoch': 0.11} {'loss': 2.3648, 'grad_norm': 1.0879734754562378, 'learning_rate': 4.919545231653331e-06, 'epoch': 0.11} {'loss': 2.4187, 'grad_norm': 1.0652059316635132, 'learning_rate': 4.9194358775951045e-06, 'epoch': 0.11} {'loss': 2.2256, 'grad_norm': 1.1899642944335938, 'learning_rate': 4.919326450487418e-06, 'epoch': 0.11} {'loss': 2.2514, 'grad_norm': 1.866661548614502, 'learning_rate': 4.919216950333576e-06, 'epoch': 0.11} {'loss': 1.7516, 'grad_norm': 1.2340679168701172, 'learning_rate': 4.919107377136884e-06, 'epoch': 0.11} {'loss': 2.2946, 'grad_norm': 1.1162368059158325, 'learning_rate': 4.91899773090065e-06, 'epoch': 0.11} {'loss': 2.4856, 'grad_norm': 1.0872057676315308, 'learning_rate': 4.918888011628185e-06, 'epoch': 0.11} {'loss': 1.9526, 'grad_norm': 0.8604046106338501, 'learning_rate': 4.918778219322803e-06, 'epoch': 0.11} {'loss': 2.5663, 'grad_norm': 1.4402927160263062, 'learning_rate': 4.9186683539878165e-06, 'epoch': 0.11} {'loss': 1.9119, 'grad_norm': 1.3104445934295654, 'learning_rate': 4.918558415626545e-06, 'epoch': 0.11} {'loss': 1.9362, 'grad_norm': 1.0582126379013062, 'learning_rate': 4.918448404242306e-06, 'epoch': 0.11} {'loss': 2.275, 'grad_norm': 1.1518861055374146, 'learning_rate': 4.918338319838422e-06, 'epoch': 0.11} {'loss': 2.3499, 'grad_norm': 1.5217136144638062, 'learning_rate': 4.918228162418216e-06, 'epoch': 0.11} {'loss': 2.0551, 'grad_norm': 1.1799073219299316, 'learning_rate': 4.918117931985015e-06, 'epoch': 0.11} {'loss': 2.4489, 'grad_norm': 1.0288593769073486, 'learning_rate': 4.918007628542147e-06, 'epoch': 0.11} {'loss': 2.2469, 'grad_norm': 1.0439658164978027, 'learning_rate': 4.917897252092941e-06, 'epoch': 0.11} {'loss': 2.4485, 'grad_norm': 1.2418016195297241, 'learning_rate': 4.917786802640731e-06, 'epoch': 0.11} {'loss': 2.3523, 'grad_norm': 1.3407255411148071, 'learning_rate': 4.917676280188853e-06, 'epoch': 0.11} {'loss': 1.9392, 'grad_norm': 0.9720165133476257, 'learning_rate': 4.91756568474064e-06, 'epoch': 0.11} {'loss': 2.3207, 'grad_norm': 1.1267201900482178, 'learning_rate': 4.917455016299435e-06, 'epoch': 0.11} {'loss': 2.5463, 'grad_norm': 1.117612600326538, 'learning_rate': 4.917344274868577e-06, 'epoch': 0.11} {'loss': 2.4726, 'grad_norm': 1.2730518579483032, 'learning_rate': 4.917233460451411e-06, 'epoch': 0.11} {'loss': 2.5161, 'grad_norm': 1.255043387413025, 'learning_rate': 4.917122573051282e-06, 'epoch': 0.11} {'loss': 2.1806, 'grad_norm': 1.0561366081237793, 'learning_rate': 4.917011612671539e-06, 'epoch': 0.11} {'loss': 2.3887, 'grad_norm': 1.0609501600265503, 'learning_rate': 4.916900579315531e-06, 'epoch': 0.11} {'loss': 2.458, 'grad_norm': 1.147754192352295, 'learning_rate': 4.9167894729866104e-06, 'epoch': 0.11} {'loss': 1.9657, 'grad_norm': 1.0064215660095215, 'learning_rate': 4.916678293688133e-06, 'epoch': 0.11} {'loss': 2.2862, 'grad_norm': 0.9739856719970703, 'learning_rate': 4.9165670414234545e-06, 'epoch': 0.11} {'loss': 2.1785, 'grad_norm': 6.9045820236206055, 'learning_rate': 4.916455716195935e-06, 'epoch': 0.11} {'loss': 2.4807, 'grad_norm': 1.451264500617981, 'learning_rate': 4.916344318008934e-06, 'epoch': 0.11} {'loss': 2.2352, 'grad_norm': 1.047815203666687, 'learning_rate': 4.916232846865817e-06, 'epoch': 0.11} {'loss': 2.1995, 'grad_norm': 1.1995114088058472, 'learning_rate': 4.9161213027699485e-06, 'epoch': 0.11} {'loss': 2.009, 'grad_norm': 0.8995116949081421, 'learning_rate': 4.9160096857246955e-06, 'epoch': 0.11} {'loss': 2.1819, 'grad_norm': 3.1704225540161133, 'learning_rate': 4.91589799573343e-06, 'epoch': 0.11} {'loss': 2.3666, 'grad_norm': 1.0004647970199585, 'learning_rate': 4.915786232799522e-06, 'epoch': 0.11} {'loss': 2.1743, 'grad_norm': 1.0436476469039917, 'learning_rate': 4.9156743969263475e-06, 'epoch': 0.11} {'loss': 2.3301, 'grad_norm': 1.4021981954574585, 'learning_rate': 4.915562488117284e-06, 'epoch': 0.11} {'loss': 2.3904, 'grad_norm': 1.48274827003479, 'learning_rate': 4.915450506375708e-06, 'epoch': 0.11} {'loss': 2.1186, 'grad_norm': 1.0304043292999268, 'learning_rate': 4.915338451705001e-06, 'epoch': 0.11} {'loss': 2.1914, 'grad_norm': 1.1636834144592285, 'learning_rate': 4.9152263241085474e-06, 'epoch': 0.11} {'loss': 2.1626, 'grad_norm': 0.9261377453804016, 'learning_rate': 4.9151141235897326e-06, 'epoch': 0.11} {'loss': 2.2354, 'grad_norm': 5.439774990081787, 'learning_rate': 4.915001850151943e-06, 'epoch': 0.11} {'loss': 2.2875, 'grad_norm': 1.1202877759933472, 'learning_rate': 4.91488950379857e-06, 'epoch': 0.11} {'loss': 2.3737, 'grad_norm': 1.1542850732803345, 'learning_rate': 4.914777084533004e-06, 'epoch': 0.11} {'loss': 2.4268, 'grad_norm': 0.9751764535903931, 'learning_rate': 4.9146645923586406e-06, 'epoch': 0.11} {'loss': 1.3381, 'grad_norm': 1.25663423538208, 'learning_rate': 4.9145520272788755e-06, 'epoch': 0.11} {'loss': 1.3796, 'grad_norm': 1.1756258010864258, 'learning_rate': 4.914439389297107e-06, 'epoch': 0.11} {'loss': 2.2776, 'grad_norm': 1.1819255352020264, 'learning_rate': 4.914326678416738e-06, 'epoch': 0.11} {'loss': 2.3087, 'grad_norm': 1.0208954811096191, 'learning_rate': 4.9142138946411685e-06, 'epoch': 0.11} {'loss': 2.144, 'grad_norm': 1.1422512531280518, 'learning_rate': 4.914101037973806e-06, 'epoch': 0.11} {'loss': 2.3984, 'grad_norm': 1.0211634635925293, 'learning_rate': 4.913988108418058e-06, 'epoch': 0.11} {'loss': 2.3935, 'grad_norm': 1.12263023853302, 'learning_rate': 4.913875105977332e-06, 'epoch': 0.11} {'loss': 2.1781, 'grad_norm': 1.1522924900054932, 'learning_rate': 4.913762030655043e-06, 'epoch': 0.11} {'loss': 2.2696, 'grad_norm': 1.1698349714279175, 'learning_rate': 4.9136488824546025e-06, 'epoch': 0.11} {'loss': 2.1026, 'grad_norm': 1.1896405220031738, 'learning_rate': 4.913535661379427e-06, 'epoch': 0.11} {'loss': 2.0953, 'grad_norm': 1.0642669200897217, 'learning_rate': 4.913422367432937e-06, 'epoch': 0.11} {'loss': 2.4164, 'grad_norm': 1.0581564903259277, 'learning_rate': 4.9133090006185505e-06, 'epoch': 0.11} {'loss': 2.2158, 'grad_norm': 1.449578046798706, 'learning_rate': 4.913195560939692e-06, 'epoch': 0.11} {'loss': 2.3059, 'grad_norm': 1.1908867359161377, 'learning_rate': 4.9130820483997865e-06, 'epoch': 0.11} {'loss': 2.2419, 'grad_norm': 1.2181179523468018, 'learning_rate': 4.91296846300226e-06, 'epoch': 0.11} {'loss': 2.3256, 'grad_norm': 1.125166893005371, 'learning_rate': 4.912854804750544e-06, 'epoch': 0.11} {'loss': 2.3099, 'grad_norm': 1.1511597633361816, 'learning_rate': 4.912741073648068e-06, 'epoch': 0.11} {'loss': 2.2793, 'grad_norm': 1.1430375576019287, 'learning_rate': 4.912627269698268e-06, 'epoch': 0.11} {'loss': 2.3914, 'grad_norm': 1.1949678659439087, 'learning_rate': 4.912513392904577e-06, 'epoch': 0.11} {'loss': 2.3425, 'grad_norm': 1.2153464555740356, 'learning_rate': 4.912399443270437e-06, 'epoch': 0.11} {'loss': 1.4476, 'grad_norm': 1.229775309562683, 'learning_rate': 4.912285420799286e-06, 'epoch': 0.11} {'loss': 2.34, 'grad_norm': 1.1002280712127686, 'learning_rate': 4.912171325494568e-06, 'epoch': 0.11} {'loss': 2.2485, 'grad_norm': 1.1302978992462158, 'learning_rate': 4.912057157359727e-06, 'epoch': 0.11} {'loss': 2.3147, 'grad_norm': 1.0015721321105957, 'learning_rate': 4.9119429163982094e-06, 'epoch': 0.11} {'loss': 2.1815, 'grad_norm': 1.0378457307815552, 'learning_rate': 4.911828602613466e-06, 'epoch': 0.11} {'loss': 2.0762, 'grad_norm': 1.0669654607772827, 'learning_rate': 4.911714216008946e-06, 'epoch': 0.11} {'loss': 1.9917, 'grad_norm': 1.1532959938049316, 'learning_rate': 4.911599756588106e-06, 'epoch': 0.11} {'loss': 2.0649, 'grad_norm': 1.1765762567520142, 'learning_rate': 4.9114852243543995e-06, 'epoch': 0.11} {'loss': 2.3835, 'grad_norm': 1.1193914413452148, 'learning_rate': 4.911370619311287e-06, 'epoch': 0.11} {'loss': 2.5395, 'grad_norm': 1.1819320917129517, 'learning_rate': 4.911255941462225e-06, 'epoch': 0.11} {'loss': 2.321, 'grad_norm': 1.0073168277740479, 'learning_rate': 4.91114119081068e-06, 'epoch': 0.11} {'loss': 2.4836, 'grad_norm': 1.103088617324829, 'learning_rate': 4.911026367360114e-06, 'epoch': 0.11} {'loss': 2.4099, 'grad_norm': 1.6039079427719116, 'learning_rate': 4.910911471113994e-06, 'epoch': 0.11} {'loss': 2.2958, 'grad_norm': 1.127637505531311, 'learning_rate': 4.910796502075791e-06, 'epoch': 0.11} {'loss': 2.289, 'grad_norm': 1.2135496139526367, 'learning_rate': 4.910681460248974e-06, 'epoch': 0.11} {'loss': 2.3871, 'grad_norm': 1.2150956392288208, 'learning_rate': 4.910566345637017e-06, 'epoch': 0.11} {'loss': 2.1875, 'grad_norm': 1.0421477556228638, 'learning_rate': 4.9104511582433965e-06, 'epoch': 0.11} {'loss': 2.0893, 'grad_norm': 1.0551294088363647, 'learning_rate': 4.91033589807159e-06, 'epoch': 0.11} {'loss': 2.2931, 'grad_norm': 1.499182105064392, 'learning_rate': 4.910220565125077e-06, 'epoch': 0.11} {'loss': 2.2322, 'grad_norm': 1.1058008670806885, 'learning_rate': 4.910105159407339e-06, 'epoch': 0.11} {'loss': 2.6319, 'grad_norm': 1.0842797756195068, 'learning_rate': 4.909989680921863e-06, 'epoch': 0.11} {'loss': 2.5882, 'grad_norm': 1.4017088413238525, 'learning_rate': 4.909874129672133e-06, 'epoch': 0.11} {'loss': 2.3841, 'grad_norm': 1.0638715028762817, 'learning_rate': 4.909758505661639e-06, 'epoch': 0.11} {'loss': 2.444, 'grad_norm': 1.2103101015090942, 'learning_rate': 4.909642808893873e-06, 'epoch': 0.11} {'loss': 2.2928, 'grad_norm': 1.1628270149230957, 'learning_rate': 4.909527039372326e-06, 'epoch': 0.11} {'loss': 2.4213, 'grad_norm': 1.0771673917770386, 'learning_rate': 4.909411197100494e-06, 'epoch': 0.11} {'loss': 2.4298, 'grad_norm': 1.1699645519256592, 'learning_rate': 4.909295282081876e-06, 'epoch': 0.11} {'loss': 2.0826, 'grad_norm': 1.004538893699646, 'learning_rate': 4.90917929431997e-06, 'epoch': 0.11} {'loss': 2.6382, 'grad_norm': 1.2406861782073975, 'learning_rate': 4.90906323381828e-06, 'epoch': 0.11} {'loss': 1.5078, 'grad_norm': 1.0982295274734497, 'learning_rate': 4.908947100580308e-06, 'epoch': 0.11} {'loss': 2.271, 'grad_norm': 1.0639511346817017, 'learning_rate': 4.908830894609562e-06, 'epoch': 0.11} {'loss': 2.2488, 'grad_norm': 1.044068455696106, 'learning_rate': 4.90871461590955e-06, 'epoch': 0.11} {'loss': 1.935, 'grad_norm': 0.899344801902771, 'learning_rate': 4.908598264483782e-06, 'epoch': 0.11} {'loss': 2.3807, 'grad_norm': 1.2748914957046509, 'learning_rate': 4.908481840335772e-06, 'epoch': 0.11} {'loss': 1.9777, 'grad_norm': 0.9995961785316467, 'learning_rate': 4.908365343469036e-06, 'epoch': 0.11} {'loss': 2.3212, 'grad_norm': 1.1364281177520752, 'learning_rate': 4.908248773887089e-06, 'epoch': 0.11} {'loss': 2.288, 'grad_norm': 1.0163472890853882, 'learning_rate': 4.908132131593453e-06, 'epoch': 0.11} {'loss': 2.5196, 'grad_norm': 1.072706937789917, 'learning_rate': 4.908015416591647e-06, 'epoch': 0.11} {'loss': 2.4029, 'grad_norm': 1.2132407426834106, 'learning_rate': 4.9078986288851974e-06, 'epoch': 0.11} {'loss': 2.3065, 'grad_norm': 1.2211484909057617, 'learning_rate': 4.90778176847763e-06, 'epoch': 0.11} {'loss': 2.3547, 'grad_norm': 1.230224847793579, 'learning_rate': 4.907664835372472e-06, 'epoch': 0.11} {'loss': 2.3336, 'grad_norm': 1.2703454494476318, 'learning_rate': 4.907547829573254e-06, 'epoch': 0.11} {'loss': 2.0963, 'grad_norm': 1.0291352272033691, 'learning_rate': 4.907430751083511e-06, 'epoch': 0.11} {'loss': 2.5326, 'grad_norm': 1.1068578958511353, 'learning_rate': 4.9073135999067745e-06, 'epoch': 0.11} {'loss': 2.3075, 'grad_norm': 1.4264963865280151, 'learning_rate': 4.907196376046583e-06, 'epoch': 0.11} {'loss': 2.1412, 'grad_norm': 1.0852543115615845, 'learning_rate': 4.907079079506478e-06, 'epoch': 0.11} {'loss': 2.1248, 'grad_norm': 0.9450492858886719, 'learning_rate': 4.906961710289998e-06, 'epoch': 0.11} {'loss': 2.4428, 'grad_norm': 1.37924325466156, 'learning_rate': 4.9068442684006875e-06, 'epoch': 0.11} {'loss': 2.169, 'grad_norm': 1.090120792388916, 'learning_rate': 4.906726753842094e-06, 'epoch': 0.11} {'loss': 2.2899, 'grad_norm': 1.117771863937378, 'learning_rate': 4.906609166617763e-06, 'epoch': 0.12} {'loss': 2.2955, 'grad_norm': 1.1384176015853882, 'learning_rate': 4.906491506731247e-06, 'epoch': 0.12} {'loss': 2.3496, 'grad_norm': 2.3992228507995605, 'learning_rate': 4.9063737741860975e-06, 'epoch': 0.12} {'loss': 2.2459, 'grad_norm': 1.0887489318847656, 'learning_rate': 4.906255968985869e-06, 'epoch': 0.12} {'loss': 2.5008, 'grad_norm': 1.25492525100708, 'learning_rate': 4.906138091134118e-06, 'epoch': 0.12} {'loss': 1.8314, 'grad_norm': 1.120599627494812, 'learning_rate': 4.9060201406344056e-06, 'epoch': 0.12} {'loss': 2.2602, 'grad_norm': 0.9818553328514099, 'learning_rate': 4.905902117490291e-06, 'epoch': 0.12} {'loss': 2.3903, 'grad_norm': 5.510129928588867, 'learning_rate': 4.905784021705338e-06, 'epoch': 0.12} {'loss': 2.2123, 'grad_norm': 1.0270910263061523, 'learning_rate': 4.905665853283112e-06, 'epoch': 0.12} {'loss': 2.0716, 'grad_norm': 1.265606164932251, 'learning_rate': 4.905547612227183e-06, 'epoch': 0.12} {'loss': 2.4673, 'grad_norm': 1.1506266593933105, 'learning_rate': 4.9054292985411175e-06, 'epoch': 0.12} {'loss': 2.0951, 'grad_norm': 1.0741430521011353, 'learning_rate': 4.905310912228491e-06, 'epoch': 0.12} {'loss': 2.3399, 'grad_norm': 1.1328495740890503, 'learning_rate': 4.905192453292876e-06, 'epoch': 0.12} {'loss': 2.4153, 'grad_norm': 1.1842769384384155, 'learning_rate': 4.90507392173785e-06, 'epoch': 0.12} {'loss': 2.4993, 'grad_norm': 1.2189619541168213, 'learning_rate': 4.90495531756699e-06, 'epoch': 0.12} {'loss': 2.021, 'grad_norm': 0.9801350235939026, 'learning_rate': 4.90483664078388e-06, 'epoch': 0.12} {'loss': 2.2384, 'grad_norm': 1.056208610534668, 'learning_rate': 4.9047178913921005e-06, 'epoch': 0.12} {'loss': 2.0414, 'grad_norm': 0.9219304323196411, 'learning_rate': 4.904599069395239e-06, 'epoch': 0.12} {'loss': 2.3725, 'grad_norm': 2.476566791534424, 'learning_rate': 4.904480174796881e-06, 'epoch': 0.12} {'loss': 2.2382, 'grad_norm': 1.02821946144104, 'learning_rate': 4.904361207600618e-06, 'epoch': 0.12} {'loss': 2.4118, 'grad_norm': 1.128381609916687, 'learning_rate': 4.90424216781004e-06, 'epoch': 0.12} {'loss': 2.2685, 'grad_norm': 1.044130563735962, 'learning_rate': 4.904123055428743e-06, 'epoch': 0.12} {'loss': 2.4698, 'grad_norm': 1.3193451166152954, 'learning_rate': 4.904003870460323e-06, 'epoch': 0.12} {'loss': 2.0913, 'grad_norm': 1.1072287559509277, 'learning_rate': 4.903884612908379e-06, 'epoch': 0.12} {'loss': 2.1555, 'grad_norm': 0.9757217764854431, 'learning_rate': 4.903765282776509e-06, 'epoch': 0.12} {'loss': 2.2628, 'grad_norm': 1.0752724409103394, 'learning_rate': 4.903645880068319e-06, 'epoch': 0.12} {'loss': 2.2473, 'grad_norm': 0.9949609637260437, 'learning_rate': 4.903526404787412e-06, 'epoch': 0.12} {'loss': 2.1583, 'grad_norm': 1.220971941947937, 'learning_rate': 4.903406856937397e-06, 'epoch': 0.12} {'loss': 2.5579, 'grad_norm': 1.1386816501617432, 'learning_rate': 4.903287236521883e-06, 'epoch': 0.12} {'loss': 1.4899, 'grad_norm': 1.3955374956130981, 'learning_rate': 4.903167543544481e-06, 'epoch': 0.12} {'loss': 1.9321, 'grad_norm': 0.9502013325691223, 'learning_rate': 4.903047778008805e-06, 'epoch': 0.12} {'loss': 2.0106, 'grad_norm': 0.9913385510444641, 'learning_rate': 4.902927939918472e-06, 'epoch': 0.12} {'loss': 2.4941, 'grad_norm': 1.1221914291381836, 'learning_rate': 4.9028080292770985e-06, 'epoch': 0.12} {'loss': 2.3154, 'grad_norm': 1.1127504110336304, 'learning_rate': 4.902688046088306e-06, 'epoch': 0.12} {'loss': 2.3043, 'grad_norm': 1.0930111408233643, 'learning_rate': 4.902567990355718e-06, 'epoch': 0.12} {'loss': 2.2588, 'grad_norm': 1.0564309358596802, 'learning_rate': 4.902447862082958e-06, 'epoch': 0.12} {'loss': 2.4006, 'grad_norm': 1.0894969701766968, 'learning_rate': 4.902327661273653e-06, 'epoch': 0.12} {'loss': 2.4005, 'grad_norm': 2.0762178897857666, 'learning_rate': 4.902207387931433e-06, 'epoch': 0.12} {'loss': 2.4738, 'grad_norm': 1.3048710823059082, 'learning_rate': 4.902087042059929e-06, 'epoch': 0.12} {'loss': 2.1186, 'grad_norm': 1.0240036249160767, 'learning_rate': 4.901966623662774e-06, 'epoch': 0.12} {'loss': 2.2246, 'grad_norm': 1.124778151512146, 'learning_rate': 4.9018461327436054e-06, 'epoch': 0.12} {'loss': 1.9817, 'grad_norm': 1.0641335248947144, 'learning_rate': 4.901725569306059e-06, 'epoch': 0.12} {'loss': 2.334, 'grad_norm': 1.028509497642517, 'learning_rate': 4.901604933353777e-06, 'epoch': 0.12} {'loss': 2.422, 'grad_norm': 1.2249325513839722, 'learning_rate': 4.901484224890399e-06, 'epoch': 0.12} {'loss': 2.2407, 'grad_norm': 1.0359843969345093, 'learning_rate': 4.901363443919573e-06, 'epoch': 0.12} {'loss': 2.1807, 'grad_norm': 1.117618441581726, 'learning_rate': 4.901242590444943e-06, 'epoch': 0.12} {'loss': 2.1702, 'grad_norm': 1.1504007577896118, 'learning_rate': 4.901121664470159e-06, 'epoch': 0.12} {'loss': 2.4329, 'grad_norm': 1.1611334085464478, 'learning_rate': 4.901000665998873e-06, 'epoch': 0.12} {'loss': 2.0801, 'grad_norm': 1.0668236017227173, 'learning_rate': 4.9008795950347366e-06, 'epoch': 0.12} {'loss': 2.1948, 'grad_norm': 1.1863116025924683, 'learning_rate': 4.900758451581406e-06, 'epoch': 0.12} {'loss': 2.4351, 'grad_norm': 1.2821661233901978, 'learning_rate': 4.900637235642538e-06, 'epoch': 0.12} {'loss': 2.3231, 'grad_norm': 1.008506178855896, 'learning_rate': 4.900515947221794e-06, 'epoch': 0.12} {'loss': 2.3706, 'grad_norm': 1.093316912651062, 'learning_rate': 4.900394586322835e-06, 'epoch': 0.12} {'loss': 2.4209, 'grad_norm': 1.0420522689819336, 'learning_rate': 4.900273152949326e-06, 'epoch': 0.12} {'loss': 2.3107, 'grad_norm': 1.185957670211792, 'learning_rate': 4.900151647104933e-06, 'epoch': 0.12} {'loss': 2.2998, 'grad_norm': 1.2284326553344727, 'learning_rate': 4.900030068793323e-06, 'epoch': 0.12} {'loss': 2.5662, 'grad_norm': 1.2085764408111572, 'learning_rate': 4.899908418018169e-06, 'epoch': 0.12} {'loss': 2.4013, 'grad_norm': 5.531564712524414, 'learning_rate': 4.899786694783144e-06, 'epoch': 0.12} {'loss': 2.3071, 'grad_norm': 1.008955717086792, 'learning_rate': 4.899664899091921e-06, 'epoch': 0.12} {'loss': 1.7144, 'grad_norm': 1.2425086498260498, 'learning_rate': 4.89954303094818e-06, 'epoch': 0.12} {'loss': 2.1824, 'grad_norm': 1.084505558013916, 'learning_rate': 4.899421090355599e-06, 'epoch': 0.12} {'loss': 2.1197, 'grad_norm': 1.035610556602478, 'learning_rate': 4.89929907731786e-06, 'epoch': 0.12} {'loss': 2.4991, 'grad_norm': 1.176472783088684, 'learning_rate': 4.899176991838647e-06, 'epoch': 0.12} {'loss': 2.324, 'grad_norm': 1.188096284866333, 'learning_rate': 4.899054833921646e-06, 'epoch': 0.12} {'loss': 2.0403, 'grad_norm': 0.9822206497192383, 'learning_rate': 4.898932603570544e-06, 'epoch': 0.12} {'loss': 2.3191, 'grad_norm': 1.2326061725616455, 'learning_rate': 4.898810300789034e-06, 'epoch': 0.12} {'loss': 2.2197, 'grad_norm': 1.0185041427612305, 'learning_rate': 4.8986879255808075e-06, 'epoch': 0.12} {'loss': 2.1429, 'grad_norm': 1.6082539558410645, 'learning_rate': 4.8985654779495595e-06, 'epoch': 0.12} {'loss': 2.3797, 'grad_norm': 1.3185955286026, 'learning_rate': 4.898442957898986e-06, 'epoch': 0.12} {'loss': 2.3496, 'grad_norm': 1.179489016532898, 'learning_rate': 4.8983203654327875e-06, 'epoch': 0.12} {'loss': 2.0856, 'grad_norm': 1.1040499210357666, 'learning_rate': 4.898197700554665e-06, 'epoch': 0.12} {'loss': 2.2846, 'grad_norm': 1.1592415571212769, 'learning_rate': 4.898074963268322e-06, 'epoch': 0.12} {'loss': 2.364, 'grad_norm': 1.2647626399993896, 'learning_rate': 4.897952153577464e-06, 'epoch': 0.12} {'loss': 2.0552, 'grad_norm': 1.2367607355117798, 'learning_rate': 4.897829271485799e-06, 'epoch': 0.12} {'loss': 2.3617, 'grad_norm': 1.0942049026489258, 'learning_rate': 4.897706316997038e-06, 'epoch': 0.12} {'loss': 2.3401, 'grad_norm': 1.1610749959945679, 'learning_rate': 4.897583290114893e-06, 'epoch': 0.12} {'loss': 2.2566, 'grad_norm': 1.0944725275039673, 'learning_rate': 4.897460190843077e-06, 'epoch': 0.12} {'loss': 2.1874, 'grad_norm': 1.1467441320419312, 'learning_rate': 4.89733701918531e-06, 'epoch': 0.12} {'loss': 2.2388, 'grad_norm': 1.3802417516708374, 'learning_rate': 4.897213775145308e-06, 'epoch': 0.12} {'loss': 1.6935, 'grad_norm': 1.7257260084152222, 'learning_rate': 4.897090458726792e-06, 'epoch': 0.12} {'loss': 2.4323, 'grad_norm': 1.4928561449050903, 'learning_rate': 4.896967069933487e-06, 'epoch': 0.12} {'loss': 2.0414, 'grad_norm': 1.3938133716583252, 'learning_rate': 4.896843608769117e-06, 'epoch': 0.12} {'loss': 2.5809, 'grad_norm': 1.1266670227050781, 'learning_rate': 4.896720075237411e-06, 'epoch': 0.12} {'loss': 2.2741, 'grad_norm': 1.175878882408142, 'learning_rate': 4.8965964693420985e-06, 'epoch': 0.12} {'loss': 2.0195, 'grad_norm': 1.298793911933899, 'learning_rate': 4.89647279108691e-06, 'epoch': 0.12} {'loss': 2.2946, 'grad_norm': 1.122757911682129, 'learning_rate': 4.896349040475582e-06, 'epoch': 0.12} {'loss': 2.127, 'grad_norm': 0.9356628656387329, 'learning_rate': 4.8962252175118494e-06, 'epoch': 0.12} {'loss': 2.0342, 'grad_norm': 1.2855839729309082, 'learning_rate': 4.896101322199451e-06, 'epoch': 0.12} {'loss': 2.2659, 'grad_norm': 1.0085489749908447, 'learning_rate': 4.895977354542127e-06, 'epoch': 0.12} {'loss': 2.2293, 'grad_norm': 1.6022034883499146, 'learning_rate': 4.895853314543621e-06, 'epoch': 0.12} {'loss': 2.121, 'grad_norm': 0.9767213463783264, 'learning_rate': 4.895729202207678e-06, 'epoch': 0.12} {'loss': 2.3498, 'grad_norm': 1.094233751296997, 'learning_rate': 4.895605017538046e-06, 'epoch': 0.12} {'loss': 2.3645, 'grad_norm': 1.0703954696655273, 'learning_rate': 4.895480760538474e-06, 'epoch': 0.12} {'loss': 2.3706, 'grad_norm': 1.4306122064590454, 'learning_rate': 4.895356431212713e-06, 'epoch': 0.12} {'loss': 2.361, 'grad_norm': 1.7209537029266357, 'learning_rate': 4.895232029564517e-06, 'epoch': 0.12} {'loss': 2.7223, 'grad_norm': 1.271087408065796, 'learning_rate': 4.895107555597642e-06, 'epoch': 0.12} {'loss': 2.3118, 'grad_norm': 1.2082319259643555, 'learning_rate': 4.894983009315848e-06, 'epoch': 0.12} {'loss': 2.3407, 'grad_norm': 1.6960113048553467, 'learning_rate': 4.894858390722893e-06, 'epoch': 0.12} {'loss': 2.3015, 'grad_norm': 1.1810345649719238, 'learning_rate': 4.8947336998225404e-06, 'epoch': 0.12} {'loss': 2.4866, 'grad_norm': 1.2832180261611938, 'learning_rate': 4.894608936618556e-06, 'epoch': 0.12} {'loss': 2.4626, 'grad_norm': 1.0896553993225098, 'learning_rate': 4.8944841011147045e-06, 'epoch': 0.12} {'loss': 2.3645, 'grad_norm': 1.222801685333252, 'learning_rate': 4.894359193314757e-06, 'epoch': 0.12} {'loss': 2.4034, 'grad_norm': 1.9235016107559204, 'learning_rate': 4.894234213222484e-06, 'epoch': 0.12} {'loss': 2.5836, 'grad_norm': 1.4074989557266235, 'learning_rate': 4.894109160841659e-06, 'epoch': 0.12} {'loss': 2.0861, 'grad_norm': 1.1286439895629883, 'learning_rate': 4.8939840361760585e-06, 'epoch': 0.12} {'loss': 1.6527, 'grad_norm': 1.1284736394882202, 'learning_rate': 4.89385883922946e-06, 'epoch': 0.12} {'loss': 2.3329, 'grad_norm': 1.1600624322891235, 'learning_rate': 4.893733570005642e-06, 'epoch': 0.12} {'loss': 2.5917, 'grad_norm': 1.0814099311828613, 'learning_rate': 4.893608228508389e-06, 'epoch': 0.12} {'loss': 2.3385, 'grad_norm': 1.070959448814392, 'learning_rate': 4.893482814741484e-06, 'epoch': 0.12} {'loss': 2.2465, 'grad_norm': 1.0625431537628174, 'learning_rate': 4.893357328708713e-06, 'epoch': 0.12} {'loss': 2.2662, 'grad_norm': 1.0816937685012817, 'learning_rate': 4.893231770413867e-06, 'epoch': 0.12} {'loss': 2.1403, 'grad_norm': 1.9735479354858398, 'learning_rate': 4.8931061398607355e-06, 'epoch': 0.12} {'loss': 2.2858, 'grad_norm': 1.1743444204330444, 'learning_rate': 4.892980437053112e-06, 'epoch': 0.12} {'loss': 2.4183, 'grad_norm': 1.1207444667816162, 'learning_rate': 4.892854661994791e-06, 'epoch': 0.12} {'loss': 2.1396, 'grad_norm': 1.1353235244750977, 'learning_rate': 4.8927288146895715e-06, 'epoch': 0.12} {'loss': 2.2046, 'grad_norm': 1.5006572008132935, 'learning_rate': 4.892602895141252e-06, 'epoch': 0.12} {'loss': 2.3842, 'grad_norm': 1.0503261089324951, 'learning_rate': 4.892476903353634e-06, 'epoch': 0.12} {'loss': 2.4577, 'grad_norm': 1.1151103973388672, 'learning_rate': 4.8923508393305224e-06, 'epoch': 0.12} {'loss': 2.3432, 'grad_norm': 8.964838027954102, 'learning_rate': 4.892224703075724e-06, 'epoch': 0.12} {'loss': 2.3841, 'grad_norm': 1.1781694889068604, 'learning_rate': 4.892098494593046e-06, 'epoch': 0.12} {'loss': 2.5706, 'grad_norm': 1.463942050933838, 'learning_rate': 4.891972213886299e-06, 'epoch': 0.12} {'loss': 2.303, 'grad_norm': 0.9793860912322998, 'learning_rate': 4.891845860959296e-06, 'epoch': 0.12} {'loss': 2.5299, 'grad_norm': 3.1655125617980957, 'learning_rate': 4.891719435815854e-06, 'epoch': 0.12} {'loss': 2.0666, 'grad_norm': 1.0490312576293945, 'learning_rate': 4.891592938459786e-06, 'epoch': 0.12} {'loss': 2.2976, 'grad_norm': 1.081045150756836, 'learning_rate': 4.8914663688949145e-06, 'epoch': 0.12} {'loss': 2.2653, 'grad_norm': 1.1728190183639526, 'learning_rate': 4.891339727125061e-06, 'epoch': 0.12} {'loss': 2.526, 'grad_norm': 1.086280107498169, 'learning_rate': 4.891213013154047e-06, 'epoch': 0.12} {'loss': 2.3797, 'grad_norm': 1.153801441192627, 'learning_rate': 4.891086226985699e-06, 'epoch': 0.12} {'loss': 2.43, 'grad_norm': 1.327539324760437, 'learning_rate': 4.890959368623847e-06, 'epoch': 0.12} {'loss': 2.2985, 'grad_norm': 2.161428689956665, 'learning_rate': 4.89083243807232e-06, 'epoch': 0.12} {'loss': 2.2754, 'grad_norm': 1.1817656755447388, 'learning_rate': 4.890705435334948e-06, 'epoch': 0.12} {'loss': 2.2402, 'grad_norm': 1.1818692684173584, 'learning_rate': 4.89057836041557e-06, 'epoch': 0.12} {'loss': 2.5817, 'grad_norm': 1.019187331199646, 'learning_rate': 4.890451213318019e-06, 'epoch': 0.12} {'loss': 2.0667, 'grad_norm': 1.0185984373092651, 'learning_rate': 4.890323994046136e-06, 'epoch': 0.12} {'loss': 2.4344, 'grad_norm': 1.385988473892212, 'learning_rate': 4.890196702603762e-06, 'epoch': 0.12} {'loss': 1.9043, 'grad_norm': 1.0223299264907837, 'learning_rate': 4.890069338994738e-06, 'epoch': 0.12} {'loss': 2.3864, 'grad_norm': 1.1395995616912842, 'learning_rate': 4.889941903222913e-06, 'epoch': 0.12} {'loss': 2.2772, 'grad_norm': 1.0651013851165771, 'learning_rate': 4.889814395292133e-06, 'epoch': 0.12} {'loss': 2.2094, 'grad_norm': 1.121873378753662, 'learning_rate': 4.889686815206247e-06, 'epoch': 0.12} {'loss': 2.4287, 'grad_norm': 2.237943172454834, 'learning_rate': 4.889559162969108e-06, 'epoch': 0.12} {'loss': 2.3118, 'grad_norm': 1.2616499662399292, 'learning_rate': 4.88943143858457e-06, 'epoch': 0.12} {'loss': 1.9891, 'grad_norm': 0.9820063710212708, 'learning_rate': 4.889303642056488e-06, 'epoch': 0.12} {'loss': 2.2443, 'grad_norm': 1.0452661514282227, 'learning_rate': 4.889175773388723e-06, 'epoch': 0.12} {'loss': 2.4115, 'grad_norm': 1.1051013469696045, 'learning_rate': 4.889047832585134e-06, 'epoch': 0.12} {'loss': 2.3251, 'grad_norm': 1.1486003398895264, 'learning_rate': 4.888919819649584e-06, 'epoch': 0.12} {'loss': 2.3622, 'grad_norm': 1.3496659994125366, 'learning_rate': 4.88879173458594e-06, 'epoch': 0.12} {'loss': 2.487, 'grad_norm': 1.135419487953186, 'learning_rate': 4.8886635773980655e-06, 'epoch': 0.12} {'loss': 2.3393, 'grad_norm': 1.3515251874923706, 'learning_rate': 4.888535348089833e-06, 'epoch': 0.12} {'loss': 2.1267, 'grad_norm': 0.967898964881897, 'learning_rate': 4.888407046665113e-06, 'epoch': 0.12} {'loss': 2.2572, 'grad_norm': 1.1497321128845215, 'learning_rate': 4.8882786731277795e-06, 'epoch': 0.12} {'loss': 2.2211, 'grad_norm': 1.1062813997268677, 'learning_rate': 4.8881502274817085e-06, 'epoch': 0.12} {'loss': 2.1616, 'grad_norm': 1.4057420492172241, 'learning_rate': 4.888021709730779e-06, 'epoch': 0.12} {'loss': 2.3083, 'grad_norm': 1.0357105731964111, 'learning_rate': 4.887893119878869e-06, 'epoch': 0.12} {'loss': 2.3017, 'grad_norm': 2.976337194442749, 'learning_rate': 4.887764457929862e-06, 'epoch': 0.12} {'loss': 2.4369, 'grad_norm': 1.1037198305130005, 'learning_rate': 4.8876357238876445e-06, 'epoch': 0.12} {'loss': 2.2435, 'grad_norm': 1.0907936096191406, 'learning_rate': 4.8875069177561e-06, 'epoch': 0.12} {'loss': 2.0807, 'grad_norm': 1.07779860496521, 'learning_rate': 4.887378039539121e-06, 'epoch': 0.12} {'loss': 2.2059, 'grad_norm': 1.0141977071762085, 'learning_rate': 4.887249089240596e-06, 'epoch': 0.12} {'loss': 1.958, 'grad_norm': 1.072801947593689, 'learning_rate': 4.88712006686442e-06, 'epoch': 0.12} {'loss': 2.2468, 'grad_norm': 1.3614814281463623, 'learning_rate': 4.886990972414488e-06, 'epoch': 0.12} {'loss': 2.4399, 'grad_norm': 1.0918394327163696, 'learning_rate': 4.886861805894697e-06, 'epoch': 0.12} {'loss': 2.4537, 'grad_norm': 1.2425581216812134, 'learning_rate': 4.886732567308948e-06, 'epoch': 0.12} {'loss': 2.1689, 'grad_norm': 2.0526070594787598, 'learning_rate': 4.886603256661142e-06, 'epoch': 0.12} {'loss': 2.6921, 'grad_norm': 2.4389543533325195, 'learning_rate': 4.886473873955185e-06, 'epoch': 0.12} {'loss': 2.4885, 'grad_norm': 1.3708523511886597, 'learning_rate': 4.8863444191949815e-06, 'epoch': 0.12} {'loss': 2.3443, 'grad_norm': 1.2254393100738525, 'learning_rate': 4.886214892384441e-06, 'epoch': 0.12} {'loss': 1.3828, 'grad_norm': 1.4461462497711182, 'learning_rate': 4.886085293527474e-06, 'epoch': 0.12} {'loss': 2.4103, 'grad_norm': 1.1960307359695435, 'learning_rate': 4.885955622627993e-06, 'epoch': 0.12} {'loss': 2.3024, 'grad_norm': 1.1315014362335205, 'learning_rate': 4.885825879689915e-06, 'epoch': 0.12} {'loss': 2.0116, 'grad_norm': 0.9529332518577576, 'learning_rate': 4.885696064717155e-06, 'epoch': 0.12} {'loss': 2.2411, 'grad_norm': 1.4346996545791626, 'learning_rate': 4.8855661777136345e-06, 'epoch': 0.12} {'loss': 2.1995, 'grad_norm': 1.1109012365341187, 'learning_rate': 4.885436218683272e-06, 'epoch': 0.12} {'loss': 2.3431, 'grad_norm': 1.0108405351638794, 'learning_rate': 4.885306187629995e-06, 'epoch': 0.12} {'loss': 2.3377, 'grad_norm': 1.3428287506103516, 'learning_rate': 4.885176084557729e-06, 'epoch': 0.12} {'loss': 2.3753, 'grad_norm': 1.252379298210144, 'learning_rate': 4.8850459094704e-06, 'epoch': 0.12} {'loss': 2.2639, 'grad_norm': 1.072121262550354, 'learning_rate': 4.88491566237194e-06, 'epoch': 0.12} {'loss': 2.3239, 'grad_norm': 1.1638325452804565, 'learning_rate': 4.88478534326628e-06, 'epoch': 0.12} {'loss': 2.0564, 'grad_norm': 0.9053388237953186, 'learning_rate': 4.884654952157356e-06, 'epoch': 0.12} {'loss': 2.4508, 'grad_norm': 1.1814097166061401, 'learning_rate': 4.884524489049105e-06, 'epoch': 0.12} {'loss': 2.4311, 'grad_norm': 1.1180146932601929, 'learning_rate': 4.8843939539454656e-06, 'epoch': 0.12} {'loss': 2.3506, 'grad_norm': 1.2142528295516968, 'learning_rate': 4.8842633468503785e-06, 'epoch': 0.12} {'loss': 2.19, 'grad_norm': 0.9260704517364502, 'learning_rate': 4.884132667767788e-06, 'epoch': 0.12} {'loss': 2.4385, 'grad_norm': 1.0858399868011475, 'learning_rate': 4.884001916701639e-06, 'epoch': 0.12} {'loss': 2.3422, 'grad_norm': 1.2187477350234985, 'learning_rate': 4.88387109365588e-06, 'epoch': 0.12} {'loss': 1.8902, 'grad_norm': 0.896597683429718, 'learning_rate': 4.883740198634459e-06, 'epoch': 0.12} {'loss': 2.2073, 'grad_norm': 1.2404420375823975, 'learning_rate': 4.88360923164133e-06, 'epoch': 0.12} {'loss': 2.2371, 'grad_norm': 3.5138399600982666, 'learning_rate': 4.883478192680448e-06, 'epoch': 0.12} {'loss': 2.0641, 'grad_norm': 0.9927777051925659, 'learning_rate': 4.883347081755768e-06, 'epoch': 0.13} {'loss': 2.2161, 'grad_norm': 1.074389934539795, 'learning_rate': 4.883215898871248e-06, 'epoch': 0.13} {'loss': 2.1986, 'grad_norm': 1.1682851314544678, 'learning_rate': 4.88308464403085e-06, 'epoch': 0.13} {'loss': 2.4657, 'grad_norm': 1.182250738143921, 'learning_rate': 4.882953317238536e-06, 'epoch': 0.13} {'loss': 2.2611, 'grad_norm': 0.8748573064804077, 'learning_rate': 4.8828219184982715e-06, 'epoch': 0.13} {'loss': 2.3644, 'grad_norm': 1.1007317304611206, 'learning_rate': 4.8826904478140245e-06, 'epoch': 0.13} {'loss': 2.194, 'grad_norm': 1.2679766416549683, 'learning_rate': 4.882558905189764e-06, 'epoch': 0.13} {'loss': 2.4034, 'grad_norm': 1.1054491996765137, 'learning_rate': 4.88242729062946e-06, 'epoch': 0.13} {'loss': 2.185, 'grad_norm': 1.0838422775268555, 'learning_rate': 4.882295604137089e-06, 'epoch': 0.13} {'loss': 2.3019, 'grad_norm': 1.37325119972229, 'learning_rate': 4.882163845716627e-06, 'epoch': 0.13} {'loss': 2.3911, 'grad_norm': 1.1444363594055176, 'learning_rate': 4.882032015372049e-06, 'epoch': 0.13} {'loss': 2.0179, 'grad_norm': 1.3782764673233032, 'learning_rate': 4.881900113107338e-06, 'epoch': 0.13} {'loss': 2.0892, 'grad_norm': 1.0805110931396484, 'learning_rate': 4.881768138926476e-06, 'epoch': 0.13} {'loss': 2.3799, 'grad_norm': 1.0971037149429321, 'learning_rate': 4.8816360928334474e-06, 'epoch': 0.13} {'loss': 2.2796, 'grad_norm': 1.356163740158081, 'learning_rate': 4.881503974832239e-06, 'epoch': 0.13} {'loss': 2.1939, 'grad_norm': 11.280003547668457, 'learning_rate': 4.881371784926839e-06, 'epoch': 0.13} {'loss': 2.4777, 'grad_norm': 1.1361794471740723, 'learning_rate': 4.88123952312124e-06, 'epoch': 0.13} {'loss': 2.2627, 'grad_norm': 1.1215752363204956, 'learning_rate': 4.881107189419435e-06, 'epoch': 0.13} {'loss': 2.1952, 'grad_norm': 1.053443431854248, 'learning_rate': 4.880974783825419e-06, 'epoch': 0.13} {'loss': 2.1625, 'grad_norm': 1.1118744611740112, 'learning_rate': 4.8808423063431905e-06, 'epoch': 0.13} {'loss': 2.1729, 'grad_norm': 1.3315709829330444, 'learning_rate': 4.880709756976749e-06, 'epoch': 0.13} {'loss': 2.2937, 'grad_norm': 1.4719502925872803, 'learning_rate': 4.880577135730096e-06, 'epoch': 0.13} {'loss': 2.5292, 'grad_norm': 1.437761664390564, 'learning_rate': 4.880444442607236e-06, 'epoch': 0.13} {'loss': 2.2312, 'grad_norm': 1.2620387077331543, 'learning_rate': 4.8803116776121765e-06, 'epoch': 0.13} {'loss': 2.1354, 'grad_norm': 1.1695735454559326, 'learning_rate': 4.8801788407489234e-06, 'epoch': 0.13} {'loss': 2.4819, 'grad_norm': 1.1577333211898804, 'learning_rate': 4.88004593202149e-06, 'epoch': 0.13} {'loss': 2.3364, 'grad_norm': 1.3224793672561646, 'learning_rate': 4.879912951433888e-06, 'epoch': 0.13} {'loss': 2.133, 'grad_norm': 1.1379387378692627, 'learning_rate': 4.879779898990132e-06, 'epoch': 0.13} {'loss': 2.2295, 'grad_norm': 1.2142889499664307, 'learning_rate': 4.879646774694241e-06, 'epoch': 0.13} {'loss': 2.3677, 'grad_norm': 1.0073366165161133, 'learning_rate': 4.879513578550234e-06, 'epoch': 0.13} {'loss': 2.3376, 'grad_norm': 1.1449031829833984, 'learning_rate': 4.879380310562129e-06, 'epoch': 0.13} {'loss': 2.2721, 'grad_norm': 1.1996792554855347, 'learning_rate': 4.8792469707339555e-06, 'epoch': 0.13} {'loss': 2.0843, 'grad_norm': 2.8425180912017822, 'learning_rate': 4.879113559069735e-06, 'epoch': 0.13} {'loss': 2.321, 'grad_norm': 1.099564790725708, 'learning_rate': 4.878980075573497e-06, 'epoch': 0.13} {'loss': 2.1976, 'grad_norm': 1.306047797203064, 'learning_rate': 4.878846520249272e-06, 'epoch': 0.13} {'loss': 2.2334, 'grad_norm': 1.669678807258606, 'learning_rate': 4.878712893101092e-06, 'epoch': 0.13} {'loss': 2.095, 'grad_norm': 1.132728099822998, 'learning_rate': 4.878579194132992e-06, 'epoch': 0.13} {'loss': 2.1269, 'grad_norm': 1.1475120782852173, 'learning_rate': 4.878445423349009e-06, 'epoch': 0.13} {'loss': 2.1523, 'grad_norm': 1.0702564716339111, 'learning_rate': 4.8783115807531805e-06, 'epoch': 0.13} {'loss': 2.2699, 'grad_norm': 1.7012202739715576, 'learning_rate': 4.878177666349549e-06, 'epoch': 0.13} {'loss': 2.3407, 'grad_norm': 1.4421552419662476, 'learning_rate': 4.878043680142157e-06, 'epoch': 0.13} {'loss': 2.3075, 'grad_norm': 3.920339584350586, 'learning_rate': 4.87790962213505e-06, 'epoch': 0.13} {'loss': 1.9369, 'grad_norm': 0.9351228475570679, 'learning_rate': 4.877775492332276e-06, 'epoch': 0.13} {'loss': 2.2697, 'grad_norm': 1.1334078311920166, 'learning_rate': 4.8776412907378845e-06, 'epoch': 0.13} {'loss': 2.3136, 'grad_norm': 1.269491195678711, 'learning_rate': 4.877507017355927e-06, 'epoch': 0.13} {'loss': 2.3255, 'grad_norm': 1.1269466876983643, 'learning_rate': 4.877372672190458e-06, 'epoch': 0.13} {'loss': 1.8209, 'grad_norm': 1.7106226682662964, 'learning_rate': 4.8772382552455346e-06, 'epoch': 0.13} {'loss': 2.4351, 'grad_norm': 1.1557451486587524, 'learning_rate': 4.877103766525213e-06, 'epoch': 0.13} {'loss': 2.3428, 'grad_norm': 1.0685505867004395, 'learning_rate': 4.8769692060335564e-06, 'epoch': 0.13} {'loss': 2.3144, 'grad_norm': 1.2688835859298706, 'learning_rate': 4.876834573774626e-06, 'epoch': 0.13} {'loss': 2.5566, 'grad_norm': 1.2049007415771484, 'learning_rate': 4.876699869752486e-06, 'epoch': 0.13} {'loss': 2.111, 'grad_norm': 0.9294794201850891, 'learning_rate': 4.876565093971205e-06, 'epoch': 0.13} {'loss': 2.1491, 'grad_norm': 1.2053269147872925, 'learning_rate': 4.8764302464348526e-06, 'epoch': 0.13} {'loss': 2.261, 'grad_norm': 1.4618021249771118, 'learning_rate': 4.876295327147498e-06, 'epoch': 0.13} {'loss': 2.1095, 'grad_norm': 1.1170001029968262, 'learning_rate': 4.876160336113217e-06, 'epoch': 0.13} {'loss': 2.3188, 'grad_norm': 0.9864555597305298, 'learning_rate': 4.876025273336085e-06, 'epoch': 0.13} {'loss': 2.3047, 'grad_norm': 1.1883249282836914, 'learning_rate': 4.875890138820178e-06, 'epoch': 0.13} {'loss': 2.2965, 'grad_norm': 1.2885873317718506, 'learning_rate': 4.875754932569578e-06, 'epoch': 0.13} {'loss': 2.3065, 'grad_norm': 1.0598763227462769, 'learning_rate': 4.875619654588368e-06, 'epoch': 0.13} {'loss': 2.4561, 'grad_norm': 1.1310160160064697, 'learning_rate': 4.87548430488063e-06, 'epoch': 0.13} {'loss': 2.3162, 'grad_norm': 1.2494921684265137, 'learning_rate': 4.875348883450452e-06, 'epoch': 0.13} {'loss': 1.8146, 'grad_norm': 0.9802578687667847, 'learning_rate': 4.875213390301922e-06, 'epoch': 0.13} {'loss': 2.1672, 'grad_norm': 1.1088906526565552, 'learning_rate': 4.875077825439132e-06, 'epoch': 0.13} {'loss': 2.1707, 'grad_norm': 1.2378369569778442, 'learning_rate': 4.874942188866175e-06, 'epoch': 0.13} {'loss': 2.0099, 'grad_norm': 1.4250819683074951, 'learning_rate': 4.874806480587145e-06, 'epoch': 0.13} {'loss': 2.2453, 'grad_norm': 2.238598585128784, 'learning_rate': 4.87467070060614e-06, 'epoch': 0.13} {'loss': 2.2903, 'grad_norm': 1.098453164100647, 'learning_rate': 4.8745348489272595e-06, 'epoch': 0.13} {'loss': 2.3805, 'grad_norm': 1.0525413751602173, 'learning_rate': 4.874398925554606e-06, 'epoch': 0.13} {'loss': 2.3547, 'grad_norm': 1.0820671319961548, 'learning_rate': 4.874262930492283e-06, 'epoch': 0.13} {'loss': 2.2154, 'grad_norm': 1.0449117422103882, 'learning_rate': 4.8741268637443965e-06, 'epoch': 0.13} {'loss': 2.2757, 'grad_norm': 1.172614574432373, 'learning_rate': 4.873990725315054e-06, 'epoch': 0.13} {'loss': 2.2868, 'grad_norm': 1.2390937805175781, 'learning_rate': 4.873854515208367e-06, 'epoch': 0.13} {'loss': 2.3966, 'grad_norm': 1.4107798337936401, 'learning_rate': 4.873718233428448e-06, 'epoch': 0.13} {'loss': 2.3602, 'grad_norm': 1.0762255191802979, 'learning_rate': 4.87358187997941e-06, 'epoch': 0.13} {'loss': 2.291, 'grad_norm': 1.3310017585754395, 'learning_rate': 4.873445454865373e-06, 'epoch': 0.13} {'loss': 2.2995, 'grad_norm': 1.1308265924453735, 'learning_rate': 4.873308958090453e-06, 'epoch': 0.13} {'loss': 2.2592, 'grad_norm': 1.0790859460830688, 'learning_rate': 4.873172389658772e-06, 'epoch': 0.13} {'loss': 2.1322, 'grad_norm': 1.11284339427948, 'learning_rate': 4.873035749574455e-06, 'epoch': 0.13} {'loss': 2.359, 'grad_norm': 1.120193362236023, 'learning_rate': 4.8728990378416265e-06, 'epoch': 0.13} {'loss': 2.1342, 'grad_norm': 1.189876914024353, 'learning_rate': 4.872762254464414e-06, 'epoch': 0.13} {'loss': 2.1866, 'grad_norm': 0.8777509927749634, 'learning_rate': 4.872625399446947e-06, 'epoch': 0.13} {'loss': 1.7068, 'grad_norm': 1.6556050777435303, 'learning_rate': 4.872488472793358e-06, 'epoch': 0.13} {'loss': 2.3557, 'grad_norm': 1.1721910238265991, 'learning_rate': 4.872351474507782e-06, 'epoch': 0.13} {'loss': 2.4369, 'grad_norm': 1.1171882152557373, 'learning_rate': 4.8722144045943536e-06, 'epoch': 0.13} {'loss': 2.0302, 'grad_norm': 0.9666391015052795, 'learning_rate': 4.8720772630572125e-06, 'epoch': 0.13} {'loss': 2.2398, 'grad_norm': 1.036158800125122, 'learning_rate': 4.8719400499005e-06, 'epoch': 0.13} {'loss': 2.0954, 'grad_norm': 0.9993540048599243, 'learning_rate': 4.871802765128357e-06, 'epoch': 0.13} {'loss': 2.3367, 'grad_norm': 1.0844297409057617, 'learning_rate': 4.87166540874493e-06, 'epoch': 0.13} {'loss': 2.054, 'grad_norm': 1.746978998184204, 'learning_rate': 4.871527980754366e-06, 'epoch': 0.13} {'loss': 2.205, 'grad_norm': 1.1036478281021118, 'learning_rate': 4.8713904811608144e-06, 'epoch': 0.13} {'loss': 2.3058, 'grad_norm': 1.1024922132492065, 'learning_rate': 4.871252909968426e-06, 'epoch': 0.13} {'loss': 2.0378, 'grad_norm': 0.8724871277809143, 'learning_rate': 4.871115267181354e-06, 'epoch': 0.13} {'loss': 2.3123, 'grad_norm': 1.0958431959152222, 'learning_rate': 4.870977552803757e-06, 'epoch': 0.13} {'loss': 1.6012, 'grad_norm': 2.1479625701904297, 'learning_rate': 4.87083976683979e-06, 'epoch': 0.13} {'loss': 2.5407, 'grad_norm': 1.3289028406143188, 'learning_rate': 4.870701909293614e-06, 'epoch': 0.13} {'loss': 2.2489, 'grad_norm': 1.3962678909301758, 'learning_rate': 4.870563980169392e-06, 'epoch': 0.13} {'loss': 2.5066, 'grad_norm': 1.4806437492370605, 'learning_rate': 4.870425979471287e-06, 'epoch': 0.13} {'loss': 2.1762, 'grad_norm': 1.2365700006484985, 'learning_rate': 4.8702879072034675e-06, 'epoch': 0.13} {'loss': 1.8681, 'grad_norm': 1.4384307861328125, 'learning_rate': 4.870149763370101e-06, 'epoch': 0.13} {'loss': 2.2961, 'grad_norm': 1.5055028200149536, 'learning_rate': 4.87001154797536e-06, 'epoch': 0.13} {'loss': 2.2399, 'grad_norm': 4.938503742218018, 'learning_rate': 4.869873261023415e-06, 'epoch': 0.13} {'loss': 2.2664, 'grad_norm': 1.151028037071228, 'learning_rate': 4.8697349025184425e-06, 'epoch': 0.13} {'loss': 2.2019, 'grad_norm': 1.0099657773971558, 'learning_rate': 4.869596472464621e-06, 'epoch': 0.13} {'loss': 2.4809, 'grad_norm': 1.1457583904266357, 'learning_rate': 4.869457970866129e-06, 'epoch': 0.13} {'loss': 2.3689, 'grad_norm': 1.1080389022827148, 'learning_rate': 4.869319397727148e-06, 'epoch': 0.13} {'loss': 2.1303, 'grad_norm': 1.1928656101226807, 'learning_rate': 4.869180753051863e-06, 'epoch': 0.13} {'loss': 2.5368, 'grad_norm': 1.382012128829956, 'learning_rate': 4.869042036844459e-06, 'epoch': 0.13} {'loss': 2.1482, 'grad_norm': 1.0681489706039429, 'learning_rate': 4.8689032491091244e-06, 'epoch': 0.13} {'loss': 2.4194, 'grad_norm': 1.0849847793579102, 'learning_rate': 4.86876438985005e-06, 'epoch': 0.13} {'loss': 2.3238, 'grad_norm': 1.0854945182800293, 'learning_rate': 4.868625459071429e-06, 'epoch': 0.13} {'loss': 2.1457, 'grad_norm': 1.238879680633545, 'learning_rate': 4.868486456777455e-06, 'epoch': 0.13} {'loss': 2.3667, 'grad_norm': 1.228428602218628, 'learning_rate': 4.868347382972324e-06, 'epoch': 0.13} {'loss': 2.1545, 'grad_norm': 1.0824220180511475, 'learning_rate': 4.868208237660237e-06, 'epoch': 0.13} {'loss': 2.4431, 'grad_norm': 1.081310510635376, 'learning_rate': 4.868069020845394e-06, 'epoch': 0.13} {'loss': 2.243, 'grad_norm': 1.4071342945098877, 'learning_rate': 4.867929732532e-06, 'epoch': 0.13} {'loss': 2.4881, 'grad_norm': 1.2823927402496338, 'learning_rate': 4.867790372724257e-06, 'epoch': 0.13} {'loss': 2.427, 'grad_norm': 1.1484392881393433, 'learning_rate': 4.867650941426376e-06, 'epoch': 0.13} {'loss': 2.3135, 'grad_norm': 1.1392104625701904, 'learning_rate': 4.867511438642566e-06, 'epoch': 0.13} {'loss': 2.2542, 'grad_norm': 1.181867003440857, 'learning_rate': 4.867371864377039e-06, 'epoch': 0.13} {'loss': 1.5266, 'grad_norm': 1.058600902557373, 'learning_rate': 4.867232218634007e-06, 'epoch': 0.13} {'loss': 2.3004, 'grad_norm': 1.1246685981750488, 'learning_rate': 4.86709250141769e-06, 'epoch': 0.13} {'loss': 2.3389, 'grad_norm': 1.1211568117141724, 'learning_rate': 4.866952712732303e-06, 'epoch': 0.13} {'loss': 2.1468, 'grad_norm': 0.8965975046157837, 'learning_rate': 4.866812852582069e-06, 'epoch': 0.13} {'loss': 2.44, 'grad_norm': 1.2314492464065552, 'learning_rate': 4.866672920971209e-06, 'epoch': 0.13} {'loss': 2.2447, 'grad_norm': 1.1346197128295898, 'learning_rate': 4.86653291790395e-06, 'epoch': 0.13} {'loss': 2.3841, 'grad_norm': 1.2393659353256226, 'learning_rate': 4.866392843384517e-06, 'epoch': 0.13} {'loss': 2.3687, 'grad_norm': 1.2449826002120972, 'learning_rate': 4.86625269741714e-06, 'epoch': 0.13} {'loss': 2.2284, 'grad_norm': 1.5085512399673462, 'learning_rate': 4.8661124800060515e-06, 'epoch': 0.13} {'loss': 1.9395, 'grad_norm': 0.972308337688446, 'learning_rate': 4.865972191155483e-06, 'epoch': 0.13} {'loss': 2.3798, 'grad_norm': 2.0145492553710938, 'learning_rate': 4.865831830869671e-06, 'epoch': 0.13} {'loss': 2.4381, 'grad_norm': 1.1628353595733643, 'learning_rate': 4.865691399152855e-06, 'epoch': 0.13} {'loss': 2.1846, 'grad_norm': 1.1165425777435303, 'learning_rate': 4.8655508960092735e-06, 'epoch': 0.13} {'loss': 2.2777, 'grad_norm': 1.2204065322875977, 'learning_rate': 4.865410321443168e-06, 'epoch': 0.13} {'loss': 2.36, 'grad_norm': 1.274996280670166, 'learning_rate': 4.865269675458784e-06, 'epoch': 0.13} {'loss': 2.33, 'grad_norm': 4.397604465484619, 'learning_rate': 4.865128958060368e-06, 'epoch': 0.13} {'loss': 2.2989, 'grad_norm': 1.5007342100143433, 'learning_rate': 4.864988169252168e-06, 'epoch': 0.13} {'loss': 2.225, 'grad_norm': 1.2448261976242065, 'learning_rate': 4.864847309038435e-06, 'epoch': 0.13} {'loss': 2.5981, 'grad_norm': 1.3271067142486572, 'learning_rate': 4.864706377423422e-06, 'epoch': 0.13} {'loss': 2.3886, 'grad_norm': 1.155749797821045, 'learning_rate': 4.864565374411384e-06, 'epoch': 0.13} {'loss': 2.2313, 'grad_norm': 1.0514700412750244, 'learning_rate': 4.86442430000658e-06, 'epoch': 0.13} {'loss': 2.1224, 'grad_norm': 1.0524930953979492, 'learning_rate': 4.864283154213267e-06, 'epoch': 0.13} {'loss': 2.0881, 'grad_norm': 1.065729022026062, 'learning_rate': 4.864141937035707e-06, 'epoch': 0.13} {'loss': 2.2843, 'grad_norm': 1.6914567947387695, 'learning_rate': 4.864000648478164e-06, 'epoch': 0.13} {'loss': 2.2392, 'grad_norm': 1.1357675790786743, 'learning_rate': 4.863859288544905e-06, 'epoch': 0.13} {'loss': 2.0255, 'grad_norm': 0.8924603462219238, 'learning_rate': 4.863717857240196e-06, 'epoch': 0.13} {'loss': 2.4899, 'grad_norm': 1.3204772472381592, 'learning_rate': 4.863576354568309e-06, 'epoch': 0.13} {'loss': 2.3656, 'grad_norm': 1.1214940547943115, 'learning_rate': 4.863434780533516e-06, 'epoch': 0.13} {'loss': 2.3022, 'grad_norm': 1.12124502658844, 'learning_rate': 4.863293135140091e-06, 'epoch': 0.13} {'loss': 2.3249, 'grad_norm': 1.40201735496521, 'learning_rate': 4.86315141839231e-06, 'epoch': 0.13} {'loss': 1.5086, 'grad_norm': 1.4091248512268066, 'learning_rate': 4.863009630294454e-06, 'epoch': 0.13} {'loss': 2.3041, 'grad_norm': 1.0625252723693848, 'learning_rate': 4.8628677708508025e-06, 'epoch': 0.13} {'loss': 2.2612, 'grad_norm': 1.1291453838348389, 'learning_rate': 4.862725840065639e-06, 'epoch': 0.13} {'loss': 2.3971, 'grad_norm': 1.226914405822754, 'learning_rate': 4.862583837943247e-06, 'epoch': 0.13} {'loss': 2.3165, 'grad_norm': 1.140817403793335, 'learning_rate': 4.862441764487917e-06, 'epoch': 0.13} {'loss': 2.3322, 'grad_norm': 2.9969699382781982, 'learning_rate': 4.8622996197039365e-06, 'epoch': 0.13} {'loss': 2.0663, 'grad_norm': 0.9679015278816223, 'learning_rate': 4.862157403595598e-06, 'epoch': 0.13} {'loss': 2.1408, 'grad_norm': 1.1280068159103394, 'learning_rate': 4.862015116167195e-06, 'epoch': 0.13} {'loss': 2.0908, 'grad_norm': 1.0866833925247192, 'learning_rate': 4.8618727574230245e-06, 'epoch': 0.13} {'loss': 2.3246, 'grad_norm': 1.1361885070800781, 'learning_rate': 4.8617303273673836e-06, 'epoch': 0.13} {'loss': 1.9674, 'grad_norm': 0.907956063747406, 'learning_rate': 4.861587826004574e-06, 'epoch': 0.13} {'loss': 2.1823, 'grad_norm': 1.3571093082427979, 'learning_rate': 4.861445253338896e-06, 'epoch': 0.13} {'loss': 2.2006, 'grad_norm': 1.0538620948791504, 'learning_rate': 4.861302609374655e-06, 'epoch': 0.13} {'loss': 1.7962, 'grad_norm': 1.1479865312576294, 'learning_rate': 4.86115989411616e-06, 'epoch': 0.13} {'loss': 2.1793, 'grad_norm': 0.9883248805999756, 'learning_rate': 4.861017107567718e-06, 'epoch': 0.13} {'loss': 2.3631, 'grad_norm': 1.5355045795440674, 'learning_rate': 4.860874249733639e-06, 'epoch': 0.13} {'loss': 2.5657, 'grad_norm': 1.2603999376296997, 'learning_rate': 4.860731320618239e-06, 'epoch': 0.13} {'loss': 2.4626, 'grad_norm': 1.3818358182907104, 'learning_rate': 4.860588320225832e-06, 'epoch': 0.13} {'loss': 2.4896, 'grad_norm': 1.1364777088165283, 'learning_rate': 4.8604452485607366e-06, 'epoch': 0.13} {'loss': 2.1367, 'grad_norm': 1.0966848134994507, 'learning_rate': 4.8603021056272704e-06, 'epoch': 0.13} {'loss': 2.1855, 'grad_norm': 0.9862625002861023, 'learning_rate': 4.860158891429757e-06, 'epoch': 0.13} {'loss': 2.2777, 'grad_norm': 1.0815471410751343, 'learning_rate': 4.86001560597252e-06, 'epoch': 0.13} {'loss': 1.8387, 'grad_norm': 0.9311325550079346, 'learning_rate': 4.859872249259885e-06, 'epoch': 0.13} {'loss': 2.3448, 'grad_norm': 1.5817748308181763, 'learning_rate': 4.859728821296182e-06, 'epoch': 0.13} {'loss': 2.2072, 'grad_norm': 1.1083400249481201, 'learning_rate': 4.859585322085739e-06, 'epoch': 0.13} {'loss': 2.0642, 'grad_norm': 1.167738437652588, 'learning_rate': 4.85944175163289e-06, 'epoch': 0.13} {'loss': 2.6457, 'grad_norm': 1.3435335159301758, 'learning_rate': 4.859298109941971e-06, 'epoch': 0.13} {'loss': 2.447, 'grad_norm': 1.1121413707733154, 'learning_rate': 4.859154397017317e-06, 'epoch': 0.13} {'loss': 2.3638, 'grad_norm': 1.3497041463851929, 'learning_rate': 4.859010612863268e-06, 'epoch': 0.13} {'loss': 2.5052, 'grad_norm': 1.252178430557251, 'learning_rate': 4.8588667574841655e-06, 'epoch': 0.13} {'loss': 1.4687, 'grad_norm': 1.6020605564117432, 'learning_rate': 4.858722830884351e-06, 'epoch': 0.13} {'loss': 2.0935, 'grad_norm': 1.2267513275146484, 'learning_rate': 4.858578833068174e-06, 'epoch': 0.13} {'loss': 1.9946, 'grad_norm': 1.0221701860427856, 'learning_rate': 4.858434764039978e-06, 'epoch': 0.13} {'loss': 2.5346, 'grad_norm': 1.3191696405410767, 'learning_rate': 4.858290623804115e-06, 'epoch': 0.13} {'loss': 2.3083, 'grad_norm': 3.7783210277557373, 'learning_rate': 4.858146412364936e-06, 'epoch': 0.13} {'loss': 2.4281, 'grad_norm': 1.6394140720367432, 'learning_rate': 4.858002129726795e-06, 'epoch': 0.13} {'loss': 2.1703, 'grad_norm': 1.2089977264404297, 'learning_rate': 4.85785777589405e-06, 'epoch': 0.13} {'loss': 2.1802, 'grad_norm': 1.1010644435882568, 'learning_rate': 4.8577133508710595e-06, 'epoch': 0.14} {'loss': 2.1328, 'grad_norm': 1.081972360610962, 'learning_rate': 4.857568854662181e-06, 'epoch': 0.14} {'loss': 2.4268, 'grad_norm': 1.1794577836990356, 'learning_rate': 4.857424287271781e-06, 'epoch': 0.14} {'loss': 2.258, 'grad_norm': 1.1605967283248901, 'learning_rate': 4.8572796487042214e-06, 'epoch': 0.14} {'loss': 2.3309, 'grad_norm': 0.9454315900802612, 'learning_rate': 4.857134938963871e-06, 'epoch': 0.14} {'loss': 2.3293, 'grad_norm': 1.4776242971420288, 'learning_rate': 4.856990158055098e-06, 'epoch': 0.14} {'loss': 2.6291, 'grad_norm': 1.7410770654678345, 'learning_rate': 4.856845305982275e-06, 'epoch': 0.14} {'loss': 2.261, 'grad_norm': 1.1397978067398071, 'learning_rate': 4.856700382749774e-06, 'epoch': 0.14} {'loss': 2.3138, 'grad_norm': 5.739822864532471, 'learning_rate': 4.856555388361971e-06, 'epoch': 0.14} {'loss': 2.4795, 'grad_norm': 1.137895107269287, 'learning_rate': 4.856410322823245e-06, 'epoch': 0.14} {'loss': 2.2584, 'grad_norm': 1.1866455078125, 'learning_rate': 4.856265186137974e-06, 'epoch': 0.14} {'loss': 2.4068, 'grad_norm': 1.3064160346984863, 'learning_rate': 4.856119978310542e-06, 'epoch': 0.14} {'loss': 2.4698, 'grad_norm': 1.1309518814086914, 'learning_rate': 4.8559746993453315e-06, 'epoch': 0.14} {'loss': 2.3136, 'grad_norm': 1.1686393022537231, 'learning_rate': 4.85582934924673e-06, 'epoch': 0.14} {'loss': 2.2064, 'grad_norm': 1.2027391195297241, 'learning_rate': 4.855683928019126e-06, 'epoch': 0.14} {'loss': 2.3928, 'grad_norm': 1.2543373107910156, 'learning_rate': 4.85553843566691e-06, 'epoch': 0.14} {'loss': 2.3225, 'grad_norm': 1.2000174522399902, 'learning_rate': 4.855392872194474e-06, 'epoch': 0.14} {'loss': 2.0126, 'grad_norm': 1.0030899047851562, 'learning_rate': 4.8552472376062145e-06, 'epoch': 0.14} {'loss': 2.3652, 'grad_norm': 1.1059125661849976, 'learning_rate': 4.855101531906528e-06, 'epoch': 0.14} {'loss': 2.3538, 'grad_norm': 1.0687627792358398, 'learning_rate': 4.8549557550998125e-06, 'epoch': 0.14} {'loss': 2.1124, 'grad_norm': 1.2166259288787842, 'learning_rate': 4.854809907190471e-06, 'epoch': 0.14} {'loss': 2.3066, 'grad_norm': 1.20870840549469, 'learning_rate': 4.854663988182906e-06, 'epoch': 0.14} {'loss': 2.1111, 'grad_norm': 1.304471492767334, 'learning_rate': 4.8545179980815245e-06, 'epoch': 0.14} {'loss': 2.3056, 'grad_norm': 1.3361451625823975, 'learning_rate': 4.8543719368907325e-06, 'epoch': 0.14} {'loss': 2.3928, 'grad_norm': 1.1520822048187256, 'learning_rate': 4.854225804614943e-06, 'epoch': 0.14} {'loss': 2.3025, 'grad_norm': 1.1784589290618896, 'learning_rate': 4.854079601258564e-06, 'epoch': 0.14} {'loss': 2.3394, 'grad_norm': 1.1539127826690674, 'learning_rate': 4.853933326826012e-06, 'epoch': 0.14} {'loss': 2.2082, 'grad_norm': 1.067237377166748, 'learning_rate': 4.853786981321705e-06, 'epoch': 0.14} {'loss': 2.2704, 'grad_norm': 1.1302145719528198, 'learning_rate': 4.853640564750059e-06, 'epoch': 0.14} {'loss': 2.4938, 'grad_norm': 1.4070969820022583, 'learning_rate': 4.853494077115496e-06, 'epoch': 0.14} {'loss': 2.2266, 'grad_norm': 1.1975455284118652, 'learning_rate': 4.853347518422439e-06, 'epoch': 0.14} {'loss': 2.5746, 'grad_norm': 1.2218058109283447, 'learning_rate': 4.853200888675312e-06, 'epoch': 0.14} {'loss': 2.1689, 'grad_norm': 1.2944599390029907, 'learning_rate': 4.853054187878542e-06, 'epoch': 0.14} {'loss': 2.3028, 'grad_norm': 1.2318395376205444, 'learning_rate': 4.852907416036559e-06, 'epoch': 0.14} {'loss': 2.0448, 'grad_norm': 1.3986480236053467, 'learning_rate': 4.852760573153795e-06, 'epoch': 0.14} {'loss': 2.3573, 'grad_norm': 1.106857180595398, 'learning_rate': 4.852613659234684e-06, 'epoch': 0.14} {'loss': 2.4467, 'grad_norm': 1.1128196716308594, 'learning_rate': 4.852466674283659e-06, 'epoch': 0.14} {'loss': 2.144, 'grad_norm': 1.1432217359542847, 'learning_rate': 4.8523196183051605e-06, 'epoch': 0.14} {'loss': 2.3312, 'grad_norm': 1.1968839168548584, 'learning_rate': 4.8521724913036284e-06, 'epoch': 0.14} {'loss': 2.3689, 'grad_norm': 1.1269241571426392, 'learning_rate': 4.852025293283503e-06, 'epoch': 0.14} {'loss': 2.3685, 'grad_norm': 1.1425331830978394, 'learning_rate': 4.85187802424923e-06, 'epoch': 0.14} {'loss': 2.3266, 'grad_norm': 1.2258234024047852, 'learning_rate': 4.851730684205256e-06, 'epoch': 0.14} {'loss': 2.3063, 'grad_norm': 1.7194783687591553, 'learning_rate': 4.8515832731560294e-06, 'epoch': 0.14} {'loss': 2.3058, 'grad_norm': 1.1475189924240112, 'learning_rate': 4.851435791106001e-06, 'epoch': 0.14} {'loss': 2.3928, 'grad_norm': 1.0955013036727905, 'learning_rate': 4.851288238059623e-06, 'epoch': 0.14} {'loss': 2.2506, 'grad_norm': 2.7226550579071045, 'learning_rate': 4.851140614021351e-06, 'epoch': 0.14} {'loss': 2.2048, 'grad_norm': 1.1289459466934204, 'learning_rate': 4.850992918995642e-06, 'epoch': 0.14} {'loss': 2.2902, 'grad_norm': 1.1512473821640015, 'learning_rate': 4.850845152986956e-06, 'epoch': 0.14} {'loss': 2.2745, 'grad_norm': 1.2312180995941162, 'learning_rate': 4.850697315999753e-06, 'epoch': 0.14} {'loss': 2.2815, 'grad_norm': 0.935968279838562, 'learning_rate': 4.850549408038498e-06, 'epoch': 0.14} {'loss': 2.316, 'grad_norm': 1.1151764392852783, 'learning_rate': 4.850401429107656e-06, 'epoch': 0.14} {'loss': 2.2872, 'grad_norm': 0.9631773233413696, 'learning_rate': 4.850253379211696e-06, 'epoch': 0.14} {'loss': 2.3534, 'grad_norm': 1.9466556310653687, 'learning_rate': 4.850105258355085e-06, 'epoch': 0.14} {'loss': 2.2318, 'grad_norm': 1.1101152896881104, 'learning_rate': 4.8499570665423e-06, 'epoch': 0.14} {'loss': 2.1414, 'grad_norm': 1.044542670249939, 'learning_rate': 4.849808803777811e-06, 'epoch': 0.14} {'loss': 2.2717, 'grad_norm': 1.2001663446426392, 'learning_rate': 4.849660470066097e-06, 'epoch': 0.14} {'loss': 2.2932, 'grad_norm': 1.1531293392181396, 'learning_rate': 4.849512065411636e-06, 'epoch': 0.14} {'loss': 2.0914, 'grad_norm': 1.1364675760269165, 'learning_rate': 4.849363589818908e-06, 'epoch': 0.14} {'loss': 2.1728, 'grad_norm': 1.1344733238220215, 'learning_rate': 4.8492150432923955e-06, 'epoch': 0.14} {'loss': 2.3907, 'grad_norm': 1.2180049419403076, 'learning_rate': 4.849066425836585e-06, 'epoch': 0.14} {'loss': 2.0869, 'grad_norm': 1.3955883979797363, 'learning_rate': 4.8489177374559635e-06, 'epoch': 0.14} {'loss': 2.2996, 'grad_norm': 1.2396379709243774, 'learning_rate': 4.84876897815502e-06, 'epoch': 0.14} {'loss': 1.9263, 'grad_norm': 0.9525055289268494, 'learning_rate': 4.848620147938245e-06, 'epoch': 0.14} {'loss': 2.3896, 'grad_norm': 6.341739654541016, 'learning_rate': 4.848471246810134e-06, 'epoch': 0.14} {'loss': 2.1809, 'grad_norm': 1.4433153867721558, 'learning_rate': 4.84832227477518e-06, 'epoch': 0.14} {'loss': 2.2601, 'grad_norm': 1.1104830503463745, 'learning_rate': 4.848173231837884e-06, 'epoch': 0.14} {'loss': 2.2313, 'grad_norm': 1.1456726789474487, 'learning_rate': 4.848024118002744e-06, 'epoch': 0.14} {'loss': 2.1399, 'grad_norm': 1.78724205493927, 'learning_rate': 4.8478749332742636e-06, 'epoch': 0.14} {'loss': 2.3602, 'grad_norm': 1.2041760683059692, 'learning_rate': 4.847725677656944e-06, 'epoch': 0.14} {'loss': 2.4175, 'grad_norm': 1.205826759338379, 'learning_rate': 4.847576351155296e-06, 'epoch': 0.14} {'loss': 2.471, 'grad_norm': 1.2007580995559692, 'learning_rate': 4.847426953773826e-06, 'epoch': 0.14} {'loss': 2.4685, 'grad_norm': 1.0631814002990723, 'learning_rate': 4.847277485517045e-06, 'epoch': 0.14} {'loss': 2.2702, 'grad_norm': 1.238420009613037, 'learning_rate': 4.847127946389464e-06, 'epoch': 0.14} {'loss': 2.4519, 'grad_norm': 1.376084327697754, 'learning_rate': 4.8469783363956005e-06, 'epoch': 0.14} {'loss': 2.6047, 'grad_norm': 1.245323896408081, 'learning_rate': 4.846828655539971e-06, 'epoch': 0.14} {'loss': 2.3491, 'grad_norm': 1.3367661237716675, 'learning_rate': 4.8466789038270946e-06, 'epoch': 0.14} {'loss': 2.4756, 'grad_norm': 1.2830106019973755, 'learning_rate': 4.846529081261493e-06, 'epoch': 0.14} {'loss': 2.2129, 'grad_norm': 1.070207118988037, 'learning_rate': 4.8463791878476884e-06, 'epoch': 0.14} {'loss': 2.2409, 'grad_norm': 1.1964598894119263, 'learning_rate': 4.8462292235902076e-06, 'epoch': 0.14} {'loss': 2.5477, 'grad_norm': 1.0617563724517822, 'learning_rate': 4.846079188493578e-06, 'epoch': 0.14} {'loss': 2.1219, 'grad_norm': 1.1844786405563354, 'learning_rate': 4.8459290825623315e-06, 'epoch': 0.14} {'loss': 2.3712, 'grad_norm': 1.202764630317688, 'learning_rate': 4.845778905800998e-06, 'epoch': 0.14} {'loss': 2.29, 'grad_norm': 1.2007936239242554, 'learning_rate': 4.845628658214112e-06, 'epoch': 0.14} {'loss': 2.1552, 'grad_norm': 1.4583313465118408, 'learning_rate': 4.845478339806211e-06, 'epoch': 0.14} {'loss': 2.3038, 'grad_norm': 1.2071523666381836, 'learning_rate': 4.845327950581832e-06, 'epoch': 0.14} {'loss': 1.5545, 'grad_norm': 1.0191982984542847, 'learning_rate': 4.845177490545516e-06, 'epoch': 0.14} {'loss': 2.1539, 'grad_norm': 1.1065293550491333, 'learning_rate': 4.845026959701808e-06, 'epoch': 0.14} {'loss': 2.4177, 'grad_norm': 1.3406102657318115, 'learning_rate': 4.84487635805525e-06, 'epoch': 0.14} {'loss': 2.2079, 'grad_norm': 1.3943607807159424, 'learning_rate': 4.844725685610391e-06, 'epoch': 0.14} {'loss': 2.5449, 'grad_norm': 1.083919882774353, 'learning_rate': 4.844574942371779e-06, 'epoch': 0.14} {'loss': 2.1997, 'grad_norm': 1.276545763015747, 'learning_rate': 4.8444241283439665e-06, 'epoch': 0.14} {'loss': 2.2708, 'grad_norm': 1.0600335597991943, 'learning_rate': 4.8442732435315055e-06, 'epoch': 0.14} {'loss': 2.4247, 'grad_norm': 1.265777349472046, 'learning_rate': 4.844122287938953e-06, 'epoch': 0.14} {'loss': 1.9211, 'grad_norm': 1.1178034543991089, 'learning_rate': 4.843971261570866e-06, 'epoch': 0.14} {'loss': 2.3098, 'grad_norm': 1.1789339780807495, 'learning_rate': 4.843820164431805e-06, 'epoch': 0.14} {'loss': 2.4917, 'grad_norm': 1.1659685373306274, 'learning_rate': 4.8436689965263315e-06, 'epoch': 0.14} {'loss': 2.192, 'grad_norm': 0.9890972971916199, 'learning_rate': 4.84351775785901e-06, 'epoch': 0.14} {'loss': 2.3915, 'grad_norm': 1.6201070547103882, 'learning_rate': 4.843366448434407e-06, 'epoch': 0.14} {'loss': 2.3106, 'grad_norm': 4.082869052886963, 'learning_rate': 4.84321506825709e-06, 'epoch': 0.14} {'loss': 2.3839, 'grad_norm': 1.1288623809814453, 'learning_rate': 4.843063617331631e-06, 'epoch': 0.14} {'loss': 2.6458, 'grad_norm': 1.1509149074554443, 'learning_rate': 4.842912095662602e-06, 'epoch': 0.14} {'loss': 2.0297, 'grad_norm': 0.9668889045715332, 'learning_rate': 4.842760503254577e-06, 'epoch': 0.14} {'loss': 2.2746, 'grad_norm': 1.011601209640503, 'learning_rate': 4.842608840112134e-06, 'epoch': 0.14} {'loss': 2.355, 'grad_norm': 1.1727242469787598, 'learning_rate': 4.8424571062398525e-06, 'epoch': 0.14} {'loss': 2.2547, 'grad_norm': 1.046802282333374, 'learning_rate': 4.8423053016423126e-06, 'epoch': 0.14} {'loss': 2.3398, 'grad_norm': 1.787411093711853, 'learning_rate': 4.842153426324099e-06, 'epoch': 0.14} {'loss': 2.4591, 'grad_norm': 1.2201378345489502, 'learning_rate': 4.842001480289796e-06, 'epoch': 0.14} {'loss': 2.3791, 'grad_norm': 1.4829744100570679, 'learning_rate': 4.841849463543992e-06, 'epoch': 0.14} {'loss': 2.4836, 'grad_norm': 1.2268778085708618, 'learning_rate': 4.841697376091277e-06, 'epoch': 0.14} {'loss': 2.3294, 'grad_norm': 1.33174729347229, 'learning_rate': 4.841545217936242e-06, 'epoch': 0.14} {'loss': 1.2711, 'grad_norm': 1.284349799156189, 'learning_rate': 4.841392989083482e-06, 'epoch': 0.14} {'loss': 2.0605, 'grad_norm': 1.1619863510131836, 'learning_rate': 4.8412406895375915e-06, 'epoch': 0.14} {'loss': 2.1339, 'grad_norm': 1.1974586248397827, 'learning_rate': 4.841088319303172e-06, 'epoch': 0.14} {'loss': 1.9712, 'grad_norm': 0.9850566983222961, 'learning_rate': 4.840935878384821e-06, 'epoch': 0.14} {'loss': 2.2419, 'grad_norm': 1.0427888631820679, 'learning_rate': 4.840783366787143e-06, 'epoch': 0.14} {'loss': 2.2298, 'grad_norm': 1.1892296075820923, 'learning_rate': 4.8406307845147425e-06, 'epoch': 0.14} {'loss': 2.3003, 'grad_norm': 1.3453247547149658, 'learning_rate': 4.840478131572225e-06, 'epoch': 0.14} {'loss': 2.2433, 'grad_norm': 1.0352658033370972, 'learning_rate': 4.8403254079642e-06, 'epoch': 0.14} {'loss': 1.7908, 'grad_norm': 0.9283222556114197, 'learning_rate': 4.8401726136952806e-06, 'epoch': 0.14} {'loss': 2.4824, 'grad_norm': 1.2222533226013184, 'learning_rate': 4.840019748770077e-06, 'epoch': 0.14} {'loss': 1.9876, 'grad_norm': 1.1536953449249268, 'learning_rate': 4.839866813193207e-06, 'epoch': 0.14} {'loss': 2.6035, 'grad_norm': 2.367110252380371, 'learning_rate': 4.839713806969288e-06, 'epoch': 0.14} {'loss': 1.9779, 'grad_norm': 1.019415020942688, 'learning_rate': 4.839560730102938e-06, 'epoch': 0.14} {'loss': 2.1803, 'grad_norm': 1.4380708932876587, 'learning_rate': 4.83940758259878e-06, 'epoch': 0.14} {'loss': 2.2428, 'grad_norm': 1.1637959480285645, 'learning_rate': 4.839254364461438e-06, 'epoch': 0.14} {'loss': 2.2194, 'grad_norm': 0.9171174764633179, 'learning_rate': 4.8391010756955375e-06, 'epoch': 0.14} {'loss': 2.2276, 'grad_norm': 1.1895849704742432, 'learning_rate': 4.838947716305707e-06, 'epoch': 0.14} {'loss': 2.2233, 'grad_norm': 1.0951863527297974, 'learning_rate': 4.8387942862965775e-06, 'epoch': 0.14} {'loss': 2.4188, 'grad_norm': 1.1402037143707275, 'learning_rate': 4.83864078567278e-06, 'epoch': 0.14} {'loss': 2.3839, 'grad_norm': 1.107161521911621, 'learning_rate': 4.83848721443895e-06, 'epoch': 0.14} {'loss': 2.0215, 'grad_norm': 1.1461299657821655, 'learning_rate': 4.838333572599726e-06, 'epoch': 0.14} {'loss': 2.1784, 'grad_norm': 1.1573461294174194, 'learning_rate': 4.8381798601597435e-06, 'epoch': 0.14} {'loss': 2.0427, 'grad_norm': 1.5497785806655884, 'learning_rate': 4.838026077123645e-06, 'epoch': 0.14} {'loss': 2.0872, 'grad_norm': 1.2822668552398682, 'learning_rate': 4.837872223496075e-06, 'epoch': 0.14} {'loss': 2.4139, 'grad_norm': 1.1856153011322021, 'learning_rate': 4.8377182992816764e-06, 'epoch': 0.14} {'loss': 2.3316, 'grad_norm': 1.19161856174469, 'learning_rate': 4.837564304485098e-06, 'epoch': 0.14} {'loss': 2.2512, 'grad_norm': 1.301226019859314, 'learning_rate': 4.837410239110989e-06, 'epoch': 0.14} {'loss': 2.2565, 'grad_norm': 1.5653005838394165, 'learning_rate': 4.837256103164001e-06, 'epoch': 0.14} {'loss': 2.3294, 'grad_norm': 1.1987214088439941, 'learning_rate': 4.837101896648787e-06, 'epoch': 0.14} {'loss': 2.3291, 'grad_norm': 1.2392146587371826, 'learning_rate': 4.836947619570005e-06, 'epoch': 0.14} {'loss': 2.3372, 'grad_norm': 1.1895787715911865, 'learning_rate': 4.836793271932312e-06, 'epoch': 0.14} {'loss': 2.3439, 'grad_norm': 1.6794284582138062, 'learning_rate': 4.8366388537403676e-06, 'epoch': 0.14} {'loss': 2.2436, 'grad_norm': 1.1115394830703735, 'learning_rate': 4.836484364998835e-06, 'epoch': 0.14} {'loss': 2.2752, 'grad_norm': 1.0934815406799316, 'learning_rate': 4.836329805712378e-06, 'epoch': 0.14} {'loss': 2.1936, 'grad_norm': 0.968967080116272, 'learning_rate': 4.8361751758856625e-06, 'epoch': 0.14} {'loss': 2.1108, 'grad_norm': 1.3964102268218994, 'learning_rate': 4.8360204755233586e-06, 'epoch': 0.14} {'loss': 2.463, 'grad_norm': 1.295291543006897, 'learning_rate': 4.835865704630137e-06, 'epoch': 0.14} {'loss': 2.2689, 'grad_norm': 1.1287435293197632, 'learning_rate': 4.83571086321067e-06, 'epoch': 0.14} {'loss': 2.451, 'grad_norm': 1.3540992736816406, 'learning_rate': 4.8355559512696325e-06, 'epoch': 0.14} {'loss': 2.4272, 'grad_norm': 1.1927950382232666, 'learning_rate': 4.835400968811703e-06, 'epoch': 0.14} {'loss': 2.5212, 'grad_norm': 1.7891123294830322, 'learning_rate': 4.835245915841559e-06, 'epoch': 0.14} {'loss': 2.4043, 'grad_norm': 1.2342780828475952, 'learning_rate': 4.835090792363884e-06, 'epoch': 0.14} {'loss': 2.5127, 'grad_norm': 1.2914084196090698, 'learning_rate': 4.83493559838336e-06, 'epoch': 0.14} {'loss': 2.078, 'grad_norm': 1.14341139793396, 'learning_rate': 4.834780333904674e-06, 'epoch': 0.14} {'loss': 2.3962, 'grad_norm': 1.143470287322998, 'learning_rate': 4.834624998932513e-06, 'epoch': 0.14} {'loss': 2.4763, 'grad_norm': 1.2366676330566406, 'learning_rate': 4.8344695934715654e-06, 'epoch': 0.14} {'loss': 2.0984, 'grad_norm': 1.0483859777450562, 'learning_rate': 4.8343141175265274e-06, 'epoch': 0.14} {'loss': 2.4762, 'grad_norm': 1.587472915649414, 'learning_rate': 4.83415857110209e-06, 'epoch': 0.14} {'loss': 2.4255, 'grad_norm': 1.443004846572876, 'learning_rate': 4.834002954202951e-06, 'epoch': 0.14} {'loss': 2.401, 'grad_norm': 1.2059435844421387, 'learning_rate': 4.833847266833808e-06, 'epoch': 0.14} {'loss': 2.2795, 'grad_norm': 1.1221987009048462, 'learning_rate': 4.833691508999362e-06, 'epoch': 0.14} {'loss': 2.1773, 'grad_norm': 1.1567884683609009, 'learning_rate': 4.833535680704317e-06, 'epoch': 0.14} {'loss': 2.3416, 'grad_norm': 1.020630121231079, 'learning_rate': 4.833379781953375e-06, 'epoch': 0.14} {'loss': 2.1921, 'grad_norm': 1.044460415840149, 'learning_rate': 4.8332238127512455e-06, 'epoch': 0.14} {'loss': 2.2792, 'grad_norm': 1.2360183000564575, 'learning_rate': 4.833067773102637e-06, 'epoch': 0.14} {'loss': 2.3468, 'grad_norm': 1.1277679204940796, 'learning_rate': 4.83291166301226e-06, 'epoch': 0.14} {'loss': 2.2527, 'grad_norm': 1.0997039079666138, 'learning_rate': 4.83275548248483e-06, 'epoch': 0.14} {'loss': 2.4244, 'grad_norm': 1.3994145393371582, 'learning_rate': 4.832599231525059e-06, 'epoch': 0.14} {'loss': 2.2713, 'grad_norm': 1.2338752746582031, 'learning_rate': 4.832442910137669e-06, 'epoch': 0.14} {'loss': 2.1539, 'grad_norm': 0.9556673765182495, 'learning_rate': 4.832286518327376e-06, 'epoch': 0.14} {'loss': 2.3384, 'grad_norm': 1.1534291505813599, 'learning_rate': 4.8321300560989034e-06, 'epoch': 0.14} {'loss': 2.2127, 'grad_norm': 1.063785433769226, 'learning_rate': 4.831973523456975e-06, 'epoch': 0.14} {'loss': 2.621, 'grad_norm': 1.2987428903579712, 'learning_rate': 4.831816920406318e-06, 'epoch': 0.14} {'loss': 2.1739, 'grad_norm': 1.241766095161438, 'learning_rate': 4.83166024695166e-06, 'epoch': 0.14} {'loss': 2.3216, 'grad_norm': 1.3829827308654785, 'learning_rate': 4.831503503097731e-06, 'epoch': 0.14} {'loss': 2.4716, 'grad_norm': 1.428987741470337, 'learning_rate': 4.831346688849263e-06, 'epoch': 0.14} {'loss': 2.2495, 'grad_norm': 0.9514102339744568, 'learning_rate': 4.831189804210992e-06, 'epoch': 0.14} {'loss': 2.1617, 'grad_norm': 1.0548843145370483, 'learning_rate': 4.831032849187654e-06, 'epoch': 0.14} {'loss': 2.3313, 'grad_norm': 1.2221304178237915, 'learning_rate': 4.830875823783989e-06, 'epoch': 0.14} {'loss': 2.4718, 'grad_norm': 1.1903204917907715, 'learning_rate': 4.830718728004736e-06, 'epoch': 0.14} {'loss': 2.3183, 'grad_norm': 1.1820785999298096, 'learning_rate': 4.83056156185464e-06, 'epoch': 0.14} {'loss': 2.3058, 'grad_norm': 1.166542410850525, 'learning_rate': 4.8304043253384454e-06, 'epoch': 0.14} {'loss': 1.9108, 'grad_norm': 1.6744433641433716, 'learning_rate': 4.8302470184609e-06, 'epoch': 0.14} {'loss': 1.4932, 'grad_norm': 1.3729876279830933, 'learning_rate': 4.830089641226753e-06, 'epoch': 0.14} {'loss': 2.1562, 'grad_norm': 1.3682063817977905, 'learning_rate': 4.829932193640756e-06, 'epoch': 0.14} {'loss': 2.6705, 'grad_norm': 1.3546043634414673, 'learning_rate': 4.8297746757076635e-06, 'epoch': 0.14} {'loss': 2.2309, 'grad_norm': 1.306232213973999, 'learning_rate': 4.82961708743223e-06, 'epoch': 0.15} {'loss': 2.2823, 'grad_norm': 1.5348254442214966, 'learning_rate': 4.829459428819215e-06, 'epoch': 0.15} {'loss': 2.4985, 'grad_norm': 1.1961326599121094, 'learning_rate': 4.829301699873377e-06, 'epoch': 0.15} {'loss': 2.3922, 'grad_norm': 1.248276710510254, 'learning_rate': 4.829143900599481e-06, 'epoch': 0.15} {'loss': 2.1168, 'grad_norm': 1.1918928623199463, 'learning_rate': 4.828986031002289e-06, 'epoch': 0.15} {'loss': 2.4647, 'grad_norm': 1.1401969194412231, 'learning_rate': 4.828828091086568e-06, 'epoch': 0.15} {'loss': 2.1161, 'grad_norm': 1.1937243938446045, 'learning_rate': 4.828670080857087e-06, 'epoch': 0.15} {'loss': 2.4256, 'grad_norm': 1.3287962675094604, 'learning_rate': 4.828512000318617e-06, 'epoch': 0.15} {'loss': 2.3067, 'grad_norm': 3.6277103424072266, 'learning_rate': 4.82835384947593e-06, 'epoch': 0.15} {'loss': 2.1231, 'grad_norm': 1.1979738473892212, 'learning_rate': 4.828195628333802e-06, 'epoch': 0.15} {'loss': 2.2545, 'grad_norm': 1.2800036668777466, 'learning_rate': 4.828037336897009e-06, 'epoch': 0.15} {'loss': 2.2189, 'grad_norm': 0.9817940592765808, 'learning_rate': 4.827878975170331e-06, 'epoch': 0.15} {'loss': 2.2535, 'grad_norm': 1.2749505043029785, 'learning_rate': 4.82772054315855e-06, 'epoch': 0.15} {'loss': 2.467, 'grad_norm': 1.1903676986694336, 'learning_rate': 4.827562040866448e-06, 'epoch': 0.15} {'loss': 2.3076, 'grad_norm': 1.4522608518600464, 'learning_rate': 4.827403468298812e-06, 'epoch': 0.15} {'loss': 2.3934, 'grad_norm': 1.3967574834823608, 'learning_rate': 4.82724482546043e-06, 'epoch': 0.15} {'loss': 2.2789, 'grad_norm': 1.1825729608535767, 'learning_rate': 4.82708611235609e-06, 'epoch': 0.15} {'loss': 2.3136, 'grad_norm': 1.2014063596725464, 'learning_rate': 4.826927328990585e-06, 'epoch': 0.15} {'loss': 2.1486, 'grad_norm': 1.0787264108657837, 'learning_rate': 4.8267684753687086e-06, 'epoch': 0.15} {'loss': 2.3815, 'grad_norm': 1.1232953071594238, 'learning_rate': 4.826609551495259e-06, 'epoch': 0.15} {'loss': 2.2075, 'grad_norm': 1.70075261592865, 'learning_rate': 4.826450557375032e-06, 'epoch': 0.15} {'loss': 2.0765, 'grad_norm': 1.1785184144973755, 'learning_rate': 4.826291493012829e-06, 'epoch': 0.15} {'loss': 2.3931, 'grad_norm': 1.2155002355575562, 'learning_rate': 4.826132358413453e-06, 'epoch': 0.15} {'loss': 2.6078, 'grad_norm': 1.232975959777832, 'learning_rate': 4.825973153581709e-06, 'epoch': 0.15} {'loss': 2.2705, 'grad_norm': 1.1197890043258667, 'learning_rate': 4.825813878522403e-06, 'epoch': 0.15} {'loss': 2.3436, 'grad_norm': 1.2148678302764893, 'learning_rate': 4.825654533240345e-06, 'epoch': 0.15} {'loss': 2.1067, 'grad_norm': 1.0417633056640625, 'learning_rate': 4.825495117740344e-06, 'epoch': 0.15} {'loss': 2.3441, 'grad_norm': 1.2266037464141846, 'learning_rate': 4.825335632027216e-06, 'epoch': 0.15} {'loss': 2.1666, 'grad_norm': 1.3694885969161987, 'learning_rate': 4.825176076105773e-06, 'epoch': 0.15} {'loss': 2.2457, 'grad_norm': 1.0907225608825684, 'learning_rate': 4.8250164499808364e-06, 'epoch': 0.15} {'loss': 2.4923, 'grad_norm': 1.1504307985305786, 'learning_rate': 4.8248567536572225e-06, 'epoch': 0.15} {'loss': 2.2881, 'grad_norm': 1.1006940603256226, 'learning_rate': 4.8246969871397544e-06, 'epoch': 0.15} {'loss': 2.6694, 'grad_norm': 2.4016170501708984, 'learning_rate': 4.824537150433255e-06, 'epoch': 0.15} {'loss': 2.0996, 'grad_norm': 1.1272023916244507, 'learning_rate': 4.824377243542551e-06, 'epoch': 0.15} {'loss': 2.2405, 'grad_norm': 0.9871650338172913, 'learning_rate': 4.824217266472472e-06, 'epoch': 0.15} {'loss': 2.5092, 'grad_norm': 1.145375370979309, 'learning_rate': 4.824057219227844e-06, 'epoch': 0.15} {'loss': 2.3695, 'grad_norm': 1.9291049242019653, 'learning_rate': 4.823897101813503e-06, 'epoch': 0.15} {'loss': 2.1868, 'grad_norm': 1.111106514930725, 'learning_rate': 4.8237369142342825e-06, 'epoch': 0.15} {'loss': 2.3434, 'grad_norm': 1.0375750064849854, 'learning_rate': 4.823576656495018e-06, 'epoch': 0.15} {'loss': 2.398, 'grad_norm': 1.190987467765808, 'learning_rate': 4.823416328600548e-06, 'epoch': 0.15} {'loss': 2.2623, 'grad_norm': 1.3128366470336914, 'learning_rate': 4.823255930555715e-06, 'epoch': 0.15} {'loss': 2.384, 'grad_norm': 1.173422932624817, 'learning_rate': 4.82309546236536e-06, 'epoch': 0.15} {'loss': 2.4563, 'grad_norm': 1.2136934995651245, 'learning_rate': 4.8229349240343295e-06, 'epoch': 0.15} {'loss': 2.3236, 'grad_norm': 1.2677202224731445, 'learning_rate': 4.822774315567469e-06, 'epoch': 0.15} {'loss': 2.5263, 'grad_norm': 1.568453073501587, 'learning_rate': 4.822613636969629e-06, 'epoch': 0.15} {'loss': 2.2211, 'grad_norm': 1.0851116180419922, 'learning_rate': 4.822452888245661e-06, 'epoch': 0.15} {'loss': 2.1514, 'grad_norm': 1.0469335317611694, 'learning_rate': 4.822292069400417e-06, 'epoch': 0.15} {'loss': 2.1633, 'grad_norm': 1.0660486221313477, 'learning_rate': 4.822131180438754e-06, 'epoch': 0.15} {'loss': 2.2428, 'grad_norm': 1.3153481483459473, 'learning_rate': 4.821970221365529e-06, 'epoch': 0.15} {'loss': 2.3404, 'grad_norm': 1.3628638982772827, 'learning_rate': 4.821809192185602e-06, 'epoch': 0.15} {'loss': 2.2749, 'grad_norm': 1.3208353519439697, 'learning_rate': 4.821648092903834e-06, 'epoch': 0.15} {'loss': 2.5399, 'grad_norm': 1.1756128072738647, 'learning_rate': 4.821486923525091e-06, 'epoch': 0.15} {'loss': 1.9654, 'grad_norm': 1.1231908798217773, 'learning_rate': 4.8213256840542375e-06, 'epoch': 0.15} {'loss': 2.3145, 'grad_norm': 1.257382869720459, 'learning_rate': 4.821164374496143e-06, 'epoch': 0.15} {'loss': 2.188, 'grad_norm': 1.0137689113616943, 'learning_rate': 4.821002994855677e-06, 'epoch': 0.15} {'loss': 2.2597, 'grad_norm': 1.242363691329956, 'learning_rate': 4.820841545137711e-06, 'epoch': 0.15} {'loss': 2.2932, 'grad_norm': 1.6212775707244873, 'learning_rate': 4.820680025347122e-06, 'epoch': 0.15} {'loss': 2.3879, 'grad_norm': 1.1316384077072144, 'learning_rate': 4.8205184354887845e-06, 'epoch': 0.15} {'loss': 2.5604, 'grad_norm': 1.2950024604797363, 'learning_rate': 4.820356775567579e-06, 'epoch': 0.15} {'loss': 2.1551, 'grad_norm': 1.0231729745864868, 'learning_rate': 4.820195045588386e-06, 'epoch': 0.15} {'loss': 2.269, 'grad_norm': 1.1873359680175781, 'learning_rate': 4.820033245556088e-06, 'epoch': 0.15} {'loss': 2.2263, 'grad_norm': 1.729657530784607, 'learning_rate': 4.81987137547557e-06, 'epoch': 0.15} {'loss': 2.2716, 'grad_norm': 1.1941564083099365, 'learning_rate': 4.819709435351721e-06, 'epoch': 0.15} {'loss': 2.3421, 'grad_norm': 1.1694934368133545, 'learning_rate': 4.819547425189429e-06, 'epoch': 0.15} {'loss': 2.4654, 'grad_norm': 0.9682570695877075, 'learning_rate': 4.819385344993586e-06, 'epoch': 0.15} {'loss': 2.1191, 'grad_norm': 1.313369870185852, 'learning_rate': 4.819223194769085e-06, 'epoch': 0.15} {'loss': 2.0982, 'grad_norm': 1.1320074796676636, 'learning_rate': 4.819060974520821e-06, 'epoch': 0.15} {'loss': 2.0897, 'grad_norm': 1.023849606513977, 'learning_rate': 4.818898684253695e-06, 'epoch': 0.15} {'loss': 2.2591, 'grad_norm': 1.3047869205474854, 'learning_rate': 4.818736323972605e-06, 'epoch': 0.15} {'loss': 2.225, 'grad_norm': 1.1748082637786865, 'learning_rate': 4.8185738936824536e-06, 'epoch': 0.15} {'loss': 2.4475, 'grad_norm': 1.1303651332855225, 'learning_rate': 4.818411393388144e-06, 'epoch': 0.15} {'loss': 2.203, 'grad_norm': 1.0879414081573486, 'learning_rate': 4.818248823094583e-06, 'epoch': 0.15} {'loss': 2.1514, 'grad_norm': 1.073878288269043, 'learning_rate': 4.818086182806679e-06, 'epoch': 0.15} {'loss': 2.4409, 'grad_norm': 1.2259843349456787, 'learning_rate': 4.817923472529344e-06, 'epoch': 0.15} {'loss': 2.5617, 'grad_norm': 1.2612895965576172, 'learning_rate': 4.817760692267488e-06, 'epoch': 0.15} {'loss': 2.4181, 'grad_norm': 1.1186659336090088, 'learning_rate': 4.8175978420260275e-06, 'epoch': 0.15} {'loss': 2.0459, 'grad_norm': 1.0115100145339966, 'learning_rate': 4.817434921809879e-06, 'epoch': 0.15} {'loss': 2.2539, 'grad_norm': 1.2720636129379272, 'learning_rate': 4.817271931623962e-06, 'epoch': 0.15} {'loss': 2.3351, 'grad_norm': 1.054483413696289, 'learning_rate': 4.817108871473198e-06, 'epoch': 0.15} {'loss': 2.2135, 'grad_norm': 1.2497326135635376, 'learning_rate': 4.816945741362508e-06, 'epoch': 0.15} {'loss': 2.2562, 'grad_norm': 1.3859692811965942, 'learning_rate': 4.816782541296821e-06, 'epoch': 0.15} {'loss': 2.4086, 'grad_norm': 1.254451870918274, 'learning_rate': 4.8166192712810615e-06, 'epoch': 0.15} {'loss': 2.0221, 'grad_norm': 1.0867466926574707, 'learning_rate': 4.816455931320159e-06, 'epoch': 0.15} {'loss': 2.4382, 'grad_norm': 1.1539472341537476, 'learning_rate': 4.816292521419046e-06, 'epoch': 0.15} {'loss': 2.5761, 'grad_norm': 1.2179774045944214, 'learning_rate': 4.816129041582658e-06, 'epoch': 0.15} {'loss': 1.7838, 'grad_norm': 1.195760726928711, 'learning_rate': 4.815965491815929e-06, 'epoch': 0.15} {'loss': 2.3568, 'grad_norm': 1.1972638368606567, 'learning_rate': 4.815801872123795e-06, 'epoch': 0.15} {'loss': 2.216, 'grad_norm': 1.3246418237686157, 'learning_rate': 4.815638182511201e-06, 'epoch': 0.15} {'loss': 2.2183, 'grad_norm': 1.1295033693313599, 'learning_rate': 4.8154744229830856e-06, 'epoch': 0.15} {'loss': 2.3083, 'grad_norm': 1.429836630821228, 'learning_rate': 4.815310593544394e-06, 'epoch': 0.15} {'loss': 2.2779, 'grad_norm': 0.9989696145057678, 'learning_rate': 4.8151466942000735e-06, 'epoch': 0.15} {'loss': 2.4467, 'grad_norm': 1.1302649974822998, 'learning_rate': 4.814982724955072e-06, 'epoch': 0.15} {'loss': 2.2643, 'grad_norm': 1.0692965984344482, 'learning_rate': 4.81481868581434e-06, 'epoch': 0.15} {'loss': 2.3903, 'grad_norm': 1.1162033081054688, 'learning_rate': 4.81465457678283e-06, 'epoch': 0.15} {'loss': 2.565, 'grad_norm': 1.286103367805481, 'learning_rate': 4.814490397865499e-06, 'epoch': 0.15} {'loss': 2.2514, 'grad_norm': 1.2736555337905884, 'learning_rate': 4.814326149067301e-06, 'epoch': 0.15} {'loss': 2.4858, 'grad_norm': 1.3678972721099854, 'learning_rate': 4.814161830393197e-06, 'epoch': 0.15} {'loss': 2.4033, 'grad_norm': 1.3407158851623535, 'learning_rate': 4.813997441848148e-06, 'epoch': 0.15} {'loss': 1.3548, 'grad_norm': 1.9348576068878174, 'learning_rate': 4.8138329834371176e-06, 'epoch': 0.15} {'loss': 2.0311, 'grad_norm': 1.1590474843978882, 'learning_rate': 4.81366845516507e-06, 'epoch': 0.15} {'loss': 2.4137, 'grad_norm': 1.1259260177612305, 'learning_rate': 4.813503857036974e-06, 'epoch': 0.15} {'loss': 2.2315, 'grad_norm': 1.2435444593429565, 'learning_rate': 4.8133391890578e-06, 'epoch': 0.15} {'loss': 2.1987, 'grad_norm': 0.9682391285896301, 'learning_rate': 4.813174451232517e-06, 'epoch': 0.15} {'loss': 2.2888, 'grad_norm': 1.1212704181671143, 'learning_rate': 4.813009643566101e-06, 'epoch': 0.15} {'loss': 2.5039, 'grad_norm': 1.0823678970336914, 'learning_rate': 4.812844766063528e-06, 'epoch': 0.15} {'loss': 2.1472, 'grad_norm': 1.1434557437896729, 'learning_rate': 4.812679818729776e-06, 'epoch': 0.15} {'loss': 2.1529, 'grad_norm': 1.2345346212387085, 'learning_rate': 4.8125148015698235e-06, 'epoch': 0.15} {'loss': 2.1996, 'grad_norm': 1.1005955934524536, 'learning_rate': 4.812349714588654e-06, 'epoch': 0.15} {'loss': 2.0645, 'grad_norm': 1.015892505645752, 'learning_rate': 4.812184557791254e-06, 'epoch': 0.15} {'loss': 2.0786, 'grad_norm': 1.39345121383667, 'learning_rate': 4.8120193311826065e-06, 'epoch': 0.15} {'loss': 2.2318, 'grad_norm': 1.3849331140518188, 'learning_rate': 4.811854034767703e-06, 'epoch': 0.15} {'loss': 2.1871, 'grad_norm': 1.222198486328125, 'learning_rate': 4.811688668551533e-06, 'epoch': 0.15} {'loss': 2.0753, 'grad_norm': 1.1931946277618408, 'learning_rate': 4.811523232539089e-06, 'epoch': 0.15} {'loss': 2.435, 'grad_norm': 1.2346850633621216, 'learning_rate': 4.8113577267353664e-06, 'epoch': 0.15} {'loss': 2.2436, 'grad_norm': 2.9288177490234375, 'learning_rate': 4.811192151145362e-06, 'epoch': 0.15} {'loss': 2.0994, 'grad_norm': 1.1076375246047974, 'learning_rate': 4.8110265057740755e-06, 'epoch': 0.15} {'loss': 1.3745, 'grad_norm': 1.2407209873199463, 'learning_rate': 4.810860790626508e-06, 'epoch': 0.15} {'loss': 2.2423, 'grad_norm': 1.0911478996276855, 'learning_rate': 4.810695005707663e-06, 'epoch': 0.15} {'loss': 2.3215, 'grad_norm': 1.8436505794525146, 'learning_rate': 4.810529151022546e-06, 'epoch': 0.15} {'loss': 2.4171, 'grad_norm': 1.2501153945922852, 'learning_rate': 4.810363226576164e-06, 'epoch': 0.15} {'loss': 2.2344, 'grad_norm': 1.1345223188400269, 'learning_rate': 4.8101972323735265e-06, 'epoch': 0.15} {'loss': 2.2793, 'grad_norm': 1.1944572925567627, 'learning_rate': 4.810031168419647e-06, 'epoch': 0.15} {'loss': 2.5368, 'grad_norm': 1.3816077709197998, 'learning_rate': 4.809865034719539e-06, 'epoch': 0.15} {'loss': 2.1798, 'grad_norm': 1.3680733442306519, 'learning_rate': 4.809698831278217e-06, 'epoch': 0.15} {'loss': 2.3402, 'grad_norm': 1.2031583786010742, 'learning_rate': 4.8095325581007e-06, 'epoch': 0.15} {'loss': 2.1276, 'grad_norm': 1.217227816581726, 'learning_rate': 4.80936621519201e-06, 'epoch': 0.15} {'loss': 2.2513, 'grad_norm': 1.1827473640441895, 'learning_rate': 4.809199802557166e-06, 'epoch': 0.15} {'loss': 2.2915, 'grad_norm': 1.2194539308547974, 'learning_rate': 4.8090333202011955e-06, 'epoch': 0.15} {'loss': 2.2094, 'grad_norm': 1.2167216539382935, 'learning_rate': 4.808866768129122e-06, 'epoch': 0.15} {'loss': 2.1026, 'grad_norm': 1.0072201490402222, 'learning_rate': 4.808700146345977e-06, 'epoch': 0.15} {'loss': 2.2986, 'grad_norm': 1.1857491731643677, 'learning_rate': 4.80853345485679e-06, 'epoch': 0.15} {'loss': 2.23, 'grad_norm': 1.2352328300476074, 'learning_rate': 4.808366693666594e-06, 'epoch': 0.15} {'loss': 2.1973, 'grad_norm': 0.9971647262573242, 'learning_rate': 4.808199862780425e-06, 'epoch': 0.15} {'loss': 2.1758, 'grad_norm': 1.0250343084335327, 'learning_rate': 4.808032962203319e-06, 'epoch': 0.15} {'loss': 2.1637, 'grad_norm': 1.3263059854507446, 'learning_rate': 4.8078659919403134e-06, 'epoch': 0.15} {'loss': 2.3645, 'grad_norm': 1.5190186500549316, 'learning_rate': 4.807698951996453e-06, 'epoch': 0.15} {'loss': 2.2151, 'grad_norm': 1.33429753780365, 'learning_rate': 4.807531842376779e-06, 'epoch': 0.15} {'loss': 2.334, 'grad_norm': 1.1994478702545166, 'learning_rate': 4.807364663086338e-06, 'epoch': 0.15} {'loss': 2.3755, 'grad_norm': 1.367074966430664, 'learning_rate': 4.807197414130177e-06, 'epoch': 0.15} {'loss': 2.4564, 'grad_norm': 1.1799287796020508, 'learning_rate': 4.8070300955133455e-06, 'epoch': 0.15} {'loss': 2.1146, 'grad_norm': 1.0291837453842163, 'learning_rate': 4.806862707240896e-06, 'epoch': 0.15} {'loss': 2.3382, 'grad_norm': 1.1938090324401855, 'learning_rate': 4.806695249317881e-06, 'epoch': 0.15} {'loss': 2.4546, 'grad_norm': 1.1887747049331665, 'learning_rate': 4.806527721749359e-06, 'epoch': 0.15} {'loss': 2.4913, 'grad_norm': 1.1367768049240112, 'learning_rate': 4.806360124540386e-06, 'epoch': 0.15} {'loss': 2.1192, 'grad_norm': 1.1260086297988892, 'learning_rate': 4.806192457696024e-06, 'epoch': 0.15} {'loss': 2.4204, 'grad_norm': 1.0587607622146606, 'learning_rate': 4.806024721221333e-06, 'epoch': 0.15} {'loss': 2.3008, 'grad_norm': 1.30533766746521, 'learning_rate': 4.805856915121379e-06, 'epoch': 0.15} {'loss': 2.2667, 'grad_norm': 1.5247464179992676, 'learning_rate': 4.805689039401228e-06, 'epoch': 0.15} {'loss': 2.3488, 'grad_norm': 1.1710468530654907, 'learning_rate': 4.805521094065949e-06, 'epoch': 0.15} {'loss': 2.2721, 'grad_norm': 1.6017030477523804, 'learning_rate': 4.805353079120612e-06, 'epoch': 0.15} {'loss': 2.0727, 'grad_norm': 1.4532430171966553, 'learning_rate': 4.805184994570291e-06, 'epoch': 0.15} {'loss': 2.0903, 'grad_norm': 1.1741102933883667, 'learning_rate': 4.80501684042006e-06, 'epoch': 0.15} {'loss': 2.3127, 'grad_norm': 1.1631425619125366, 'learning_rate': 4.804848616674997e-06, 'epoch': 0.15} {'loss': 2.1923, 'grad_norm': 1.1531758308410645, 'learning_rate': 4.80468032334018e-06, 'epoch': 0.15} {'loss': 2.2679, 'grad_norm': 1.1437016725540161, 'learning_rate': 4.804511960420691e-06, 'epoch': 0.15} {'loss': 2.1199, 'grad_norm': 1.3112766742706299, 'learning_rate': 4.804343527921613e-06, 'epoch': 0.15} {'loss': 2.3508, 'grad_norm': 1.145240306854248, 'learning_rate': 4.804175025848032e-06, 'epoch': 0.15} {'loss': 2.5529, 'grad_norm': 1.6694886684417725, 'learning_rate': 4.8040064542050345e-06, 'epoch': 0.15} {'loss': 2.3574, 'grad_norm': 1.0723209381103516, 'learning_rate': 4.80383781299771e-06, 'epoch': 0.15} {'loss': 2.4926, 'grad_norm': 1.242425799369812, 'learning_rate': 4.803669102231152e-06, 'epoch': 0.15} {'loss': 2.1249, 'grad_norm': 1.1655932664871216, 'learning_rate': 4.803500321910453e-06, 'epoch': 0.15} {'loss': 2.1902, 'grad_norm': 1.310933232307434, 'learning_rate': 4.80333147204071e-06, 'epoch': 0.15} {'loss': 2.259, 'grad_norm': 1.14324152469635, 'learning_rate': 4.80316255262702e-06, 'epoch': 0.15} {'loss': 2.2076, 'grad_norm': 1.2345800399780273, 'learning_rate': 4.802993563674483e-06, 'epoch': 0.15} {'loss': 2.2537, 'grad_norm': 1.1824792623519897, 'learning_rate': 4.802824505188202e-06, 'epoch': 0.15} {'loss': 2.2983, 'grad_norm': 1.1872730255126953, 'learning_rate': 4.802655377173281e-06, 'epoch': 0.15} {'loss': 2.2547, 'grad_norm': 1.2097169160842896, 'learning_rate': 4.802486179634827e-06, 'epoch': 0.15} {'loss': 2.268, 'grad_norm': 1.0807543992996216, 'learning_rate': 4.802316912577947e-06, 'epoch': 0.15} {'loss': 2.3631, 'grad_norm': 1.1962196826934814, 'learning_rate': 4.802147576007753e-06, 'epoch': 0.15} {'loss': 2.0644, 'grad_norm': 1.0260673761367798, 'learning_rate': 4.801978169929357e-06, 'epoch': 0.15} {'loss': 2.2612, 'grad_norm': 1.2221707105636597, 'learning_rate': 4.801808694347875e-06, 'epoch': 0.15} {'loss': 2.2952, 'grad_norm': 1.1478830575942993, 'learning_rate': 4.8016391492684226e-06, 'epoch': 0.15} {'loss': 2.2966, 'grad_norm': 1.1226656436920166, 'learning_rate': 4.80146953469612e-06, 'epoch': 0.15} {'loss': 1.9943, 'grad_norm': 1.188783884048462, 'learning_rate': 4.801299850636087e-06, 'epoch': 0.15} {'loss': 2.3906, 'grad_norm': 1.115997076034546, 'learning_rate': 4.801130097093448e-06, 'epoch': 0.15} {'loss': 2.1624, 'grad_norm': 1.3525177240371704, 'learning_rate': 4.8009602740733284e-06, 'epoch': 0.15} {'loss': 2.3437, 'grad_norm': 1.3838391304016113, 'learning_rate': 4.800790381580854e-06, 'epoch': 0.15} {'loss': 2.5869, 'grad_norm': 1.6384971141815186, 'learning_rate': 4.800620419621156e-06, 'epoch': 0.15} {'loss': 2.5044, 'grad_norm': 1.213053822517395, 'learning_rate': 4.800450388199366e-06, 'epoch': 0.15} {'loss': 2.1819, 'grad_norm': 1.0747272968292236, 'learning_rate': 4.800280287320617e-06, 'epoch': 0.15} {'loss': 2.321, 'grad_norm': 1.104613184928894, 'learning_rate': 4.800110116990044e-06, 'epoch': 0.15} {'loss': 2.4182, 'grad_norm': 1.3164948225021362, 'learning_rate': 4.7999398772127875e-06, 'epoch': 0.15} {'loss': 2.4235, 'grad_norm': 1.271101951599121, 'learning_rate': 4.799769567993985e-06, 'epoch': 0.15} {'loss': 2.3002, 'grad_norm': 1.2206676006317139, 'learning_rate': 4.799599189338779e-06, 'epoch': 0.15} {'loss': 2.0242, 'grad_norm': 1.2204235792160034, 'learning_rate': 4.799428741252315e-06, 'epoch': 0.15} {'loss': 1.9556, 'grad_norm': 1.106865644454956, 'learning_rate': 4.799258223739739e-06, 'epoch': 0.15} {'loss': 2.2644, 'grad_norm': 1.1434762477874756, 'learning_rate': 4.799087636806199e-06, 'epoch': 0.15} {'loss': 2.4804, 'grad_norm': 1.2054431438446045, 'learning_rate': 4.798916980456845e-06, 'epoch': 0.16} {'loss': 2.3868, 'grad_norm': 1.1112333536148071, 'learning_rate': 4.798746254696829e-06, 'epoch': 0.16} {'loss': 2.243, 'grad_norm': 1.7496609687805176, 'learning_rate': 4.7985754595313075e-06, 'epoch': 0.16} {'loss': 2.2166, 'grad_norm': 1.0955934524536133, 'learning_rate': 4.798404594965437e-06, 'epoch': 0.16} {'loss': 2.3146, 'grad_norm': 1.0978455543518066, 'learning_rate': 4.798233661004376e-06, 'epoch': 0.16} {'loss': 2.3247, 'grad_norm': 1.270133137702942, 'learning_rate': 4.798062657653284e-06, 'epoch': 0.16} {'loss': 1.7678, 'grad_norm': 1.2818571329116821, 'learning_rate': 4.797891584917326e-06, 'epoch': 0.16} {'loss': 2.325, 'grad_norm': 1.1788274049758911, 'learning_rate': 4.797720442801667e-06, 'epoch': 0.16} {'loss': 2.1724, 'grad_norm': 1.1679904460906982, 'learning_rate': 4.797549231311473e-06, 'epoch': 0.16} {'loss': 2.0791, 'grad_norm': 1.1923301219940186, 'learning_rate': 4.797377950451915e-06, 'epoch': 0.16} {'loss': 2.1796, 'grad_norm': 1.2958101034164429, 'learning_rate': 4.7972066002281625e-06, 'epoch': 0.16} {'loss': 2.3949, 'grad_norm': 1.2919819355010986, 'learning_rate': 4.797035180645391e-06, 'epoch': 0.16} {'loss': 2.2881, 'grad_norm': 1.2203866243362427, 'learning_rate': 4.7968636917087754e-06, 'epoch': 0.16} {'loss': 2.136, 'grad_norm': 0.9369720220565796, 'learning_rate': 4.796692133423493e-06, 'epoch': 0.16} {'loss': 2.2993, 'grad_norm': 1.5433340072631836, 'learning_rate': 4.7965205057947235e-06, 'epoch': 0.16} {'loss': 2.2933, 'grad_norm': 1.4709161520004272, 'learning_rate': 4.79634880882765e-06, 'epoch': 0.16} {'loss': 2.4902, 'grad_norm': 1.2268426418304443, 'learning_rate': 4.7961770425274545e-06, 'epoch': 0.16} {'loss': 2.2954, 'grad_norm': 1.2769966125488281, 'learning_rate': 4.796005206899325e-06, 'epoch': 0.16} {'loss': 2.0409, 'grad_norm': 1.116747498512268, 'learning_rate': 4.795833301948449e-06, 'epoch': 0.16} {'loss': 2.0644, 'grad_norm': 1.101408839225769, 'learning_rate': 4.795661327680017e-06, 'epoch': 0.16} {'loss': 2.2783, 'grad_norm': 1.1973319053649902, 'learning_rate': 4.795489284099221e-06, 'epoch': 0.16} {'loss': 2.0144, 'grad_norm': 1.2317484617233276, 'learning_rate': 4.795317171211255e-06, 'epoch': 0.16} {'loss': 2.3465, 'grad_norm': 1.0992565155029297, 'learning_rate': 4.795144989021318e-06, 'epoch': 0.16} {'loss': 2.1508, 'grad_norm': 1.1181533336639404, 'learning_rate': 4.794972737534605e-06, 'epoch': 0.16} {'loss': 2.2248, 'grad_norm': 2.796945571899414, 'learning_rate': 4.79480041675632e-06, 'epoch': 0.16} {'loss': 2.4683, 'grad_norm': 1.2749654054641724, 'learning_rate': 4.794628026691663e-06, 'epoch': 0.16} {'loss': 2.287, 'grad_norm': 1.3407409191131592, 'learning_rate': 4.794455567345842e-06, 'epoch': 0.16} {'loss': 2.4043, 'grad_norm': 1.2482330799102783, 'learning_rate': 4.794283038724061e-06, 'epoch': 0.16} {'loss': 1.9848, 'grad_norm': 1.1665592193603516, 'learning_rate': 4.794110440831532e-06, 'epoch': 0.16} {'loss': 2.1467, 'grad_norm': 1.169379711151123, 'learning_rate': 4.793937773673464e-06, 'epoch': 0.16} {'loss': 2.4747, 'grad_norm': 0.976087749004364, 'learning_rate': 4.79376503725507e-06, 'epoch': 0.16} {'loss': 2.1088, 'grad_norm': 1.2011499404907227, 'learning_rate': 4.793592231581568e-06, 'epoch': 0.16} {'loss': 2.2717, 'grad_norm': 1.0975022315979004, 'learning_rate': 4.7934193566581734e-06, 'epoch': 0.16} {'loss': 2.3371, 'grad_norm': 1.1524206399917603, 'learning_rate': 4.793246412490106e-06, 'epoch': 0.16} {'loss': 2.1306, 'grad_norm': 1.3166700601577759, 'learning_rate': 4.793073399082589e-06, 'epoch': 0.16} {'loss': 2.417, 'grad_norm': 1.2136192321777344, 'learning_rate': 4.792900316440843e-06, 'epoch': 0.16} {'loss': 2.2707, 'grad_norm': 1.1122221946716309, 'learning_rate': 4.792727164570097e-06, 'epoch': 0.16} {'loss': 2.0887, 'grad_norm': 1.1029934883117676, 'learning_rate': 4.792553943475576e-06, 'epoch': 0.16} {'loss': 2.2628, 'grad_norm': 1.1776975393295288, 'learning_rate': 4.7923806531625135e-06, 'epoch': 0.16} {'loss': 2.2121, 'grad_norm': 1.1428911685943604, 'learning_rate': 4.79220729363614e-06, 'epoch': 0.16} {'loss': 2.2553, 'grad_norm': 1.2312090396881104, 'learning_rate': 4.792033864901688e-06, 'epoch': 0.16} {'loss': 2.3146, 'grad_norm': 1.3499360084533691, 'learning_rate': 4.7918603669643955e-06, 'epoch': 0.16} {'loss': 2.2008, 'grad_norm': 1.2122966051101685, 'learning_rate': 4.791686799829502e-06, 'epoch': 0.16} {'loss': 2.2869, 'grad_norm': 1.2988256216049194, 'learning_rate': 4.791513163502246e-06, 'epoch': 0.16} {'loss': 2.4279, 'grad_norm': 1.2200340032577515, 'learning_rate': 4.7913394579878704e-06, 'epoch': 0.16} {'loss': 2.1508, 'grad_norm': 1.1703461408615112, 'learning_rate': 4.79116568329162e-06, 'epoch': 0.16} {'loss': 2.3619, 'grad_norm': 1.604644775390625, 'learning_rate': 4.790991839418743e-06, 'epoch': 0.16} {'loss': 2.3993, 'grad_norm': 1.2847343683242798, 'learning_rate': 4.790817926374486e-06, 'epoch': 0.16} {'loss': 2.1724, 'grad_norm': 1.1218241453170776, 'learning_rate': 4.7906439441641004e-06, 'epoch': 0.16} {'loss': 2.3832, 'grad_norm': 1.0674391984939575, 'learning_rate': 4.79046989279284e-06, 'epoch': 0.16} {'loss': 2.4606, 'grad_norm': 1.1682212352752686, 'learning_rate': 4.79029577226596e-06, 'epoch': 0.16} {'loss': 2.2585, 'grad_norm': 1.290135383605957, 'learning_rate': 4.790121582588717e-06, 'epoch': 0.16} {'loss': 2.2772, 'grad_norm': 3.6530585289001465, 'learning_rate': 4.7899473237663695e-06, 'epoch': 0.16} {'loss': 2.0838, 'grad_norm': 1.1133934259414673, 'learning_rate': 4.789772995804181e-06, 'epoch': 0.16} {'loss': 2.3966, 'grad_norm': 1.2653542757034302, 'learning_rate': 4.789598598707413e-06, 'epoch': 0.16} {'loss': 2.3327, 'grad_norm': 1.090238094329834, 'learning_rate': 4.789424132481332e-06, 'epoch': 0.16} {'loss': 2.4089, 'grad_norm': 1.1340293884277344, 'learning_rate': 4.7892495971312055e-06, 'epoch': 0.16} {'loss': 2.3024, 'grad_norm': 1.0783169269561768, 'learning_rate': 4.789074992662302e-06, 'epoch': 0.16} {'loss': 2.3763, 'grad_norm': 1.1634693145751953, 'learning_rate': 4.7889003190798955e-06, 'epoch': 0.16} {'loss': 2.3629, 'grad_norm': 1.2150582075119019, 'learning_rate': 4.788725576389259e-06, 'epoch': 0.16} {'loss': 2.3886, 'grad_norm': 1.2875847816467285, 'learning_rate': 4.788550764595667e-06, 'epoch': 0.16} {'loss': 2.4221, 'grad_norm': 1.313193678855896, 'learning_rate': 4.7883758837044e-06, 'epoch': 0.16} {'loss': 2.2852, 'grad_norm': 1.2829747200012207, 'learning_rate': 4.788200933720736e-06, 'epoch': 0.16} {'loss': 2.4975, 'grad_norm': 1.48868727684021, 'learning_rate': 4.788025914649958e-06, 'epoch': 0.16} {'loss': 2.2012, 'grad_norm': 1.1242103576660156, 'learning_rate': 4.787850826497351e-06, 'epoch': 0.16} {'loss': 2.2487, 'grad_norm': 1.2643870115280151, 'learning_rate': 4.7876756692682e-06, 'epoch': 0.16} {'loss': 2.4075, 'grad_norm': 1.1525098085403442, 'learning_rate': 4.787500442967795e-06, 'epoch': 0.16} {'loss': 2.4639, 'grad_norm': 1.1928962469100952, 'learning_rate': 4.787325147601426e-06, 'epoch': 0.16} {'loss': 2.3303, 'grad_norm': 1.706312894821167, 'learning_rate': 4.787149783174385e-06, 'epoch': 0.16} {'loss': 2.4713, 'grad_norm': 1.1195869445800781, 'learning_rate': 4.7869743496919676e-06, 'epoch': 0.16} {'loss': 2.3332, 'grad_norm': 1.1594929695129395, 'learning_rate': 4.786798847159469e-06, 'epoch': 0.16} {'loss': 2.1355, 'grad_norm': 1.0888879299163818, 'learning_rate': 4.786623275582191e-06, 'epoch': 0.16} {'loss': 2.2819, 'grad_norm': 1.4115545749664307, 'learning_rate': 4.786447634965432e-06, 'epoch': 0.16} {'loss': 2.4817, 'grad_norm': 1.5182048082351685, 'learning_rate': 4.786271925314497e-06, 'epoch': 0.16} {'loss': 2.2765, 'grad_norm': 1.0676771402359009, 'learning_rate': 4.78609614663469e-06, 'epoch': 0.16} {'loss': 2.2432, 'grad_norm': 1.1651480197906494, 'learning_rate': 4.785920298931318e-06, 'epoch': 0.16} {'loss': 2.3743, 'grad_norm': 1.4434301853179932, 'learning_rate': 4.785744382209691e-06, 'epoch': 0.16} {'loss': 2.0996, 'grad_norm': 1.3972140550613403, 'learning_rate': 4.78556839647512e-06, 'epoch': 0.16} {'loss': 2.231, 'grad_norm': 1.1602033376693726, 'learning_rate': 4.785392341732918e-06, 'epoch': 0.16} {'loss': 2.2636, 'grad_norm': 1.2217235565185547, 'learning_rate': 4.785216217988402e-06, 'epoch': 0.16} {'loss': 1.7281, 'grad_norm': 1.2225987911224365, 'learning_rate': 4.7850400252468895e-06, 'epoch': 0.16} {'loss': 1.9749, 'grad_norm': 1.0378024578094482, 'learning_rate': 4.784863763513699e-06, 'epoch': 0.16} {'loss': 2.2678, 'grad_norm': 1.298031210899353, 'learning_rate': 4.784687432794153e-06, 'epoch': 0.16} {'loss': 2.3751, 'grad_norm': 1.3964534997940063, 'learning_rate': 4.784511033093575e-06, 'epoch': 0.16} {'loss': 2.1854, 'grad_norm': 1.145098090171814, 'learning_rate': 4.784334564417292e-06, 'epoch': 0.16} {'loss': 2.1541, 'grad_norm': 1.25832998752594, 'learning_rate': 4.784158026770631e-06, 'epoch': 0.16} {'loss': 2.7172, 'grad_norm': 1.383490800857544, 'learning_rate': 4.783981420158924e-06, 'epoch': 0.16} {'loss': 2.4101, 'grad_norm': 4.170907020568848, 'learning_rate': 4.7838047445875005e-06, 'epoch': 0.16} {'loss': 2.2121, 'grad_norm': 1.2681913375854492, 'learning_rate': 4.783628000061696e-06, 'epoch': 0.16} {'loss': 2.6903, 'grad_norm': 1.331875205039978, 'learning_rate': 4.783451186586848e-06, 'epoch': 0.16} {'loss': 2.5118, 'grad_norm': 1.641340732574463, 'learning_rate': 4.783274304168294e-06, 'epoch': 0.16} {'loss': 2.3505, 'grad_norm': 1.1730107069015503, 'learning_rate': 4.783097352811374e-06, 'epoch': 0.16} {'loss': 2.3055, 'grad_norm': 1.1710654497146606, 'learning_rate': 4.782920332521433e-06, 'epoch': 0.16} {'loss': 2.0943, 'grad_norm': 1.148520827293396, 'learning_rate': 4.7827432433038115e-06, 'epoch': 0.16} {'loss': 2.297, 'grad_norm': 1.396323323249817, 'learning_rate': 4.7825660851638605e-06, 'epoch': 0.16} {'loss': 2.3529, 'grad_norm': 1.2834547758102417, 'learning_rate': 4.782388858106926e-06, 'epoch': 0.16} {'loss': 1.6139, 'grad_norm': 1.0846941471099854, 'learning_rate': 4.782211562138363e-06, 'epoch': 0.16} {'loss': 2.1872, 'grad_norm': 1.0871044397354126, 'learning_rate': 4.782034197263519e-06, 'epoch': 0.16} {'loss': 2.4931, 'grad_norm': 1.2371833324432373, 'learning_rate': 4.781856763487754e-06, 'epoch': 0.16} {'loss': 2.2155, 'grad_norm': 1.4174323081970215, 'learning_rate': 4.781679260816421e-06, 'epoch': 0.16} {'loss': 2.2278, 'grad_norm': 1.049787163734436, 'learning_rate': 4.781501689254883e-06, 'epoch': 0.16} {'loss': 2.1097, 'grad_norm': 1.183361530303955, 'learning_rate': 4.781324048808499e-06, 'epoch': 0.16} {'loss': 2.5177, 'grad_norm': 1.1320747137069702, 'learning_rate': 4.781146339482634e-06, 'epoch': 0.16} {'loss': 2.0298, 'grad_norm': 0.9171345829963684, 'learning_rate': 4.780968561282652e-06, 'epoch': 0.16} {'loss': 2.1983, 'grad_norm': 1.3874672651290894, 'learning_rate': 4.7807907142139224e-06, 'epoch': 0.16} {'loss': 2.1635, 'grad_norm': 1.2509644031524658, 'learning_rate': 4.780612798281813e-06, 'epoch': 0.16} {'loss': 2.3582, 'grad_norm': 1.2035802602767944, 'learning_rate': 4.780434813491697e-06, 'epoch': 0.16} {'loss': 2.2278, 'grad_norm': 1.1673996448516846, 'learning_rate': 4.7802567598489466e-06, 'epoch': 0.16} {'loss': 2.4681, 'grad_norm': 7.547418594360352, 'learning_rate': 4.78007863735894e-06, 'epoch': 0.16} {'loss': 2.3656, 'grad_norm': 1.2003828287124634, 'learning_rate': 4.779900446027054e-06, 'epoch': 0.16} {'loss': 1.7391, 'grad_norm': 1.1799448728561401, 'learning_rate': 4.779722185858669e-06, 'epoch': 0.16} {'loss': 2.4289, 'grad_norm': 1.1270782947540283, 'learning_rate': 4.779543856859167e-06, 'epoch': 0.16} {'loss': 2.147, 'grad_norm': 1.0644357204437256, 'learning_rate': 4.779365459033931e-06, 'epoch': 0.16} {'loss': 2.3507, 'grad_norm': 1.154708981513977, 'learning_rate': 4.7791869923883495e-06, 'epoch': 0.16} {'loss': 2.3193, 'grad_norm': 1.1787158250808716, 'learning_rate': 4.77900845692781e-06, 'epoch': 0.16} {'loss': 2.3467, 'grad_norm': 1.1646615266799927, 'learning_rate': 4.778829852657703e-06, 'epoch': 0.16} {'loss': 2.3776, 'grad_norm': 1.3145935535430908, 'learning_rate': 4.77865117958342e-06, 'epoch': 0.16} {'loss': 2.2197, 'grad_norm': 1.2228314876556396, 'learning_rate': 4.778472437710357e-06, 'epoch': 0.16} {'loss': 1.9011, 'grad_norm': 4.620388984680176, 'learning_rate': 4.7782936270439105e-06, 'epoch': 0.16} {'loss': 2.2061, 'grad_norm': 1.3254187107086182, 'learning_rate': 4.778114747589479e-06, 'epoch': 0.16} {'loss': 1.342, 'grad_norm': 1.2507721185684204, 'learning_rate': 4.777935799352464e-06, 'epoch': 0.16} {'loss': 2.2219, 'grad_norm': 1.1259554624557495, 'learning_rate': 4.777756782338267e-06, 'epoch': 0.16} {'loss': 2.4516, 'grad_norm': 1.2501468658447266, 'learning_rate': 4.7775776965522945e-06, 'epoch': 0.16} {'loss': 2.2677, 'grad_norm': 1.2197118997573853, 'learning_rate': 4.777398541999954e-06, 'epoch': 0.16} {'loss': 2.1611, 'grad_norm': 1.248966097831726, 'learning_rate': 4.777219318686652e-06, 'epoch': 0.16} {'loss': 2.2973, 'grad_norm': 1.2267180681228638, 'learning_rate': 4.777040026617802e-06, 'epoch': 0.16} {'loss': 2.1558, 'grad_norm': 1.3521398305892944, 'learning_rate': 4.776860665798816e-06, 'epoch': 0.16} {'loss': 2.4099, 'grad_norm': 13.133729934692383, 'learning_rate': 4.776681236235111e-06, 'epoch': 0.16} {'loss': 2.2721, 'grad_norm': 1.2674521207809448, 'learning_rate': 4.776501737932104e-06, 'epoch': 0.16} {'loss': 1.3111, 'grad_norm': 1.169963002204895, 'learning_rate': 4.776322170895213e-06, 'epoch': 0.16} {'loss': 2.3495, 'grad_norm': 1.1726515293121338, 'learning_rate': 4.776142535129862e-06, 'epoch': 0.16} {'loss': 2.1606, 'grad_norm': 1.153148889541626, 'learning_rate': 4.775962830641473e-06, 'epoch': 0.16} {'loss': 2.3615, 'grad_norm': 1.3693723678588867, 'learning_rate': 4.775783057435472e-06, 'epoch': 0.16} {'loss': 2.4706, 'grad_norm': 1.3577522039413452, 'learning_rate': 4.775603215517287e-06, 'epoch': 0.16} {'loss': 2.2385, 'grad_norm': 1.1257344484329224, 'learning_rate': 4.775423304892349e-06, 'epoch': 0.16} {'loss': 2.253, 'grad_norm': 1.2729793787002563, 'learning_rate': 4.775243325566088e-06, 'epoch': 0.16} {'loss': 2.2492, 'grad_norm': 1.1944845914840698, 'learning_rate': 4.77506327754394e-06, 'epoch': 0.16} {'loss': 2.0661, 'grad_norm': 1.116951584815979, 'learning_rate': 4.77488316083134e-06, 'epoch': 0.16} {'loss': 2.4788, 'grad_norm': 1.4719529151916504, 'learning_rate': 4.774702975433726e-06, 'epoch': 0.16} {'loss': 2.2345, 'grad_norm': 1.0310859680175781, 'learning_rate': 4.774522721356539e-06, 'epoch': 0.16} {'loss': 2.2693, 'grad_norm': 1.2536746263504028, 'learning_rate': 4.774342398605222e-06, 'epoch': 0.16} 2024-12-14 10:37:07 - WARNING - NaN or Inf found in input tensor. {'loss': 2.2686, 'grad_norm': nan, 'learning_rate': 4.774342398605222e-06, 'epoch': 0.16} {'loss': 2.3642, 'grad_norm': 1.1777926683425903, 'learning_rate': 4.774162007185217e-06, 'epoch': 0.16} {'loss': 2.1838, 'grad_norm': 1.1644583940505981, 'learning_rate': 4.773981547101973e-06, 'epoch': 0.16} {'loss': 2.1274, 'grad_norm': 1.145784854888916, 'learning_rate': 4.7738010183609386e-06, 'epoch': 0.16} {'loss': 2.1254, 'grad_norm': 1.1470249891281128, 'learning_rate': 4.773620420967562e-06, 'epoch': 0.16} {'loss': 2.4984, 'grad_norm': 1.4423848390579224, 'learning_rate': 4.7734397549272985e-06, 'epoch': 0.16} {'loss': 2.4852, 'grad_norm': 1.1550347805023193, 'learning_rate': 4.773259020245601e-06, 'epoch': 0.16} {'loss': 2.2356, 'grad_norm': 1.0661749839782715, 'learning_rate': 4.773078216927929e-06, 'epoch': 0.16} {'loss': 2.2554, 'grad_norm': 1.095867395401001, 'learning_rate': 4.772897344979738e-06, 'epoch': 0.16} {'loss': 2.4065, 'grad_norm': 1.2106332778930664, 'learning_rate': 4.772716404406491e-06, 'epoch': 0.16} {'loss': 2.4073, 'grad_norm': 1.3573211431503296, 'learning_rate': 4.772535395213651e-06, 'epoch': 0.16} {'loss': 2.4717, 'grad_norm': 1.451893925666809, 'learning_rate': 4.772354317406683e-06, 'epoch': 0.16} {'loss': 2.1656, 'grad_norm': 3.816734552383423, 'learning_rate': 4.772173170991055e-06, 'epoch': 0.16} {'loss': 2.3746, 'grad_norm': 1.2051477432250977, 'learning_rate': 4.771991955972235e-06, 'epoch': 0.16} {'loss': 2.2762, 'grad_norm': 1.3530343770980835, 'learning_rate': 4.771810672355696e-06, 'epoch': 0.16} {'loss': 2.2306, 'grad_norm': 1.1844065189361572, 'learning_rate': 4.771629320146909e-06, 'epoch': 0.16} {'loss': 2.6556, 'grad_norm': 1.5023545026779175, 'learning_rate': 4.771447899351351e-06, 'epoch': 0.16} {'loss': 2.5056, 'grad_norm': 1.3368052244186401, 'learning_rate': 4.7712664099744995e-06, 'epoch': 0.16} {'loss': 2.2066, 'grad_norm': 1.0757620334625244, 'learning_rate': 4.771084852021835e-06, 'epoch': 0.16} {'loss': 2.2341, 'grad_norm': 1.2819583415985107, 'learning_rate': 4.7709032254988385e-06, 'epoch': 0.16} {'loss': 2.278, 'grad_norm': 1.229966402053833, 'learning_rate': 4.770721530410993e-06, 'epoch': 0.16} {'loss': 2.4204, 'grad_norm': 1.3077037334442139, 'learning_rate': 4.770539766763786e-06, 'epoch': 0.16} {'loss': 2.0961, 'grad_norm': 1.126503348350525, 'learning_rate': 4.770357934562704e-06, 'epoch': 0.16} {'loss': 2.1024, 'grad_norm': 1.6038146018981934, 'learning_rate': 4.7701760338132375e-06, 'epoch': 0.16} {'loss': 2.3868, 'grad_norm': 1.1988927125930786, 'learning_rate': 4.769994064520878e-06, 'epoch': 0.16} {'loss': 2.1872, 'grad_norm': 2.023129940032959, 'learning_rate': 4.769812026691122e-06, 'epoch': 0.16} {'loss': 2.3441, 'grad_norm': 1.0118769407272339, 'learning_rate': 4.769629920329463e-06, 'epoch': 0.16} {'loss': 2.1031, 'grad_norm': 1.0740152597427368, 'learning_rate': 4.7694477454414e-06, 'epoch': 0.16} {'loss': 2.2978, 'grad_norm': 1.088633418083191, 'learning_rate': 4.769265502032434e-06, 'epoch': 0.16} {'loss': 2.2027, 'grad_norm': 2.8807919025421143, 'learning_rate': 4.769083190108068e-06, 'epoch': 0.16} {'loss': 2.4035, 'grad_norm': 1.247018575668335, 'learning_rate': 4.7689008096738055e-06, 'epoch': 0.16} {'loss': 2.3281, 'grad_norm': 1.2167555093765259, 'learning_rate': 4.768718360735152e-06, 'epoch': 0.16} {'loss': 2.4508, 'grad_norm': 1.3849979639053345, 'learning_rate': 4.7685358432976184e-06, 'epoch': 0.16} {'loss': 2.3818, 'grad_norm': 1.4860491752624512, 'learning_rate': 4.768353257366714e-06, 'epoch': 0.16} {'loss': 2.405, 'grad_norm': 1.1544153690338135, 'learning_rate': 4.768170602947952e-06, 'epoch': 0.16} {'loss': 2.2358, 'grad_norm': 1.0194731950759888, 'learning_rate': 4.767987880046847e-06, 'epoch': 0.16} {'loss': 2.2741, 'grad_norm': 1.1071710586547852, 'learning_rate': 4.7678050886689165e-06, 'epoch': 0.16} {'loss': 2.0242, 'grad_norm': 1.2307766675949097, 'learning_rate': 4.7676222288196785e-06, 'epoch': 0.16} {'loss': 2.1365, 'grad_norm': 1.3019862174987793, 'learning_rate': 4.767439300504655e-06, 'epoch': 0.16} {'loss': 2.3628, 'grad_norm': 1.2495993375778198, 'learning_rate': 4.767256303729369e-06, 'epoch': 0.16} {'loss': 2.3674, 'grad_norm': 1.18794846534729, 'learning_rate': 4.767073238499345e-06, 'epoch': 0.16} {'loss': 2.2879, 'grad_norm': 1.3019988536834717, 'learning_rate': 4.766890104820111e-06, 'epoch': 0.16} {'loss': 2.1944, 'grad_norm': 1.1134647130966187, 'learning_rate': 4.766706902697195e-06, 'epoch': 0.16} {'loss': 2.5073, 'grad_norm': 1.3174816370010376, 'learning_rate': 4.76652363213613e-06, 'epoch': 0.16} {'loss': 1.5533, 'grad_norm': 1.7657816410064697, 'learning_rate': 4.766340293142449e-06, 'epoch': 0.16} {'loss': 2.1049, 'grad_norm': 1.1561741828918457, 'learning_rate': 4.766156885721687e-06, 'epoch': 0.17} {'loss': 2.2399, 'grad_norm': 1.2976888418197632, 'learning_rate': 4.765973409879382e-06, 'epoch': 0.17} {'loss': 2.1704, 'grad_norm': 1.0463858842849731, 'learning_rate': 4.7657898656210735e-06, 'epoch': 0.17} {'loss': 2.3077, 'grad_norm': 1.2705919742584229, 'learning_rate': 4.765606252952303e-06, 'epoch': 0.17} {'loss': 2.2453, 'grad_norm': 1.166109323501587, 'learning_rate': 4.765422571878615e-06, 'epoch': 0.17} {'loss': 2.1702, 'grad_norm': 1.4696775674819946, 'learning_rate': 4.7652388224055544e-06, 'epoch': 0.17} {'loss': 2.1835, 'grad_norm': 1.4241284132003784, 'learning_rate': 4.76505500453867e-06, 'epoch': 0.17} {'loss': 2.3967, 'grad_norm': 1.5942964553833008, 'learning_rate': 4.764871118283511e-06, 'epoch': 0.17} {'loss': 2.1367, 'grad_norm': 1.3306474685668945, 'learning_rate': 4.764687163645629e-06, 'epoch': 0.17} {'loss': 2.4697, 'grad_norm': 1.1766239404678345, 'learning_rate': 4.7645031406305794e-06, 'epoch': 0.17} {'loss': 2.0348, 'grad_norm': 1.2496379613876343, 'learning_rate': 4.764319049243919e-06, 'epoch': 0.17} {'loss': 2.2484, 'grad_norm': 1.3229255676269531, 'learning_rate': 4.764134889491203e-06, 'epoch': 0.17} {'loss': 2.331, 'grad_norm': 1.3015755414962769, 'learning_rate': 4.763950661377994e-06, 'epoch': 0.17} {'loss': 2.3112, 'grad_norm': 1.1605817079544067, 'learning_rate': 4.763766364909854e-06, 'epoch': 0.17} {'loss': 2.2961, 'grad_norm': 1.31203293800354, 'learning_rate': 4.763582000092348e-06, 'epoch': 0.17} {'loss': 2.1397, 'grad_norm': 1.231998324394226, 'learning_rate': 4.7633975669310415e-06, 'epoch': 0.17} {'loss': 2.3584, 'grad_norm': 1.1606056690216064, 'learning_rate': 4.763213065431502e-06, 'epoch': 0.17} {'loss': 2.0288, 'grad_norm': 1.199363350868225, 'learning_rate': 4.7630284955993034e-06, 'epoch': 0.17} {'loss': 2.5801, 'grad_norm': 8.525489807128906, 'learning_rate': 4.7628438574400155e-06, 'epoch': 0.17} {'loss': 2.5557, 'grad_norm': 1.3252573013305664, 'learning_rate': 4.7626591509592136e-06, 'epoch': 0.17} {'loss': 1.8008, 'grad_norm': 1.1889395713806152, 'learning_rate': 4.762474376162476e-06, 'epoch': 0.17} {'loss': 2.3091, 'grad_norm': 1.0889924764633179, 'learning_rate': 4.762289533055379e-06, 'epoch': 0.17} {'loss': 2.3572, 'grad_norm': 1.2526229619979858, 'learning_rate': 4.7621046216435064e-06, 'epoch': 0.17} {'loss': 2.5932, 'grad_norm': 1.374398112297058, 'learning_rate': 4.761919641932439e-06, 'epoch': 0.17} {'loss': 2.4145, 'grad_norm': 1.0881431102752686, 'learning_rate': 4.761734593927762e-06, 'epoch': 0.17} {'loss': 2.3989, 'grad_norm': 3.0205113887786865, 'learning_rate': 4.761549477635064e-06, 'epoch': 0.17} {'loss': 2.3158, 'grad_norm': 1.146669626235962, 'learning_rate': 4.7613642930599325e-06, 'epoch': 0.17} {'loss': 2.4463, 'grad_norm': 1.3177757263183594, 'learning_rate': 4.76117904020796e-06, 'epoch': 0.17} {'loss': 2.3583, 'grad_norm': 1.9498062133789062, 'learning_rate': 4.7609937190847385e-06, 'epoch': 0.17} {'loss': 2.1716, 'grad_norm': 1.0625829696655273, 'learning_rate': 4.760808329695865e-06, 'epoch': 0.17} {'loss': 2.2931, 'grad_norm': 1.2703917026519775, 'learning_rate': 4.760622872046936e-06, 'epoch': 0.17} {'loss': 2.2393, 'grad_norm': 1.15384840965271, 'learning_rate': 4.760437346143551e-06, 'epoch': 0.17} {'loss': 2.1301, 'grad_norm': 1.2875674962997437, 'learning_rate': 4.7602517519913114e-06, 'epoch': 0.17} {'loss': 2.3167, 'grad_norm': 1.3640247583389282, 'learning_rate': 4.760066089595821e-06, 'epoch': 0.17} {'loss': 2.2239, 'grad_norm': 1.2401844263076782, 'learning_rate': 4.759880358962686e-06, 'epoch': 0.17} {'loss': 2.221, 'grad_norm': 1.1503642797470093, 'learning_rate': 4.759694560097513e-06, 'epoch': 0.17} {'loss': 2.2508, 'grad_norm': 1.1801371574401855, 'learning_rate': 4.759508693005912e-06, 'epoch': 0.17} {'loss': 2.3798, 'grad_norm': 1.1720728874206543, 'learning_rate': 4.759322757693496e-06, 'epoch': 0.17} {'loss': 2.1778, 'grad_norm': 1.2267084121704102, 'learning_rate': 4.759136754165878e-06, 'epoch': 0.17} {'loss': 2.3467, 'grad_norm': 1.259080171585083, 'learning_rate': 4.758950682428673e-06, 'epoch': 0.17} {'loss': 2.3278, 'grad_norm': 1.1435894966125488, 'learning_rate': 4.758764542487502e-06, 'epoch': 0.17} {'loss': 2.2606, 'grad_norm': 1.2031466960906982, 'learning_rate': 4.7585783343479815e-06, 'epoch': 0.17} {'loss': 2.2353, 'grad_norm': 1.1896131038665771, 'learning_rate': 4.758392058015736e-06, 'epoch': 0.17} {'loss': 2.1916, 'grad_norm': 1.0234004259109497, 'learning_rate': 4.758205713496389e-06, 'epoch': 0.17} {'loss': 1.8711, 'grad_norm': 1.194617509841919, 'learning_rate': 4.758019300795566e-06, 'epoch': 0.17} {'loss': 2.1692, 'grad_norm': 3.112551689147949, 'learning_rate': 4.757832819918897e-06, 'epoch': 0.17} {'loss': 2.3087, 'grad_norm': 1.2056938409805298, 'learning_rate': 4.757646270872011e-06, 'epoch': 0.17} {'loss': 2.313, 'grad_norm': 1.231048345565796, 'learning_rate': 4.757459653660541e-06, 'epoch': 0.17} {'loss': 2.3616, 'grad_norm': 1.3102327585220337, 'learning_rate': 4.757272968290121e-06, 'epoch': 0.17} {'loss': 2.125, 'grad_norm': 1.1878371238708496, 'learning_rate': 4.7570862147663885e-06, 'epoch': 0.17} {'loss': 2.1381, 'grad_norm': 1.353148341178894, 'learning_rate': 4.75689939309498e-06, 'epoch': 0.17} {'loss': 2.2238, 'grad_norm': 1.318827748298645, 'learning_rate': 4.75671250328154e-06, 'epoch': 0.17} {'loss': 2.1805, 'grad_norm': 1.5133788585662842, 'learning_rate': 4.756525545331707e-06, 'epoch': 0.17} {'loss': 1.9503, 'grad_norm': 1.187117099761963, 'learning_rate': 4.756338519251129e-06, 'epoch': 0.17} {'loss': 2.2253, 'grad_norm': 1.1511939764022827, 'learning_rate': 4.756151425045451e-06, 'epoch': 0.17} {'loss': 1.6768, 'grad_norm': 1.2244433164596558, 'learning_rate': 4.755964262720322e-06, 'epoch': 0.17} {'loss': 2.4076, 'grad_norm': 1.6896213293075562, 'learning_rate': 4.755777032281394e-06, 'epoch': 0.17} {'loss': 2.1278, 'grad_norm': 1.1307308673858643, 'learning_rate': 4.755589733734319e-06, 'epoch': 0.17} {'loss': 2.1178, 'grad_norm': 1.2302844524383545, 'learning_rate': 4.7554023670847525e-06, 'epoch': 0.17} {'loss': 2.1651, 'grad_norm': 1.1671125888824463, 'learning_rate': 4.755214932338351e-06, 'epoch': 0.17} {'loss': 2.1785, 'grad_norm': 1.1945048570632935, 'learning_rate': 4.755027429500775e-06, 'epoch': 0.17} {'loss': 2.301, 'grad_norm': 7.30875301361084, 'learning_rate': 4.754839858577684e-06, 'epoch': 0.17} {'loss': 2.2015, 'grad_norm': 0.9955490827560425, 'learning_rate': 4.754652219574743e-06, 'epoch': 0.17} {'loss': 2.3451, 'grad_norm': 1.3531932830810547, 'learning_rate': 4.754464512497617e-06, 'epoch': 0.17} {'loss': 2.3068, 'grad_norm': 1.1007150411605835, 'learning_rate': 4.754276737351972e-06, 'epoch': 0.17} {'loss': 2.2487, 'grad_norm': 1.1884078979492188, 'learning_rate': 4.754088894143479e-06, 'epoch': 0.17} {'loss': 2.6239, 'grad_norm': 1.2803208827972412, 'learning_rate': 4.753900982877808e-06, 'epoch': 0.17} {'loss': 2.2564, 'grad_norm': 0.9828450679779053, 'learning_rate': 4.753713003560634e-06, 'epoch': 0.17} {'loss': 2.1354, 'grad_norm': 1.1587157249450684, 'learning_rate': 4.753524956197632e-06, 'epoch': 0.17} {'loss': 2.3235, 'grad_norm': 1.295487403869629, 'learning_rate': 4.75333684079448e-06, 'epoch': 0.17} {'loss': 2.2281, 'grad_norm': 1.0606836080551147, 'learning_rate': 4.753148657356858e-06, 'epoch': 0.17} {'loss': 2.3033, 'grad_norm': 1.3008947372436523, 'learning_rate': 4.752960405890446e-06, 'epoch': 0.17} {'loss': 2.0796, 'grad_norm': 1.1323285102844238, 'learning_rate': 4.75277208640093e-06, 'epoch': 0.17} {'loss': 2.1824, 'grad_norm': 1.187278151512146, 'learning_rate': 4.752583698893994e-06, 'epoch': 0.17} {'loss': 2.4814, 'grad_norm': 1.2143573760986328, 'learning_rate': 4.752395243375328e-06, 'epoch': 0.17} {'loss': 2.494, 'grad_norm': 1.1394156217575073, 'learning_rate': 4.7522067198506205e-06, 'epoch': 0.17} {'loss': 2.2103, 'grad_norm': 1.220416784286499, 'learning_rate': 4.752018128325564e-06, 'epoch': 0.17} {'loss': 2.2301, 'grad_norm': 1.153308629989624, 'learning_rate': 4.7518294688058525e-06, 'epoch': 0.17} {'loss': 2.4303, 'grad_norm': 1.179295301437378, 'learning_rate': 4.751640741297182e-06, 'epoch': 0.17} {'loss': 2.3373, 'grad_norm': 1.6544982194900513, 'learning_rate': 4.751451945805251e-06, 'epoch': 0.17} {'loss': 2.5454, 'grad_norm': 1.1035844087600708, 'learning_rate': 4.75126308233576e-06, 'epoch': 0.17} {'loss': 2.3327, 'grad_norm': 1.2545452117919922, 'learning_rate': 4.7510741508944115e-06, 'epoch': 0.17} {'loss': 2.5852, 'grad_norm': 1.1166460514068604, 'learning_rate': 4.750885151486908e-06, 'epoch': 0.17} {'loss': 2.1074, 'grad_norm': 1.177878499031067, 'learning_rate': 4.750696084118957e-06, 'epoch': 0.17} {'loss': 2.1321, 'grad_norm': 1.3506262302398682, 'learning_rate': 4.750506948796269e-06, 'epoch': 0.17} {'loss': 1.9844, 'grad_norm': 1.4831058979034424, 'learning_rate': 4.750317745524552e-06, 'epoch': 0.17} {'loss': 2.2063, 'grad_norm': 1.1205027103424072, 'learning_rate': 4.750128474309519e-06, 'epoch': 0.17} {'loss': 2.115, 'grad_norm': 1.0629470348358154, 'learning_rate': 4.749939135156885e-06, 'epoch': 0.17} {'loss': 2.2085, 'grad_norm': 1.3046075105667114, 'learning_rate': 4.749749728072367e-06, 'epoch': 0.17} {'loss': 2.2326, 'grad_norm': 1.3103086948394775, 'learning_rate': 4.749560253061683e-06, 'epoch': 0.17} {'loss': 2.2217, 'grad_norm': 1.8780930042266846, 'learning_rate': 4.7493707101305545e-06, 'epoch': 0.17} {'loss': 2.4682, 'grad_norm': 1.2620376348495483, 'learning_rate': 4.749181099284703e-06, 'epoch': 0.17} {'loss': 2.4631, 'grad_norm': 1.7832976579666138, 'learning_rate': 4.748991420529855e-06, 'epoch': 0.17} {'loss': 2.1716, 'grad_norm': 1.217355728149414, 'learning_rate': 4.7488016738717364e-06, 'epoch': 0.17} {'loss': 2.3477, 'grad_norm': 1.3644405603408813, 'learning_rate': 4.748611859316077e-06, 'epoch': 0.17} {'loss': 2.3159, 'grad_norm': 1.2777938842773438, 'learning_rate': 4.748421976868607e-06, 'epoch': 0.17} {'loss': 2.6411, 'grad_norm': 1.2640750408172607, 'learning_rate': 4.74823202653506e-06, 'epoch': 0.17} {'loss': 2.6659, 'grad_norm': 1.2655059099197388, 'learning_rate': 4.748042008321171e-06, 'epoch': 0.17} {'loss': 2.3692, 'grad_norm': 1.2147634029388428, 'learning_rate': 4.747851922232677e-06, 'epoch': 0.17} {'loss': 1.9574, 'grad_norm': 1.2011181116104126, 'learning_rate': 4.747661768275317e-06, 'epoch': 0.17} {'loss': 2.4824, 'grad_norm': 1.1849104166030884, 'learning_rate': 4.747471546454833e-06, 'epoch': 0.17} {'loss': 2.1885, 'grad_norm': 1.3223013877868652, 'learning_rate': 4.747281256776968e-06, 'epoch': 0.17} {'loss': 1.5951, 'grad_norm': 1.719274878501892, 'learning_rate': 4.7470908992474666e-06, 'epoch': 0.17} {'loss': 2.1442, 'grad_norm': 1.1803390979766846, 'learning_rate': 4.746900473872077e-06, 'epoch': 0.17} {'loss': 2.2745, 'grad_norm': 1.1858339309692383, 'learning_rate': 4.74670998065655e-06, 'epoch': 0.17} {'loss': 2.2112, 'grad_norm': 2.791250467300415, 'learning_rate': 4.746519419606634e-06, 'epoch': 0.17} {'loss': 2.2181, 'grad_norm': 1.2418444156646729, 'learning_rate': 4.746328790728085e-06, 'epoch': 0.17} {'loss': 2.0887, 'grad_norm': 1.1856694221496582, 'learning_rate': 4.7461380940266575e-06, 'epoch': 0.17} {'loss': 2.451, 'grad_norm': 1.26639723777771, 'learning_rate': 4.74594732950811e-06, 'epoch': 0.17} {'loss': 2.1046, 'grad_norm': 2.0401604175567627, 'learning_rate': 4.745756497178203e-06, 'epoch': 0.17} {'loss': 1.8043, 'grad_norm': 0.9376734495162964, 'learning_rate': 4.745565597042695e-06, 'epoch': 0.17} {'loss': 2.4176, 'grad_norm': 1.1713671684265137, 'learning_rate': 4.745374629107352e-06, 'epoch': 0.17} {'loss': 2.3567, 'grad_norm': 1.4067981243133545, 'learning_rate': 4.74518359337794e-06, 'epoch': 0.17} {'loss': 1.6612, 'grad_norm': 1.4748116731643677, 'learning_rate': 4.744992489860228e-06, 'epoch': 0.17} {'loss': 2.3399, 'grad_norm': 1.3666428327560425, 'learning_rate': 4.744801318559983e-06, 'epoch': 0.17} {'loss': 2.1985, 'grad_norm': 1.7921096086502075, 'learning_rate': 4.744610079482978e-06, 'epoch': 0.17} {'loss': 2.0749, 'grad_norm': 1.3345067501068115, 'learning_rate': 4.744418772634989e-06, 'epoch': 0.17} {'loss': 2.3781, 'grad_norm': 1.2852028608322144, 'learning_rate': 4.74422739802179e-06, 'epoch': 0.17} {'loss': 2.1957, 'grad_norm': 3.393296003341675, 'learning_rate': 4.744035955649159e-06, 'epoch': 0.17} {'loss': 2.4077, 'grad_norm': 1.4399561882019043, 'learning_rate': 4.743844445522878e-06, 'epoch': 0.17} {'loss': 2.2498, 'grad_norm': 1.1978611946105957, 'learning_rate': 4.743652867648727e-06, 'epoch': 0.17} {'loss': 2.4215, 'grad_norm': 1.1651824712753296, 'learning_rate': 4.743461222032493e-06, 'epoch': 0.17} {'loss': 2.3138, 'grad_norm': 1.1520835161209106, 'learning_rate': 4.74326950867996e-06, 'epoch': 0.17} {'loss': 2.2012, 'grad_norm': 1.280731201171875, 'learning_rate': 4.7430777275969166e-06, 'epoch': 0.17} {'loss': 2.2787, 'grad_norm': 1.108737826347351, 'learning_rate': 4.742885878789154e-06, 'epoch': 0.17} {'loss': 2.5599, 'grad_norm': 1.325556993484497, 'learning_rate': 4.7426939622624644e-06, 'epoch': 0.17} {'loss': 2.1294, 'grad_norm': 1.585776925086975, 'learning_rate': 4.742501978022641e-06, 'epoch': 0.17} {'loss': 2.4791, 'grad_norm': 2.8806309700012207, 'learning_rate': 4.7423099260754835e-06, 'epoch': 0.17} {'loss': 2.3911, 'grad_norm': 1.2806979417800903, 'learning_rate': 4.742117806426787e-06, 'epoch': 0.17} {'loss': 2.1856, 'grad_norm': 2.4306485652923584, 'learning_rate': 4.741925619082355e-06, 'epoch': 0.17} {'loss': 2.1767, 'grad_norm': 1.1184712648391724, 'learning_rate': 4.741733364047988e-06, 'epoch': 0.17} {'loss': 2.4273, 'grad_norm': 1.054630160331726, 'learning_rate': 4.741541041329492e-06, 'epoch': 0.17} {'loss': 2.3062, 'grad_norm': 1.0737639665603638, 'learning_rate': 4.741348650932673e-06, 'epoch': 0.17} {'loss': 2.2726, 'grad_norm': 1.1330751180648804, 'learning_rate': 4.74115619286334e-06, 'epoch': 0.17} {'loss': 2.2496, 'grad_norm': 1.470331072807312, 'learning_rate': 4.7409636671273044e-06, 'epoch': 0.17} {'loss': 2.3438, 'grad_norm': 1.2213854789733887, 'learning_rate': 4.740771073730378e-06, 'epoch': 0.17} {'loss': 2.3053, 'grad_norm': 1.3786942958831787, 'learning_rate': 4.740578412678376e-06, 'epoch': 0.17} {'loss': 2.3227, 'grad_norm': 1.107563853263855, 'learning_rate': 4.740385683977116e-06, 'epoch': 0.17} {'loss': 2.2196, 'grad_norm': 1.3693963289260864, 'learning_rate': 4.740192887632417e-06, 'epoch': 0.17} {'loss': 2.1594, 'grad_norm': 1.2904671430587769, 'learning_rate': 4.7400000236501e-06, 'epoch': 0.17} {'loss': 1.3786, 'grad_norm': 1.6878256797790527, 'learning_rate': 4.739807092035988e-06, 'epoch': 0.17} {'loss': 2.3412, 'grad_norm': 1.2700577974319458, 'learning_rate': 4.739614092795905e-06, 'epoch': 0.17} {'loss': 2.3784, 'grad_norm': 1.1570180654525757, 'learning_rate': 4.73942102593568e-06, 'epoch': 0.17} {'loss': 2.1832, 'grad_norm': 1.2291889190673828, 'learning_rate': 4.739227891461141e-06, 'epoch': 0.17} {'loss': 2.2552, 'grad_norm': 1.2705426216125488, 'learning_rate': 4.7390346893781195e-06, 'epoch': 0.17} {'loss': 2.3594, 'grad_norm': 1.1856234073638916, 'learning_rate': 4.738841419692449e-06, 'epoch': 0.17} {'loss': 2.2121, 'grad_norm': 1.0419477224349976, 'learning_rate': 4.738648082409966e-06, 'epoch': 0.17} {'loss': 1.6921, 'grad_norm': 1.0261335372924805, 'learning_rate': 4.738454677536506e-06, 'epoch': 0.17} {'loss': 2.2426, 'grad_norm': 1.2106951475143433, 'learning_rate': 4.738261205077909e-06, 'epoch': 0.17} {'loss': 2.0907, 'grad_norm': 1.5593748092651367, 'learning_rate': 4.738067665040016e-06, 'epoch': 0.17} {'loss': 2.2245, 'grad_norm': 1.157471776008606, 'learning_rate': 4.737874057428672e-06, 'epoch': 0.17} {'loss': 2.2577, 'grad_norm': 1.1568232774734497, 'learning_rate': 4.737680382249721e-06, 'epoch': 0.17} {'loss': 2.1883, 'grad_norm': 1.202784538269043, 'learning_rate': 4.737486639509012e-06, 'epoch': 0.17} {'loss': 1.538, 'grad_norm': 1.5098192691802979, 'learning_rate': 4.737292829212393e-06, 'epoch': 0.17} {'loss': 2.3101, 'grad_norm': 1.1531174182891846, 'learning_rate': 4.7370989513657175e-06, 'epoch': 0.17} {'loss': 2.3045, 'grad_norm': 1.3116086721420288, 'learning_rate': 4.736905005974838e-06, 'epoch': 0.17} {'loss': 2.3477, 'grad_norm': 1.1999833583831787, 'learning_rate': 4.7367109930456105e-06, 'epoch': 0.17} {'loss': 2.4318, 'grad_norm': 1.261141061782837, 'learning_rate': 4.736516912583893e-06, 'epoch': 0.17} {'loss': 1.6611, 'grad_norm': 2.061005115509033, 'learning_rate': 4.7363227645955445e-06, 'epoch': 0.17} {'loss': 2.2545, 'grad_norm': 1.1197830438613892, 'learning_rate': 4.736128549086428e-06, 'epoch': 0.17} {'loss': 2.2606, 'grad_norm': 1.1702910661697388, 'learning_rate': 4.735934266062406e-06, 'epoch': 0.17} {'loss': 2.4577, 'grad_norm': 1.2458657026290894, 'learning_rate': 4.735739915529346e-06, 'epoch': 0.17} {'loss': 2.1624, 'grad_norm': 1.2247769832611084, 'learning_rate': 4.7355454974931155e-06, 'epoch': 0.17} {'loss': 2.4937, 'grad_norm': 1.384115219116211, 'learning_rate': 4.735351011959585e-06, 'epoch': 0.17} {'loss': 1.6334, 'grad_norm': 1.249359130859375, 'learning_rate': 4.735156458934624e-06, 'epoch': 0.17} {'loss': 2.2672, 'grad_norm': 1.2073140144348145, 'learning_rate': 4.7349618384241105e-06, 'epoch': 0.17} {'loss': 2.4554, 'grad_norm': 1.5026147365570068, 'learning_rate': 4.734767150433917e-06, 'epoch': 0.17} {'loss': 2.254, 'grad_norm': 1.1649084091186523, 'learning_rate': 4.734572394969924e-06, 'epoch': 0.17} {'loss': 2.2807, 'grad_norm': 1.2507749795913696, 'learning_rate': 4.734377572038011e-06, 'epoch': 0.17} {'loss': 1.9718, 'grad_norm': 1.1135432720184326, 'learning_rate': 4.73418268164406e-06, 'epoch': 0.17} {'loss': 2.5147, 'grad_norm': 1.1996616125106812, 'learning_rate': 4.733987723793956e-06, 'epoch': 0.17} {'loss': 2.4986, 'grad_norm': 1.3393299579620361, 'learning_rate': 4.733792698493584e-06, 'epoch': 0.17} {'loss': 2.5229, 'grad_norm': 1.5479871034622192, 'learning_rate': 4.7335976057488334e-06, 'epoch': 0.17} {'loss': 2.63, 'grad_norm': 2.0576059818267822, 'learning_rate': 4.733402445565595e-06, 'epoch': 0.17} {'loss': 2.2106, 'grad_norm': 1.1637901067733765, 'learning_rate': 4.73320721794976e-06, 'epoch': 0.17} {'loss': 2.3141, 'grad_norm': 1.1971057653427124, 'learning_rate': 4.733011922907223e-06, 'epoch': 0.17} {'loss': 2.304, 'grad_norm': 1.2143582105636597, 'learning_rate': 4.732816560443882e-06, 'epoch': 0.17} {'loss': 1.7097, 'grad_norm': 1.1354238986968994, 'learning_rate': 4.732621130565635e-06, 'epoch': 0.17} {'loss': 2.4709, 'grad_norm': 2.366018295288086, 'learning_rate': 4.73242563327838e-06, 'epoch': 0.17} {'loss': 2.0292, 'grad_norm': 1.1619905233383179, 'learning_rate': 4.732230068588023e-06, 'epoch': 0.17} {'loss': 2.2169, 'grad_norm': 1.2585099935531616, 'learning_rate': 4.7320344365004675e-06, 'epoch': 0.17} {'loss': 2.0107, 'grad_norm': 1.2061822414398193, 'learning_rate': 4.73183873702162e-06, 'epoch': 0.17} {'loss': 2.183, 'grad_norm': 4.927656173706055, 'learning_rate': 4.731642970157388e-06, 'epoch': 0.17} {'loss': 2.1675, 'grad_norm': 1.194763422012329, 'learning_rate': 4.731447135913685e-06, 'epoch': 0.17} {'loss': 2.1874, 'grad_norm': 1.1798185110092163, 'learning_rate': 4.7312512342964216e-06, 'epoch': 0.17} {'loss': 2.0975, 'grad_norm': 1.3313912153244019, 'learning_rate': 4.731055265311513e-06, 'epoch': 0.17} {'loss': 2.2871, 'grad_norm': 1.367790699005127, 'learning_rate': 4.730859228964876e-06, 'epoch': 0.17} {'loss': 2.2646, 'grad_norm': 1.1406912803649902, 'learning_rate': 4.7306631252624305e-06, 'epoch': 0.18} {'loss': 2.2166, 'grad_norm': 0.9723648428916931, 'learning_rate': 4.7304669542100956e-06, 'epoch': 0.18} {'loss': 2.0626, 'grad_norm': 1.37990140914917, 'learning_rate': 4.730270715813795e-06, 'epoch': 0.18} {'loss': 2.0347, 'grad_norm': 1.228124737739563, 'learning_rate': 4.730074410079455e-06, 'epoch': 0.18} {'loss': 2.2231, 'grad_norm': 1.2506194114685059, 'learning_rate': 4.729878037013001e-06, 'epoch': 0.18} {'loss': 2.1528, 'grad_norm': 1.1909507513046265, 'learning_rate': 4.729681596620364e-06, 'epoch': 0.18} {'loss': 2.3664, 'grad_norm': 1.2300488948822021, 'learning_rate': 4.7294850889074725e-06, 'epoch': 0.18} {'loss': 2.387, 'grad_norm': 1.264133095741272, 'learning_rate': 4.729288513880261e-06, 'epoch': 0.18} {'loss': 2.2649, 'grad_norm': 1.0399789810180664, 'learning_rate': 4.729091871544665e-06, 'epoch': 0.18} {'loss': 2.2579, 'grad_norm': 1.1306984424591064, 'learning_rate': 4.72889516190662e-06, 'epoch': 0.18} {'loss': 2.3864, 'grad_norm': 2.114661455154419, 'learning_rate': 4.728698384972068e-06, 'epoch': 0.18} {'loss': 2.2162, 'grad_norm': 1.2984557151794434, 'learning_rate': 4.728501540746947e-06, 'epoch': 0.18} {'loss': 1.9408, 'grad_norm': 1.2220731973648071, 'learning_rate': 4.728304629237203e-06, 'epoch': 0.18} {'loss': 1.8653, 'grad_norm': 1.0379122495651245, 'learning_rate': 4.728107650448779e-06, 'epoch': 0.18} {'loss': 2.4822, 'grad_norm': 1.3365097045898438, 'learning_rate': 4.727910604387624e-06, 'epoch': 0.18} {'loss': 2.2346, 'grad_norm': 1.1737916469573975, 'learning_rate': 4.7277134910596874e-06, 'epoch': 0.18} {'loss': 2.2343, 'grad_norm': 1.288511872291565, 'learning_rate': 4.72751631047092e-06, 'epoch': 0.18} {'loss': 1.9334, 'grad_norm': 1.3324507474899292, 'learning_rate': 4.727319062627275e-06, 'epoch': 0.18} {'loss': 2.0175, 'grad_norm': 1.0309637784957886, 'learning_rate': 4.7271217475347084e-06, 'epoch': 0.18} {'loss': 2.2359, 'grad_norm': 1.1180663108825684, 'learning_rate': 4.726924365199177e-06, 'epoch': 0.18} {'loss': 2.2526, 'grad_norm': 1.177488923072815, 'learning_rate': 4.726726915626641e-06, 'epoch': 0.18} {'loss': 2.2397, 'grad_norm': 1.2432887554168701, 'learning_rate': 4.726529398823062e-06, 'epoch': 0.18} {'loss': 2.1839, 'grad_norm': 1.3605650663375854, 'learning_rate': 4.726331814794403e-06, 'epoch': 0.18} {'loss': 2.227, 'grad_norm': 1.228833556175232, 'learning_rate': 4.726134163546629e-06, 'epoch': 0.18} {'loss': 2.3346, 'grad_norm': 1.3469996452331543, 'learning_rate': 4.7259364450857095e-06, 'epoch': 0.18} {'loss': 2.1275, 'grad_norm': 1.1270191669464111, 'learning_rate': 4.7257386594176136e-06, 'epoch': 0.18} {'loss': 2.3546, 'grad_norm': 1.1712634563446045, 'learning_rate': 4.7255408065483114e-06, 'epoch': 0.18} {'loss': 2.4395, 'grad_norm': 1.326046109199524, 'learning_rate': 4.725342886483779e-06, 'epoch': 0.18} {'loss': 2.3489, 'grad_norm': 1.148240327835083, 'learning_rate': 4.72514489922999e-06, 'epoch': 0.18} {'loss': 2.2099, 'grad_norm': 1.3469010591506958, 'learning_rate': 4.724946844792924e-06, 'epoch': 0.18} {'loss': 2.3139, 'grad_norm': 1.2217059135437012, 'learning_rate': 4.724748723178559e-06, 'epoch': 0.18} {'loss': 2.4144, 'grad_norm': 1.2934917211532593, 'learning_rate': 4.724550534392878e-06, 'epoch': 0.18} {'loss': 2.2201, 'grad_norm': 1.1159981489181519, 'learning_rate': 4.724352278441866e-06, 'epoch': 0.18} {'loss': 1.5219, 'grad_norm': 1.337834119796753, 'learning_rate': 4.724153955331506e-06, 'epoch': 0.18} {'loss': 1.8611, 'grad_norm': 1.1232203245162964, 'learning_rate': 4.7239555650677885e-06, 'epoch': 0.18} {'loss': 2.4662, 'grad_norm': 2.8807718753814697, 'learning_rate': 4.723757107656702e-06, 'epoch': 0.18} {'loss': 2.621, 'grad_norm': 1.1551040410995483, 'learning_rate': 4.723558583104239e-06, 'epoch': 0.18} {'loss': 2.2498, 'grad_norm': 1.349138855934143, 'learning_rate': 4.723359991416393e-06, 'epoch': 0.18} {'loss': 2.1276, 'grad_norm': 1.2441036701202393, 'learning_rate': 4.723161332599161e-06, 'epoch': 0.18} {'loss': 2.3223, 'grad_norm': 1.3120198249816895, 'learning_rate': 4.722962606658541e-06, 'epoch': 0.18} {'loss': 2.4337, 'grad_norm': 1.2230521440505981, 'learning_rate': 4.722763813600532e-06, 'epoch': 0.18} {'loss': 2.4287, 'grad_norm': 1.1807341575622559, 'learning_rate': 4.722564953431136e-06, 'epoch': 0.18} {'loss': 2.303, 'grad_norm': 1.1501522064208984, 'learning_rate': 4.722366026156359e-06, 'epoch': 0.18} {'loss': 2.0456, 'grad_norm': 1.2249243259429932, 'learning_rate': 4.722167031782205e-06, 'epoch': 0.18} {'loss': 2.5582, 'grad_norm': 1.2970484495162964, 'learning_rate': 4.721967970314684e-06, 'epoch': 0.18} {'loss': 2.3432, 'grad_norm': 1.161226749420166, 'learning_rate': 4.721768841759805e-06, 'epoch': 0.18} {'loss': 2.3857, 'grad_norm': 1.4384127855300903, 'learning_rate': 4.7215696461235805e-06, 'epoch': 0.18} {'loss': 2.2757, 'grad_norm': 1.1120959520339966, 'learning_rate': 4.721370383412026e-06, 'epoch': 0.18} {'loss': 2.1949, 'grad_norm': 1.0684009790420532, 'learning_rate': 4.721171053631155e-06, 'epoch': 0.18} {'loss': 1.3821, 'grad_norm': 1.4089354276657104, 'learning_rate': 4.720971656786989e-06, 'epoch': 0.18} {'loss': 2.5057, 'grad_norm': 1.3002897500991821, 'learning_rate': 4.720772192885546e-06, 'epoch': 0.18} {'loss': 2.4774, 'grad_norm': 1.231972575187683, 'learning_rate': 4.72057266193285e-06, 'epoch': 0.18} {'loss': 2.3102, 'grad_norm': 1.224912405014038, 'learning_rate': 4.7203730639349244e-06, 'epoch': 0.18} {'loss': 2.2008, 'grad_norm': 1.188181757926941, 'learning_rate': 4.720173398897796e-06, 'epoch': 0.18} {'loss': 2.2237, 'grad_norm': 1.1265875101089478, 'learning_rate': 4.719973666827492e-06, 'epoch': 0.18} {'loss': 2.2614, 'grad_norm': 1.2247153520584106, 'learning_rate': 4.719773867730045e-06, 'epoch': 0.18} {'loss': 2.4858, 'grad_norm': 1.621139645576477, 'learning_rate': 4.719574001611486e-06, 'epoch': 0.18} {'loss': 2.2683, 'grad_norm': 1.1965810060501099, 'learning_rate': 4.719374068477851e-06, 'epoch': 0.18} {'loss': 2.3727, 'grad_norm': 1.0128332376480103, 'learning_rate': 4.719174068335175e-06, 'epoch': 0.18} {'loss': 2.2177, 'grad_norm': 1.3548953533172607, 'learning_rate': 4.718974001189497e-06, 'epoch': 0.18} {'loss': 2.359, 'grad_norm': 1.2157686948776245, 'learning_rate': 4.718773867046857e-06, 'epoch': 0.18} {'loss': 2.4443, 'grad_norm': 1.5162028074264526, 'learning_rate': 4.7185736659132986e-06, 'epoch': 0.18} {'loss': 2.5212, 'grad_norm': 1.2259628772735596, 'learning_rate': 4.718373397794866e-06, 'epoch': 0.18} {'loss': 2.5036, 'grad_norm': 1.2535587549209595, 'learning_rate': 4.718173062697606e-06, 'epoch': 0.18} {'loss': 2.2034, 'grad_norm': 1.3460325002670288, 'learning_rate': 4.7179726606275675e-06, 'epoch': 0.18} {'loss': 2.3978, 'grad_norm': 1.2065768241882324, 'learning_rate': 4.7177721915908e-06, 'epoch': 0.18} {'loss': 2.6093, 'grad_norm': 1.334222435951233, 'learning_rate': 4.717571655593358e-06, 'epoch': 0.18} {'loss': 2.3004, 'grad_norm': 1.507074236869812, 'learning_rate': 4.717371052641295e-06, 'epoch': 0.18} {'loss': 2.325, 'grad_norm': 1.1185156106948853, 'learning_rate': 4.7171703827406675e-06, 'epoch': 0.18} {'loss': 2.1809, 'grad_norm': 1.3980834484100342, 'learning_rate': 4.716969645897535e-06, 'epoch': 0.18} {'loss': 2.387, 'grad_norm': 1.3183598518371582, 'learning_rate': 4.716768842117959e-06, 'epoch': 0.18} {'loss': 2.2648, 'grad_norm': 1.194647192955017, 'learning_rate': 4.716567971408001e-06, 'epoch': 0.18} {'loss': 2.4572, 'grad_norm': 1.2399290800094604, 'learning_rate': 4.716367033773727e-06, 'epoch': 0.18} {'loss': 2.2076, 'grad_norm': 1.072323203086853, 'learning_rate': 4.716166029221202e-06, 'epoch': 0.18} {'loss': 2.1768, 'grad_norm': 1.5378801822662354, 'learning_rate': 4.715964957756497e-06, 'epoch': 0.18} {'loss': 2.1381, 'grad_norm': 1.2414758205413818, 'learning_rate': 4.715763819385681e-06, 'epoch': 0.18} {'loss': 1.5521, 'grad_norm': 1.085838794708252, 'learning_rate': 4.715562614114829e-06, 'epoch': 0.18} {'loss': 2.0903, 'grad_norm': 1.1544448137283325, 'learning_rate': 4.715361341950014e-06, 'epoch': 0.18} {'loss': 2.2667, 'grad_norm': 1.0183314085006714, 'learning_rate': 4.715160002897314e-06, 'epoch': 0.18} {'loss': 2.4978, 'grad_norm': 1.5667051076889038, 'learning_rate': 4.714958596962809e-06, 'epoch': 0.18} {'loss': 2.2888, 'grad_norm': 1.3831385374069214, 'learning_rate': 4.714757124152577e-06, 'epoch': 0.18} {'loss': 2.5978, 'grad_norm': 1.332710862159729, 'learning_rate': 4.714555584472703e-06, 'epoch': 0.18} {'loss': 2.2199, 'grad_norm': 2.2025465965270996, 'learning_rate': 4.714353977929273e-06, 'epoch': 0.18} {'loss': 2.3915, 'grad_norm': 1.3338243961334229, 'learning_rate': 4.714152304528372e-06, 'epoch': 0.18} {'loss': 2.3264, 'grad_norm': 1.2486987113952637, 'learning_rate': 4.713950564276091e-06, 'epoch': 0.18} {'loss': 2.2531, 'grad_norm': 1.2230762243270874, 'learning_rate': 4.713748757178519e-06, 'epoch': 0.18} {'loss': 1.5783, 'grad_norm': 1.2375510931015015, 'learning_rate': 4.713546883241751e-06, 'epoch': 0.18} {'loss': 2.3195, 'grad_norm': 1.2244757413864136, 'learning_rate': 4.71334494247188e-06, 'epoch': 0.18} {'loss': 2.1888, 'grad_norm': 1.173211693763733, 'learning_rate': 4.713142934875006e-06, 'epoch': 0.18} {'loss': 2.4913, 'grad_norm': 1.324818730354309, 'learning_rate': 4.712940860457226e-06, 'epoch': 0.18} {'loss': 2.2073, 'grad_norm': 1.1883020401000977, 'learning_rate': 4.712738719224641e-06, 'epoch': 0.18} {'loss': 2.0478, 'grad_norm': 1.4092051982879639, 'learning_rate': 4.7125365111833566e-06, 'epoch': 0.18} {'loss': 2.3589, 'grad_norm': 1.5741856098175049, 'learning_rate': 4.712334236339475e-06, 'epoch': 0.18} {'loss': 2.3048, 'grad_norm': 1.0563687086105347, 'learning_rate': 4.7121318946991054e-06, 'epoch': 0.18} {'loss': 2.2334, 'grad_norm': 1.4690524339675903, 'learning_rate': 4.711929486268357e-06, 'epoch': 0.18} {'loss': 2.4008, 'grad_norm': 1.1756932735443115, 'learning_rate': 4.711727011053341e-06, 'epoch': 0.18} {'loss': 2.4789, 'grad_norm': 1.1118922233581543, 'learning_rate': 4.711524469060169e-06, 'epoch': 0.18} {'loss': 2.2671, 'grad_norm': 1.358298420906067, 'learning_rate': 4.711321860294958e-06, 'epoch': 0.18} {'loss': 2.1856, 'grad_norm': 1.274778127670288, 'learning_rate': 4.711119184763826e-06, 'epoch': 0.18} {'loss': 2.332, 'grad_norm': 1.380314826965332, 'learning_rate': 4.71091644247289e-06, 'epoch': 0.18} {'loss': 2.5123, 'grad_norm': 1.3315237760543823, 'learning_rate': 4.710713633428273e-06, 'epoch': 0.18} {'loss': 2.2406, 'grad_norm': 1.219577431678772, 'learning_rate': 4.710510757636099e-06, 'epoch': 0.18} {'loss': 2.0716, 'grad_norm': 1.1883876323699951, 'learning_rate': 4.7103078151024915e-06, 'epoch': 0.18} {'loss': 2.5246, 'grad_norm': 1.304682970046997, 'learning_rate': 4.710104805833578e-06, 'epoch': 0.18} {'loss': 2.3099, 'grad_norm': 1.2353423833847046, 'learning_rate': 4.70990172983549e-06, 'epoch': 0.18} {'loss': 2.2344, 'grad_norm': 1.6269780397415161, 'learning_rate': 4.709698587114356e-06, 'epoch': 0.18} {'loss': 2.2495, 'grad_norm': 1.420514464378357, 'learning_rate': 4.709495377676313e-06, 'epoch': 0.18} {'loss': 2.3213, 'grad_norm': 1.3217394351959229, 'learning_rate': 4.709292101527493e-06, 'epoch': 0.18} {'loss': 2.113, 'grad_norm': 1.446742296218872, 'learning_rate': 4.709088758674035e-06, 'epoch': 0.18} {'loss': 2.3469, 'grad_norm': 1.0756535530090332, 'learning_rate': 4.708885349122079e-06, 'epoch': 0.18} {'loss': 2.4762, 'grad_norm': 1.3259756565093994, 'learning_rate': 4.7086818728777665e-06, 'epoch': 0.18} {'loss': 2.4072, 'grad_norm': 1.30990731716156, 'learning_rate': 4.708478329947239e-06, 'epoch': 0.18} {'loss': 2.3697, 'grad_norm': 1.1396689414978027, 'learning_rate': 4.708274720336644e-06, 'epoch': 0.18} {'loss': 2.1913, 'grad_norm': 3.3345210552215576, 'learning_rate': 4.708071044052129e-06, 'epoch': 0.18} {'loss': 2.223, 'grad_norm': 1.2438654899597168, 'learning_rate': 4.7078673010998425e-06, 'epoch': 0.18} {'loss': 2.4596, 'grad_norm': 6.911498069763184, 'learning_rate': 4.707663491485937e-06, 'epoch': 0.18} {'loss': 2.3155, 'grad_norm': 1.4207910299301147, 'learning_rate': 4.707459615216565e-06, 'epoch': 0.18} {'loss': 2.2084, 'grad_norm': 1.2656573057174683, 'learning_rate': 4.707255672297884e-06, 'epoch': 0.18} {'loss': 2.4801, 'grad_norm': 1.2000253200531006, 'learning_rate': 4.70705166273605e-06, 'epoch': 0.18} {'loss': 1.7144, 'grad_norm': 2.6334891319274902, 'learning_rate': 4.706847586537222e-06, 'epoch': 0.18} {'loss': 2.2753, 'grad_norm': 1.3687636852264404, 'learning_rate': 4.706643443707564e-06, 'epoch': 0.18} {'loss': 2.4462, 'grad_norm': 1.229845643043518, 'learning_rate': 4.706439234253238e-06, 'epoch': 0.18} {'loss': 2.1255, 'grad_norm': 1.1514933109283447, 'learning_rate': 4.706234958180409e-06, 'epoch': 0.18} {'loss': 2.2539, 'grad_norm': 1.210893988609314, 'learning_rate': 4.706030615495246e-06, 'epoch': 0.18} {'loss': 2.2176, 'grad_norm': 1.2623544931411743, 'learning_rate': 4.705826206203918e-06, 'epoch': 0.18} {'loss': 2.403, 'grad_norm': 1.4160205125808716, 'learning_rate': 4.705621730312598e-06, 'epoch': 0.18} {'loss': 2.3909, 'grad_norm': 1.2037442922592163, 'learning_rate': 4.705417187827458e-06, 'epoch': 0.18} {'loss': 2.284, 'grad_norm': 1.2460377216339111, 'learning_rate': 4.705212578754674e-06, 'epoch': 0.18} {'loss': 2.177, 'grad_norm': 1.33826744556427, 'learning_rate': 4.7050079031004245e-06, 'epoch': 0.18} {'loss': 2.2362, 'grad_norm': 1.2302066087722778, 'learning_rate': 4.704803160870888e-06, 'epoch': 0.18} {'loss': 2.2396, 'grad_norm': 1.6322983503341675, 'learning_rate': 4.7045983520722474e-06, 'epoch': 0.18} {'loss': 2.2892, 'grad_norm': 1.4127452373504639, 'learning_rate': 4.704393476710686e-06, 'epoch': 0.18} {'loss': 1.834, 'grad_norm': 1.2116230726242065, 'learning_rate': 4.70418853479239e-06, 'epoch': 0.18} {'loss': 2.4251, 'grad_norm': 1.4258627891540527, 'learning_rate': 4.703983526323546e-06, 'epoch': 0.18} {'loss': 2.5463, 'grad_norm': 1.1221263408660889, 'learning_rate': 4.703778451310345e-06, 'epoch': 0.18} {'loss': 2.4913, 'grad_norm': 1.4210299253463745, 'learning_rate': 4.703573309758979e-06, 'epoch': 0.18} {'loss': 2.3256, 'grad_norm': 1.373189091682434, 'learning_rate': 4.703368101675639e-06, 'epoch': 0.18} {'loss': 2.4424, 'grad_norm': 1.5056707859039307, 'learning_rate': 4.703162827066525e-06, 'epoch': 0.18} {'loss': 2.0519, 'grad_norm': 0.9617934226989746, 'learning_rate': 4.702957485937832e-06, 'epoch': 0.18} {'loss': 2.2882, 'grad_norm': 1.2561590671539307, 'learning_rate': 4.70275207829576e-06, 'epoch': 0.18} {'loss': 2.0244, 'grad_norm': 1.3570400476455688, 'learning_rate': 4.702546604146512e-06, 'epoch': 0.18} {'loss': 2.2204, 'grad_norm': 1.0024769306182861, 'learning_rate': 4.70234106349629e-06, 'epoch': 0.18} {'loss': 2.3599, 'grad_norm': 1.1964446306228638, 'learning_rate': 4.702135456351304e-06, 'epoch': 0.18} {'loss': 2.403, 'grad_norm': 1.2723007202148438, 'learning_rate': 4.701929782717756e-06, 'epoch': 0.18} {'loss': 2.3579, 'grad_norm': 1.2454720735549927, 'learning_rate': 4.701724042601859e-06, 'epoch': 0.18} {'loss': 2.5784, 'grad_norm': 1.4295283555984497, 'learning_rate': 4.701518236009826e-06, 'epoch': 0.18} {'loss': 2.3321, 'grad_norm': 1.2187504768371582, 'learning_rate': 4.701312362947869e-06, 'epoch': 0.18} {'loss': 2.0788, 'grad_norm': 1.2741873264312744, 'learning_rate': 4.7011064234222034e-06, 'epoch': 0.18} {'loss': 2.0806, 'grad_norm': 1.2787679433822632, 'learning_rate': 4.700900417439048e-06, 'epoch': 0.18} {'loss': 2.1937, 'grad_norm': 1.1745655536651611, 'learning_rate': 4.700694345004624e-06, 'epoch': 0.18} {'loss': 2.3336, 'grad_norm': 1.3520039319992065, 'learning_rate': 4.700488206125151e-06, 'epoch': 0.18} {'loss': 2.3818, 'grad_norm': 1.2563878297805786, 'learning_rate': 4.7002820008068536e-06, 'epoch': 0.18} {'loss': 2.3169, 'grad_norm': 1.1884040832519531, 'learning_rate': 4.700075729055959e-06, 'epoch': 0.18} {'loss': 2.5083, 'grad_norm': 1.2662967443466187, 'learning_rate': 4.699869390878694e-06, 'epoch': 0.18} {'loss': 2.0786, 'grad_norm': 1.2281732559204102, 'learning_rate': 4.699662986281288e-06, 'epoch': 0.18} {'loss': 2.2816, 'grad_norm': 1.0945271253585815, 'learning_rate': 4.6994565152699735e-06, 'epoch': 0.18} {'loss': 2.3161, 'grad_norm': 1.219077706336975, 'learning_rate': 4.699249977850985e-06, 'epoch': 0.18} {'loss': 2.1112, 'grad_norm': 1.332869291305542, 'learning_rate': 4.699043374030559e-06, 'epoch': 0.18} {'loss': 2.3782, 'grad_norm': 1.2747352123260498, 'learning_rate': 4.698836703814931e-06, 'epoch': 0.18} {'loss': 2.365, 'grad_norm': 1.5129599571228027, 'learning_rate': 4.698629967210342e-06, 'epoch': 0.18} {'loss': 2.4457, 'grad_norm': 1.2279963493347168, 'learning_rate': 4.698423164223035e-06, 'epoch': 0.18} {'loss': 2.5913, 'grad_norm': 1.420676589012146, 'learning_rate': 4.6982162948592525e-06, 'epoch': 0.18} {'loss': 2.4099, 'grad_norm': 1.133131980895996, 'learning_rate': 4.698009359125242e-06, 'epoch': 0.18} {'loss': 2.277, 'grad_norm': 1.3151047229766846, 'learning_rate': 4.69780235702725e-06, 'epoch': 0.18} {'loss': 2.3004, 'grad_norm': 1.2477298974990845, 'learning_rate': 4.697595288571528e-06, 'epoch': 0.18} {'loss': 2.3294, 'grad_norm': 1.343800663948059, 'learning_rate': 4.697388153764327e-06, 'epoch': 0.18} {'loss': 2.3312, 'grad_norm': 1.8435895442962646, 'learning_rate': 4.697180952611901e-06, 'epoch': 0.18} {'loss': 2.4325, 'grad_norm': 1.1881822347640991, 'learning_rate': 4.696973685120505e-06, 'epoch': 0.18} {'loss': 2.4006, 'grad_norm': 1.2352685928344727, 'learning_rate': 4.696766351296399e-06, 'epoch': 0.18} {'loss': 2.1605, 'grad_norm': 1.2703675031661987, 'learning_rate': 4.696558951145841e-06, 'epoch': 0.18} {'loss': 2.1601, 'grad_norm': 1.151642084121704, 'learning_rate': 4.696351484675095e-06, 'epoch': 0.18} {'loss': 1.9581, 'grad_norm': 1.0776824951171875, 'learning_rate': 4.696143951890424e-06, 'epoch': 0.18} {'loss': 2.3018, 'grad_norm': 1.2898123264312744, 'learning_rate': 4.695936352798093e-06, 'epoch': 0.18} {'loss': 2.2753, 'grad_norm': 1.1914597749710083, 'learning_rate': 4.695728687404372e-06, 'epoch': 0.18} {'loss': 2.2167, 'grad_norm': 1.2146872282028198, 'learning_rate': 4.695520955715529e-06, 'epoch': 0.18} {'loss': 2.4233, 'grad_norm': 1.1418417692184448, 'learning_rate': 4.695313157737838e-06, 'epoch': 0.18} {'loss': 2.223, 'grad_norm': 1.7218014001846313, 'learning_rate': 4.695105293477571e-06, 'epoch': 0.18} {'loss': 2.3062, 'grad_norm': 1.265100359916687, 'learning_rate': 4.6948973629410054e-06, 'epoch': 0.18} {'loss': 2.3269, 'grad_norm': 1.4422928094863892, 'learning_rate': 4.694689366134418e-06, 'epoch': 0.18} {'loss': 2.2656, 'grad_norm': 1.192766547203064, 'learning_rate': 4.694481303064091e-06, 'epoch': 0.18} {'loss': 2.1993, 'grad_norm': 1.4258579015731812, 'learning_rate': 4.694273173736304e-06, 'epoch': 0.18} {'loss': 2.3098, 'grad_norm': 1.4929676055908203, 'learning_rate': 4.694064978157342e-06, 'epoch': 0.18} {'loss': 2.1882, 'grad_norm': 1.0989540815353394, 'learning_rate': 4.693856716333491e-06, 'epoch': 0.18} {'loss': 2.2724, 'grad_norm': 1.138278603553772, 'learning_rate': 4.693648388271038e-06, 'epoch': 0.18} {'loss': 2.4955, 'grad_norm': 2.4815783500671387, 'learning_rate': 4.6934399939762745e-06, 'epoch': 0.18} {'loss': 2.2712, 'grad_norm': 1.5761370658874512, 'learning_rate': 4.693231533455492e-06, 'epoch': 0.18} {'loss': 2.1644, 'grad_norm': 1.2584961652755737, 'learning_rate': 4.693023006714985e-06, 'epoch': 0.19} {'loss': 1.9745, 'grad_norm': 1.0721272230148315, 'learning_rate': 4.692814413761049e-06, 'epoch': 0.19} {'loss': 2.2408, 'grad_norm': 1.045979380607605, 'learning_rate': 4.692605754599981e-06, 'epoch': 0.19} {'loss': 2.1158, 'grad_norm': 1.1396970748901367, 'learning_rate': 4.692397029238082e-06, 'epoch': 0.19} {'loss': 1.5418, 'grad_norm': 1.2885175943374634, 'learning_rate': 4.692188237681654e-06, 'epoch': 0.19} {'loss': 2.331, 'grad_norm': 1.3672146797180176, 'learning_rate': 4.691979379937001e-06, 'epoch': 0.19} {'loss': 1.842, 'grad_norm': 1.2950081825256348, 'learning_rate': 4.69177045601043e-06, 'epoch': 0.19} {'loss': 2.4723, 'grad_norm': 1.2495976686477661, 'learning_rate': 4.691561465908247e-06, 'epoch': 0.19} {'loss': 2.0623, 'grad_norm': 1.1697078943252563, 'learning_rate': 4.691352409636762e-06, 'epoch': 0.19} {'loss': 2.4493, 'grad_norm': 1.2757004499435425, 'learning_rate': 4.691143287202289e-06, 'epoch': 0.19} {'loss': 2.1992, 'grad_norm': 1.1258955001831055, 'learning_rate': 4.6909340986111394e-06, 'epoch': 0.19} {'loss': 2.2444, 'grad_norm': 1.3226019144058228, 'learning_rate': 4.690724843869632e-06, 'epoch': 0.19} {'loss': 2.2884, 'grad_norm': 1.264570951461792, 'learning_rate': 4.690515522984084e-06, 'epoch': 0.19} {'loss': 2.4681, 'grad_norm': 1.5125712156295776, 'learning_rate': 4.690306135960814e-06, 'epoch': 0.19} {'loss': 2.3058, 'grad_norm': 1.176947832107544, 'learning_rate': 4.690096682806144e-06, 'epoch': 0.19} {'loss': 2.2749, 'grad_norm': 1.1605802774429321, 'learning_rate': 4.6898871635263995e-06, 'epoch': 0.19} {'loss': 2.3429, 'grad_norm': 1.2823446989059448, 'learning_rate': 4.689677578127905e-06, 'epoch': 0.19} {'loss': 2.4486, 'grad_norm': 1.2924188375473022, 'learning_rate': 4.68946792661699e-06, 'epoch': 0.19} {'loss': 1.8809, 'grad_norm': 1.221558690071106, 'learning_rate': 4.6892582089999835e-06, 'epoch': 0.19} {'loss': 2.4651, 'grad_norm': 1.2156959772109985, 'learning_rate': 4.689048425283217e-06, 'epoch': 0.19} {'loss': 2.2087, 'grad_norm': 1.2166577577590942, 'learning_rate': 4.688838575473026e-06, 'epoch': 0.19} {'loss': 2.1372, 'grad_norm': 1.5724996328353882, 'learning_rate': 4.6886286595757446e-06, 'epoch': 0.19} {'loss': 2.2605, 'grad_norm': 1.1953818798065186, 'learning_rate': 4.688418677597712e-06, 'epoch': 0.19} {'loss': 2.3637, 'grad_norm': 1.2076828479766846, 'learning_rate': 4.6882086295452674e-06, 'epoch': 0.19} {'loss': 1.8293, 'grad_norm': 1.1043329238891602, 'learning_rate': 4.687998515424754e-06, 'epoch': 0.19} {'loss': 2.2794, 'grad_norm': 1.359475016593933, 'learning_rate': 4.687788335242513e-06, 'epoch': 0.19} {'loss': 2.2667, 'grad_norm': 1.1955811977386475, 'learning_rate': 4.6875780890048936e-06, 'epoch': 0.19} {'loss': 2.5091, 'grad_norm': 1.4142004251480103, 'learning_rate': 4.687367776718243e-06, 'epoch': 0.19} {'loss': 2.3863, 'grad_norm': 1.1294684410095215, 'learning_rate': 4.687157398388909e-06, 'epoch': 0.19} {'loss': 2.3036, 'grad_norm': 1.1605569124221802, 'learning_rate': 4.686946954023245e-06, 'epoch': 0.19} {'loss': 2.3141, 'grad_norm': 1.2896679639816284, 'learning_rate': 4.6867364436276045e-06, 'epoch': 0.19} {'loss': 2.2539, 'grad_norm': 1.1368482112884521, 'learning_rate': 4.6865258672083445e-06, 'epoch': 0.19} {'loss': 2.578, 'grad_norm': 1.1594871282577515, 'learning_rate': 4.686315224771821e-06, 'epoch': 0.19} {'loss': 2.3763, 'grad_norm': 2.3387207984924316, 'learning_rate': 4.686104516324396e-06, 'epoch': 0.19} {'loss': 2.5792, 'grad_norm': 1.3232580423355103, 'learning_rate': 4.685893741872429e-06, 'epoch': 0.19} {'loss': 2.2118, 'grad_norm': 1.279096245765686, 'learning_rate': 4.685682901422286e-06, 'epoch': 0.19} {'loss': 2.3647, 'grad_norm': 1.150031566619873, 'learning_rate': 4.6854719949803315e-06, 'epoch': 0.19} {'loss': 2.2716, 'grad_norm': 1.2252492904663086, 'learning_rate': 4.685261022552935e-06, 'epoch': 0.19} {'loss': 2.2407, 'grad_norm': 1.3255879878997803, 'learning_rate': 4.685049984146464e-06, 'epoch': 0.19} {'loss': 2.0399, 'grad_norm': 1.780170202255249, 'learning_rate': 4.684838879767291e-06, 'epoch': 0.19} {'loss': 2.2847, 'grad_norm': 1.2680577039718628, 'learning_rate': 4.6846277094217915e-06, 'epoch': 0.19} {'loss': 2.3024, 'grad_norm': 1.1650372743606567, 'learning_rate': 4.68441647311634e-06, 'epoch': 0.19} {'loss': 2.441, 'grad_norm': 1.2956602573394775, 'learning_rate': 4.684205170857315e-06, 'epoch': 0.19} {'loss': 2.1749, 'grad_norm': 1.2169373035430908, 'learning_rate': 4.6839938026510945e-06, 'epoch': 0.19} {'loss': 2.2875, 'grad_norm': 1.308790683746338, 'learning_rate': 4.683782368504063e-06, 'epoch': 0.19} {'loss': 2.4709, 'grad_norm': 1.277746558189392, 'learning_rate': 4.683570868422602e-06, 'epoch': 0.19} {'loss': 2.1424, 'grad_norm': 1.8639328479766846, 'learning_rate': 4.683359302413098e-06, 'epoch': 0.19} {'loss': 2.2323, 'grad_norm': 1.271832823753357, 'learning_rate': 4.683147670481939e-06, 'epoch': 0.19} {'loss': 2.2998, 'grad_norm': 2.4120025634765625, 'learning_rate': 4.6829359726355146e-06, 'epoch': 0.19} {'loss': 2.2429, 'grad_norm': 2.5653023719787598, 'learning_rate': 4.682724208880216e-06, 'epoch': 0.19} {'loss': 2.2919, 'grad_norm': 1.347082495689392, 'learning_rate': 4.682512379222438e-06, 'epoch': 0.19} {'loss': 2.5072, 'grad_norm': 1.876242995262146, 'learning_rate': 4.682300483668577e-06, 'epoch': 0.19} {'loss': 2.2409, 'grad_norm': 1.8499375581741333, 'learning_rate': 4.682088522225028e-06, 'epoch': 0.19} {'loss': 2.2344, 'grad_norm': 1.176655888557434, 'learning_rate': 4.6818764948981926e-06, 'epoch': 0.19} {'loss': 2.2553, 'grad_norm': 1.1528737545013428, 'learning_rate': 4.6816644016944725e-06, 'epoch': 0.19} {'loss': 1.5094, 'grad_norm': 1.6741968393325806, 'learning_rate': 4.6814522426202705e-06, 'epoch': 0.19} {'loss': 2.4149, 'grad_norm': 1.2595505714416504, 'learning_rate': 4.681240017681994e-06, 'epoch': 0.19} {'loss': 2.2867, 'grad_norm': 1.366628885269165, 'learning_rate': 4.681027726886048e-06, 'epoch': 0.19} {'loss': 2.3519, 'grad_norm': 1.6810380220413208, 'learning_rate': 4.680815370238844e-06, 'epoch': 0.19} {'loss': 2.255, 'grad_norm': 1.2418636083602905, 'learning_rate': 4.680602947746793e-06, 'epoch': 0.19} {'loss': 2.1862, 'grad_norm': 1.3633884191513062, 'learning_rate': 4.680390459416309e-06, 'epoch': 0.19} {'loss': 2.517, 'grad_norm': 1.6661665439605713, 'learning_rate': 4.680177905253808e-06, 'epoch': 0.19} {'loss': 2.4987, 'grad_norm': 1.3546892404556274, 'learning_rate': 4.679965285265706e-06, 'epoch': 0.19} {'loss': 2.3166, 'grad_norm': 1.1302149295806885, 'learning_rate': 4.6797525994584246e-06, 'epoch': 0.19} {'loss': 2.0621, 'grad_norm': 1.3671995401382446, 'learning_rate': 4.679539847838385e-06, 'epoch': 0.19} {'loss': 2.2146, 'grad_norm': 1.1462236642837524, 'learning_rate': 4.679327030412009e-06, 'epoch': 0.19} {'loss': 2.2718, 'grad_norm': 1.8315908908843994, 'learning_rate': 4.679114147185723e-06, 'epoch': 0.19} {'loss': 1.9576, 'grad_norm': 1.0322917699813843, 'learning_rate': 4.6789011981659555e-06, 'epoch': 0.19} {'loss': 2.2188, 'grad_norm': 1.3153645992279053, 'learning_rate': 4.678688183359136e-06, 'epoch': 0.19} {'loss': 2.3862, 'grad_norm': 1.4579088687896729, 'learning_rate': 4.678475102771694e-06, 'epoch': 0.19} {'loss': 2.2316, 'grad_norm': 1.331779956817627, 'learning_rate': 4.678261956410065e-06, 'epoch': 0.19} {'loss': 2.4204, 'grad_norm': 1.311563491821289, 'learning_rate': 4.678048744280684e-06, 'epoch': 0.19} {'loss': 2.1278, 'grad_norm': 1.0316811800003052, 'learning_rate': 4.677835466389988e-06, 'epoch': 0.19} {'loss': 2.2966, 'grad_norm': 1.2204980850219727, 'learning_rate': 4.677622122744418e-06, 'epoch': 0.19} {'loss': 2.2574, 'grad_norm': 1.2745643854141235, 'learning_rate': 4.677408713350412e-06, 'epoch': 0.19} {'loss': 2.2976, 'grad_norm': 1.0805141925811768, 'learning_rate': 4.677195238214417e-06, 'epoch': 0.19} {'loss': 2.0568, 'grad_norm': 1.4277303218841553, 'learning_rate': 4.6769816973428775e-06, 'epoch': 0.19} {'loss': 2.2685, 'grad_norm': 1.3099827766418457, 'learning_rate': 4.676768090742239e-06, 'epoch': 0.19} {'loss': 2.3646, 'grad_norm': 1.3297253847122192, 'learning_rate': 4.676554418418953e-06, 'epoch': 0.19} {'loss': 2.0507, 'grad_norm': 1.1348944902420044, 'learning_rate': 4.6763406803794705e-06, 'epoch': 0.19} {'loss': 2.3294, 'grad_norm': 1.2010785341262817, 'learning_rate': 4.676126876630244e-06, 'epoch': 0.19} {'loss': 2.4938, 'grad_norm': 1.2042897939682007, 'learning_rate': 4.675913007177729e-06, 'epoch': 0.19} {'loss': 2.1307, 'grad_norm': 1.1656131744384766, 'learning_rate': 4.675699072028383e-06, 'epoch': 0.19} {'loss': 2.5398, 'grad_norm': 1.298869013786316, 'learning_rate': 4.6754850711886665e-06, 'epoch': 0.19} {'loss': 2.1475, 'grad_norm': 1.3676540851593018, 'learning_rate': 4.67527100466504e-06, 'epoch': 0.19} {'loss': 2.2761, 'grad_norm': 1.240015983581543, 'learning_rate': 4.675056872463965e-06, 'epoch': 0.19} {'loss': 2.3267, 'grad_norm': 1.3519331216812134, 'learning_rate': 4.6748426745919084e-06, 'epoch': 0.19} {'loss': 2.2055, 'grad_norm': 1.279384732246399, 'learning_rate': 4.674628411055338e-06, 'epoch': 0.19} {'loss': 2.3028, 'grad_norm': 1.1871554851531982, 'learning_rate': 4.674414081860722e-06, 'epoch': 0.19} {'loss': 2.3093, 'grad_norm': 1.193011999130249, 'learning_rate': 4.674199687014531e-06, 'epoch': 0.19} {'loss': 2.3846, 'grad_norm': 1.0564366579055786, 'learning_rate': 4.67398522652324e-06, 'epoch': 0.19} {'loss': 2.536, 'grad_norm': 1.7341244220733643, 'learning_rate': 4.673770700393323e-06, 'epoch': 0.19} {'loss': 2.6109, 'grad_norm': 1.2732852697372437, 'learning_rate': 4.673556108631257e-06, 'epoch': 0.19} {'loss': 2.2112, 'grad_norm': 1.182658076286316, 'learning_rate': 4.6733414512435215e-06, 'epoch': 0.19} {'loss': 2.3941, 'grad_norm': 1.420609474182129, 'learning_rate': 4.673126728236598e-06, 'epoch': 0.19} {'loss': 2.3224, 'grad_norm': 1.200242042541504, 'learning_rate': 4.672911939616968e-06, 'epoch': 0.19} {'loss': 2.3561, 'grad_norm': 1.2135869264602661, 'learning_rate': 4.672697085391118e-06, 'epoch': 0.19} {'loss': 2.3288, 'grad_norm': 5.383236408233643, 'learning_rate': 4.672482165565535e-06, 'epoch': 0.19} {'loss': 2.5017, 'grad_norm': 1.2978312969207764, 'learning_rate': 4.672267180146708e-06, 'epoch': 0.19} {'loss': 2.3361, 'grad_norm': 1.1624550819396973, 'learning_rate': 4.672052129141127e-06, 'epoch': 0.19} {'loss': 2.2725, 'grad_norm': 1.1709518432617188, 'learning_rate': 4.671837012555286e-06, 'epoch': 0.19} {'loss': 2.494, 'grad_norm': 1.2186332941055298, 'learning_rate': 4.67162183039568e-06, 'epoch': 0.19} {'loss': 2.29, 'grad_norm': 1.4235016107559204, 'learning_rate': 4.671406582668805e-06, 'epoch': 0.19} {'loss': 2.4113, 'grad_norm': 1.33878493309021, 'learning_rate': 4.671191269381161e-06, 'epoch': 0.19} {'loss': 2.2685, 'grad_norm': 1.3717186450958252, 'learning_rate': 4.6709758905392485e-06, 'epoch': 0.19} {'loss': 2.328, 'grad_norm': 1.1963114738464355, 'learning_rate': 4.67076044614957e-06, 'epoch': 0.19} {'loss': 2.2526, 'grad_norm': 1.1665699481964111, 'learning_rate': 4.67054493621863e-06, 'epoch': 0.19} {'loss': 2.1855, 'grad_norm': 1.3046523332595825, 'learning_rate': 4.6703293607529375e-06, 'epoch': 0.19} {'loss': 2.1408, 'grad_norm': 1.2440407276153564, 'learning_rate': 4.670113719759e-06, 'epoch': 0.19} {'loss': 2.2726, 'grad_norm': 1.2993977069854736, 'learning_rate': 4.669898013243327e-06, 'epoch': 0.19} {'loss': 2.1848, 'grad_norm': 1.2645074129104614, 'learning_rate': 4.669682241212432e-06, 'epoch': 0.19} {'loss': 2.3236, 'grad_norm': 1.3097604513168335, 'learning_rate': 4.669466403672831e-06, 'epoch': 0.19} {'loss': 2.2474, 'grad_norm': 1.4354110956192017, 'learning_rate': 4.66925050063104e-06, 'epoch': 0.19} {'loss': 1.751, 'grad_norm': 1.2526880502700806, 'learning_rate': 4.6690345320935785e-06, 'epoch': 0.19} {'loss': 2.0988, 'grad_norm': 1.134473443031311, 'learning_rate': 4.668818498066964e-06, 'epoch': 0.19} {'loss': 2.2885, 'grad_norm': 1.1148837804794312, 'learning_rate': 4.668602398557723e-06, 'epoch': 0.19} {'loss': 2.2864, 'grad_norm': 1.2057620286941528, 'learning_rate': 4.668386233572379e-06, 'epoch': 0.19} {'loss': 2.1159, 'grad_norm': 1.6614640951156616, 'learning_rate': 4.668170003117457e-06, 'epoch': 0.19} {'loss': 1.8667, 'grad_norm': 1.0109710693359375, 'learning_rate': 4.667953707199487e-06, 'epoch': 0.19} {'loss': 2.4122, 'grad_norm': 1.339402437210083, 'learning_rate': 4.667737345825e-06, 'epoch': 0.19} {'loss': 2.2701, 'grad_norm': 4.490293025970459, 'learning_rate': 4.667520919000528e-06, 'epoch': 0.19} {'loss': 2.1961, 'grad_norm': 1.3692729473114014, 'learning_rate': 4.667304426732605e-06, 'epoch': 0.19} {'loss': 2.3986, 'grad_norm': 1.2795538902282715, 'learning_rate': 4.667087869027768e-06, 'epoch': 0.19} {'loss': 2.1832, 'grad_norm': 21.75772476196289, 'learning_rate': 4.666871245892556e-06, 'epoch': 0.19} {'loss': 2.0066, 'grad_norm': 33.11798095703125, 'learning_rate': 4.666654557333509e-06, 'epoch': 0.19} {'loss': 2.3515, 'grad_norm': 1.18890380859375, 'learning_rate': 4.666437803357168e-06, 'epoch': 0.19} {'loss': 2.2006, 'grad_norm': 1.2441178560256958, 'learning_rate': 4.6662209839700805e-06, 'epoch': 0.19} {'loss': 2.279, 'grad_norm': 1.101897954940796, 'learning_rate': 4.666004099178789e-06, 'epoch': 0.19} {'loss': 2.3313, 'grad_norm': 5.953339576721191, 'learning_rate': 4.665787148989845e-06, 'epoch': 0.19} {'loss': 2.408, 'grad_norm': 2.2388110160827637, 'learning_rate': 4.665570133409799e-06, 'epoch': 0.19} {'loss': 2.3075, 'grad_norm': 1.207289457321167, 'learning_rate': 4.6653530524452e-06, 'epoch': 0.19} {'loss': 2.186, 'grad_norm': 1.3266401290893555, 'learning_rate': 4.665135906102606e-06, 'epoch': 0.19} {'loss': 2.1192, 'grad_norm': 1.1596747636795044, 'learning_rate': 4.664918694388571e-06, 'epoch': 0.19} {'loss': 2.4396, 'grad_norm': 1.2349233627319336, 'learning_rate': 4.664701417309653e-06, 'epoch': 0.19} {'loss': 2.3772, 'grad_norm': 1.1601699590682983, 'learning_rate': 4.664484074872414e-06, 'epoch': 0.19} {'loss': 2.2161, 'grad_norm': 1.5814498662948608, 'learning_rate': 4.664266667083416e-06, 'epoch': 0.19} {'loss': 2.4009, 'grad_norm': 1.3311710357666016, 'learning_rate': 4.6640491939492205e-06, 'epoch': 0.19} {'loss': 2.2926, 'grad_norm': 1.2327566146850586, 'learning_rate': 4.663831655476396e-06, 'epoch': 0.19} {'loss': 2.1918, 'grad_norm': 1.0314773321151733, 'learning_rate': 4.663614051671511e-06, 'epoch': 0.19} {'loss': 2.0701, 'grad_norm': 1.332322120666504, 'learning_rate': 4.663396382541133e-06, 'epoch': 0.19} {'loss': 2.1177, 'grad_norm': 2.494562864303589, 'learning_rate': 4.663178648091837e-06, 'epoch': 0.19} {'loss': 1.9666, 'grad_norm': 1.0249983072280884, 'learning_rate': 4.662960848330195e-06, 'epoch': 0.19} {'loss': 2.0498, 'grad_norm': 1.0773414373397827, 'learning_rate': 4.6627429832627835e-06, 'epoch': 0.19} {'loss': 2.2055, 'grad_norm': 1.2529000043869019, 'learning_rate': 4.662525052896182e-06, 'epoch': 0.19} {'loss': 2.151, 'grad_norm': 1.3041211366653442, 'learning_rate': 4.6623070572369675e-06, 'epoch': 0.19} {'loss': 2.008, 'grad_norm': 1.2334107160568237, 'learning_rate': 4.662088996291723e-06, 'epoch': 0.19} {'loss': 1.8776, 'grad_norm': 1.0371265411376953, 'learning_rate': 4.661870870067033e-06, 'epoch': 0.19} {'loss': 2.125, 'grad_norm': 1.1485832929611206, 'learning_rate': 4.661652678569483e-06, 'epoch': 0.19} {'loss': 2.3762, 'grad_norm': 1.4199310541152954, 'learning_rate': 4.661434421805662e-06, 'epoch': 0.19} {'loss': 2.4145, 'grad_norm': 1.1334068775177002, 'learning_rate': 4.661216099782159e-06, 'epoch': 0.19} {'loss': 2.3188, 'grad_norm': 2.2847933769226074, 'learning_rate': 4.6609977125055636e-06, 'epoch': 0.19} {'loss': 2.4547, 'grad_norm': 1.1959174871444702, 'learning_rate': 4.6607792599824716e-06, 'epoch': 0.19} {'loss': 2.3331, 'grad_norm': 1.3965126276016235, 'learning_rate': 4.66056074221948e-06, 'epoch': 0.19} {'loss': 2.3647, 'grad_norm': 1.177359938621521, 'learning_rate': 4.660342159223183e-06, 'epoch': 0.19} {'loss': 2.3028, 'grad_norm': 1.110926866531372, 'learning_rate': 4.660123511000183e-06, 'epoch': 0.19} {'loss': 2.249, 'grad_norm': 1.036074161529541, 'learning_rate': 4.659904797557081e-06, 'epoch': 0.19} {'loss': 2.2608, 'grad_norm': 1.1773415803909302, 'learning_rate': 4.659686018900479e-06, 'epoch': 0.19} {'loss': 1.9854, 'grad_norm': 1.4209520816802979, 'learning_rate': 4.659467175036985e-06, 'epoch': 0.19} {'loss': 2.1525, 'grad_norm': 1.2295329570770264, 'learning_rate': 4.6592482659732056e-06, 'epoch': 0.19} {'loss': 2.0152, 'grad_norm': 1.2311673164367676, 'learning_rate': 4.659029291715749e-06, 'epoch': 0.19} {'loss': 2.3974, 'grad_norm': 1.1897872686386108, 'learning_rate': 4.658810252271227e-06, 'epoch': 0.19} {'loss': 2.2654, 'grad_norm': 1.2521212100982666, 'learning_rate': 4.658591147646254e-06, 'epoch': 0.19} {'loss': 2.363, 'grad_norm': 1.3074500560760498, 'learning_rate': 4.658371977847446e-06, 'epoch': 0.19} {'loss': 2.2049, 'grad_norm': 1.2901840209960938, 'learning_rate': 4.658152742881419e-06, 'epoch': 0.19} {'loss': 2.3749, 'grad_norm': 3.313418388366699, 'learning_rate': 4.657933442754791e-06, 'epoch': 0.19} {'loss': 2.0487, 'grad_norm': 1.3726825714111328, 'learning_rate': 4.6577140774741864e-06, 'epoch': 0.19} {'loss': 2.3139, 'grad_norm': 1.1878173351287842, 'learning_rate': 4.6574946470462264e-06, 'epoch': 0.19} {'loss': 2.1272, 'grad_norm': 1.2353484630584717, 'learning_rate': 4.657275151477537e-06, 'epoch': 0.19} {'loss': 2.1868, 'grad_norm': 1.3373301029205322, 'learning_rate': 4.657055590774745e-06, 'epoch': 0.19} {'loss': 2.115, 'grad_norm': 1.3088189363479614, 'learning_rate': 4.65683596494448e-06, 'epoch': 0.19} {'loss': 2.292, 'grad_norm': 1.3089812994003296, 'learning_rate': 4.656616273993372e-06, 'epoch': 0.19} {'loss': 2.052, 'grad_norm': 1.2452466487884521, 'learning_rate': 4.656396517928056e-06, 'epoch': 0.19} {'loss': 2.306, 'grad_norm': 1.3931708335876465, 'learning_rate': 4.656176696755164e-06, 'epoch': 0.19} {'loss': 2.4714, 'grad_norm': 7.421163558959961, 'learning_rate': 4.6559568104813364e-06, 'epoch': 0.19} {'loss': 2.3254, 'grad_norm': 1.3557257652282715, 'learning_rate': 4.655736859113211e-06, 'epoch': 0.19} {'loss': 2.1758, 'grad_norm': 1.1688828468322754, 'learning_rate': 4.6555168426574285e-06, 'epoch': 0.19} {'loss': 2.3733, 'grad_norm': 1.2879763841629028, 'learning_rate': 4.655296761120632e-06, 'epoch': 0.19} {'loss': 2.166, 'grad_norm': 1.2558258771896362, 'learning_rate': 4.655076614509464e-06, 'epoch': 0.19} {'loss': 2.3186, 'grad_norm': 1.2599647045135498, 'learning_rate': 4.654856402830575e-06, 'epoch': 0.19} {'loss': 2.2258, 'grad_norm': 1.3302412033081055, 'learning_rate': 4.654636126090612e-06, 'epoch': 0.19} {'loss': 2.4904, 'grad_norm': 1.495296597480774, 'learning_rate': 4.6544157842962256e-06, 'epoch': 0.19} {'loss': 2.2142, 'grad_norm': 1.4503979682922363, 'learning_rate': 4.65419537745407e-06, 'epoch': 0.19} {'loss': 2.168, 'grad_norm': 1.1210914850234985, 'learning_rate': 4.6539749055707975e-06, 'epoch': 0.19} {'loss': 1.9762, 'grad_norm': 0.9265280365943909, 'learning_rate': 4.6537543686530665e-06, 'epoch': 0.19} {'loss': 1.9292, 'grad_norm': 1.0267680883407593, 'learning_rate': 4.6535337667075345e-06, 'epoch': 0.19} {'loss': 2.303, 'grad_norm': 1.2618517875671387, 'learning_rate': 4.6533130997408635e-06, 'epoch': 0.19} {'loss': 2.1315, 'grad_norm': 1.208715796470642, 'learning_rate': 4.653092367759716e-06, 'epoch': 0.2} {'loss': 2.2968, 'grad_norm': 1.345659852027893, 'learning_rate': 4.652871570770755e-06, 'epoch': 0.2} {'loss': 2.0906, 'grad_norm': 1.0620254278182983, 'learning_rate': 4.652650708780648e-06, 'epoch': 0.2} {'loss': 2.7103, 'grad_norm': 1.495103120803833, 'learning_rate': 4.652429781796064e-06, 'epoch': 0.2} {'loss': 2.0486, 'grad_norm': 1.3775628805160522, 'learning_rate': 4.6522087898236715e-06, 'epoch': 0.2} {'loss': 2.1937, 'grad_norm': 1.167701244354248, 'learning_rate': 4.651987732870144e-06, 'epoch': 0.2} {'loss': 2.0779, 'grad_norm': 1.382943868637085, 'learning_rate': 4.651766610942156e-06, 'epoch': 0.2} {'loss': 2.2874, 'grad_norm': 1.7146567106246948, 'learning_rate': 4.651545424046384e-06, 'epoch': 0.2} {'loss': 2.2309, 'grad_norm': 1.3333243131637573, 'learning_rate': 4.651324172189506e-06, 'epoch': 0.2} {'loss': 2.2788, 'grad_norm': 1.3862327337265015, 'learning_rate': 4.651102855378201e-06, 'epoch': 0.2} {'loss': 2.4064, 'grad_norm': 2.3496007919311523, 'learning_rate': 4.650881473619153e-06, 'epoch': 0.2} {'loss': 2.1096, 'grad_norm': 1.3489352464675903, 'learning_rate': 4.650660026919046e-06, 'epoch': 0.2} {'loss': 2.1552, 'grad_norm': 3.5695536136627197, 'learning_rate': 4.6504385152845646e-06, 'epoch': 0.2} {'loss': 2.01, 'grad_norm': 0.9061922430992126, 'learning_rate': 4.650216938722397e-06, 'epoch': 0.2} {'loss': 2.315, 'grad_norm': 31.034299850463867, 'learning_rate': 4.649995297239235e-06, 'epoch': 0.2} {'loss': 2.4729, 'grad_norm': 1.4523001909255981, 'learning_rate': 4.649773590841769e-06, 'epoch': 0.2} {'loss': 2.1775, 'grad_norm': 1.2226629257202148, 'learning_rate': 4.649551819536694e-06, 'epoch': 0.2} {'loss': 2.5323, 'grad_norm': 1.250909686088562, 'learning_rate': 4.649329983330703e-06, 'epoch': 0.2} {'loss': 2.1885, 'grad_norm': 2.626577138900757, 'learning_rate': 4.649108082230499e-06, 'epoch': 0.2} {'loss': 2.4616, 'grad_norm': 1.2613577842712402, 'learning_rate': 4.648886116242778e-06, 'epoch': 0.2} {'loss': 2.2283, 'grad_norm': 1.1361145973205566, 'learning_rate': 4.648664085374242e-06, 'epoch': 0.2} {'loss': 2.1975, 'grad_norm': 1.3440237045288086, 'learning_rate': 4.648441989631596e-06, 'epoch': 0.2} {'loss': 2.388, 'grad_norm': 1.123000144958496, 'learning_rate': 4.648219829021546e-06, 'epoch': 0.2} {'loss': 2.0849, 'grad_norm': 1.0534039735794067, 'learning_rate': 4.647997603550797e-06, 'epoch': 0.2} {'loss': 2.3112, 'grad_norm': 1.122397541999817, 'learning_rate': 4.647775313226061e-06, 'epoch': 0.2} {'loss': 2.314, 'grad_norm': 1.2134307622909546, 'learning_rate': 4.647552958054049e-06, 'epoch': 0.2} {'loss': 2.1336, 'grad_norm': 1.2176368236541748, 'learning_rate': 4.647330538041475e-06, 'epoch': 0.2} {'loss': 2.129, 'grad_norm': 1.1325048208236694, 'learning_rate': 4.647108053195053e-06, 'epoch': 0.2} {'loss': 2.5249, 'grad_norm': 3.9090774059295654, 'learning_rate': 4.646885503521501e-06, 'epoch': 0.2} {'loss': 2.1236, 'grad_norm': 1.244073748588562, 'learning_rate': 4.64666288902754e-06, 'epoch': 0.2} {'loss': 2.2692, 'grad_norm': 1.3762214183807373, 'learning_rate': 4.646440209719889e-06, 'epoch': 0.2} {'loss': 2.2464, 'grad_norm': 1.1827284097671509, 'learning_rate': 4.646217465605273e-06, 'epoch': 0.2} {'loss': 2.2322, 'grad_norm': 1.244786024093628, 'learning_rate': 4.645994656690417e-06, 'epoch': 0.2} {'loss': 2.3547, 'grad_norm': 1.2837826013565063, 'learning_rate': 4.645771782982047e-06, 'epoch': 0.2} {'loss': 2.3378, 'grad_norm': 1.0728979110717773, 'learning_rate': 4.6455488444868936e-06, 'epoch': 0.2} {'loss': 2.453, 'grad_norm': 1.4267597198486328, 'learning_rate': 4.645325841211687e-06, 'epoch': 0.2} {'loss': 1.9464, 'grad_norm': 1.0697736740112305, 'learning_rate': 4.64510277316316e-06, 'epoch': 0.2} {'loss': 2.3621, 'grad_norm': 1.169786810874939, 'learning_rate': 4.64487964034805e-06, 'epoch': 0.2} {'loss': 2.4342, 'grad_norm': 1.407608985900879, 'learning_rate': 4.644656442773091e-06, 'epoch': 0.2} {'loss': 2.3593, 'grad_norm': 1.292242407798767, 'learning_rate': 4.644433180445024e-06, 'epoch': 0.2} {'loss': 2.1894, 'grad_norm': 1.0376532077789307, 'learning_rate': 4.644209853370588e-06, 'epoch': 0.2} {'loss': 2.3868, 'grad_norm': 1.3240770101547241, 'learning_rate': 4.643986461556528e-06, 'epoch': 0.2} {'loss': 2.2331, 'grad_norm': 1.2710820436477661, 'learning_rate': 4.643763005009587e-06, 'epoch': 0.2} {'loss': 2.4804, 'grad_norm': 1.3726979494094849, 'learning_rate': 4.643539483736514e-06, 'epoch': 0.2} {'loss': 2.3456, 'grad_norm': 1.2373720407485962, 'learning_rate': 4.643315897744055e-06, 'epoch': 0.2} {'loss': 2.1092, 'grad_norm': 1.1499115228652954, 'learning_rate': 4.643092247038963e-06, 'epoch': 0.2} {'loss': 1.9586, 'grad_norm': 1.1649826765060425, 'learning_rate': 4.642868531627989e-06, 'epoch': 0.2} {'loss': 2.5484, 'grad_norm': 1.3701539039611816, 'learning_rate': 4.642644751517888e-06, 'epoch': 0.2} {'loss': 2.073, 'grad_norm': 1.452637791633606, 'learning_rate': 4.642420906715417e-06, 'epoch': 0.2} {'loss': 2.1953, 'grad_norm': 1.1668627262115479, 'learning_rate': 4.642196997227334e-06, 'epoch': 0.2} {'loss': 2.2747, 'grad_norm': 1.2274147272109985, 'learning_rate': 4.6419730230604e-06, 'epoch': 0.2} {'loss': 2.3477, 'grad_norm': 1.2802897691726685, 'learning_rate': 4.641748984221377e-06, 'epoch': 0.2} {'loss': 2.4089, 'grad_norm': 9.779991149902344, 'learning_rate': 4.6415248807170295e-06, 'epoch': 0.2} {'loss': 2.2691, 'grad_norm': 1.1982390880584717, 'learning_rate': 4.641300712554125e-06, 'epoch': 0.2} {'loss': 2.2247, 'grad_norm': 1.0289463996887207, 'learning_rate': 4.641076479739429e-06, 'epoch': 0.2} {'loss': 1.5722, 'grad_norm': 1.2301536798477173, 'learning_rate': 4.6408521822797134e-06, 'epoch': 0.2} {'loss': 2.2831, 'grad_norm': 1.6804865598678589, 'learning_rate': 4.64062782018175e-06, 'epoch': 0.2} {'loss': 2.1961, 'grad_norm': 1.0852324962615967, 'learning_rate': 4.6404033934523135e-06, 'epoch': 0.2} {'loss': 2.0727, 'grad_norm': 1.1962088346481323, 'learning_rate': 4.640178902098179e-06, 'epoch': 0.2} {'loss': 2.4385, 'grad_norm': 1.4886806011199951, 'learning_rate': 4.6399543461261256e-06, 'epoch': 0.2} {'loss': 2.172, 'grad_norm': 1.2767034769058228, 'learning_rate': 4.639729725542933e-06, 'epoch': 0.2} {'loss': 2.2391, 'grad_norm': 1.4468457698822021, 'learning_rate': 4.639505040355383e-06, 'epoch': 0.2} {'loss': 1.7449, 'grad_norm': 1.7686817646026611, 'learning_rate': 4.639280290570258e-06, 'epoch': 0.2} {'loss': 2.1473, 'grad_norm': 1.1469653844833374, 'learning_rate': 4.639055476194347e-06, 'epoch': 0.2} {'loss': 2.2474, 'grad_norm': 1.5095516443252563, 'learning_rate': 4.638830597234434e-06, 'epoch': 0.2} {'loss': 2.2742, 'grad_norm': 1.4449721574783325, 'learning_rate': 4.638605653697311e-06, 'epoch': 0.2} {'loss': 2.0988, 'grad_norm': 1.3423619270324707, 'learning_rate': 4.638380645589771e-06, 'epoch': 0.2} {'loss': 2.1954, 'grad_norm': 1.5285801887512207, 'learning_rate': 4.638155572918604e-06, 'epoch': 0.2} {'loss': 2.4622, 'grad_norm': 1.3817273378372192, 'learning_rate': 4.6379304356906085e-06, 'epoch': 0.2} {'loss': 2.091, 'grad_norm': 1.3577519655227661, 'learning_rate': 4.637705233912581e-06, 'epoch': 0.2} {'loss': 1.8069, 'grad_norm': 1.1404502391815186, 'learning_rate': 4.63747996759132e-06, 'epoch': 0.2} {'loss': 2.5767, 'grad_norm': 1.7578426599502563, 'learning_rate': 4.637254636733628e-06, 'epoch': 0.2} {'loss': 2.272, 'grad_norm': 1.1518572568893433, 'learning_rate': 4.637029241346309e-06, 'epoch': 0.2} {'loss': 2.3504, 'grad_norm': 2.8595566749572754, 'learning_rate': 4.636803781436168e-06, 'epoch': 0.2} {'loss': 2.2386, 'grad_norm': 1.6838815212249756, 'learning_rate': 4.63657825701001e-06, 'epoch': 0.2} {'loss': 2.474, 'grad_norm': 1.2520842552185059, 'learning_rate': 4.636352668074647e-06, 'epoch': 0.2} {'loss': 2.2791, 'grad_norm': 1.386107087135315, 'learning_rate': 4.6361270146368895e-06, 'epoch': 0.2} {'loss': 2.5027, 'grad_norm': 1.2178764343261719, 'learning_rate': 4.63590129670355e-06, 'epoch': 0.2} {'loss': 2.3535, 'grad_norm': 1.1601449251174927, 'learning_rate': 4.635675514281444e-06, 'epoch': 0.2} {'loss': 1.5301, 'grad_norm': 1.4203969240188599, 'learning_rate': 4.6354496673773875e-06, 'epoch': 0.2} {'loss': 2.3105, 'grad_norm': 1.1996502876281738, 'learning_rate': 4.635223755998201e-06, 'epoch': 0.2} {'loss': 2.3694, 'grad_norm': 1.408998966217041, 'learning_rate': 4.634997780150705e-06, 'epoch': 0.2} {'loss': 2.1043, 'grad_norm': 1.4139456748962402, 'learning_rate': 4.6347717398417205e-06, 'epoch': 0.2} {'loss': 2.4164, 'grad_norm': 1.4600870609283447, 'learning_rate': 4.634545635078075e-06, 'epoch': 0.2} {'loss': 2.1359, 'grad_norm': 1.1632405519485474, 'learning_rate': 4.634319465866594e-06, 'epoch': 0.2} {'loss': 2.1436, 'grad_norm': 1.261743426322937, 'learning_rate': 4.634093232214106e-06, 'epoch': 0.2} {'loss': 2.1167, 'grad_norm': 1.2200193405151367, 'learning_rate': 4.6338669341274415e-06, 'epoch': 0.2} {'loss': 2.2836, 'grad_norm': 1.2095427513122559, 'learning_rate': 4.633640571613432e-06, 'epoch': 0.2} {'loss': 2.461, 'grad_norm': 1.4819310903549194, 'learning_rate': 4.6334141446789156e-06, 'epoch': 0.2} {'loss': 2.2174, 'grad_norm': 1.3756663799285889, 'learning_rate': 4.633187653330725e-06, 'epoch': 0.2} {'loss': 2.442, 'grad_norm': 1.2319761514663696, 'learning_rate': 4.632961097575701e-06, 'epoch': 0.2} {'loss': 2.3501, 'grad_norm': 1.2945011854171753, 'learning_rate': 4.6327344774206825e-06, 'epoch': 0.2} {'loss': 2.2354, 'grad_norm': 1.3036407232284546, 'learning_rate': 4.632507792872514e-06, 'epoch': 0.2} {'loss': 2.2633, 'grad_norm': 1.1577447652816772, 'learning_rate': 4.632281043938036e-06, 'epoch': 0.2} {'loss': 2.2232, 'grad_norm': 1.2133798599243164, 'learning_rate': 4.6320542306240975e-06, 'epoch': 0.2} {'loss': 2.2656, 'grad_norm': 1.6016851663589478, 'learning_rate': 4.631827352937546e-06, 'epoch': 0.2} {'loss': 2.5082, 'grad_norm': 1.3274916410446167, 'learning_rate': 4.631600410885231e-06, 'epoch': 0.2} {'loss': 2.4353, 'grad_norm': 1.3525985479354858, 'learning_rate': 4.6313734044740055e-06, 'epoch': 0.2} {'loss': 2.3104, 'grad_norm': 1.674757480621338, 'learning_rate': 4.631146333710722e-06, 'epoch': 0.2} {'loss': 2.1577, 'grad_norm': 1.3631049394607544, 'learning_rate': 4.630919198602238e-06, 'epoch': 0.2} {'loss': 2.0932, 'grad_norm': 1.2909578084945679, 'learning_rate': 4.630691999155411e-06, 'epoch': 0.2} {'loss': 2.5019, 'grad_norm': 1.3406130075454712, 'learning_rate': 4.6304647353770995e-06, 'epoch': 0.2} {'loss': 1.967, 'grad_norm': 1.590498924255371, 'learning_rate': 4.630237407274166e-06, 'epoch': 0.2} {'loss': 2.2236, 'grad_norm': 1.4649293422698975, 'learning_rate': 4.630010014853475e-06, 'epoch': 0.2} {'loss': 2.2423, 'grad_norm': 1.3511090278625488, 'learning_rate': 4.629782558121891e-06, 'epoch': 0.2} {'loss': 2.3868, 'grad_norm': 1.9356008768081665, 'learning_rate': 4.629555037086283e-06, 'epoch': 0.2} {'loss': 1.9777, 'grad_norm': 1.466711163520813, 'learning_rate': 4.6293274517535184e-06, 'epoch': 0.2} {'loss': 2.3371, 'grad_norm': 8.2410888671875, 'learning_rate': 4.62909980213047e-06, 'epoch': 0.2} {'loss': 2.1531, 'grad_norm': 1.122536540031433, 'learning_rate': 4.62887208822401e-06, 'epoch': 0.2} {'loss': 2.3046, 'grad_norm': 1.2790428400039673, 'learning_rate': 4.628644310041016e-06, 'epoch': 0.2} {'loss': 2.4666, 'grad_norm': 1.2917968034744263, 'learning_rate': 4.628416467588363e-06, 'epoch': 0.2} {'loss': 2.3096, 'grad_norm': 1.4038149118423462, 'learning_rate': 4.62818856087293e-06, 'epoch': 0.2} {'loss': 2.2549, 'grad_norm': 1.3286137580871582, 'learning_rate': 4.627960589901601e-06, 'epoch': 0.2} {'loss': 2.2566, 'grad_norm': 2.239736557006836, 'learning_rate': 4.627732554681256e-06, 'epoch': 0.2} {'loss': 2.3135, 'grad_norm': 1.275478720664978, 'learning_rate': 4.627504455218782e-06, 'epoch': 0.2} {'loss': 2.1942, 'grad_norm': 1.3192983865737915, 'learning_rate': 4.627276291521064e-06, 'epoch': 0.2} {'loss': 2.1885, 'grad_norm': 1.3997247219085693, 'learning_rate': 4.6270480635949935e-06, 'epoch': 0.2} {'loss': 2.3016, 'grad_norm': 1.3167312145233154, 'learning_rate': 4.626819771447459e-06, 'epoch': 0.2} {'loss': 2.4939, 'grad_norm': 1.4369189739227295, 'learning_rate': 4.6265914150853544e-06, 'epoch': 0.2} {'loss': 2.4472, 'grad_norm': 1.2732185125350952, 'learning_rate': 4.626362994515574e-06, 'epoch': 0.2} {'loss': 2.2287, 'grad_norm': 1.285101294517517, 'learning_rate': 4.626134509745015e-06, 'epoch': 0.2} {'loss': 2.4468, 'grad_norm': 1.1932889223098755, 'learning_rate': 4.625905960780575e-06, 'epoch': 0.2} {'loss': 2.4328, 'grad_norm': 1.3584980964660645, 'learning_rate': 4.625677347629156e-06, 'epoch': 0.2} {'loss': 2.4468, 'grad_norm': 1.3915753364562988, 'learning_rate': 4.625448670297659e-06, 'epoch': 0.2} {'loss': 2.3521, 'grad_norm': 1.041346549987793, 'learning_rate': 4.6252199287929885e-06, 'epoch': 0.2} {'loss': 2.2022, 'grad_norm': 1.2436233758926392, 'learning_rate': 4.624991123122052e-06, 'epoch': 0.2} {'loss': 2.4753, 'grad_norm': 1.1524702310562134, 'learning_rate': 4.624762253291758e-06, 'epoch': 0.2} {'loss': 1.3085, 'grad_norm': 2.212296485900879, 'learning_rate': 4.624533319309014e-06, 'epoch': 0.2} {'loss': 2.3574, 'grad_norm': 1.178541898727417, 'learning_rate': 4.6243043211807355e-06, 'epoch': 0.2} {'loss': 1.9602, 'grad_norm': 2.4395627975463867, 'learning_rate': 4.624075258913834e-06, 'epoch': 0.2} {'loss': 2.402, 'grad_norm': 1.1168386936187744, 'learning_rate': 4.623846132515227e-06, 'epoch': 0.2} {'loss': 2.3957, 'grad_norm': 1.3017778396606445, 'learning_rate': 4.623616941991833e-06, 'epoch': 0.2} {'loss': 2.2387, 'grad_norm': 1.089753270149231, 'learning_rate': 4.6233876873505696e-06, 'epoch': 0.2} {'loss': 2.2796, 'grad_norm': 1.197166085243225, 'learning_rate': 4.623158368598361e-06, 'epoch': 0.2} {'loss': 2.3475, 'grad_norm': 1.3133816719055176, 'learning_rate': 4.622928985742129e-06, 'epoch': 0.2} {'loss': 2.2082, 'grad_norm': 2.7644522190093994, 'learning_rate': 4.622699538788801e-06, 'epoch': 0.2} {'loss': 2.0564, 'grad_norm': 1.2636334896087646, 'learning_rate': 4.622470027745303e-06, 'epoch': 0.2} {'loss': 2.2279, 'grad_norm': 1.1485320329666138, 'learning_rate': 4.622240452618566e-06, 'epoch': 0.2} {'loss': 2.4148, 'grad_norm': 1.2882862091064453, 'learning_rate': 4.622010813415521e-06, 'epoch': 0.2} {'loss': 2.3785, 'grad_norm': 1.1709342002868652, 'learning_rate': 4.621781110143101e-06, 'epoch': 0.2} {'loss': 2.3115, 'grad_norm': 1.4074974060058594, 'learning_rate': 4.621551342808243e-06, 'epoch': 0.2} {'loss': 2.3513, 'grad_norm': 1.4677814245224, 'learning_rate': 4.621321511417881e-06, 'epoch': 0.2} {'loss': 2.1139, 'grad_norm': 1.1087291240692139, 'learning_rate': 4.621091615978958e-06, 'epoch': 0.2} {'loss': 2.3672, 'grad_norm': 1.2703778743743896, 'learning_rate': 4.620861656498414e-06, 'epoch': 0.2} {'loss': 2.1721, 'grad_norm': 1.620661735534668, 'learning_rate': 4.62063163298319e-06, 'epoch': 0.2} {'loss': 2.2978, 'grad_norm': 1.1637080907821655, 'learning_rate': 4.6204015454402325e-06, 'epoch': 0.2} {'loss': 2.2406, 'grad_norm': 1.4243382215499878, 'learning_rate': 4.62017139387649e-06, 'epoch': 0.2} {'loss': 2.1685, 'grad_norm': 2.8579137325286865, 'learning_rate': 4.61994117829891e-06, 'epoch': 0.2} {'loss': 2.2979, 'grad_norm': 1.1859360933303833, 'learning_rate': 4.619710898714442e-06, 'epoch': 0.2} {'loss': 2.1892, 'grad_norm': 1.1524977684020996, 'learning_rate': 4.619480555130042e-06, 'epoch': 0.2} {'loss': 2.4009, 'grad_norm': 3.5306761264801025, 'learning_rate': 4.6192501475526615e-06, 'epoch': 0.2} {'loss': 2.0782, 'grad_norm': 1.1591706275939941, 'learning_rate': 4.61901967598926e-06, 'epoch': 0.2} {'loss': 2.2546, 'grad_norm': 1.1073267459869385, 'learning_rate': 4.6187891404467935e-06, 'epoch': 0.2} {'loss': 2.4296, 'grad_norm': 1.3203403949737549, 'learning_rate': 4.618558540932224e-06, 'epoch': 0.2} {'loss': 2.1377, 'grad_norm': 1.1785733699798584, 'learning_rate': 4.6183278774525135e-06, 'epoch': 0.2} {'loss': 2.0465, 'grad_norm': 1.0508460998535156, 'learning_rate': 4.6180971500146265e-06, 'epoch': 0.2} {'loss': 2.1938, 'grad_norm': 1.310874104499817, 'learning_rate': 4.617866358625529e-06, 'epoch': 0.2} {'loss': 2.2748, 'grad_norm': 1.2831422090530396, 'learning_rate': 4.617635503292189e-06, 'epoch': 0.2} {'loss': 2.3735, 'grad_norm': 1.2381889820098877, 'learning_rate': 4.617404584021579e-06, 'epoch': 0.2} {'loss': 2.1043, 'grad_norm': 1.1694697141647339, 'learning_rate': 4.617173600820667e-06, 'epoch': 0.2} {'loss': 2.2191, 'grad_norm': 1.1172897815704346, 'learning_rate': 4.616942553696431e-06, 'epoch': 0.2} {'loss': 2.5827, 'grad_norm': 1.2368327379226685, 'learning_rate': 4.616711442655843e-06, 'epoch': 0.2} {'loss': 2.4757, 'grad_norm': 1.1593455076217651, 'learning_rate': 4.616480267705885e-06, 'epoch': 0.2} {'loss': 2.3198, 'grad_norm': 1.147629976272583, 'learning_rate': 4.616249028853534e-06, 'epoch': 0.2} {'loss': 2.2984, 'grad_norm': 1.1638574600219727, 'learning_rate': 4.616017726105773e-06, 'epoch': 0.2} {'loss': 1.9309, 'grad_norm': 1.3640450239181519, 'learning_rate': 4.615786359469585e-06, 'epoch': 0.2} {'loss': 2.2077, 'grad_norm': 1.2929766178131104, 'learning_rate': 4.615554928951956e-06, 'epoch': 0.2} {'loss': 2.392, 'grad_norm': 1.323526382446289, 'learning_rate': 4.615323434559874e-06, 'epoch': 0.2} {'loss': 2.2897, 'grad_norm': 1.1255865097045898, 'learning_rate': 4.615091876300327e-06, 'epoch': 0.2} {'loss': 2.4303, 'grad_norm': 1.4588115215301514, 'learning_rate': 4.6148602541803076e-06, 'epoch': 0.2} {'loss': 2.5019, 'grad_norm': 1.2456674575805664, 'learning_rate': 4.614628568206809e-06, 'epoch': 0.2} {'loss': 2.0887, 'grad_norm': 1.07060706615448, 'learning_rate': 4.614396818386826e-06, 'epoch': 0.2} {'loss': 1.6497, 'grad_norm': 1.2038031816482544, 'learning_rate': 4.614165004727356e-06, 'epoch': 0.2} {'loss': 2.4389, 'grad_norm': 1.4909688234329224, 'learning_rate': 4.6139331272353985e-06, 'epoch': 0.2} {'loss': 2.3768, 'grad_norm': 1.328690767288208, 'learning_rate': 4.613701185917954e-06, 'epoch': 0.2} {'loss': 2.4612, 'grad_norm': 1.305776596069336, 'learning_rate': 4.613469180782024e-06, 'epoch': 0.2} {'loss': 2.629, 'grad_norm': 1.2762460708618164, 'learning_rate': 4.613237111834616e-06, 'epoch': 0.2} {'loss': 2.3366, 'grad_norm': 1.0543373823165894, 'learning_rate': 4.6130049790827366e-06, 'epoch': 0.2} {'loss': 2.3761, 'grad_norm': 1.3244009017944336, 'learning_rate': 4.612772782533393e-06, 'epoch': 0.2} {'loss': 2.2789, 'grad_norm': 1.328403115272522, 'learning_rate': 4.612540522193596e-06, 'epoch': 0.2} {'loss': 2.2677, 'grad_norm': 1.163795828819275, 'learning_rate': 4.612308198070359e-06, 'epoch': 0.2} {'loss': 1.5704, 'grad_norm': 1.2112303972244263, 'learning_rate': 4.612075810170696e-06, 'epoch': 0.2} {'loss': 2.2972, 'grad_norm': 1.2815124988555908, 'learning_rate': 4.611843358501624e-06, 'epoch': 0.2} {'loss': 2.301, 'grad_norm': 1.0280054807662964, 'learning_rate': 4.611610843070161e-06, 'epoch': 0.2} {'loss': 2.4349, 'grad_norm': 1.268127202987671, 'learning_rate': 4.6113782638833275e-06, 'epoch': 0.2} {'loss': 2.3797, 'grad_norm': 1.2431765794754028, 'learning_rate': 4.611145620948145e-06, 'epoch': 0.2} {'loss': 2.431, 'grad_norm': 1.271441102027893, 'learning_rate': 4.610912914271638e-06, 'epoch': 0.2} {'loss': 2.0019, 'grad_norm': 1.0640727281570435, 'learning_rate': 4.610680143860833e-06, 'epoch': 0.21} {'loss': 1.9814, 'grad_norm': 1.3055484294891357, 'learning_rate': 4.6104473097227575e-06, 'epoch': 0.21} {'loss': 2.2498, 'grad_norm': 1.217063069343567, 'learning_rate': 4.610214411864441e-06, 'epoch': 0.21} {'loss': 2.3122, 'grad_norm': 1.3911885023117065, 'learning_rate': 4.609981450292917e-06, 'epoch': 0.21} {'loss': 2.3219, 'grad_norm': 1.2633899450302124, 'learning_rate': 4.609748425015218e-06, 'epoch': 0.21} {'loss': 2.5282, 'grad_norm': 1.3123701810836792, 'learning_rate': 4.609515336038379e-06, 'epoch': 0.21} {'loss': 2.5164, 'grad_norm': 1.2486709356307983, 'learning_rate': 4.609282183369439e-06, 'epoch': 0.21} {'loss': 1.9444, 'grad_norm': 1.298445224761963, 'learning_rate': 4.609048967015437e-06, 'epoch': 0.21} {'loss': 2.3673, 'grad_norm': 1.1438865661621094, 'learning_rate': 4.608815686983415e-06, 'epoch': 0.21} {'loss': 2.5481, 'grad_norm': 1.3315881490707397, 'learning_rate': 4.608582343280415e-06, 'epoch': 0.21} {'loss': 2.4238, 'grad_norm': 1.4122023582458496, 'learning_rate': 4.608348935913482e-06, 'epoch': 0.21} {'loss': 2.3446, 'grad_norm': 1.2805945873260498, 'learning_rate': 4.608115464889665e-06, 'epoch': 0.21} {'loss': 2.1845, 'grad_norm': 1.0847457647323608, 'learning_rate': 4.607881930216014e-06, 'epoch': 0.21} {'loss': 2.496, 'grad_norm': 1.2080551385879517, 'learning_rate': 4.607648331899577e-06, 'epoch': 0.21} 2024-12-14 15:22:29 - WARNING - NaN or Inf found in input tensor. {'loss': 2.4192, 'grad_norm': nan, 'learning_rate': 4.607648331899577e-06, 'epoch': 0.21} {'loss': 2.3548, 'grad_norm': 1.3334401845932007, 'learning_rate': 4.607414669947408e-06, 'epoch': 0.21} {'loss': 2.1089, 'grad_norm': 1.3470743894577026, 'learning_rate': 4.607180944366563e-06, 'epoch': 0.21} {'loss': 1.9065, 'grad_norm': 1.382663607597351, 'learning_rate': 4.606947155164098e-06, 'epoch': 0.21} {'loss': 2.115, 'grad_norm': 7.55432653427124, 'learning_rate': 4.606713302347072e-06, 'epoch': 0.21} {'loss': 2.3421, 'grad_norm': 1.340131402015686, 'learning_rate': 4.606479385922547e-06, 'epoch': 0.21} {'loss': 2.2986, 'grad_norm': 1.2830229997634888, 'learning_rate': 4.606245405897582e-06, 'epoch': 0.21} {'loss': 2.3825, 'grad_norm': 1.2333353757858276, 'learning_rate': 4.606011362279245e-06, 'epoch': 0.21} {'loss': 2.2984, 'grad_norm': 1.1420345306396484, 'learning_rate': 4.6057772550746e-06, 'epoch': 0.21} {'loss': 2.2389, 'grad_norm': 1.297447919845581, 'learning_rate': 4.605543084290716e-06, 'epoch': 0.21} {'loss': 2.108, 'grad_norm': 1.4369782209396362, 'learning_rate': 4.605308849934665e-06, 'epoch': 0.21} {'loss': 2.1522, 'grad_norm': 1.1779539585113525, 'learning_rate': 4.605074552013518e-06, 'epoch': 0.21} {'loss': 1.788, 'grad_norm': 1.4043254852294922, 'learning_rate': 4.604840190534349e-06, 'epoch': 0.21} {'loss': 2.448, 'grad_norm': 1.6444863080978394, 'learning_rate': 4.604605765504233e-06, 'epoch': 0.21} {'loss': 2.4546, 'grad_norm': 1.5335686206817627, 'learning_rate': 4.60437127693025e-06, 'epoch': 0.21} {'loss': 2.2802, 'grad_norm': 7.86378812789917, 'learning_rate': 4.604136724819478e-06, 'epoch': 0.21} {'loss': 2.3158, 'grad_norm': 1.3682823181152344, 'learning_rate': 4.603902109178999e-06, 'epoch': 0.21} {'loss': 2.1266, 'grad_norm': 1.0754303932189941, 'learning_rate': 4.603667430015898e-06, 'epoch': 0.21} {'loss': 2.1111, 'grad_norm': 1.199903130531311, 'learning_rate': 4.60343268733726e-06, 'epoch': 0.21} {'loss': 2.3213, 'grad_norm': 1.3824491500854492, 'learning_rate': 4.6031978811501735e-06, 'epoch': 0.21} {'loss': 2.0806, 'grad_norm': 0.9867307543754578, 'learning_rate': 4.602963011461725e-06, 'epoch': 0.21} {'loss': 1.7057, 'grad_norm': 1.4526727199554443, 'learning_rate': 4.602728078279009e-06, 'epoch': 0.21} {'loss': 1.7174, 'grad_norm': 1.1399047374725342, 'learning_rate': 4.602493081609116e-06, 'epoch': 0.21} {'loss': 2.3054, 'grad_norm': 1.4496724605560303, 'learning_rate': 4.6022580214591436e-06, 'epoch': 0.21} {'loss': 2.3576, 'grad_norm': 1.2448503971099854, 'learning_rate': 4.602022897836189e-06, 'epoch': 0.21} {'loss': 2.246, 'grad_norm': 1.2560955286026, 'learning_rate': 4.601787710747348e-06, 'epoch': 0.21} {'loss': 2.3664, 'grad_norm': 1.3090347051620483, 'learning_rate': 4.601552460199726e-06, 'epoch': 0.21} {'loss': 2.2555, 'grad_norm': 1.337153673171997, 'learning_rate': 4.601317146200423e-06, 'epoch': 0.21} {'loss': 2.1088, 'grad_norm': 1.1006747484207153, 'learning_rate': 4.601081768756544e-06, 'epoch': 0.21} {'loss': 2.2439, 'grad_norm': 1.5067309141159058, 'learning_rate': 4.600846327875196e-06, 'epoch': 0.21} {'loss': 2.3315, 'grad_norm': 1.183552622795105, 'learning_rate': 4.600610823563488e-06, 'epoch': 0.21} {'loss': 2.0202, 'grad_norm': 1.1141819953918457, 'learning_rate': 4.600375255828531e-06, 'epoch': 0.21} {'loss': 2.2592, 'grad_norm': 1.1734802722930908, 'learning_rate': 4.600139624677436e-06, 'epoch': 0.21} {'loss': 2.4654, 'grad_norm': 1.159720778465271, 'learning_rate': 4.5999039301173186e-06, 'epoch': 0.21} {'loss': 2.2638, 'grad_norm': 1.1812273263931274, 'learning_rate': 4.599668172155294e-06, 'epoch': 0.21} {'loss': 2.3209, 'grad_norm': 1.181543231010437, 'learning_rate': 4.59943235079848e-06, 'epoch': 0.21} {'loss': 2.176, 'grad_norm': 1.4954465627670288, 'learning_rate': 4.599196466054e-06, 'epoch': 0.21} {'loss': 2.1719, 'grad_norm': 1.0538361072540283, 'learning_rate': 4.598960517928972e-06, 'epoch': 0.21} {'loss': 2.0146, 'grad_norm': 1.0606739521026611, 'learning_rate': 4.598724506430522e-06, 'epoch': 0.21} {'loss': 2.0647, 'grad_norm': 1.1746855974197388, 'learning_rate': 4.598488431565775e-06, 'epoch': 0.21} {'loss': 2.2483, 'grad_norm': 1.2457624673843384, 'learning_rate': 4.598252293341859e-06, 'epoch': 0.21} {'loss': 2.3703, 'grad_norm': 1.2829456329345703, 'learning_rate': 4.598016091765905e-06, 'epoch': 0.21} {'loss': 2.1345, 'grad_norm': 1.4245387315750122, 'learning_rate': 4.597779826845043e-06, 'epoch': 0.21} {'loss': 2.2061, 'grad_norm': 1.543312668800354, 'learning_rate': 4.5975434985864065e-06, 'epoch': 0.21} {'loss': 1.9766, 'grad_norm': 1.225606083869934, 'learning_rate': 4.597307106997132e-06, 'epoch': 0.21} {'loss': 2.4288, 'grad_norm': 1.234779715538025, 'learning_rate': 4.597070652084355e-06, 'epoch': 0.21} {'loss': 2.3069, 'grad_norm': 1.204129695892334, 'learning_rate': 4.596834133855217e-06, 'epoch': 0.21} {'loss': 2.5146, 'grad_norm': 1.2821471691131592, 'learning_rate': 4.596597552316857e-06, 'epoch': 0.21} {'loss': 2.3657, 'grad_norm': 1.440686583518982, 'learning_rate': 4.596360907476419e-06, 'epoch': 0.21} {'loss': 2.2572, 'grad_norm': 1.1899305582046509, 'learning_rate': 4.596124199341049e-06, 'epoch': 0.21} {'loss': 2.1545, 'grad_norm': 1.1728804111480713, 'learning_rate': 4.595887427917892e-06, 'epoch': 0.21} {'loss': 2.1804, 'grad_norm': 1.5531076192855835, 'learning_rate': 4.595650593214098e-06, 'epoch': 0.21} {'loss': 2.3064, 'grad_norm': 1.746886968612671, 'learning_rate': 4.595413695236818e-06, 'epoch': 0.21} {'loss': 2.2953, 'grad_norm': 1.1693010330200195, 'learning_rate': 4.595176733993203e-06, 'epoch': 0.21} {'loss': 2.5384, 'grad_norm': 1.231632113456726, 'learning_rate': 4.594939709490409e-06, 'epoch': 0.21} {'loss': 2.4947, 'grad_norm': 1.355269193649292, 'learning_rate': 4.594702621735592e-06, 'epoch': 0.21} {'loss': 2.3633, 'grad_norm': 1.3049167394638062, 'learning_rate': 4.594465470735909e-06, 'epoch': 0.21} {'loss': 2.2012, 'grad_norm': 1.1722811460494995, 'learning_rate': 4.594228256498522e-06, 'epoch': 0.21} {'loss': 2.3655, 'grad_norm': 1.2136625051498413, 'learning_rate': 4.593990979030594e-06, 'epoch': 0.21} {'loss': 2.4418, 'grad_norm': 1.6654685735702515, 'learning_rate': 4.593753638339286e-06, 'epoch': 0.21} {'loss': 2.3383, 'grad_norm': 1.2885582447052002, 'learning_rate': 4.593516234431766e-06, 'epoch': 0.21} {'loss': 2.2115, 'grad_norm': 1.777189016342163, 'learning_rate': 4.5932787673152024e-06, 'epoch': 0.21} {'loss': 2.4638, 'grad_norm': 1.3131041526794434, 'learning_rate': 4.593041236996764e-06, 'epoch': 0.21} {'loss': 2.4049, 'grad_norm': 1.3513163328170776, 'learning_rate': 4.592803643483622e-06, 'epoch': 0.21} {'loss': 1.9909, 'grad_norm': 1.1137490272521973, 'learning_rate': 4.592565986782951e-06, 'epoch': 0.21} {'loss': 2.1516, 'grad_norm': 1.3984042406082153, 'learning_rate': 4.592328266901926e-06, 'epoch': 0.21} {'loss': 1.9071, 'grad_norm': 1.1658276319503784, 'learning_rate': 4.592090483847724e-06, 'epoch': 0.21} {'loss': 2.0924, 'grad_norm': 1.154640555381775, 'learning_rate': 4.591852637627526e-06, 'epoch': 0.21} {'loss': 2.3463, 'grad_norm': 1.141451120376587, 'learning_rate': 4.591614728248512e-06, 'epoch': 0.21} {'loss': 2.4222, 'grad_norm': 1.219144344329834, 'learning_rate': 4.591376755717865e-06, 'epoch': 0.21} {'loss': 2.1326, 'grad_norm': 15.583785057067871, 'learning_rate': 4.591138720042771e-06, 'epoch': 0.21} {'loss': 2.453, 'grad_norm': 1.3150886297225952, 'learning_rate': 4.590900621230414e-06, 'epoch': 0.21} {'loss': 2.314, 'grad_norm': 1.159549593925476, 'learning_rate': 4.590662459287987e-06, 'epoch': 0.21} {'loss': 2.3219, 'grad_norm': 1.4379063844680786, 'learning_rate': 4.590424234222679e-06, 'epoch': 0.21} {'loss': 1.974, 'grad_norm': 1.0443286895751953, 'learning_rate': 4.590185946041682e-06, 'epoch': 0.21} {'loss': 2.2488, 'grad_norm': 1.286314845085144, 'learning_rate': 4.589947594752192e-06, 'epoch': 0.21} {'loss': 2.261, 'grad_norm': 1.2732988595962524, 'learning_rate': 4.589709180361404e-06, 'epoch': 0.21} {'loss': 2.376, 'grad_norm': 2.4995880126953125, 'learning_rate': 4.589470702876516e-06, 'epoch': 0.21} {'loss': 2.2997, 'grad_norm': 1.1933046579360962, 'learning_rate': 4.589232162304731e-06, 'epoch': 0.21} {'loss': 2.3104, 'grad_norm': 1.2445906400680542, 'learning_rate': 4.588993558653249e-06, 'epoch': 0.21} {'loss': 2.2768, 'grad_norm': 1.328859567642212, 'learning_rate': 4.588754891929274e-06, 'epoch': 0.21} {'loss': 2.014, 'grad_norm': 1.3306444883346558, 'learning_rate': 4.588516162140013e-06, 'epoch': 0.21} {'loss': 2.3039, 'grad_norm': 1.1950582265853882, 'learning_rate': 4.588277369292674e-06, 'epoch': 0.21} {'loss': 2.3134, 'grad_norm': 1.2974456548690796, 'learning_rate': 4.588038513394466e-06, 'epoch': 0.21} {'loss': 2.0922, 'grad_norm': 1.0932424068450928, 'learning_rate': 4.587799594452601e-06, 'epoch': 0.21} {'loss': 1.8309, 'grad_norm': 1.1918118000030518, 'learning_rate': 4.587560612474293e-06, 'epoch': 0.21} {'loss': 2.2584, 'grad_norm': 1.271555781364441, 'learning_rate': 4.587321567466757e-06, 'epoch': 0.21} {'loss': 2.3067, 'grad_norm': 1.3273849487304688, 'learning_rate': 4.587082459437211e-06, 'epoch': 0.21} {'loss': 2.4169, 'grad_norm': 4.311246871948242, 'learning_rate': 4.5868432883928735e-06, 'epoch': 0.21} {'loss': 2.1625, 'grad_norm': 1.3034133911132812, 'learning_rate': 4.586604054340967e-06, 'epoch': 0.21} {'loss': 2.2653, 'grad_norm': 1.2499034404754639, 'learning_rate': 4.5863647572887135e-06, 'epoch': 0.21} {'loss': 2.3765, 'grad_norm': 1.2024236917495728, 'learning_rate': 4.586125397243339e-06, 'epoch': 0.21} {'loss': 2.4115, 'grad_norm': 1.4244794845581055, 'learning_rate': 4.585885974212069e-06, 'epoch': 0.21} {'loss': 2.2855, 'grad_norm': 1.4384560585021973, 'learning_rate': 4.585646488202133e-06, 'epoch': 0.21} {'loss': 2.2331, 'grad_norm': 1.6139925718307495, 'learning_rate': 4.585406939220762e-06, 'epoch': 0.21} {'loss': 2.3719, 'grad_norm': 5.379709243774414, 'learning_rate': 4.5851673272751895e-06, 'epoch': 0.21} {'loss': 2.2759, 'grad_norm': 1.4132283926010132, 'learning_rate': 4.584927652372649e-06, 'epoch': 0.21} {'loss': 2.4771, 'grad_norm': 1.1269378662109375, 'learning_rate': 4.584687914520376e-06, 'epoch': 0.21} {'loss': 2.3895, 'grad_norm': 1.5550537109375, 'learning_rate': 4.58444811372561e-06, 'epoch': 0.21} {'loss': 1.6229, 'grad_norm': 1.555764079093933, 'learning_rate': 4.584208249995592e-06, 'epoch': 0.21} {'loss': 2.378, 'grad_norm': 1.2932902574539185, 'learning_rate': 4.583968323337563e-06, 'epoch': 0.21} {'loss': 2.447, 'grad_norm': 5.404799938201904, 'learning_rate': 4.583728333758768e-06, 'epoch': 0.21} {'loss': 1.7508, 'grad_norm': 1.048024296760559, 'learning_rate': 4.5834882812664516e-06, 'epoch': 0.21} {'loss': 2.2567, 'grad_norm': 1.3353197574615479, 'learning_rate': 4.583248165867863e-06, 'epoch': 0.21} {'loss': 2.0048, 'grad_norm': 1.126205325126648, 'learning_rate': 4.583007987570251e-06, 'epoch': 0.21} {'loss': 2.2367, 'grad_norm': 1.4274523258209229, 'learning_rate': 4.582767746380868e-06, 'epoch': 0.21} {'loss': 2.3545, 'grad_norm': 1.800157070159912, 'learning_rate': 4.582527442306966e-06, 'epoch': 0.21} {'loss': 1.9742, 'grad_norm': 1.1164541244506836, 'learning_rate': 4.582287075355802e-06, 'epoch': 0.21} {'loss': 2.1946, 'grad_norm': 1.2985765933990479, 'learning_rate': 4.582046645534634e-06, 'epoch': 0.21} {'loss': 2.341, 'grad_norm': 1.176155686378479, 'learning_rate': 4.581806152850719e-06, 'epoch': 0.21} {'loss': 2.1096, 'grad_norm': 1.2346646785736084, 'learning_rate': 4.581565597311319e-06, 'epoch': 0.21} {'loss': 1.9976, 'grad_norm': 1.3905377388000488, 'learning_rate': 4.581324978923698e-06, 'epoch': 0.21} {'loss': 2.0116, 'grad_norm': 1.2381666898727417, 'learning_rate': 4.58108429769512e-06, 'epoch': 0.21} {'loss': 2.3192, 'grad_norm': 1.3181166648864746, 'learning_rate': 4.580843553632852e-06, 'epoch': 0.21} {'loss': 2.1794, 'grad_norm': 1.3104408979415894, 'learning_rate': 4.580602746744164e-06, 'epoch': 0.21} {'loss': 2.5402, 'grad_norm': 1.2503306865692139, 'learning_rate': 4.580361877036325e-06, 'epoch': 0.21} {'loss': 1.534, 'grad_norm': 1.2229423522949219, 'learning_rate': 4.580120944516606e-06, 'epoch': 0.21} {'loss': 2.1214, 'grad_norm': 1.1410666704177856, 'learning_rate': 4.579879949192286e-06, 'epoch': 0.21} {'loss': 2.1281, 'grad_norm': 1.078779935836792, 'learning_rate': 4.5796388910706365e-06, 'epoch': 0.21} {'loss': 1.9122, 'grad_norm': 1.8580636978149414, 'learning_rate': 4.57939777015894e-06, 'epoch': 0.21} {'loss': 2.4173, 'grad_norm': 1.2122997045516968, 'learning_rate': 4.579156586464474e-06, 'epoch': 0.21} {'loss': 2.2999, 'grad_norm': 1.3841835260391235, 'learning_rate': 4.578915339994519e-06, 'epoch': 0.21} {'loss': 2.2156, 'grad_norm': 1.2687430381774902, 'learning_rate': 4.578674030756364e-06, 'epoch': 0.21} {'loss': 2.1817, 'grad_norm': 1.6709665060043335, 'learning_rate': 4.5784326587572896e-06, 'epoch': 0.21} {'loss': 2.2847, 'grad_norm': 1.3587028980255127, 'learning_rate': 4.578191224004587e-06, 'epoch': 0.21} {'loss': 2.368, 'grad_norm': 1.2953519821166992, 'learning_rate': 4.577949726505543e-06, 'epoch': 0.21} {'loss': 2.363, 'grad_norm': 1.3547508716583252, 'learning_rate': 4.577708166267451e-06, 'epoch': 0.21} {'loss': 2.4499, 'grad_norm': 1.3005449771881104, 'learning_rate': 4.577466543297604e-06, 'epoch': 0.21} {'loss': 1.8542, 'grad_norm': 0.9699686765670776, 'learning_rate': 4.577224857603297e-06, 'epoch': 0.21} {'loss': 2.3713, 'grad_norm': 1.3157836198806763, 'learning_rate': 4.576983109191827e-06, 'epoch': 0.21} {'loss': 2.2177, 'grad_norm': 1.4870609045028687, 'learning_rate': 4.576741298070494e-06, 'epoch': 0.21} {'loss': 2.1745, 'grad_norm': 1.211416482925415, 'learning_rate': 4.576499424246597e-06, 'epoch': 0.21} {'loss': 2.3184, 'grad_norm': 1.3217746019363403, 'learning_rate': 4.576257487727442e-06, 'epoch': 0.21} {'loss': 2.3097, 'grad_norm': 1.1396137475967407, 'learning_rate': 4.576015488520331e-06, 'epoch': 0.21} {'loss': 2.0746, 'grad_norm': 3.3452138900756836, 'learning_rate': 4.575773426632571e-06, 'epoch': 0.21} {'loss': 2.2915, 'grad_norm': 1.2655305862426758, 'learning_rate': 4.575531302071471e-06, 'epoch': 0.21} {'loss': 2.2304, 'grad_norm': 1.1992863416671753, 'learning_rate': 4.575289114844342e-06, 'epoch': 0.21} {'loss': 2.3149, 'grad_norm': 1.462810754776001, 'learning_rate': 4.575046864958496e-06, 'epoch': 0.21} {'loss': 2.5286, 'grad_norm': 1.4043545722961426, 'learning_rate': 4.574804552421245e-06, 'epoch': 0.21} {'loss': 2.1506, 'grad_norm': 1.3590774536132812, 'learning_rate': 4.574562177239908e-06, 'epoch': 0.21} {'loss': 1.8158, 'grad_norm': 1.0810760259628296, 'learning_rate': 4.574319739421803e-06, 'epoch': 0.21} {'loss': 1.8437, 'grad_norm': 1.0326933860778809, 'learning_rate': 4.574077238974248e-06, 'epoch': 0.21} {'loss': 2.3493, 'grad_norm': 1.369327187538147, 'learning_rate': 4.573834675904565e-06, 'epoch': 0.21} {'loss': 2.2746, 'grad_norm': 1.1811996698379517, 'learning_rate': 4.573592050220079e-06, 'epoch': 0.21} {'loss': 2.2755, 'grad_norm': 1.385120153427124, 'learning_rate': 4.573349361928114e-06, 'epoch': 0.21} {'loss': 2.3078, 'grad_norm': 1.3449207544326782, 'learning_rate': 4.573106611035999e-06, 'epoch': 0.21} {'loss': 2.0526, 'grad_norm': 1.352372169494629, 'learning_rate': 4.5728637975510624e-06, 'epoch': 0.21} {'loss': 2.647, 'grad_norm': 1.1233474016189575, 'learning_rate': 4.572620921480635e-06, 'epoch': 0.21} {'loss': 2.4006, 'grad_norm': 1.350175142288208, 'learning_rate': 4.572377982832051e-06, 'epoch': 0.21} {'loss': 2.4524, 'grad_norm': 1.3102589845657349, 'learning_rate': 4.572134981612645e-06, 'epoch': 0.21} {'loss': 2.2626, 'grad_norm': 1.2548129558563232, 'learning_rate': 4.571891917829753e-06, 'epoch': 0.21} {'loss': 2.1542, 'grad_norm': 1.5825259685516357, 'learning_rate': 4.571648791490715e-06, 'epoch': 0.21} {'loss': 2.1625, 'grad_norm': 1.796368956565857, 'learning_rate': 4.571405602602871e-06, 'epoch': 0.21} {'loss': 1.9383, 'grad_norm': 1.0182774066925049, 'learning_rate': 4.571162351173564e-06, 'epoch': 0.21} {'loss': 2.3621, 'grad_norm': 1.5573290586471558, 'learning_rate': 4.570919037210137e-06, 'epoch': 0.21} {'loss': 2.2882, 'grad_norm': 1.459327220916748, 'learning_rate': 4.570675660719938e-06, 'epoch': 0.21} {'loss': 2.2649, 'grad_norm': 1.4889427423477173, 'learning_rate': 4.570432221710314e-06, 'epoch': 0.21} {'loss': 2.3584, 'grad_norm': 1.2046356201171875, 'learning_rate': 4.570188720188618e-06, 'epoch': 0.21} {'loss': 2.3694, 'grad_norm': 3.9545633792877197, 'learning_rate': 4.5699451561621975e-06, 'epoch': 0.21} {'loss': 2.413, 'grad_norm': 1.2446953058242798, 'learning_rate': 4.569701529638409e-06, 'epoch': 0.21} {'loss': 2.2909, 'grad_norm': 1.3979307413101196, 'learning_rate': 4.5694578406246084e-06, 'epoch': 0.21} {'loss': 2.4144, 'grad_norm': 1.2423509359359741, 'learning_rate': 4.569214089128152e-06, 'epoch': 0.21} {'loss': 2.3176, 'grad_norm': 1.5049792528152466, 'learning_rate': 4.5689702751564e-06, 'epoch': 0.21} {'loss': 2.2734, 'grad_norm': 1.3934131860733032, 'learning_rate': 4.5687263987167155e-06, 'epoch': 0.21} {'loss': 2.2667, 'grad_norm': 1.35462486743927, 'learning_rate': 4.568482459816459e-06, 'epoch': 0.21} {'loss': 2.2054, 'grad_norm': 1.8288527727127075, 'learning_rate': 4.568238458462997e-06, 'epoch': 0.21} {'loss': 1.8727, 'grad_norm': 1.321295142173767, 'learning_rate': 4.567994394663696e-06, 'epoch': 0.21} {'loss': 2.2386, 'grad_norm': 1.4664661884307861, 'learning_rate': 4.567750268425926e-06, 'epoch': 0.21} {'loss': 2.1308, 'grad_norm': 2.1229934692382812, 'learning_rate': 4.567506079757058e-06, 'epoch': 0.21} {'loss': 2.3031, 'grad_norm': 1.3522522449493408, 'learning_rate': 4.567261828664463e-06, 'epoch': 0.21} {'loss': 2.3866, 'grad_norm': 1.3768761157989502, 'learning_rate': 4.5670175151555175e-06, 'epoch': 0.21} {'loss': 1.6956, 'grad_norm': 1.1307841539382935, 'learning_rate': 4.566773139237597e-06, 'epoch': 0.21} {'loss': 2.1476, 'grad_norm': 1.3322261571884155, 'learning_rate': 4.56652870091808e-06, 'epoch': 0.22} {'loss': 2.249, 'grad_norm': 1.3683487176895142, 'learning_rate': 4.566284200204346e-06, 'epoch': 0.22} {'loss': 2.5514, 'grad_norm': 1.8226114511489868, 'learning_rate': 4.566039637103779e-06, 'epoch': 0.22} {'loss': 2.0704, 'grad_norm': 1.3784879446029663, 'learning_rate': 4.565795011623761e-06, 'epoch': 0.22} {'loss': 2.2321, 'grad_norm': 1.294020652770996, 'learning_rate': 4.56555032377168e-06, 'epoch': 0.22} {'loss': 2.4999, 'grad_norm': 1.5056620836257935, 'learning_rate': 4.5653055735549226e-06, 'epoch': 0.22} {'loss': 1.4555, 'grad_norm': 1.7543549537658691, 'learning_rate': 4.565060760980878e-06, 'epoch': 0.22} {'loss': 2.108, 'grad_norm': 1.2629188299179077, 'learning_rate': 4.564815886056939e-06, 'epoch': 0.22} {'loss': 2.126, 'grad_norm': 1.2696492671966553, 'learning_rate': 4.564570948790497e-06, 'epoch': 0.22} {'loss': 2.4887, 'grad_norm': 1.2824338674545288, 'learning_rate': 4.564325949188951e-06, 'epoch': 0.22} {'loss': 2.4033, 'grad_norm': 1.234084129333496, 'learning_rate': 4.564080887259694e-06, 'epoch': 0.22} {'loss': 1.4194, 'grad_norm': 1.3155438899993896, 'learning_rate': 4.5638357630101285e-06, 'epoch': 0.22} {'loss': 2.1331, 'grad_norm': 1.1690928936004639, 'learning_rate': 4.563590576447654e-06, 'epoch': 0.22} {'loss': 2.3429, 'grad_norm': 1.456256628036499, 'learning_rate': 4.563345327579673e-06, 'epoch': 0.22} {'loss': 2.3064, 'grad_norm': 1.5942866802215576, 'learning_rate': 4.56310001641359e-06, 'epoch': 0.22} {'loss': 2.0929, 'grad_norm': 1.300215721130371, 'learning_rate': 4.562854642956813e-06, 'epoch': 0.22} {'loss': 2.2021, 'grad_norm': 2.921764612197876, 'learning_rate': 4.562609207216749e-06, 'epoch': 0.22} {'loss': 2.1226, 'grad_norm': 1.3887743949890137, 'learning_rate': 4.56236370920081e-06, 'epoch': 0.22} {'loss': 2.5229, 'grad_norm': 1.290189504623413, 'learning_rate': 4.562118148916408e-06, 'epoch': 0.22} {'loss': 2.3205, 'grad_norm': 1.1281436681747437, 'learning_rate': 4.5618725263709555e-06, 'epoch': 0.22} {'loss': 2.093, 'grad_norm': 1.1982078552246094, 'learning_rate': 4.561626841571869e-06, 'epoch': 0.22} {'loss': 2.3555, 'grad_norm': 1.3428905010223389, 'learning_rate': 4.561381094526568e-06, 'epoch': 0.22} {'loss': 2.3759, 'grad_norm': 1.1932132244110107, 'learning_rate': 4.561135285242472e-06, 'epoch': 0.22} {'loss': 2.3652, 'grad_norm': 1.5166715383529663, 'learning_rate': 4.560889413727e-06, 'epoch': 0.22} {'loss': 2.3519, 'grad_norm': 1.1639577150344849, 'learning_rate': 4.560643479987579e-06, 'epoch': 0.22} {'loss': 2.3184, 'grad_norm': 1.2389296293258667, 'learning_rate': 4.560397484031633e-06, 'epoch': 0.22} {'loss': 1.5577, 'grad_norm': 1.2735469341278076, 'learning_rate': 4.560151425866588e-06, 'epoch': 0.22} {'loss': 2.0357, 'grad_norm': 1.2459306716918945, 'learning_rate': 4.559905305499875e-06, 'epoch': 0.22} {'loss': 2.3119, 'grad_norm': 1.2834945917129517, 'learning_rate': 4.5596591229389245e-06, 'epoch': 0.22} {'loss': 2.1155, 'grad_norm': 1.2545154094696045, 'learning_rate': 4.55941287819117e-06, 'epoch': 0.22} {'loss': 2.3184, 'grad_norm': 1.2819812297821045, 'learning_rate': 4.559166571264045e-06, 'epoch': 0.22} {'loss': 2.2692, 'grad_norm': 1.3518935441970825, 'learning_rate': 4.558920202164987e-06, 'epoch': 0.22} {'loss': 2.13, 'grad_norm': 1.2696197032928467, 'learning_rate': 4.558673770901434e-06, 'epoch': 0.22} {'loss': 2.3448, 'grad_norm': 1.2872360944747925, 'learning_rate': 4.558427277480827e-06, 'epoch': 0.22} {'loss': 2.2813, 'grad_norm': 1.2360516786575317, 'learning_rate': 4.558180721910609e-06, 'epoch': 0.22} {'loss': 2.5138, 'grad_norm': 1.4598301649093628, 'learning_rate': 4.557934104198223e-06, 'epoch': 0.22} {'loss': 2.4326, 'grad_norm': 1.3264082670211792, 'learning_rate': 4.557687424351115e-06, 'epoch': 0.22} {'loss': 2.3182, 'grad_norm': 2.1275906562805176, 'learning_rate': 4.557440682376734e-06, 'epoch': 0.22} {'loss': 2.4731, 'grad_norm': 2.638984203338623, 'learning_rate': 4.557193878282529e-06, 'epoch': 0.22} {'loss': 2.3305, 'grad_norm': 1.2371875047683716, 'learning_rate': 4.55694701207595e-06, 'epoch': 0.22} {'loss': 2.5184, 'grad_norm': 1.2358791828155518, 'learning_rate': 4.556700083764455e-06, 'epoch': 0.22} {'loss': 2.3306, 'grad_norm': 1.2942252159118652, 'learning_rate': 4.556453093355497e-06, 'epoch': 0.22} {'loss': 2.1764, 'grad_norm': 1.5318509340286255, 'learning_rate': 4.556206040856532e-06, 'epoch': 0.22} {'loss': 2.2244, 'grad_norm': 1.396066665649414, 'learning_rate': 4.555958926275022e-06, 'epoch': 0.22} {'loss': 2.4819, 'grad_norm': 1.4724102020263672, 'learning_rate': 4.555711749618424e-06, 'epoch': 0.22} {'loss': 2.2461, 'grad_norm': 1.2758296728134155, 'learning_rate': 4.555464510894205e-06, 'epoch': 0.22} {'loss': 2.5992, 'grad_norm': 2.528101921081543, 'learning_rate': 4.555217210109829e-06, 'epoch': 0.22} {'loss': 2.4921, 'grad_norm': 1.2149527072906494, 'learning_rate': 4.554969847272761e-06, 'epoch': 0.22} {'loss': 2.195, 'grad_norm': 2.0609002113342285, 'learning_rate': 4.554722422390471e-06, 'epoch': 0.22} {'loss': 2.2701, 'grad_norm': 1.2150212526321411, 'learning_rate': 4.554474935470429e-06, 'epoch': 0.22} {'loss': 2.0309, 'grad_norm': 5.598989009857178, 'learning_rate': 4.554227386520107e-06, 'epoch': 0.22} {'loss': 1.3881, 'grad_norm': 1.238718867301941, 'learning_rate': 4.55397977554698e-06, 'epoch': 0.22} {'loss': 1.9875, 'grad_norm': 1.2481614351272583, 'learning_rate': 4.553732102558523e-06, 'epoch': 0.22} {'loss': 2.3285, 'grad_norm': 1.3086787462234497, 'learning_rate': 4.553484367562215e-06, 'epoch': 0.22} {'loss': 2.2036, 'grad_norm': 1.5588326454162598, 'learning_rate': 4.553236570565535e-06, 'epoch': 0.22} {'loss': 2.3599, 'grad_norm': 1.3315690755844116, 'learning_rate': 4.552988711575965e-06, 'epoch': 0.22} {'loss': 1.6921, 'grad_norm': 1.2024998664855957, 'learning_rate': 4.552740790600989e-06, 'epoch': 0.22} {'loss': 2.2833, 'grad_norm': 2.979360580444336, 'learning_rate': 4.552492807648091e-06, 'epoch': 0.22} {'loss': 2.4071, 'grad_norm': 1.2613452672958374, 'learning_rate': 4.55224476272476e-06, 'epoch': 0.22} {'loss': 2.2736, 'grad_norm': 1.4730923175811768, 'learning_rate': 4.551996655838484e-06, 'epoch': 0.22} {'loss': 2.2327, 'grad_norm': 1.6711945533752441, 'learning_rate': 4.551748486996755e-06, 'epoch': 0.22} {'loss': 2.1913, 'grad_norm': 1.295769214630127, 'learning_rate': 4.551500256207065e-06, 'epoch': 0.22} {'loss': 2.3327, 'grad_norm': 1.2700793743133545, 'learning_rate': 4.5512519634769095e-06, 'epoch': 0.22} {'loss': 2.6176, 'grad_norm': 1.387874960899353, 'learning_rate': 4.551003608813784e-06, 'epoch': 0.22} {'loss': 2.1466, 'grad_norm': 1.2596790790557861, 'learning_rate': 4.5507551922251886e-06, 'epoch': 0.22} {'loss': 1.9931, 'grad_norm': 1.1596606969833374, 'learning_rate': 4.550506713718622e-06, 'epoch': 0.22} {'loss': 2.2285, 'grad_norm': 1.500030279159546, 'learning_rate': 4.550258173301588e-06, 'epoch': 0.22} {'loss': 2.4667, 'grad_norm': 1.5016918182373047, 'learning_rate': 4.55000957098159e-06, 'epoch': 0.22} {'loss': 2.0743, 'grad_norm': 0.9242588877677917, 'learning_rate': 4.549760906766134e-06, 'epoch': 0.22} {'loss': 2.3511, 'grad_norm': 1.260085105895996, 'learning_rate': 4.549512180662727e-06, 'epoch': 0.22} {'loss': 2.0043, 'grad_norm': 1.0691243410110474, 'learning_rate': 4.549263392678881e-06, 'epoch': 0.22} {'loss': 2.1288, 'grad_norm': 1.4263142347335815, 'learning_rate': 4.549014542822105e-06, 'epoch': 0.22} {'loss': 2.1177, 'grad_norm': 1.1576175689697266, 'learning_rate': 4.548765631099914e-06, 'epoch': 0.22} {'loss': 2.405, 'grad_norm': 1.2837655544281006, 'learning_rate': 4.548516657519824e-06, 'epoch': 0.22} {'loss': 2.4133, 'grad_norm': 1.2756690979003906, 'learning_rate': 4.54826762208935e-06, 'epoch': 0.22} {'loss': 2.2179, 'grad_norm': 0.9815880060195923, 'learning_rate': 4.548018524816013e-06, 'epoch': 0.22} {'loss': 2.4824, 'grad_norm': 1.3628289699554443, 'learning_rate': 4.547769365707333e-06, 'epoch': 0.22} {'loss': 2.2325, 'grad_norm': 1.2855581045150757, 'learning_rate': 4.5475201447708325e-06, 'epoch': 0.22} {'loss': 2.2047, 'grad_norm': 1.3037744760513306, 'learning_rate': 4.547270862014037e-06, 'epoch': 0.22} {'loss': 1.9462, 'grad_norm': 1.1918920278549194, 'learning_rate': 4.547021517444473e-06, 'epoch': 0.22} {'loss': 2.1486, 'grad_norm': 1.4301564693450928, 'learning_rate': 4.546772111069669e-06, 'epoch': 0.22} {'loss': 2.0675, 'grad_norm': 1.0981155633926392, 'learning_rate': 4.546522642897155e-06, 'epoch': 0.22} {'loss': 2.4478, 'grad_norm': 1.3486417531967163, 'learning_rate': 4.546273112934462e-06, 'epoch': 0.22} {'loss': 2.1854, 'grad_norm': 1.2009557485580444, 'learning_rate': 4.546023521189125e-06, 'epoch': 0.22} {'loss': 2.3317, 'grad_norm': 1.3875855207443237, 'learning_rate': 4.54577386766868e-06, 'epoch': 0.22} {'loss': 2.2101, 'grad_norm': 1.4080275297164917, 'learning_rate': 4.545524152380665e-06, 'epoch': 0.22} {'loss': 2.4661, 'grad_norm': 1.6188087463378906, 'learning_rate': 4.54527437533262e-06, 'epoch': 0.22} {'loss': 2.1353, 'grad_norm': 1.0407153367996216, 'learning_rate': 4.545024536532085e-06, 'epoch': 0.22} {'loss': 2.1715, 'grad_norm': 1.2516001462936401, 'learning_rate': 4.544774635986603e-06, 'epoch': 0.22} {'loss': 2.4846, 'grad_norm': 1.339664101600647, 'learning_rate': 4.544524673703721e-06, 'epoch': 0.22} {'loss': 2.4245, 'grad_norm': 1.0787155628204346, 'learning_rate': 4.5442746496909854e-06, 'epoch': 0.22} {'loss': 2.3708, 'grad_norm': 1.3437243700027466, 'learning_rate': 4.544024563955946e-06, 'epoch': 0.22} {'loss': 2.2779, 'grad_norm': 1.0187792778015137, 'learning_rate': 4.5437744165061504e-06, 'epoch': 0.22} {'loss': 2.3876, 'grad_norm': 1.6815812587738037, 'learning_rate': 4.543524207349155e-06, 'epoch': 0.22} {'loss': 2.2162, 'grad_norm': 1.2402664422988892, 'learning_rate': 4.543273936492511e-06, 'epoch': 0.22} {'loss': 2.1896, 'grad_norm': 1.2237123250961304, 'learning_rate': 4.543023603943778e-06, 'epoch': 0.22} {'loss': 2.1518, 'grad_norm': 1.2247097492218018, 'learning_rate': 4.542773209710513e-06, 'epoch': 0.22} {'loss': 2.1795, 'grad_norm': 1.2794774770736694, 'learning_rate': 4.542522753800275e-06, 'epoch': 0.22} {'loss': 2.2592, 'grad_norm': 1.0907092094421387, 'learning_rate': 4.542272236220626e-06, 'epoch': 0.22} {'loss': 2.1254, 'grad_norm': 1.3120157718658447, 'learning_rate': 4.542021656979132e-06, 'epoch': 0.22} {'loss': 2.2797, 'grad_norm': 1.1971904039382935, 'learning_rate': 4.541771016083356e-06, 'epoch': 0.22} {'loss': 2.0989, 'grad_norm': 1.1954035758972168, 'learning_rate': 4.541520313540867e-06, 'epoch': 0.22} {'loss': 2.3772, 'grad_norm': 1.2555776834487915, 'learning_rate': 4.541269549359235e-06, 'epoch': 0.22} {'loss': 2.1273, 'grad_norm': 1.2451598644256592, 'learning_rate': 4.541018723546029e-06, 'epoch': 0.22} {'loss': 2.4718, 'grad_norm': 1.6648187637329102, 'learning_rate': 4.5407678361088255e-06, 'epoch': 0.22} {'loss': 2.2285, 'grad_norm': 1.4406028985977173, 'learning_rate': 4.540516887055196e-06, 'epoch': 0.22} {'loss': 2.107, 'grad_norm': 1.1565648317337036, 'learning_rate': 4.54026587639272e-06, 'epoch': 0.22} {'loss': 2.3274, 'grad_norm': 1.4181222915649414, 'learning_rate': 4.540014804128974e-06, 'epoch': 0.22} {'loss': 2.2474, 'grad_norm': 1.2595993280410767, 'learning_rate': 4.539763670271541e-06, 'epoch': 0.22} {'loss': 2.2145, 'grad_norm': 1.216870665550232, 'learning_rate': 4.539512474828001e-06, 'epoch': 0.22} {'loss': 2.1149, 'grad_norm': 1.519698143005371, 'learning_rate': 4.53926121780594e-06, 'epoch': 0.22} {'loss': 2.3481, 'grad_norm': 1.309591293334961, 'learning_rate': 4.539009899212943e-06, 'epoch': 0.22} {'loss': 1.3498, 'grad_norm': 1.5477757453918457, 'learning_rate': 4.538758519056598e-06, 'epoch': 0.22} {'loss': 2.329, 'grad_norm': 1.23820161819458, 'learning_rate': 4.538507077344498e-06, 'epoch': 0.22} {'loss': 2.2683, 'grad_norm': 1.4710888862609863, 'learning_rate': 4.538255574084229e-06, 'epoch': 0.22} {'loss': 1.9682, 'grad_norm': 1.0721662044525146, 'learning_rate': 4.53800400928339e-06, 'epoch': 0.22} {'loss': 2.1572, 'grad_norm': 1.225087285041809, 'learning_rate': 4.5377523829495725e-06, 'epoch': 0.22} {'loss': 2.1066, 'grad_norm': 1.3383469581604004, 'learning_rate': 4.5375006950903766e-06, 'epoch': 0.22} {'loss': 2.3146, 'grad_norm': 1.2422738075256348, 'learning_rate': 4.5372489457133995e-06, 'epoch': 0.22} {'loss': 2.2023, 'grad_norm': 1.0540372133255005, 'learning_rate': 4.536997134826244e-06, 'epoch': 0.22} {'loss': 1.8288, 'grad_norm': 1.0352305173873901, 'learning_rate': 4.53674526243651e-06, 'epoch': 0.22} {'loss': 2.4203, 'grad_norm': 1.194169282913208, 'learning_rate': 4.5364933285518064e-06, 'epoch': 0.22} {'loss': 2.3028, 'grad_norm': 1.3234004974365234, 'learning_rate': 4.536241333179736e-06, 'epoch': 0.22} {'loss': 2.3004, 'grad_norm': 1.195081114768982, 'learning_rate': 4.53598927632791e-06, 'epoch': 0.22} {'loss': 2.2635, 'grad_norm': 1.2846063375473022, 'learning_rate': 4.535737158003937e-06, 'epoch': 0.22} {'loss': 2.1417, 'grad_norm': 4.552309513092041, 'learning_rate': 4.535484978215429e-06, 'epoch': 0.22} {'loss': 2.2581, 'grad_norm': 1.1983071565628052, 'learning_rate': 4.535232736970001e-06, 'epoch': 0.22} {'loss': 2.4994, 'grad_norm': 1.5103843212127686, 'learning_rate': 4.534980434275269e-06, 'epoch': 0.22} {'loss': 2.2979, 'grad_norm': 1.4699982404708862, 'learning_rate': 4.53472807013885e-06, 'epoch': 0.22} {'loss': 2.2803, 'grad_norm': 1.1811516284942627, 'learning_rate': 4.534475644568364e-06, 'epoch': 0.22} {'loss': 2.593, 'grad_norm': 1.2863566875457764, 'learning_rate': 4.534223157571432e-06, 'epoch': 0.22} {'loss': 2.3258, 'grad_norm': 1.4187575578689575, 'learning_rate': 4.533970609155678e-06, 'epoch': 0.22} {'loss': 2.1834, 'grad_norm': 1.1688623428344727, 'learning_rate': 4.533717999328725e-06, 'epoch': 0.22} {'loss': 2.4451, 'grad_norm': 1.2112675905227661, 'learning_rate': 4.533465328098204e-06, 'epoch': 0.22} {'loss': 2.2461, 'grad_norm': 1.245354413986206, 'learning_rate': 4.533212595471739e-06, 'epoch': 0.22} {'loss': 2.5543, 'grad_norm': 1.238709807395935, 'learning_rate': 4.532959801456964e-06, 'epoch': 0.22} {'loss': 2.2503, 'grad_norm': 1.3161052465438843, 'learning_rate': 4.532706946061512e-06, 'epoch': 0.22} {'loss': 2.2801, 'grad_norm': 1.3506826162338257, 'learning_rate': 4.532454029293014e-06, 'epoch': 0.22} {'loss': 2.2402, 'grad_norm': 2.1322338581085205, 'learning_rate': 4.53220105115911e-06, 'epoch': 0.22} {'loss': 2.322, 'grad_norm': 3.018296480178833, 'learning_rate': 4.531948011667436e-06, 'epoch': 0.22} {'loss': 2.3907, 'grad_norm': 1.3827488422393799, 'learning_rate': 4.531694910825632e-06, 'epoch': 0.22} {'loss': 2.2283, 'grad_norm': 1.122594952583313, 'learning_rate': 4.531441748641342e-06, 'epoch': 0.22} {'loss': 2.428, 'grad_norm': 1.3123664855957031, 'learning_rate': 4.531188525122206e-06, 'epoch': 0.22} {'loss': 1.9642, 'grad_norm': 1.3037792444229126, 'learning_rate': 4.530935240275872e-06, 'epoch': 0.22} {'loss': 2.1195, 'grad_norm': 1.2568076848983765, 'learning_rate': 4.5306818941099875e-06, 'epoch': 0.22} {'loss': 2.3372, 'grad_norm': 1.2873857021331787, 'learning_rate': 4.5304284866322e-06, 'epoch': 0.22} {'loss': 2.0725, 'grad_norm': 1.130839228630066, 'learning_rate': 4.5301750178501625e-06, 'epoch': 0.22} {'loss': 2.4333, 'grad_norm': 1.2262253761291504, 'learning_rate': 4.529921487771527e-06, 'epoch': 0.22} {'loss': 2.3227, 'grad_norm': 1.2814700603485107, 'learning_rate': 4.529667896403948e-06, 'epoch': 0.22} {'loss': 2.0794, 'grad_norm': 1.300201416015625, 'learning_rate': 4.529414243755083e-06, 'epoch': 0.22} {'loss': 2.2754, 'grad_norm': 1.2454097270965576, 'learning_rate': 4.5291605298325885e-06, 'epoch': 0.22} {'loss': 1.8464, 'grad_norm': 4.251690864562988, 'learning_rate': 4.528906754644127e-06, 'epoch': 0.22} {'loss': 2.206, 'grad_norm': 1.262721300125122, 'learning_rate': 4.52865291819736e-06, 'epoch': 0.22} {'loss': 2.3047, 'grad_norm': 1.213037371635437, 'learning_rate': 4.528399020499952e-06, 'epoch': 0.22} {'loss': 2.3602, 'grad_norm': 1.457229495048523, 'learning_rate': 4.528145061559567e-06, 'epoch': 0.22} {'loss': 2.245, 'grad_norm': 1.2745708227157593, 'learning_rate': 4.527891041383875e-06, 'epoch': 0.22} {'loss': 2.1101, 'grad_norm': 1.3804290294647217, 'learning_rate': 4.527636959980544e-06, 'epoch': 0.22} {'loss': 2.2078, 'grad_norm': 1.3190988302230835, 'learning_rate': 4.527382817357246e-06, 'epoch': 0.22} {'loss': 2.131, 'grad_norm': 1.2664481401443481, 'learning_rate': 4.527128613521655e-06, 'epoch': 0.22} {'loss': 2.1368, 'grad_norm': 1.161913275718689, 'learning_rate': 4.526874348481445e-06, 'epoch': 0.22} {'loss': 2.363, 'grad_norm': 1.365136981010437, 'learning_rate': 4.526620022244294e-06, 'epoch': 0.22} {'loss': 2.3746, 'grad_norm': 1.2922248840332031, 'learning_rate': 4.526365634817879e-06, 'epoch': 0.22} {'loss': 2.2982, 'grad_norm': 1.430645227432251, 'learning_rate': 4.526111186209882e-06, 'epoch': 0.22} {'loss': 2.3061, 'grad_norm': 1.1746705770492554, 'learning_rate': 4.525856676427986e-06, 'epoch': 0.22} {'loss': 1.9149, 'grad_norm': 1.4003663063049316, 'learning_rate': 4.5256021054798745e-06, 'epoch': 0.22} {'loss': 2.1898, 'grad_norm': 1.1928813457489014, 'learning_rate': 4.525347473373234e-06, 'epoch': 0.22} {'loss': 2.135, 'grad_norm': 1.1385349035263062, 'learning_rate': 4.525092780115753e-06, 'epoch': 0.22} {'loss': 2.5247, 'grad_norm': 1.2306265830993652, 'learning_rate': 4.52483802571512e-06, 'epoch': 0.22} {'loss': 2.1187, 'grad_norm': 1.2577638626098633, 'learning_rate': 4.524583210179028e-06, 'epoch': 0.22} {'loss': 2.064, 'grad_norm': 1.3242615461349487, 'learning_rate': 4.52432833351517e-06, 'epoch': 0.22} {'loss': 2.2134, 'grad_norm': 1.3201019763946533, 'learning_rate': 4.524073395731241e-06, 'epoch': 0.22} {'loss': 2.3239, 'grad_norm': 1.216232180595398, 'learning_rate': 4.523818396834939e-06, 'epoch': 0.22} {'loss': 2.601, 'grad_norm': 1.3973580598831177, 'learning_rate': 4.523563336833964e-06, 'epoch': 0.22} {'loss': 2.0889, 'grad_norm': 1.2858775854110718, 'learning_rate': 4.523308215736015e-06, 'epoch': 0.22} {'loss': 2.3127, 'grad_norm': 1.1894402503967285, 'learning_rate': 4.523053033548796e-06, 'epoch': 0.22} {'loss': 2.2172, 'grad_norm': 1.3871452808380127, 'learning_rate': 4.522797790280012e-06, 'epoch': 0.22} {'loss': 2.2501, 'grad_norm': 1.1873234510421753, 'learning_rate': 4.522542485937369e-06, 'epoch': 0.22} {'loss': 2.4169, 'grad_norm': 1.7398942708969116, 'learning_rate': 4.5222871205285746e-06, 'epoch': 0.22} {'loss': 2.3102, 'grad_norm': 1.3806498050689697, 'learning_rate': 4.5220316940613405e-06, 'epoch': 0.22} {'loss': 2.1878, 'grad_norm': 1.0575028657913208, 'learning_rate': 4.521776206543377e-06, 'epoch': 0.22} {'loss': 2.1237, 'grad_norm': 1.7962061166763306, 'learning_rate': 4.521520657982399e-06, 'epoch': 0.22} {'loss': 2.1789, 'grad_norm': 1.3157016038894653, 'learning_rate': 4.521265048386122e-06, 'epoch': 0.22} {'loss': 2.1087, 'grad_norm': 1.5334219932556152, 'learning_rate': 4.5210093777622645e-06, 'epoch': 0.22} {'loss': 2.3926, 'grad_norm': 1.396945595741272, 'learning_rate': 4.5207536461185446e-06, 'epoch': 0.22} {'loss': 2.5151, 'grad_norm': 1.693298578262329, 'learning_rate': 4.520497853462684e-06, 'epoch': 0.22} {'loss': 2.0415, 'grad_norm': 1.8134039640426636, 'learning_rate': 4.520241999802405e-06, 'epoch': 0.22} {'loss': 2.316, 'grad_norm': 1.1591259241104126, 'learning_rate': 4.519986085145435e-06, 'epoch': 0.23} {'loss': 1.5389, 'grad_norm': 1.1595256328582764, 'learning_rate': 4.519730109499497e-06, 'epoch': 0.23} {'loss': 2.4779, 'grad_norm': 1.2893412113189697, 'learning_rate': 4.519474072872323e-06, 'epoch': 0.23} {'loss': 2.3136, 'grad_norm': 1.5012093782424927, 'learning_rate': 4.519217975271642e-06, 'epoch': 0.23} {'loss': 2.2793, 'grad_norm': 1.4367676973342896, 'learning_rate': 4.518961816705187e-06, 'epoch': 0.23} {'loss': 2.3964, 'grad_norm': 1.3509337902069092, 'learning_rate': 4.51870559718069e-06, 'epoch': 0.23} {'loss': 1.8963, 'grad_norm': 0.9810132384300232, 'learning_rate': 4.5184493167058905e-06, 'epoch': 0.23} {'loss': 2.1802, 'grad_norm': 1.268875241279602, 'learning_rate': 4.518192975288524e-06, 'epoch': 0.23} {'loss': 2.3234, 'grad_norm': 1.781166434288025, 'learning_rate': 4.5179365729363285e-06, 'epoch': 0.23} {'loss': 2.329, 'grad_norm': 1.4591174125671387, 'learning_rate': 4.51768010965705e-06, 'epoch': 0.23} {'loss': 2.2176, 'grad_norm': 1.3794262409210205, 'learning_rate': 4.517423585458428e-06, 'epoch': 0.23} {'loss': 2.2514, 'grad_norm': 1.1388839483261108, 'learning_rate': 4.51716700034821e-06, 'epoch': 0.23} {'loss': 2.0769, 'grad_norm': 1.401643991470337, 'learning_rate': 4.516910354334141e-06, 'epoch': 0.23} {'loss': 2.0907, 'grad_norm': 1.2006672620773315, 'learning_rate': 4.516653647423972e-06, 'epoch': 0.23} {'loss': 1.9721, 'grad_norm': 1.060868263244629, 'learning_rate': 4.5163968796254515e-06, 'epoch': 0.23} {'loss': 2.1945, 'grad_norm': 1.0899029970169067, 'learning_rate': 4.516140050946334e-06, 'epoch': 0.23} {'loss': 2.3642, 'grad_norm': 1.2583327293395996, 'learning_rate': 4.515883161394372e-06, 'epoch': 0.23} {'loss': 2.2709, 'grad_norm': 1.1657730340957642, 'learning_rate': 4.515626210977323e-06, 'epoch': 0.23} {'loss': 2.482, 'grad_norm': 1.3851717710494995, 'learning_rate': 4.515369199702946e-06, 'epoch': 0.23} {'loss': 2.3812, 'grad_norm': 1.3141083717346191, 'learning_rate': 4.5151121275789985e-06, 'epoch': 0.23} {'loss': 2.2384, 'grad_norm': 1.3523257970809937, 'learning_rate': 4.514854994613244e-06, 'epoch': 0.23} {'loss': 2.1687, 'grad_norm': 1.6801468133926392, 'learning_rate': 4.514597800813444e-06, 'epoch': 0.23} {'loss': 2.2149, 'grad_norm': 1.14146089553833, 'learning_rate': 4.514340546187367e-06, 'epoch': 0.23} {'loss': 2.1961, 'grad_norm': 1.1192948818206787, 'learning_rate': 4.514083230742778e-06, 'epoch': 0.23} {'loss': 2.3144, 'grad_norm': 1.266595721244812, 'learning_rate': 4.513825854487446e-06, 'epoch': 0.23} {'loss': 2.5629, 'grad_norm': 1.2343413829803467, 'learning_rate': 4.513568417429143e-06, 'epoch': 0.23} {'loss': 2.2909, 'grad_norm': 1.368905782699585, 'learning_rate': 4.513310919575641e-06, 'epoch': 0.23} {'loss': 2.2753, 'grad_norm': 1.2427005767822266, 'learning_rate': 4.513053360934715e-06, 'epoch': 0.23} {'loss': 2.0216, 'grad_norm': 1.0451421737670898, 'learning_rate': 4.5127957415141404e-06, 'epoch': 0.23} {'loss': 2.258, 'grad_norm': 1.269049882888794, 'learning_rate': 4.5125380613216975e-06, 'epoch': 0.23} {'loss': 2.2943, 'grad_norm': 1.429309606552124, 'learning_rate': 4.512280320365164e-06, 'epoch': 0.23} {'loss': 2.2503, 'grad_norm': 1.4048737287521362, 'learning_rate': 4.512022518652324e-06, 'epoch': 0.23} {'loss': 1.7067, 'grad_norm': 1.8769124746322632, 'learning_rate': 4.511764656190959e-06, 'epoch': 0.23} {'loss': 1.3666, 'grad_norm': 1.3965413570404053, 'learning_rate': 4.511506732988857e-06, 'epoch': 0.23} {'loss': 1.5891, 'grad_norm': 1.4848700761795044, 'learning_rate': 4.511248749053803e-06, 'epoch': 0.23} {'loss': 1.3795, 'grad_norm': 1.4053491353988647, 'learning_rate': 4.510990704393589e-06, 'epoch': 0.23} {'loss': 2.2727, 'grad_norm': 1.3739265203475952, 'learning_rate': 4.510732599016003e-06, 'epoch': 0.23} {'loss': 2.1384, 'grad_norm': 1.3298473358154297, 'learning_rate': 4.51047443292884e-06, 'epoch': 0.23} {'loss': 2.0473, 'grad_norm': 1.1832493543624878, 'learning_rate': 4.5102162061398944e-06, 'epoch': 0.23} {'loss': 2.378, 'grad_norm': 1.3594063520431519, 'learning_rate': 4.509957918656962e-06, 'epoch': 0.23} {'loss': 2.2078, 'grad_norm': 1.0908880233764648, 'learning_rate': 4.509699570487842e-06, 'epoch': 0.23} {'loss': 2.4149, 'grad_norm': 1.4295746088027954, 'learning_rate': 4.509441161640334e-06, 'epoch': 0.23} {'loss': 2.2749, 'grad_norm': 1.4791003465652466, 'learning_rate': 4.5091826921222415e-06, 'epoch': 0.23} {'loss': 2.1569, 'grad_norm': 1.304463267326355, 'learning_rate': 4.508924161941367e-06, 'epoch': 0.23} {'loss': 2.3785, 'grad_norm': 1.2860138416290283, 'learning_rate': 4.508665571105517e-06, 'epoch': 0.23} {'loss': 2.2349, 'grad_norm': 1.928805947303772, 'learning_rate': 4.508406919622498e-06, 'epoch': 0.23} {'loss': 2.2695, 'grad_norm': 1.218626856803894, 'learning_rate': 4.508148207500121e-06, 'epoch': 0.23} {'loss': 2.3562, 'grad_norm': 1.2615572214126587, 'learning_rate': 4.507889434746195e-06, 'epoch': 0.23} {'loss': 2.3078, 'grad_norm': 1.3275768756866455, 'learning_rate': 4.507630601368535e-06, 'epoch': 0.23} {'loss': 2.2589, 'grad_norm': 1.3431469202041626, 'learning_rate': 4.5073717073749554e-06, 'epoch': 0.23} {'loss': 1.9702, 'grad_norm': 1.3678847551345825, 'learning_rate': 4.507112752773273e-06, 'epoch': 0.23} {'loss': 1.8705, 'grad_norm': 2.9123919010162354, 'learning_rate': 4.506853737571306e-06, 'epoch': 0.23} {'loss': 2.2051, 'grad_norm': 1.277217984199524, 'learning_rate': 4.506594661776875e-06, 'epoch': 0.23} {'loss': 2.0259, 'grad_norm': 1.0994324684143066, 'learning_rate': 4.506335525397803e-06, 'epoch': 0.23} {'loss': 2.0129, 'grad_norm': 1.2504770755767822, 'learning_rate': 4.506076328441912e-06, 'epoch': 0.23} {'loss': 2.4234, 'grad_norm': 1.184155821800232, 'learning_rate': 4.505817070917029e-06, 'epoch': 0.23} {'loss': 2.3375, 'grad_norm': 1.2529385089874268, 'learning_rate': 4.505557752830982e-06, 'epoch': 0.23} {'loss': 2.1866, 'grad_norm': 1.2555314302444458, 'learning_rate': 4.5052983741916015e-06, 'epoch': 0.23} {'loss': 2.4552, 'grad_norm': 1.4596494436264038, 'learning_rate': 4.505038935006717e-06, 'epoch': 0.23} {'loss': 2.0658, 'grad_norm': 1.0968877077102661, 'learning_rate': 4.504779435284162e-06, 'epoch': 0.23} {'loss': 2.2119, 'grad_norm': 1.2761653661727905, 'learning_rate': 4.504519875031772e-06, 'epoch': 0.23} {'loss': 2.0385, 'grad_norm': 1.3791866302490234, 'learning_rate': 4.504260254257384e-06, 'epoch': 0.23} {'loss': 2.0538, 'grad_norm': 1.2698209285736084, 'learning_rate': 4.5040005729688375e-06, 'epoch': 0.23} {'loss': 2.3168, 'grad_norm': 1.2167953252792358, 'learning_rate': 4.5037408311739706e-06, 'epoch': 0.23} {'loss': 2.4873, 'grad_norm': 1.2450553178787231, 'learning_rate': 4.503481028880627e-06, 'epoch': 0.23} {'loss': 2.3325, 'grad_norm': 1.2709585428237915, 'learning_rate': 4.503221166096651e-06, 'epoch': 0.23} {'loss': 2.362, 'grad_norm': 1.2812600135803223, 'learning_rate': 4.502961242829889e-06, 'epoch': 0.23} {'loss': 2.1352, 'grad_norm': 1.6778184175491333, 'learning_rate': 4.502701259088186e-06, 'epoch': 0.23} {'loss': 2.464, 'grad_norm': 3.1060702800750732, 'learning_rate': 4.5024412148793965e-06, 'epoch': 0.23} {'loss': 2.5053, 'grad_norm': 1.412001609802246, 'learning_rate': 4.502181110211367e-06, 'epoch': 0.23} {'loss': 2.1347, 'grad_norm': 1.2603927850723267, 'learning_rate': 4.501920945091954e-06, 'epoch': 0.23} {'loss': 2.3415, 'grad_norm': 1.1803603172302246, 'learning_rate': 4.501660719529012e-06, 'epoch': 0.23} {'loss': 2.3335, 'grad_norm': 1.2559101581573486, 'learning_rate': 4.501400433530398e-06, 'epoch': 0.23} {'loss': 2.1712, 'grad_norm': 1.179594874382019, 'learning_rate': 4.5011400871039685e-06, 'epoch': 0.23} {'loss': 2.429, 'grad_norm': 1.2721190452575684, 'learning_rate': 4.500879680257587e-06, 'epoch': 0.23} {'loss': 2.4277, 'grad_norm': 1.3187835216522217, 'learning_rate': 4.500619212999115e-06, 'epoch': 0.23} {'loss': 2.1177, 'grad_norm': 1.4782633781433105, 'learning_rate': 4.500358685336415e-06, 'epoch': 0.23} {'loss': 2.2742, 'grad_norm': 1.3469854593276978, 'learning_rate': 4.500098097277356e-06, 'epoch': 0.23} {'loss': 2.1407, 'grad_norm': 1.2353256940841675, 'learning_rate': 4.499837448829804e-06, 'epoch': 0.23} {'loss': 2.1023, 'grad_norm': 1.243424892425537, 'learning_rate': 4.49957674000163e-06, 'epoch': 0.23} {'loss': 2.0584, 'grad_norm': 1.249490737915039, 'learning_rate': 4.499315970800704e-06, 'epoch': 0.23} {'loss': 2.3413, 'grad_norm': 1.520580768585205, 'learning_rate': 4.4990551412349005e-06, 'epoch': 0.23} {'loss': 2.3671, 'grad_norm': 1.3006083965301514, 'learning_rate': 4.498794251312093e-06, 'epoch': 0.23} {'loss': 1.5822, 'grad_norm': 1.059979796409607, 'learning_rate': 4.49853330104016e-06, 'epoch': 0.23} {'loss': 2.4461, 'grad_norm': 2.240868091583252, 'learning_rate': 4.498272290426981e-06, 'epoch': 0.23} {'loss': 2.4347, 'grad_norm': 1.3489139080047607, 'learning_rate': 4.498011219480435e-06, 'epoch': 0.23} {'loss': 2.3078, 'grad_norm': 1.267393708229065, 'learning_rate': 4.4977500882084046e-06, 'epoch': 0.23} {'loss': 2.1731, 'grad_norm': 1.1420133113861084, 'learning_rate': 4.497488896618775e-06, 'epoch': 0.23} {'loss': 2.1263, 'grad_norm': 1.2444493770599365, 'learning_rate': 4.4972276447194315e-06, 'epoch': 0.23} {'loss': 2.0798, 'grad_norm': 1.1850425004959106, 'learning_rate': 4.496966332518262e-06, 'epoch': 0.23} {'loss': 2.0609, 'grad_norm': 1.1372735500335693, 'learning_rate': 4.496704960023158e-06, 'epoch': 0.23} {'loss': 2.4227, 'grad_norm': 1.4855576753616333, 'learning_rate': 4.496443527242008e-06, 'epoch': 0.23} {'loss': 2.3481, 'grad_norm': 1.21796452999115, 'learning_rate': 4.496182034182708e-06, 'epoch': 0.23} {'loss': 2.367, 'grad_norm': 1.2259410619735718, 'learning_rate': 4.495920480853152e-06, 'epoch': 0.23} {'loss': 2.0459, 'grad_norm': 1.323128342628479, 'learning_rate': 4.495658867261238e-06, 'epoch': 0.23} {'loss': 2.2416, 'grad_norm': 1.424511194229126, 'learning_rate': 4.495397193414863e-06, 'epoch': 0.23} {'loss': 1.6254, 'grad_norm': 2.6157166957855225, 'learning_rate': 4.495135459321929e-06, 'epoch': 0.23} {'loss': 2.3249, 'grad_norm': 1.2663716077804565, 'learning_rate': 4.494873664990338e-06, 'epoch': 0.23} {'loss': 2.2294, 'grad_norm': 1.3946375846862793, 'learning_rate': 4.494611810427994e-06, 'epoch': 0.23} {'loss': 2.2008, 'grad_norm': 1.1045866012573242, 'learning_rate': 4.494349895642805e-06, 'epoch': 0.23} {'loss': 2.3405, 'grad_norm': 1.3333927392959595, 'learning_rate': 4.494087920642677e-06, 'epoch': 0.23} {'loss': 2.1977, 'grad_norm': 1.3146411180496216, 'learning_rate': 4.49382588543552e-06, 'epoch': 0.23} {'loss': 2.1651, 'grad_norm': 1.1399245262145996, 'learning_rate': 4.493563790029246e-06, 'epoch': 0.23} {'loss': 2.4077, 'grad_norm': 1.7175068855285645, 'learning_rate': 4.493301634431768e-06, 'epoch': 0.23} {'loss': 2.1692, 'grad_norm': 1.3462729454040527, 'learning_rate': 4.493039418651002e-06, 'epoch': 0.23} {'loss': 2.4913, 'grad_norm': 1.1895768642425537, 'learning_rate': 4.492777142694864e-06, 'epoch': 0.23} {'loss': 2.2918, 'grad_norm': 1.4366636276245117, 'learning_rate': 4.492514806571274e-06, 'epoch': 0.23} {'loss': 2.1577, 'grad_norm': 1.1893635988235474, 'learning_rate': 4.4922524102881506e-06, 'epoch': 0.23} {'loss': 2.4243, 'grad_norm': 1.1347347497940063, 'learning_rate': 4.491989953853419e-06, 'epoch': 0.23} {'loss': 2.2572, 'grad_norm': 1.7646615505218506, 'learning_rate': 4.491727437275002e-06, 'epoch': 0.23} {'loss': 2.3425, 'grad_norm': 1.369956612586975, 'learning_rate': 4.491464860560825e-06, 'epoch': 0.23} {'loss': 2.044, 'grad_norm': 1.3222109079360962, 'learning_rate': 4.491202223718817e-06, 'epoch': 0.23} {'loss': 1.9169, 'grad_norm': 1.1932661533355713, 'learning_rate': 4.490939526756908e-06, 'epoch': 0.23} {'loss': 2.2004, 'grad_norm': 1.085843563079834, 'learning_rate': 4.490676769683029e-06, 'epoch': 0.23} {'loss': 2.2762, 'grad_norm': 1.292127251625061, 'learning_rate': 4.490413952505113e-06, 'epoch': 0.23} {'loss': 2.3325, 'grad_norm': 1.2490174770355225, 'learning_rate': 4.4901510752310955e-06, 'epoch': 0.23} {'loss': 2.4659, 'grad_norm': 1.2808234691619873, 'learning_rate': 4.489888137868913e-06, 'epoch': 0.23} {'loss': 2.1575, 'grad_norm': 1.35246741771698, 'learning_rate': 4.489625140426506e-06, 'epoch': 0.23} {'loss': 2.3124, 'grad_norm': 1.3591811656951904, 'learning_rate': 4.489362082911813e-06, 'epoch': 0.23} {'loss': 2.2335, 'grad_norm': 1.6490336656570435, 'learning_rate': 4.4890989653327775e-06, 'epoch': 0.23} {'loss': 2.0727, 'grad_norm': 1.025185465812683, 'learning_rate': 4.488835787697344e-06, 'epoch': 0.23} {'loss': 2.4679, 'grad_norm': 1.6137906312942505, 'learning_rate': 4.488572550013459e-06, 'epoch': 0.23} {'loss': 2.1716, 'grad_norm': 1.5684468746185303, 'learning_rate': 4.488309252289068e-06, 'epoch': 0.23} {'loss': 2.1633, 'grad_norm': 1.582435131072998, 'learning_rate': 4.488045894532124e-06, 'epoch': 0.23} {'loss': 2.1925, 'grad_norm': 1.3677560091018677, 'learning_rate': 4.487782476750575e-06, 'epoch': 0.23} {'loss': 2.1189, 'grad_norm': 1.6632845401763916, 'learning_rate': 4.487518998952377e-06, 'epoch': 0.23} {'loss': 2.5497, 'grad_norm': 1.7089923620224, 'learning_rate': 4.487255461145484e-06, 'epoch': 0.23} {'loss': 2.3029, 'grad_norm': 1.6139802932739258, 'learning_rate': 4.486991863337854e-06, 'epoch': 0.23} {'loss': 2.2448, 'grad_norm': 1.3656519651412964, 'learning_rate': 4.4867282055374436e-06, 'epoch': 0.23} {'loss': 2.3275, 'grad_norm': 1.3967156410217285, 'learning_rate': 4.486464487752215e-06, 'epoch': 0.23} {'loss': 2.4546, 'grad_norm': 1.3365110158920288, 'learning_rate': 4.486200709990131e-06, 'epoch': 0.23} {'loss': 2.2811, 'grad_norm': 1.2156864404678345, 'learning_rate': 4.485936872259154e-06, 'epoch': 0.23} {'loss': 2.3228, 'grad_norm': 1.1513874530792236, 'learning_rate': 4.485672974567251e-06, 'epoch': 0.23} {'loss': 2.2855, 'grad_norm': 1.2503345012664795, 'learning_rate': 4.485409016922391e-06, 'epoch': 0.23} {'loss': 1.8002, 'grad_norm': 1.2678992748260498, 'learning_rate': 4.485144999332542e-06, 'epoch': 0.23} {'loss': 2.4737, 'grad_norm': 1.2359492778778076, 'learning_rate': 4.484880921805675e-06, 'epoch': 0.23} {'loss': 2.0856, 'grad_norm': 1.317336082458496, 'learning_rate': 4.484616784349764e-06, 'epoch': 0.23} {'loss': 2.2583, 'grad_norm': 1.2037147283554077, 'learning_rate': 4.484352586972785e-06, 'epoch': 0.23} {'loss': 2.2584, 'grad_norm': 1.4038766622543335, 'learning_rate': 4.484088329682713e-06, 'epoch': 0.23} {'loss': 2.4642, 'grad_norm': 1.3828651905059814, 'learning_rate': 4.483824012487528e-06, 'epoch': 0.23} {'loss': 2.0562, 'grad_norm': 1.3854117393493652, 'learning_rate': 4.48355963539521e-06, 'epoch': 0.23} {'loss': 2.2791, 'grad_norm': 1.2055209875106812, 'learning_rate': 4.483295198413742e-06, 'epoch': 0.23} {'loss': 2.4317, 'grad_norm': 2.0389962196350098, 'learning_rate': 4.483030701551106e-06, 'epoch': 0.23} {'loss': 2.3788, 'grad_norm': 1.344920039176941, 'learning_rate': 4.48276614481529e-06, 'epoch': 0.23} {'loss': 2.3134, 'grad_norm': 3.3896846771240234, 'learning_rate': 4.482501528214282e-06, 'epoch': 0.23} {'loss': 2.2062, 'grad_norm': 1.3181533813476562, 'learning_rate': 4.48223685175607e-06, 'epoch': 0.23} {'loss': 2.165, 'grad_norm': 1.219758152961731, 'learning_rate': 4.481972115448645e-06, 'epoch': 0.23} {'loss': 2.3643, 'grad_norm': 1.302364468574524, 'learning_rate': 4.481707319300002e-06, 'epoch': 0.23} {'loss': 2.3329, 'grad_norm': 1.1491588354110718, 'learning_rate': 4.481442463318134e-06, 'epoch': 0.23} {'loss': 2.2786, 'grad_norm': 1.1963340044021606, 'learning_rate': 4.481177547511039e-06, 'epoch': 0.23} {'loss': 1.8893, 'grad_norm': 1.243759274482727, 'learning_rate': 4.480912571886715e-06, 'epoch': 0.23} {'loss': 1.9837, 'grad_norm': 1.0996675491333008, 'learning_rate': 4.480647536453163e-06, 'epoch': 0.23} {'loss': 2.3764, 'grad_norm': 1.3433884382247925, 'learning_rate': 4.480382441218385e-06, 'epoch': 0.23} {'loss': 2.2825, 'grad_norm': 1.4097157716751099, 'learning_rate': 4.480117286190383e-06, 'epoch': 0.23} {'loss': 2.371, 'grad_norm': 1.3240216970443726, 'learning_rate': 4.4798520713771655e-06, 'epoch': 0.23} {'loss': 2.1688, 'grad_norm': 1.1156622171401978, 'learning_rate': 4.479586796786739e-06, 'epoch': 0.23} {'loss': 2.3362, 'grad_norm': 1.1675187349319458, 'learning_rate': 4.479321462427113e-06, 'epoch': 0.23} {'loss': 2.4472, 'grad_norm': 1.2747483253479004, 'learning_rate': 4.479056068306298e-06, 'epoch': 0.23} {'loss': 2.6247, 'grad_norm': 1.4827978610992432, 'learning_rate': 4.478790614432308e-06, 'epoch': 0.23} {'loss': 2.1677, 'grad_norm': 1.4637144804000854, 'learning_rate': 4.478525100813157e-06, 'epoch': 0.23} {'loss': 2.29, 'grad_norm': 1.3094490766525269, 'learning_rate': 4.478259527456861e-06, 'epoch': 0.23} {'loss': 2.3369, 'grad_norm': 2.6860947608947754, 'learning_rate': 4.477993894371441e-06, 'epoch': 0.23} {'loss': 2.2245, 'grad_norm': 1.3211926221847534, 'learning_rate': 4.477728201564914e-06, 'epoch': 0.23} {'loss': 1.9609, 'grad_norm': 1.1329327821731567, 'learning_rate': 4.477462449045304e-06, 'epoch': 0.23} {'loss': 2.3174, 'grad_norm': 1.2474039793014526, 'learning_rate': 4.4771966368206345e-06, 'epoch': 0.23} {'loss': 2.3253, 'grad_norm': 1.4257066249847412, 'learning_rate': 4.47693076489893e-06, 'epoch': 0.23} {'loss': 2.4728, 'grad_norm': 1.3322510719299316, 'learning_rate': 4.4766648332882196e-06, 'epoch': 0.23} {'loss': 2.0959, 'grad_norm': 1.4649618864059448, 'learning_rate': 4.476398841996531e-06, 'epoch': 0.23} {'loss': 2.4589, 'grad_norm': 1.4653068780899048, 'learning_rate': 4.476132791031896e-06, 'epoch': 0.23} {'loss': 2.3053, 'grad_norm': 1.5275148153305054, 'learning_rate': 4.475866680402348e-06, 'epoch': 0.23} {'loss': 2.2285, 'grad_norm': 1.2020846605300903, 'learning_rate': 4.47560051011592e-06, 'epoch': 0.23} {'loss': 2.1854, 'grad_norm': 1.1556189060211182, 'learning_rate': 4.475334280180651e-06, 'epoch': 0.23} {'loss': 2.3941, 'grad_norm': 1.5416728258132935, 'learning_rate': 4.475067990604576e-06, 'epoch': 0.23} {'loss': 2.6139, 'grad_norm': 1.3037092685699463, 'learning_rate': 4.4748016413957374e-06, 'epoch': 0.23} {'loss': 2.1224, 'grad_norm': 1.2425020933151245, 'learning_rate': 4.474535232562176e-06, 'epoch': 0.23} {'loss': 2.2361, 'grad_norm': 1.3612395524978638, 'learning_rate': 4.474268764111936e-06, 'epoch': 0.23} {'loss': 2.4195, 'grad_norm': 1.1600407361984253, 'learning_rate': 4.4740022360530615e-06, 'epoch': 0.23} {'loss': 2.2251, 'grad_norm': 1.028662919998169, 'learning_rate': 4.4737356483936e-06, 'epoch': 0.23} {'loss': 2.3201, 'grad_norm': 1.3009066581726074, 'learning_rate': 4.473469001141603e-06, 'epoch': 0.23} {'loss': 2.365, 'grad_norm': 1.190610408782959, 'learning_rate': 4.473202294305118e-06, 'epoch': 0.23} {'loss': 2.2485, 'grad_norm': 1.2243157625198364, 'learning_rate': 4.472935527892201e-06, 'epoch': 0.23} {'loss': 2.1639, 'grad_norm': 4.586282253265381, 'learning_rate': 4.472668701910903e-06, 'epoch': 0.23} {'loss': 2.1462, 'grad_norm': 1.1305216550827026, 'learning_rate': 4.472401816369281e-06, 'epoch': 0.23} {'loss': 2.4035, 'grad_norm': 1.3253856897354126, 'learning_rate': 4.472134871275396e-06, 'epoch': 0.23} {'loss': 2.4239, 'grad_norm': 1.3884618282318115, 'learning_rate': 4.471867866637304e-06, 'epoch': 0.23} {'loss': 2.3109, 'grad_norm': 1.4257464408874512, 'learning_rate': 4.4716008024630685e-06, 'epoch': 0.23} {'loss': 2.372, 'grad_norm': 1.3328720331192017, 'learning_rate': 4.471333678760753e-06, 'epoch': 0.23} {'loss': 2.273, 'grad_norm': 1.2006334066390991, 'learning_rate': 4.471066495538422e-06, 'epoch': 0.24} {'loss': 2.0787, 'grad_norm': 1.5074840784072876, 'learning_rate': 4.4707992528041425e-06, 'epoch': 0.24} {'loss': 2.0986, 'grad_norm': 1.2722506523132324, 'learning_rate': 4.470531950565984e-06, 'epoch': 0.24} {'loss': 2.1327, 'grad_norm': 3.313344717025757, 'learning_rate': 4.470264588832016e-06, 'epoch': 0.24} {'loss': 2.2611, 'grad_norm': 1.385342001914978, 'learning_rate': 4.469997167610312e-06, 'epoch': 0.24} {'loss': 2.1116, 'grad_norm': 1.1020311117172241, 'learning_rate': 4.469729686908946e-06, 'epoch': 0.24} {'loss': 2.24, 'grad_norm': 1.9942830801010132, 'learning_rate': 4.4694621467359935e-06, 'epoch': 0.24} {'loss': 2.2243, 'grad_norm': 1.301674723625183, 'learning_rate': 4.4691945470995324e-06, 'epoch': 0.24} {'loss': 2.2468, 'grad_norm': 1.2264516353607178, 'learning_rate': 4.468926888007643e-06, 'epoch': 0.24} {'loss': 2.5116, 'grad_norm': 1.7258033752441406, 'learning_rate': 4.468659169468405e-06, 'epoch': 0.24} {'loss': 2.3141, 'grad_norm': 1.3218050003051758, 'learning_rate': 4.468391391489904e-06, 'epoch': 0.24} {'loss': 2.125, 'grad_norm': 1.3355748653411865, 'learning_rate': 4.468123554080222e-06, 'epoch': 0.24} {'loss': 2.437, 'grad_norm': 1.254394769668579, 'learning_rate': 4.4678556572474476e-06, 'epoch': 0.24} {'loss': 2.2614, 'grad_norm': 1.5354855060577393, 'learning_rate': 4.46758770099967e-06, 'epoch': 0.24} {'loss': 2.0953, 'grad_norm': 1.289841890335083, 'learning_rate': 4.4673196853449784e-06, 'epoch': 0.24} {'loss': 2.2044, 'grad_norm': 1.4153512716293335, 'learning_rate': 4.4670516102914644e-06, 'epoch': 0.24} {'loss': 1.9168, 'grad_norm': 5.185482025146484, 'learning_rate': 4.466783475847223e-06, 'epoch': 0.24} {'loss': 2.2345, 'grad_norm': 1.2395782470703125, 'learning_rate': 4.46651528202035e-06, 'epoch': 0.24} {'loss': 2.2456, 'grad_norm': 1.4227306842803955, 'learning_rate': 4.4662470288189416e-06, 'epoch': 0.24} {'loss': 2.3803, 'grad_norm': 1.7872899770736694, 'learning_rate': 4.465978716251099e-06, 'epoch': 0.24} {'loss': 2.2034, 'grad_norm': 1.2728022336959839, 'learning_rate': 4.465710344324922e-06, 'epoch': 0.24} {'loss': 2.3164, 'grad_norm': 1.3185375928878784, 'learning_rate': 4.465441913048514e-06, 'epoch': 0.24} {'loss': 2.0263, 'grad_norm': 1.0915955305099487, 'learning_rate': 4.465173422429979e-06, 'epoch': 0.24} {'loss': 2.3237, 'grad_norm': 1.2610116004943848, 'learning_rate': 4.464904872477424e-06, 'epoch': 0.24} {'loss': 2.3939, 'grad_norm': 1.2174705266952515, 'learning_rate': 4.464636263198958e-06, 'epoch': 0.24} {'loss': 2.0931, 'grad_norm': 1.0720505714416504, 'learning_rate': 4.46436759460269e-06, 'epoch': 0.24} {'loss': 2.1718, 'grad_norm': 1.1911568641662598, 'learning_rate': 4.464098866696731e-06, 'epoch': 0.24} {'loss': 2.3897, 'grad_norm': 1.3971198797225952, 'learning_rate': 4.463830079489196e-06, 'epoch': 0.24} {'loss': 2.3187, 'grad_norm': 1.2622727155685425, 'learning_rate': 4.463561232988202e-06, 'epoch': 0.24} {'loss': 2.1166, 'grad_norm': 1.3098440170288086, 'learning_rate': 4.463292327201862e-06, 'epoch': 0.24} {'loss': 2.2667, 'grad_norm': 2.8953349590301514, 'learning_rate': 4.463023362138299e-06, 'epoch': 0.24} {'loss': 2.2823, 'grad_norm': 1.3173998594284058, 'learning_rate': 4.462754337805632e-06, 'epoch': 0.24} {'loss': 2.1859, 'grad_norm': 0.999905526638031, 'learning_rate': 4.462485254211984e-06, 'epoch': 0.24} {'loss': 1.5712, 'grad_norm': 1.131600260734558, 'learning_rate': 4.4622161113654785e-06, 'epoch': 0.24} {'loss': 2.2202, 'grad_norm': 1.4501051902770996, 'learning_rate': 4.461946909274243e-06, 'epoch': 0.24} {'loss': 2.3345, 'grad_norm': 1.3024439811706543, 'learning_rate': 4.461677647946404e-06, 'epoch': 0.24} {'loss': 1.9873, 'grad_norm': 1.052730917930603, 'learning_rate': 4.461408327390093e-06, 'epoch': 0.24} {'loss': 2.4109, 'grad_norm': 1.3660541772842407, 'learning_rate': 4.46113894761344e-06, 'epoch': 0.24} {'loss': 2.2619, 'grad_norm': 1.177076816558838, 'learning_rate': 4.460869508624579e-06, 'epoch': 0.24} {'loss': 1.8681, 'grad_norm': 2.34683895111084, 'learning_rate': 4.4606000104316445e-06, 'epoch': 0.24} {'loss': 2.286, 'grad_norm': 1.3673999309539795, 'learning_rate': 4.460330453042775e-06, 'epoch': 0.24} {'loss': 2.2922, 'grad_norm': 1.1394463777542114, 'learning_rate': 4.4600608364661075e-06, 'epoch': 0.24} {'loss': 2.0132, 'grad_norm': 1.2011947631835938, 'learning_rate': 4.459791160709783e-06, 'epoch': 0.24} {'loss': 2.5137, 'grad_norm': 1.259818434715271, 'learning_rate': 4.459521425781944e-06, 'epoch': 0.24} {'loss': 2.3213, 'grad_norm': 1.3820463418960571, 'learning_rate': 4.459251631690734e-06, 'epoch': 0.24} {'loss': 2.2627, 'grad_norm': 1.5029082298278809, 'learning_rate': 4.4589817784443e-06, 'epoch': 0.24} {'loss': 2.3783, 'grad_norm': 1.3817216157913208, 'learning_rate': 4.458711866050788e-06, 'epoch': 0.24} {'loss': 2.2988, 'grad_norm': 1.3477693796157837, 'learning_rate': 4.458441894518349e-06, 'epoch': 0.24} {'loss': 2.1336, 'grad_norm': 1.3004342317581177, 'learning_rate': 4.458171863855132e-06, 'epoch': 0.24} {'loss': 2.1327, 'grad_norm': 1.254935622215271, 'learning_rate': 4.457901774069292e-06, 'epoch': 0.24} {'loss': 2.1168, 'grad_norm': 1.3051347732543945, 'learning_rate': 4.457631625168984e-06, 'epoch': 0.24} {'loss': 2.2607, 'grad_norm': 1.1955232620239258, 'learning_rate': 4.457361417162363e-06, 'epoch': 0.24} {'loss': 2.3601, 'grad_norm': 1.2513070106506348, 'learning_rate': 4.4570911500575884e-06, 'epoch': 0.24} {'loss': 1.9382, 'grad_norm': 5.513226509094238, 'learning_rate': 4.45682082386282e-06, 'epoch': 0.24} {'loss': 2.1586, 'grad_norm': 4.670441150665283, 'learning_rate': 4.456550438586219e-06, 'epoch': 0.24} {'loss': 2.4818, 'grad_norm': 1.3263832330703735, 'learning_rate': 4.4562799942359496e-06, 'epoch': 0.24} {'loss': 2.0589, 'grad_norm': 1.0644826889038086, 'learning_rate': 4.4560094908201774e-06, 'epoch': 0.24} {'loss': 2.4433, 'grad_norm': 1.24978768825531, 'learning_rate': 4.45573892834707e-06, 'epoch': 0.24} {'loss': 2.373, 'grad_norm': 1.2844618558883667, 'learning_rate': 4.455468306824796e-06, 'epoch': 0.24} {'loss': 2.1959, 'grad_norm': 1.337622046470642, 'learning_rate': 4.455197626261526e-06, 'epoch': 0.24} {'loss': 2.4419, 'grad_norm': 1.2497349977493286, 'learning_rate': 4.454926886665433e-06, 'epoch': 0.24} {'loss': 1.76, 'grad_norm': 1.2595387697219849, 'learning_rate': 4.45465608804469e-06, 'epoch': 0.24} {'loss': 2.2597, 'grad_norm': 1.1460535526275635, 'learning_rate': 4.4543852304074754e-06, 'epoch': 0.24} {'loss': 2.1038, 'grad_norm': 1.2883442640304565, 'learning_rate': 4.454114313761967e-06, 'epoch': 0.24} {'loss': 2.2773, 'grad_norm': 2.1312105655670166, 'learning_rate': 4.453843338116342e-06, 'epoch': 0.24} {'loss': 2.1665, 'grad_norm': 2.400259256362915, 'learning_rate': 4.4535723034787846e-06, 'epoch': 0.24} {'loss': 2.3976, 'grad_norm': 1.160089373588562, 'learning_rate': 4.453301209857477e-06, 'epoch': 0.24} {'loss': 2.2842, 'grad_norm': 1.2763224840164185, 'learning_rate': 4.453030057260604e-06, 'epoch': 0.24} {'loss': 1.8337, 'grad_norm': 1.2928688526153564, 'learning_rate': 4.452758845696352e-06, 'epoch': 0.24} {'loss': 2.2574, 'grad_norm': 1.3449517488479614, 'learning_rate': 4.452487575172912e-06, 'epoch': 0.24} {'loss': 2.1149, 'grad_norm': 1.2839900255203247, 'learning_rate': 4.452216245698472e-06, 'epoch': 0.24} {'loss': 2.6247, 'grad_norm': 1.1692938804626465, 'learning_rate': 4.451944857281224e-06, 'epoch': 0.24} {'loss': 2.7501, 'grad_norm': 1.3871676921844482, 'learning_rate': 4.451673409929364e-06, 'epoch': 0.24} {'loss': 2.2473, 'grad_norm': 1.3463504314422607, 'learning_rate': 4.451401903651086e-06, 'epoch': 0.24} {'loss': 2.4, 'grad_norm': 1.229349970817566, 'learning_rate': 4.451130338454589e-06, 'epoch': 0.24} {'loss': 2.2561, 'grad_norm': 1.0824062824249268, 'learning_rate': 4.450858714348071e-06, 'epoch': 0.24} {'loss': 2.2438, 'grad_norm': 1.3383007049560547, 'learning_rate': 4.450587031339733e-06, 'epoch': 0.24} {'loss': 2.1992, 'grad_norm': 1.2562716007232666, 'learning_rate': 4.45031528943778e-06, 'epoch': 0.24} {'loss': 2.2005, 'grad_norm': 1.37105393409729, 'learning_rate': 4.450043488650414e-06, 'epoch': 0.24} {'loss': 2.3056, 'grad_norm': 1.1020804643630981, 'learning_rate': 4.449771628985843e-06, 'epoch': 0.24} {'loss': 2.295, 'grad_norm': 1.3139532804489136, 'learning_rate': 4.4494997104522744e-06, 'epoch': 0.24} {'loss': 2.2242, 'grad_norm': 2.4014010429382324, 'learning_rate': 4.449227733057918e-06, 'epoch': 0.24} {'loss': 2.2216, 'grad_norm': 1.3368598222732544, 'learning_rate': 4.448955696810986e-06, 'epoch': 0.24} {'loss': 2.1007, 'grad_norm': 1.3003777265548706, 'learning_rate': 4.448683601719693e-06, 'epoch': 0.24} {'loss': 2.4757, 'grad_norm': 1.6509233713150024, 'learning_rate': 4.448411447792252e-06, 'epoch': 0.24} {'loss': 2.3199, 'grad_norm': 1.3373866081237793, 'learning_rate': 4.448139235036882e-06, 'epoch': 0.24} {'loss': 2.2907, 'grad_norm': 1.5324915647506714, 'learning_rate': 4.4478669634618014e-06, 'epoch': 0.24} {'loss': 2.2585, 'grad_norm': 1.2022651433944702, 'learning_rate': 4.447594633075231e-06, 'epoch': 0.24} {'loss': 2.301, 'grad_norm': 1.0487884283065796, 'learning_rate': 4.447322243885392e-06, 'epoch': 0.24} {'loss': 2.4235, 'grad_norm': 1.202965259552002, 'learning_rate': 4.447049795900509e-06, 'epoch': 0.24} {'loss': 2.1577, 'grad_norm': 1.6093404293060303, 'learning_rate': 4.446777289128809e-06, 'epoch': 0.24} {'loss': 2.2348, 'grad_norm': 1.2030073404312134, 'learning_rate': 4.446504723578519e-06, 'epoch': 0.24} {'loss': 2.0572, 'grad_norm': 1.235249400138855, 'learning_rate': 4.4462320992578686e-06, 'epoch': 0.24} {'loss': 2.4489, 'grad_norm': 2.1595802307128906, 'learning_rate': 4.445959416175089e-06, 'epoch': 0.24} {'loss': 1.933, 'grad_norm': 1.0707886219024658, 'learning_rate': 4.445686674338414e-06, 'epoch': 0.24} {'loss': 2.431, 'grad_norm': 1.4789921045303345, 'learning_rate': 4.445413873756077e-06, 'epoch': 0.24} {'loss': 1.9389, 'grad_norm': 1.1800998449325562, 'learning_rate': 4.445141014436315e-06, 'epoch': 0.24} {'loss': 2.1769, 'grad_norm': 1.6010503768920898, 'learning_rate': 4.4448680963873675e-06, 'epoch': 0.24} {'loss': 2.2427, 'grad_norm': 1.322901964187622, 'learning_rate': 4.444595119617474e-06, 'epoch': 0.24} {'loss': 2.3964, 'grad_norm': 1.3009332418441772, 'learning_rate': 4.444322084134876e-06, 'epoch': 0.24} {'loss': 2.3602, 'grad_norm': 1.313167929649353, 'learning_rate': 4.444048989947817e-06, 'epoch': 0.24} {'loss': 2.2882, 'grad_norm': 1.351949691772461, 'learning_rate': 4.443775837064544e-06, 'epoch': 0.24} {'loss': 2.2312, 'grad_norm': 0.9932847619056702, 'learning_rate': 4.443502625493302e-06, 'epoch': 0.24} {'loss': 1.9933, 'grad_norm': 1.1095845699310303, 'learning_rate': 4.443229355242342e-06, 'epoch': 0.24} {'loss': 2.4814, 'grad_norm': 1.3095425367355347, 'learning_rate': 4.442956026319914e-06, 'epoch': 0.24} {'loss': 2.4941, 'grad_norm': 1.4396170377731323, 'learning_rate': 4.4426826387342714e-06, 'epoch': 0.24} {'loss': 2.1354, 'grad_norm': 1.1779533624649048, 'learning_rate': 4.442409192493667e-06, 'epoch': 0.24} {'loss': 2.224, 'grad_norm': 1.4943889379501343, 'learning_rate': 4.442135687606357e-06, 'epoch': 0.24} {'loss': 2.4317, 'grad_norm': 1.1185665130615234, 'learning_rate': 4.4418621240806e-06, 'epoch': 0.24} {'loss': 2.2963, 'grad_norm': 3.1897494792938232, 'learning_rate': 4.441588501924656e-06, 'epoch': 0.24} {'loss': 2.3182, 'grad_norm': 1.219915509223938, 'learning_rate': 4.441314821146786e-06, 'epoch': 0.24} {'loss': 2.1294, 'grad_norm': 1.3797706365585327, 'learning_rate': 4.441041081755253e-06, 'epoch': 0.24} {'loss': 2.1266, 'grad_norm': 1.5421326160430908, 'learning_rate': 4.440767283758322e-06, 'epoch': 0.24} {'loss': 1.9543, 'grad_norm': 1.2671245336532593, 'learning_rate': 4.44049342716426e-06, 'epoch': 0.24} {'loss': 2.3559, 'grad_norm': 1.2562769651412964, 'learning_rate': 4.4402195119813355e-06, 'epoch': 0.24} {'loss': 2.1811, 'grad_norm': 1.2040386199951172, 'learning_rate': 4.439945538217818e-06, 'epoch': 0.24} {'loss': 2.1909, 'grad_norm': 1.549121618270874, 'learning_rate': 4.439671505881979e-06, 'epoch': 0.24} {'loss': 2.46, 'grad_norm': 1.91903817653656, 'learning_rate': 4.439397414982095e-06, 'epoch': 0.24} {'loss': 2.2894, 'grad_norm': 1.3668568134307861, 'learning_rate': 4.439123265526439e-06, 'epoch': 0.24} {'loss': 2.149, 'grad_norm': 1.8568788766860962, 'learning_rate': 4.43884905752329e-06, 'epoch': 0.24} {'loss': 2.36, 'grad_norm': 1.31496262550354, 'learning_rate': 4.438574790980926e-06, 'epoch': 0.24} {'loss': 2.3401, 'grad_norm': 1.4341189861297607, 'learning_rate': 4.438300465907628e-06, 'epoch': 0.24} {'loss': 2.0051, 'grad_norm': 1.259193778038025, 'learning_rate': 4.438026082311679e-06, 'epoch': 0.24} {'loss': 2.4982, 'grad_norm': 1.3366167545318604, 'learning_rate': 4.4377516402013635e-06, 'epoch': 0.24} {'loss': 2.311, 'grad_norm': 1.426495909690857, 'learning_rate': 4.437477139584967e-06, 'epoch': 0.24} {'loss': 2.3344, 'grad_norm': 1.4083887338638306, 'learning_rate': 4.437202580470778e-06, 'epoch': 0.24} {'loss': 2.3491, 'grad_norm': 2.990960121154785, 'learning_rate': 4.436927962867086e-06, 'epoch': 0.24} {'loss': 2.1099, 'grad_norm': 1.2106231451034546, 'learning_rate': 4.436653286782182e-06, 'epoch': 0.24} {'loss': 2.2296, 'grad_norm': 1.4857693910598755, 'learning_rate': 4.436378552224359e-06, 'epoch': 0.24} {'loss': 2.3279, 'grad_norm': 1.2006309032440186, 'learning_rate': 4.436103759201914e-06, 'epoch': 0.24} {'loss': 2.656, 'grad_norm': 1.4846787452697754, 'learning_rate': 4.435828907723143e-06, 'epoch': 0.24} {'loss': 2.5256, 'grad_norm': 1.3082877397537231, 'learning_rate': 4.435553997796343e-06, 'epoch': 0.24} {'loss': 2.3154, 'grad_norm': 1.1711370944976807, 'learning_rate': 4.435279029429816e-06, 'epoch': 0.24} {'loss': 2.2007, 'grad_norm': 1.2798247337341309, 'learning_rate': 4.435004002631863e-06, 'epoch': 0.24} {'loss': 2.239, 'grad_norm': 1.2884875535964966, 'learning_rate': 4.434728917410788e-06, 'epoch': 0.24} {'loss': 2.3283, 'grad_norm': 1.2101253271102905, 'learning_rate': 4.434453773774897e-06, 'epoch': 0.24} {'loss': 2.2467, 'grad_norm': 1.259056568145752, 'learning_rate': 4.4341785717324964e-06, 'epoch': 0.24} {'loss': 2.2291, 'grad_norm': 1.1883078813552856, 'learning_rate': 4.433903311291897e-06, 'epoch': 0.24} {'loss': 2.2965, 'grad_norm': 1.4221304655075073, 'learning_rate': 4.433627992461408e-06, 'epoch': 0.24} {'loss': 2.1561, 'grad_norm': 1.4277164936065674, 'learning_rate': 4.433352615249343e-06, 'epoch': 0.24} {'loss': 2.1477, 'grad_norm': 1.2651458978652954, 'learning_rate': 4.433077179664016e-06, 'epoch': 0.24} {'loss': 2.1495, 'grad_norm': 1.084426760673523, 'learning_rate': 4.432801685713743e-06, 'epoch': 0.24} {'loss': 2.3291, 'grad_norm': 1.350829839706421, 'learning_rate': 4.432526133406843e-06, 'epoch': 0.24} {'loss': 2.2698, 'grad_norm': 1.2623040676116943, 'learning_rate': 4.432250522751634e-06, 'epoch': 0.24} {'loss': 2.0316, 'grad_norm': 1.2594927549362183, 'learning_rate': 4.431974853756439e-06, 'epoch': 0.24} {'loss': 2.3451, 'grad_norm': 2.7029483318328857, 'learning_rate': 4.43169912642958e-06, 'epoch': 0.24} {'loss': 2.1373, 'grad_norm': 1.1853396892547607, 'learning_rate': 4.431423340779383e-06, 'epoch': 0.24} {'loss': 2.3131, 'grad_norm': 13.509042739868164, 'learning_rate': 4.431147496814174e-06, 'epoch': 0.24} {'loss': 2.19, 'grad_norm': 1.1108297109603882, 'learning_rate': 4.430871594542282e-06, 'epoch': 0.24} {'loss': 1.9399, 'grad_norm': 1.2682673931121826, 'learning_rate': 4.4305956339720365e-06, 'epoch': 0.24} {'loss': 2.3747, 'grad_norm': 1.4001171588897705, 'learning_rate': 4.430319615111771e-06, 'epoch': 0.24} {'loss': 1.9686, 'grad_norm': 1.026219367980957, 'learning_rate': 4.430043537969818e-06, 'epoch': 0.24} {'loss': 2.3697, 'grad_norm': 1.3281149864196777, 'learning_rate': 4.429767402554512e-06, 'epoch': 0.24} {'loss': 2.1622, 'grad_norm': 1.5367693901062012, 'learning_rate': 4.429491208874192e-06, 'epoch': 0.24} {'loss': 2.2481, 'grad_norm': 1.443192720413208, 'learning_rate': 4.429214956937197e-06, 'epoch': 0.24} {'loss': 2.3543, 'grad_norm': 1.2638553380966187, 'learning_rate': 4.4289386467518695e-06, 'epoch': 0.24} {'loss': 2.3619, 'grad_norm': 1.6390571594238281, 'learning_rate': 4.4286622783265475e-06, 'epoch': 0.24} {'loss': 2.2292, 'grad_norm': 1.1614885330200195, 'learning_rate': 4.428385851669579e-06, 'epoch': 0.24} {'loss': 2.2066, 'grad_norm': 1.8747397661209106, 'learning_rate': 4.428109366789308e-06, 'epoch': 0.24} {'loss': 2.4707, 'grad_norm': 1.3619917631149292, 'learning_rate': 4.427832823694084e-06, 'epoch': 0.24} {'loss': 2.3491, 'grad_norm': 1.32420814037323, 'learning_rate': 4.4275562223922554e-06, 'epoch': 0.24} {'loss': 2.0129, 'grad_norm': 1.4588814973831177, 'learning_rate': 4.427279562892175e-06, 'epoch': 0.24} {'loss': 2.2295, 'grad_norm': 1.2479084730148315, 'learning_rate': 4.427002845202194e-06, 'epoch': 0.24} {'loss': 2.5221, 'grad_norm': 1.2809967994689941, 'learning_rate': 4.426726069330669e-06, 'epoch': 0.24} {'loss': 2.344, 'grad_norm': 1.3349099159240723, 'learning_rate': 4.426449235285955e-06, 'epoch': 0.24} {'loss': 2.3652, 'grad_norm': 2.370455503463745, 'learning_rate': 4.426172343076411e-06, 'epoch': 0.24} {'loss': 2.4758, 'grad_norm': 1.2130486965179443, 'learning_rate': 4.4258953927103986e-06, 'epoch': 0.24} {'loss': 2.1518, 'grad_norm': 1.3224835395812988, 'learning_rate': 4.425618384196278e-06, 'epoch': 0.24} {'loss': 2.3941, 'grad_norm': 1.318089485168457, 'learning_rate': 4.425341317542413e-06, 'epoch': 0.24} {'loss': 2.2321, 'grad_norm': 1.3781025409698486, 'learning_rate': 4.4250641927571694e-06, 'epoch': 0.24} {'loss': 2.397, 'grad_norm': 1.340971827507019, 'learning_rate': 4.424787009848915e-06, 'epoch': 0.24} {'loss': 2.0433, 'grad_norm': 1.2438377141952515, 'learning_rate': 4.424509768826018e-06, 'epoch': 0.24} {'loss': 2.5268, 'grad_norm': 1.366862177848816, 'learning_rate': 4.424232469696849e-06, 'epoch': 0.24} {'loss': 2.1351, 'grad_norm': 1.2236778736114502, 'learning_rate': 4.42395511246978e-06, 'epoch': 0.24} {'loss': 2.386, 'grad_norm': 1.2367098331451416, 'learning_rate': 4.4236776971531855e-06, 'epoch': 0.24} {'loss': 2.2196, 'grad_norm': 1.3691462278366089, 'learning_rate': 4.423400223755442e-06, 'epoch': 0.24} {'loss': 2.0526, 'grad_norm': 2.451730728149414, 'learning_rate': 4.423122692284927e-06, 'epoch': 0.24} {'loss': 2.0436, 'grad_norm': 1.3873506784439087, 'learning_rate': 4.4228451027500195e-06, 'epoch': 0.24} {'loss': 2.3298, 'grad_norm': 1.315555214881897, 'learning_rate': 4.422567455159102e-06, 'epoch': 0.24} {'loss': 2.1559, 'grad_norm': 1.2035634517669678, 'learning_rate': 4.422289749520555e-06, 'epoch': 0.24} {'loss': 2.0134, 'grad_norm': 1.6766892671585083, 'learning_rate': 4.4220119858427655e-06, 'epoch': 0.24} {'loss': 2.0823, 'grad_norm': 1.4351340532302856, 'learning_rate': 4.4217341641341186e-06, 'epoch': 0.24} {'loss': 2.0864, 'grad_norm': 1.620651125907898, 'learning_rate': 4.421456284403003e-06, 'epoch': 0.24} {'loss': 2.3626, 'grad_norm': 1.7919038534164429, 'learning_rate': 4.421178346657809e-06, 'epoch': 0.24} {'loss': 2.2628, 'grad_norm': 1.7062321901321411, 'learning_rate': 4.4209003509069284e-06, 'epoch': 0.24} {'loss': 2.2979, 'grad_norm': 1.3591548204421997, 'learning_rate': 4.420622297158753e-06, 'epoch': 0.24} {'loss': 2.2619, 'grad_norm': 1.263174057006836, 'learning_rate': 4.42034418542168e-06, 'epoch': 0.25} {'loss': 2.3592, 'grad_norm': 1.3969866037368774, 'learning_rate': 4.420066015704105e-06, 'epoch': 0.25} {'loss': 2.2871, 'grad_norm': 1.2820513248443604, 'learning_rate': 4.419787788014428e-06, 'epoch': 0.25} {'loss': 2.4405, 'grad_norm': 1.3511970043182373, 'learning_rate': 4.419509502361049e-06, 'epoch': 0.25} {'loss': 2.3302, 'grad_norm': 1.2979071140289307, 'learning_rate': 4.419231158752369e-06, 'epoch': 0.25} {'loss': 2.341, 'grad_norm': 1.3349720239639282, 'learning_rate': 4.418952757196794e-06, 'epoch': 0.25} {'loss': 2.3219, 'grad_norm': 1.2666716575622559, 'learning_rate': 4.418674297702728e-06, 'epoch': 0.25} {'loss': 2.3568, 'grad_norm': 2.173933267593384, 'learning_rate': 4.418395780278579e-06, 'epoch': 0.25} {'loss': 2.2588, 'grad_norm': 1.1442227363586426, 'learning_rate': 4.418117204932757e-06, 'epoch': 0.25} {'loss': 2.603, 'grad_norm': 1.2916347980499268, 'learning_rate': 4.417838571673671e-06, 'epoch': 0.25} {'loss': 2.4006, 'grad_norm': 1.3924412727355957, 'learning_rate': 4.417559880509736e-06, 'epoch': 0.25} {'loss': 2.1945, 'grad_norm': 1.260448932647705, 'learning_rate': 4.417281131449366e-06, 'epoch': 0.25} {'loss': 2.4357, 'grad_norm': 1.2147328853607178, 'learning_rate': 4.417002324500976e-06, 'epoch': 0.25} {'loss': 2.1154, 'grad_norm': 1.6764822006225586, 'learning_rate': 4.416723459672985e-06, 'epoch': 0.25} {'loss': 2.3505, 'grad_norm': 1.2308107614517212, 'learning_rate': 4.416444536973811e-06, 'epoch': 0.25} {'loss': 2.2371, 'grad_norm': 1.3282898664474487, 'learning_rate': 4.4161655564118776e-06, 'epoch': 0.25} {'loss': 2.2487, 'grad_norm': 1.3079829216003418, 'learning_rate': 4.415886517995608e-06, 'epoch': 0.25} {'loss': 2.3208, 'grad_norm': 1.3554892539978027, 'learning_rate': 4.415607421733425e-06, 'epoch': 0.25} {'loss': 1.3268, 'grad_norm': 1.480136513710022, 'learning_rate': 4.415328267633757e-06, 'epoch': 0.25} {'loss': 2.1294, 'grad_norm': 1.1656535863876343, 'learning_rate': 4.415049055705032e-06, 'epoch': 0.25} {'loss': 2.1645, 'grad_norm': 1.221509575843811, 'learning_rate': 4.414769785955681e-06, 'epoch': 0.25} {'loss': 2.2249, 'grad_norm': 1.19186532497406, 'learning_rate': 4.414490458394134e-06, 'epoch': 0.25} {'loss': 1.8834, 'grad_norm': 1.2068843841552734, 'learning_rate': 4.414211073028826e-06, 'epoch': 0.25} {'loss': 2.2732, 'grad_norm': 1.4786144495010376, 'learning_rate': 4.413931629868192e-06, 'epoch': 0.25} {'loss': 2.257, 'grad_norm': 1.1416915655136108, 'learning_rate': 4.41365212892067e-06, 'epoch': 0.25} {'loss': 2.3626, 'grad_norm': 1.228311538696289, 'learning_rate': 4.413372570194698e-06, 'epoch': 0.25} {'loss': 2.141, 'grad_norm': 1.7493356466293335, 'learning_rate': 4.413092953698718e-06, 'epoch': 0.25} {'loss': 1.9612, 'grad_norm': 1.8018168210983276, 'learning_rate': 4.412813279441169e-06, 'epoch': 0.25} {'loss': 2.338, 'grad_norm': 1.1696953773498535, 'learning_rate': 4.4125335474305e-06, 'epoch': 0.25} {'loss': 2.0995, 'grad_norm': 1.3282105922698975, 'learning_rate': 4.412253757675152e-06, 'epoch': 0.25} {'loss': 2.4615, 'grad_norm': 1.65318763256073, 'learning_rate': 4.4119739101835765e-06, 'epoch': 0.25} {'loss': 2.2152, 'grad_norm': 1.3003625869750977, 'learning_rate': 4.411694004964221e-06, 'epoch': 0.25} {'loss': 2.2008, 'grad_norm': 1.2720067501068115, 'learning_rate': 4.411414042025537e-06, 'epoch': 0.25} {'loss': 2.4577, 'grad_norm': 1.4852077960968018, 'learning_rate': 4.411134021375978e-06, 'epoch': 0.25} {'loss': 2.3396, 'grad_norm': 1.2844146490097046, 'learning_rate': 4.410853943023996e-06, 'epoch': 0.25} {'loss': 2.2999, 'grad_norm': 1.377570629119873, 'learning_rate': 4.410573806978051e-06, 'epoch': 0.25} {'loss': 1.9186, 'grad_norm': 0.9887990951538086, 'learning_rate': 4.410293613246599e-06, 'epoch': 0.25} {'loss': 2.1994, 'grad_norm': 1.2459425926208496, 'learning_rate': 4.4100133618381e-06, 'epoch': 0.25} {'loss': 2.3733, 'grad_norm': 1.4360429048538208, 'learning_rate': 4.4097330527610146e-06, 'epoch': 0.25} {'loss': 2.3477, 'grad_norm': 1.3495270013809204, 'learning_rate': 4.409452686023809e-06, 'epoch': 0.25} {'loss': 2.384, 'grad_norm': 1.353315830230713, 'learning_rate': 4.409172261634945e-06, 'epoch': 0.25} {'loss': 2.3432, 'grad_norm': 1.401780366897583, 'learning_rate': 4.408891779602892e-06, 'epoch': 0.25} {'loss': 2.198, 'grad_norm': 2.026226282119751, 'learning_rate': 4.408611239936117e-06, 'epoch': 0.25} {'loss': 1.5518, 'grad_norm': 1.4425803422927856, 'learning_rate': 4.408330642643091e-06, 'epoch': 0.25} {'loss': 2.34, 'grad_norm': 1.5362894535064697, 'learning_rate': 4.4080499877322855e-06, 'epoch': 0.25} {'loss': 2.0786, 'grad_norm': 1.3754531145095825, 'learning_rate': 4.407769275212173e-06, 'epoch': 0.25} {'loss': 2.3881, 'grad_norm': 1.3047900199890137, 'learning_rate': 4.407488505091232e-06, 'epoch': 0.25} {'loss': 2.0419, 'grad_norm': 1.1291013956069946, 'learning_rate': 4.407207677377938e-06, 'epoch': 0.25} {'loss': 2.3093, 'grad_norm': 1.3228893280029297, 'learning_rate': 4.40692679208077e-06, 'epoch': 0.25} {'loss': 2.456, 'grad_norm': 1.3220711946487427, 'learning_rate': 4.406645849208208e-06, 'epoch': 0.25} {'loss': 2.0964, 'grad_norm': 1.175918698310852, 'learning_rate': 4.406364848768737e-06, 'epoch': 0.25} {'loss': 2.1899, 'grad_norm': 1.2820569276809692, 'learning_rate': 4.406083790770838e-06, 'epoch': 0.25} {'loss': 2.246, 'grad_norm': 1.3543072938919067, 'learning_rate': 4.405802675222999e-06, 'epoch': 0.25} {'loss': 2.2243, 'grad_norm': 1.2152683734893799, 'learning_rate': 4.405521502133706e-06, 'epoch': 0.25} {'loss': 2.1674, 'grad_norm': 1.4656566381454468, 'learning_rate': 4.40524027151145e-06, 'epoch': 0.25} {'loss': 1.9598, 'grad_norm': 2.225377082824707, 'learning_rate': 4.404958983364722e-06, 'epoch': 0.25} {'loss': 2.1319, 'grad_norm': 1.6383512020111084, 'learning_rate': 4.404677637702014e-06, 'epoch': 0.25} {'loss': 2.1963, 'grad_norm': 1.3523112535476685, 'learning_rate': 4.40439623453182e-06, 'epoch': 0.25} {'loss': 2.1036, 'grad_norm': 1.373656988143921, 'learning_rate': 4.404114773862639e-06, 'epoch': 0.25} {'loss': 1.8302, 'grad_norm': 1.0224401950836182, 'learning_rate': 4.403833255702966e-06, 'epoch': 0.25} {'loss': 2.4441, 'grad_norm': 1.3691993951797485, 'learning_rate': 4.403551680061303e-06, 'epoch': 0.25} {'loss': 2.362, 'grad_norm': 1.32490873336792, 'learning_rate': 4.403270046946151e-06, 'epoch': 0.25} {'loss': 1.9213, 'grad_norm': 1.4081957340240479, 'learning_rate': 4.402988356366013e-06, 'epoch': 0.25} {'loss': 2.3816, 'grad_norm': 1.402766466140747, 'learning_rate': 4.402706608329394e-06, 'epoch': 0.25} {'loss': 1.4311, 'grad_norm': 9.932598114013672, 'learning_rate': 4.4024248028448005e-06, 'epoch': 0.25} {'loss': 2.2296, 'grad_norm': 1.2272510528564453, 'learning_rate': 4.402142939920741e-06, 'epoch': 0.25} {'loss': 2.282, 'grad_norm': 1.2913213968276978, 'learning_rate': 4.401861019565726e-06, 'epoch': 0.25} {'loss': 2.2803, 'grad_norm': 1.4505927562713623, 'learning_rate': 4.401579041788268e-06, 'epoch': 0.25} {'loss': 2.2837, 'grad_norm': 1.4837590456008911, 'learning_rate': 4.4012970065968805e-06, 'epoch': 0.25} {'loss': 2.4499, 'grad_norm': 1.3483814001083374, 'learning_rate': 4.401014914000078e-06, 'epoch': 0.25} {'loss': 2.1507, 'grad_norm': 1.0692014694213867, 'learning_rate': 4.400732764006378e-06, 'epoch': 0.25} {'loss': 2.2928, 'grad_norm': 1.3181699514389038, 'learning_rate': 4.4004505566243e-06, 'epoch': 0.25} {'loss': 2.1778, 'grad_norm': 1.6523408889770508, 'learning_rate': 4.400168291862364e-06, 'epoch': 0.25} {'loss': 2.255, 'grad_norm': 1.372593641281128, 'learning_rate': 4.399885969729093e-06, 'epoch': 0.25} {'loss': 2.2627, 'grad_norm': 1.036649227142334, 'learning_rate': 4.39960359023301e-06, 'epoch': 0.25} {'loss': 1.6998, 'grad_norm': 1.2437238693237305, 'learning_rate': 4.399321153382643e-06, 'epoch': 0.25} {'loss': 2.3597, 'grad_norm': 1.4217860698699951, 'learning_rate': 4.399038659186517e-06, 'epoch': 0.25} {'loss': 2.2926, 'grad_norm': 1.2888492345809937, 'learning_rate': 4.398756107653163e-06, 'epoch': 0.25} {'loss': 2.4397, 'grad_norm': 1.3465036153793335, 'learning_rate': 4.398473498791111e-06, 'epoch': 0.25} {'loss': 2.1739, 'grad_norm': 1.8906538486480713, 'learning_rate': 4.398190832608893e-06, 'epoch': 0.25} {'loss': 2.2859, 'grad_norm': 1.3516991138458252, 'learning_rate': 4.397908109115045e-06, 'epoch': 0.25} {'loss': 2.3517, 'grad_norm': 1.7208471298217773, 'learning_rate': 4.397625328318104e-06, 'epoch': 0.25} {'loss': 2.3567, 'grad_norm': 1.1863105297088623, 'learning_rate': 4.397342490226606e-06, 'epoch': 0.25} {'loss': 1.8324, 'grad_norm': 1.0315488576889038, 'learning_rate': 4.397059594849092e-06, 'epoch': 0.25} {'loss': 2.0841, 'grad_norm': 4.127085208892822, 'learning_rate': 4.396776642194102e-06, 'epoch': 0.25} {'loss': 2.2888, 'grad_norm': 3.1701173782348633, 'learning_rate': 4.39649363227018e-06, 'epoch': 0.25} {'loss': 2.0649, 'grad_norm': 1.468549370765686, 'learning_rate': 4.39621056508587e-06, 'epoch': 0.25} {'loss': 2.2778, 'grad_norm': 1.358656883239746, 'learning_rate': 4.39592744064972e-06, 'epoch': 0.25} {'loss': 2.4162, 'grad_norm': 1.4928723573684692, 'learning_rate': 4.395644258970279e-06, 'epoch': 0.25} {'loss': 2.4959, 'grad_norm': 1.3940508365631104, 'learning_rate': 4.395361020056094e-06, 'epoch': 0.25} {'loss': 2.4055, 'grad_norm': 1.3029959201812744, 'learning_rate': 4.395077723915718e-06, 'epoch': 0.25} {'loss': 2.2629, 'grad_norm': 1.213126540184021, 'learning_rate': 4.394794370557706e-06, 'epoch': 0.25} {'loss': 2.4889, 'grad_norm': 1.28671395778656, 'learning_rate': 4.394510959990612e-06, 'epoch': 0.25} {'loss': 2.5089, 'grad_norm': 1.1249020099639893, 'learning_rate': 4.394227492222994e-06, 'epoch': 0.25} {'loss': 2.1537, 'grad_norm': 1.3175601959228516, 'learning_rate': 4.393943967263408e-06, 'epoch': 0.25} {'loss': 2.4132, 'grad_norm': 1.3439412117004395, 'learning_rate': 4.393660385120417e-06, 'epoch': 0.25} {'loss': 2.14, 'grad_norm': 1.2446285486221313, 'learning_rate': 4.393376745802582e-06, 'epoch': 0.25} {'loss': 2.5206, 'grad_norm': 1.2032802104949951, 'learning_rate': 4.3930930493184675e-06, 'epoch': 0.25} {'loss': 2.3303, 'grad_norm': 1.272829532623291, 'learning_rate': 4.392809295676639e-06, 'epoch': 0.25} {'loss': 2.2117, 'grad_norm': 5.965005397796631, 'learning_rate': 4.392525484885663e-06, 'epoch': 0.25} {'loss': 2.3229, 'grad_norm': 1.2145698070526123, 'learning_rate': 4.39224161695411e-06, 'epoch': 0.25} {'loss': 2.2984, 'grad_norm': 1.269827961921692, 'learning_rate': 4.39195769189055e-06, 'epoch': 0.25} {'loss': 2.0711, 'grad_norm': 1.3151859045028687, 'learning_rate': 4.391673709703553e-06, 'epoch': 0.25} {'loss': 2.3515, 'grad_norm': 1.1792100667953491, 'learning_rate': 4.391389670401698e-06, 'epoch': 0.25} {'loss': 2.0223, 'grad_norm': 1.3208152055740356, 'learning_rate': 4.391105573993557e-06, 'epoch': 0.25} {'loss': 2.1993, 'grad_norm': 1.4561305046081543, 'learning_rate': 4.3908214204877094e-06, 'epoch': 0.25} {'loss': 2.0056, 'grad_norm': 1.6801458597183228, 'learning_rate': 4.390537209892735e-06, 'epoch': 0.25} {'loss': 2.3001, 'grad_norm': 1.3332023620605469, 'learning_rate': 4.390252942217214e-06, 'epoch': 0.25} {'loss': 1.678, 'grad_norm': 1.06626558303833, 'learning_rate': 4.389968617469728e-06, 'epoch': 0.25} {'loss': 2.3139, 'grad_norm': 1.14922297000885, 'learning_rate': 4.389684235658866e-06, 'epoch': 0.25} {'loss': 2.3458, 'grad_norm': 1.2489769458770752, 'learning_rate': 4.389399796793209e-06, 'epoch': 0.25} {'loss': 2.273, 'grad_norm': 1.3004792928695679, 'learning_rate': 4.389115300881347e-06, 'epoch': 0.25} {'loss': 2.2974, 'grad_norm': 1.2159384489059448, 'learning_rate': 4.388830747931871e-06, 'epoch': 0.25} {'loss': 2.1989, 'grad_norm': 1.4995081424713135, 'learning_rate': 4.3885461379533715e-06, 'epoch': 0.25} {'loss': 2.2224, 'grad_norm': 1.3097503185272217, 'learning_rate': 4.388261470954441e-06, 'epoch': 0.25} {'loss': 1.6261, 'grad_norm': 1.3637512922286987, 'learning_rate': 4.3879767469436755e-06, 'epoch': 0.25} {'loss': 2.1897, 'grad_norm': 1.4383403062820435, 'learning_rate': 4.38769196592967e-06, 'epoch': 0.25} {'loss': 2.2836, 'grad_norm': 1.5342657566070557, 'learning_rate': 4.387407127921025e-06, 'epoch': 0.25} {'loss': 1.9238, 'grad_norm': 1.454198956489563, 'learning_rate': 4.387122232926338e-06, 'epoch': 0.25} {'loss': 2.0071, 'grad_norm': 1.2759591341018677, 'learning_rate': 4.386837280954214e-06, 'epoch': 0.25} {'loss': 2.5093, 'grad_norm': 1.6622095108032227, 'learning_rate': 4.386552272013254e-06, 'epoch': 0.25} {'loss': 2.4049, 'grad_norm': 1.4091709852218628, 'learning_rate': 4.386267206112064e-06, 'epoch': 0.25} {'loss': 2.2699, 'grad_norm': 1.3885761499404907, 'learning_rate': 4.38598208325925e-06, 'epoch': 0.25} {'loss': 1.9874, 'grad_norm': 1.3105758428573608, 'learning_rate': 4.385696903463422e-06, 'epoch': 0.25} {'loss': 2.2224, 'grad_norm': 1.6249362230300903, 'learning_rate': 4.38541166673319e-06, 'epoch': 0.25} {'loss': 2.2253, 'grad_norm': 1.2358310222625732, 'learning_rate': 4.385126373077167e-06, 'epoch': 0.25} {'loss': 1.2933, 'grad_norm': 1.5247166156768799, 'learning_rate': 4.384841022503964e-06, 'epoch': 0.25} {'loss': 2.2749, 'grad_norm': 1.4652175903320312, 'learning_rate': 4.384555615022199e-06, 'epoch': 0.25} {'loss': 2.1815, 'grad_norm': 1.1321232318878174, 'learning_rate': 4.384270150640488e-06, 'epoch': 0.25} {'loss': 2.2997, 'grad_norm': 1.2901922464370728, 'learning_rate': 4.383984629367451e-06, 'epoch': 0.25} {'loss': 2.2561, 'grad_norm': 1.2474418878555298, 'learning_rate': 4.383699051211708e-06, 'epoch': 0.25} {'loss': 2.5746, 'grad_norm': 1.359551191329956, 'learning_rate': 4.383413416181882e-06, 'epoch': 0.25} {'loss': 2.2727, 'grad_norm': 1.6498521566390991, 'learning_rate': 4.383127724286596e-06, 'epoch': 0.25} {'loss': 2.416, 'grad_norm': 1.4336018562316895, 'learning_rate': 4.382841975534476e-06, 'epoch': 0.25} {'loss': 1.9366, 'grad_norm': 1.3909361362457275, 'learning_rate': 4.382556169934151e-06, 'epoch': 0.25} {'loss': 2.0354, 'grad_norm': 1.1623016595840454, 'learning_rate': 4.382270307494249e-06, 'epoch': 0.25} {'loss': 2.1368, 'grad_norm': 1.2541495561599731, 'learning_rate': 4.381984388223402e-06, 'epoch': 0.25} {'loss': 1.7543, 'grad_norm': 1.213975429534912, 'learning_rate': 4.381698412130241e-06, 'epoch': 0.25} {'loss': 2.3144, 'grad_norm': 1.3815008401870728, 'learning_rate': 4.381412379223401e-06, 'epoch': 0.25} {'loss': 2.3306, 'grad_norm': 1.5426162481307983, 'learning_rate': 4.381126289511519e-06, 'epoch': 0.25} {'loss': 2.1037, 'grad_norm': 1.4915313720703125, 'learning_rate': 4.380840143003232e-06, 'epoch': 0.25} {'loss': 2.42, 'grad_norm': 1.4083093404769897, 'learning_rate': 4.380553939707181e-06, 'epoch': 0.25} {'loss': 2.1754, 'grad_norm': 1.288374423980713, 'learning_rate': 4.380267679632004e-06, 'epoch': 0.25} {'loss': 2.3276, 'grad_norm': 2.345243453979492, 'learning_rate': 4.379981362786348e-06, 'epoch': 0.25} {'loss': 2.1133, 'grad_norm': 1.269438624382019, 'learning_rate': 4.379694989178855e-06, 'epoch': 0.25} {'loss': 2.2667, 'grad_norm': 1.1539441347122192, 'learning_rate': 4.379408558818173e-06, 'epoch': 0.25} {'loss': 1.3903, 'grad_norm': 1.351917028427124, 'learning_rate': 4.379122071712949e-06, 'epoch': 0.25} {'loss': 2.6417, 'grad_norm': 1.2214667797088623, 'learning_rate': 4.3788355278718325e-06, 'epoch': 0.25} {'loss': 2.4021, 'grad_norm': 1.4418749809265137, 'learning_rate': 4.3785489273034765e-06, 'epoch': 0.25} {'loss': 2.2285, 'grad_norm': 1.436390995979309, 'learning_rate': 4.378262270016533e-06, 'epoch': 0.25} {'loss': 2.1544, 'grad_norm': 1.3132411241531372, 'learning_rate': 4.377975556019658e-06, 'epoch': 0.25} {'loss': 2.1527, 'grad_norm': 1.0356918573379517, 'learning_rate': 4.377688785321507e-06, 'epoch': 0.25} {'loss': 2.1745, 'grad_norm': 1.6169227361679077, 'learning_rate': 4.37740195793074e-06, 'epoch': 0.25} {'loss': 1.9766, 'grad_norm': 1.1928679943084717, 'learning_rate': 4.377115073856016e-06, 'epoch': 0.25} {'loss': 2.0901, 'grad_norm': 1.1258528232574463, 'learning_rate': 4.376828133105996e-06, 'epoch': 0.25} {'loss': 2.1961, 'grad_norm': 1.106016993522644, 'learning_rate': 4.376541135689345e-06, 'epoch': 0.25} {'loss': 1.7107, 'grad_norm': 2.232729434967041, 'learning_rate': 4.376254081614728e-06, 'epoch': 0.25} {'loss': 2.4819, 'grad_norm': 1.2458021640777588, 'learning_rate': 4.375966970890812e-06, 'epoch': 0.25} {'loss': 1.9711, 'grad_norm': 1.1124881505966187, 'learning_rate': 4.375679803526266e-06, 'epoch': 0.25} {'loss': 2.2706, 'grad_norm': 1.2916507720947266, 'learning_rate': 4.375392579529759e-06, 'epoch': 0.25} {'loss': 2.0921, 'grad_norm': 1.2368227243423462, 'learning_rate': 4.375105298909963e-06, 'epoch': 0.25} {'loss': 2.3576, 'grad_norm': 1.4035682678222656, 'learning_rate': 4.374817961675554e-06, 'epoch': 0.25} {'loss': 2.3354, 'grad_norm': 1.6265597343444824, 'learning_rate': 4.374530567835206e-06, 'epoch': 0.25} {'loss': 2.0817, 'grad_norm': 1.3577080965042114, 'learning_rate': 4.3742431173975956e-06, 'epoch': 0.25} {'loss': 2.4497, 'grad_norm': 1.3620152473449707, 'learning_rate': 4.373955610371403e-06, 'epoch': 0.25} {'loss': 1.8957, 'grad_norm': 1.1478400230407715, 'learning_rate': 4.373668046765308e-06, 'epoch': 0.25} {'loss': 2.0451, 'grad_norm': 1.1924848556518555, 'learning_rate': 4.3733804265879945e-06, 'epoch': 0.25} {'loss': 1.9761, 'grad_norm': 1.3766313791275024, 'learning_rate': 4.373092749848145e-06, 'epoch': 0.25} {'loss': 2.2394, 'grad_norm': 1.173679232597351, 'learning_rate': 4.372805016554444e-06, 'epoch': 0.25} {'loss': 2.5217, 'grad_norm': 1.3310160636901855, 'learning_rate': 4.372517226715582e-06, 'epoch': 0.25} {'loss': 1.9712, 'grad_norm': 1.086255669593811, 'learning_rate': 4.372229380340247e-06, 'epoch': 0.25} {'loss': 2.5924, 'grad_norm': 1.2872341871261597, 'learning_rate': 4.371941477437128e-06, 'epoch': 0.25} {'loss': 2.1307, 'grad_norm': 1.2670516967773438, 'learning_rate': 4.3716535180149215e-06, 'epoch': 0.25} {'loss': 2.2837, 'grad_norm': 1.1846305131912231, 'learning_rate': 4.371365502082318e-06, 'epoch': 0.25} {'loss': 1.8231, 'grad_norm': 1.1272854804992676, 'learning_rate': 4.371077429648015e-06, 'epoch': 0.25} {'loss': 2.1641, 'grad_norm': 1.2442699670791626, 'learning_rate': 4.37078930072071e-06, 'epoch': 0.25} {'loss': 2.1756, 'grad_norm': 1.3901772499084473, 'learning_rate': 4.370501115309103e-06, 'epoch': 0.25} {'loss': 2.2055, 'grad_norm': 1.3693444728851318, 'learning_rate': 4.370212873421895e-06, 'epoch': 0.25} {'loss': 2.0782, 'grad_norm': 1.129073143005371, 'learning_rate': 4.369924575067788e-06, 'epoch': 0.25} {'loss': 2.2177, 'grad_norm': 1.4586212635040283, 'learning_rate': 4.369636220255487e-06, 'epoch': 0.25} {'loss': 2.2529, 'grad_norm': 1.190265417098999, 'learning_rate': 4.369347808993699e-06, 'epoch': 0.25} {'loss': 2.2911, 'grad_norm': 1.3085672855377197, 'learning_rate': 4.369059341291131e-06, 'epoch': 0.25} {'loss': 2.42, 'grad_norm': 1.2679541110992432, 'learning_rate': 4.368770817156493e-06, 'epoch': 0.25} {'loss': 2.1182, 'grad_norm': 1.1705948114395142, 'learning_rate': 4.368482236598495e-06, 'epoch': 0.25} {'loss': 2.3419, 'grad_norm': 1.5130914449691772, 'learning_rate': 4.3681935996258524e-06, 'epoch': 0.25} {'loss': 2.3169, 'grad_norm': 1.3825738430023193, 'learning_rate': 4.3679049062472785e-06, 'epoch': 0.25} {'loss': 2.2963, 'grad_norm': 1.3916094303131104, 'learning_rate': 4.36761615647149e-06, 'epoch': 0.25} {'loss': 2.3649, 'grad_norm': 1.3945997953414917, 'learning_rate': 4.367327350307205e-06, 'epoch': 0.26} {'loss': 2.2635, 'grad_norm': 1.6407297849655151, 'learning_rate': 4.367038487763143e-06, 'epoch': 0.26} {'loss': 2.1939, 'grad_norm': 1.2859954833984375, 'learning_rate': 4.366749568848027e-06, 'epoch': 0.26} {'loss': 2.2253, 'grad_norm': 1.234242558479309, 'learning_rate': 4.366460593570579e-06, 'epoch': 0.26} {'loss': 2.3194, 'grad_norm': 1.9538100957870483, 'learning_rate': 4.366171561939524e-06, 'epoch': 0.26} {'loss': 2.5109, 'grad_norm': 1.3371589183807373, 'learning_rate': 4.365882473963588e-06, 'epoch': 0.26} {'loss': 2.4364, 'grad_norm': 1.3439959287643433, 'learning_rate': 4.365593329651502e-06, 'epoch': 0.26} {'loss': 2.3144, 'grad_norm': 3.110311985015869, 'learning_rate': 4.3653041290119936e-06, 'epoch': 0.26} {'loss': 2.2498, 'grad_norm': 1.2985212802886963, 'learning_rate': 4.365014872053795e-06, 'epoch': 0.26} {'loss': 2.2981, 'grad_norm': 1.2323898077011108, 'learning_rate': 4.3647255587856405e-06, 'epoch': 0.26} {'loss': 2.3934, 'grad_norm': 3.187609910964966, 'learning_rate': 4.364436189216264e-06, 'epoch': 0.26} {'loss': 2.1343, 'grad_norm': 1.452471375465393, 'learning_rate': 4.364146763354404e-06, 'epoch': 0.26} {'loss': 2.2963, 'grad_norm': 1.3680399656295776, 'learning_rate': 4.363857281208797e-06, 'epoch': 0.26} {'loss': 2.3311, 'grad_norm': 1.295642375946045, 'learning_rate': 4.363567742788186e-06, 'epoch': 0.26} {'loss': 2.284, 'grad_norm': 1.542189359664917, 'learning_rate': 4.363278148101311e-06, 'epoch': 0.26} {'loss': 2.2288, 'grad_norm': 1.2334336042404175, 'learning_rate': 4.362988497156915e-06, 'epoch': 0.26} {'loss': 2.2876, 'grad_norm': 1.2505131959915161, 'learning_rate': 4.362698789963745e-06, 'epoch': 0.26} {'loss': 2.1297, 'grad_norm': 1.258476972579956, 'learning_rate': 4.362409026530548e-06, 'epoch': 0.26} {'loss': 2.157, 'grad_norm': 1.3791723251342773, 'learning_rate': 4.362119206866071e-06, 'epoch': 0.26} {'loss': 2.3408, 'grad_norm': 1.2837340831756592, 'learning_rate': 4.361829330979067e-06, 'epoch': 0.26} {'loss': 2.3955, 'grad_norm': 1.2569209337234497, 'learning_rate': 4.361539398878286e-06, 'epoch': 0.26} {'loss': 2.1031, 'grad_norm': 1.3036630153656006, 'learning_rate': 4.3612494105724835e-06, 'epoch': 0.26} {'loss': 2.4999, 'grad_norm': 1.3954561948776245, 'learning_rate': 4.360959366070414e-06, 'epoch': 0.26} {'loss': 2.2499, 'grad_norm': 1.5732146501541138, 'learning_rate': 4.360669265380835e-06, 'epoch': 0.26} {'loss': 2.2825, 'grad_norm': 1.2605928182601929, 'learning_rate': 4.360379108512505e-06, 'epoch': 0.26} {'loss': 2.0969, 'grad_norm': 1.430039644241333, 'learning_rate': 4.360088895474185e-06, 'epoch': 0.26} {'loss': 2.4221, 'grad_norm': 1.4888466596603394, 'learning_rate': 4.359798626274639e-06, 'epoch': 0.26} {'loss': 2.3994, 'grad_norm': 1.2765727043151855, 'learning_rate': 4.359508300922628e-06, 'epoch': 0.26} {'loss': 2.3335, 'grad_norm': 1.730627179145813, 'learning_rate': 4.359217919426919e-06, 'epoch': 0.26} {'loss': 2.335, 'grad_norm': 1.6021413803100586, 'learning_rate': 4.35892748179628e-06, 'epoch': 0.26} {'loss': 2.2119, 'grad_norm': 2.3130877017974854, 'learning_rate': 4.358636988039479e-06, 'epoch': 0.26} {'loss': 2.171, 'grad_norm': 1.1009377241134644, 'learning_rate': 4.358346438165289e-06, 'epoch': 0.26} {'loss': 2.4706, 'grad_norm': 1.1690815687179565, 'learning_rate': 4.358055832182479e-06, 'epoch': 0.26} {'loss': 2.5165, 'grad_norm': 1.5092735290527344, 'learning_rate': 4.357765170099828e-06, 'epoch': 0.26} {'loss': 2.153, 'grad_norm': 1.144112467765808, 'learning_rate': 4.357474451926107e-06, 'epoch': 0.26} {'loss': 2.1146, 'grad_norm': 1.3317633867263794, 'learning_rate': 4.357183677670097e-06, 'epoch': 0.26} {'loss': 2.5807, 'grad_norm': 1.3423964977264404, 'learning_rate': 4.356892847340575e-06, 'epoch': 0.26} {'loss': 2.4304, 'grad_norm': 1.280236840248108, 'learning_rate': 4.356601960946322e-06, 'epoch': 0.26} {'loss': 2.2148, 'grad_norm': 1.5411491394042969, 'learning_rate': 4.356311018496124e-06, 'epoch': 0.26} {'loss': 2.3774, 'grad_norm': 1.3796104192733765, 'learning_rate': 4.356020019998761e-06, 'epoch': 0.26} {'loss': 2.5229, 'grad_norm': 1.3540996313095093, 'learning_rate': 4.355728965463023e-06, 'epoch': 0.26} {'loss': 2.2571, 'grad_norm': 2.3865864276885986, 'learning_rate': 4.355437854897694e-06, 'epoch': 0.26} {'loss': 2.2241, 'grad_norm': 1.2192660570144653, 'learning_rate': 4.355146688311566e-06, 'epoch': 0.26} {'loss': 2.2832, 'grad_norm': 1.3640340566635132, 'learning_rate': 4.354855465713429e-06, 'epoch': 0.26} {'loss': 2.3925, 'grad_norm': 1.5324517488479614, 'learning_rate': 4.3545641871120764e-06, 'epoch': 0.26} {'loss': 2.4024, 'grad_norm': 1.3580207824707031, 'learning_rate': 4.354272852516302e-06, 'epoch': 0.26} {'loss': 2.2451, 'grad_norm': 1.262824296951294, 'learning_rate': 4.353981461934903e-06, 'epoch': 0.26} {'loss': 2.2809, 'grad_norm': 22.03597640991211, 'learning_rate': 4.353690015376677e-06, 'epoch': 0.26} {'loss': 2.2963, 'grad_norm': 1.4872517585754395, 'learning_rate': 4.353398512850422e-06, 'epoch': 0.26} {'loss': 2.1917, 'grad_norm': 1.7533700466156006, 'learning_rate': 4.353106954364942e-06, 'epoch': 0.26} {'loss': 1.9893, 'grad_norm': 1.1470719575881958, 'learning_rate': 4.3528153399290375e-06, 'epoch': 0.26} {'loss': 1.6331, 'grad_norm': 1.649128794670105, 'learning_rate': 4.352523669551515e-06, 'epoch': 0.26} {'loss': 2.1409, 'grad_norm': 1.27980375289917, 'learning_rate': 4.352231943241179e-06, 'epoch': 0.26} {'loss': 2.5873, 'grad_norm': 1.337688684463501, 'learning_rate': 4.35194016100684e-06, 'epoch': 0.26} {'loss': 2.2802, 'grad_norm': 1.3720512390136719, 'learning_rate': 4.351648322857305e-06, 'epoch': 0.26} {'loss': 2.3616, 'grad_norm': 2.1326920986175537, 'learning_rate': 4.351356428801387e-06, 'epoch': 0.26} {'loss': 1.5801, 'grad_norm': 1.1424493789672852, 'learning_rate': 4.3510644788478984e-06, 'epoch': 0.26} {'loss': 2.1498, 'grad_norm': 1.3555235862731934, 'learning_rate': 4.350772473005655e-06, 'epoch': 0.26} {'loss': 1.809, 'grad_norm': 1.408324122428894, 'learning_rate': 4.350480411283472e-06, 'epoch': 0.26} {'loss': 2.0249, 'grad_norm': 1.331098198890686, 'learning_rate': 4.3501882936901684e-06, 'epoch': 0.26} {'loss': 2.2023, 'grad_norm': 1.2944880723953247, 'learning_rate': 4.349896120234564e-06, 'epoch': 0.26} {'loss': 2.4232, 'grad_norm': 1.7539501190185547, 'learning_rate': 4.349603890925479e-06, 'epoch': 0.26} {'loss': 2.289, 'grad_norm': 1.835427165031433, 'learning_rate': 4.349311605771739e-06, 'epoch': 0.26} {'loss': 2.138, 'grad_norm': 1.4379550218582153, 'learning_rate': 4.349019264782167e-06, 'epoch': 0.26} {'loss': 2.4098, 'grad_norm': 1.2745985984802246, 'learning_rate': 4.348726867965591e-06, 'epoch': 0.26} {'loss': 2.3017, 'grad_norm': 1.4098281860351562, 'learning_rate': 4.348434415330838e-06, 'epoch': 0.26} {'loss': 2.3425, 'grad_norm': 2.8383677005767822, 'learning_rate': 4.348141906886738e-06, 'epoch': 0.26} {'loss': 2.2059, 'grad_norm': 1.1675755977630615, 'learning_rate': 4.347849342642123e-06, 'epoch': 0.26} {'loss': 2.3554, 'grad_norm': 1.7232476472854614, 'learning_rate': 4.347556722605827e-06, 'epoch': 0.26} {'loss': 2.3196, 'grad_norm': 1.950708031654358, 'learning_rate': 4.347264046786684e-06, 'epoch': 0.26} {'loss': 2.3636, 'grad_norm': 1.338625431060791, 'learning_rate': 4.34697131519353e-06, 'epoch': 0.26} {'loss': 2.2867, 'grad_norm': 1.305640459060669, 'learning_rate': 4.346678527835207e-06, 'epoch': 0.26} {'loss': 2.3148, 'grad_norm': 1.4617409706115723, 'learning_rate': 4.3463856847205495e-06, 'epoch': 0.26} {'loss': 2.2579, 'grad_norm': 1.5991469621658325, 'learning_rate': 4.3460927858584045e-06, 'epoch': 0.26} {'loss': 2.3459, 'grad_norm': 1.3048694133758545, 'learning_rate': 4.345799831257612e-06, 'epoch': 0.26} {'loss': 1.4534, 'grad_norm': 1.165088176727295, 'learning_rate': 4.345506820927019e-06, 'epoch': 0.26} {'loss': 2.0545, 'grad_norm': 1.4183557033538818, 'learning_rate': 4.345213754875471e-06, 'epoch': 0.26} {'loss': 2.364, 'grad_norm': 1.3080843687057495, 'learning_rate': 4.344920633111818e-06, 'epoch': 0.26} {'loss': 2.2423, 'grad_norm': 1.7696107625961304, 'learning_rate': 4.344627455644908e-06, 'epoch': 0.26} {'loss': 2.3407, 'grad_norm': 1.2515175342559814, 'learning_rate': 4.344334222483595e-06, 'epoch': 0.26} {'loss': 2.3535, 'grad_norm': 1.464719533920288, 'learning_rate': 4.34404093363673e-06, 'epoch': 0.26} {'loss': 2.1454, 'grad_norm': 1.2068192958831787, 'learning_rate': 4.343747589113171e-06, 'epoch': 0.26} {'loss': 2.3287, 'grad_norm': 1.422254204750061, 'learning_rate': 4.343454188921774e-06, 'epoch': 0.26} {'loss': 2.1164, 'grad_norm': 1.320586085319519, 'learning_rate': 4.343160733071396e-06, 'epoch': 0.26} {'loss': 2.3546, 'grad_norm': 1.4359910488128662, 'learning_rate': 4.3428672215709e-06, 'epoch': 0.26} {'loss': 2.0381, 'grad_norm': 1.2519913911819458, 'learning_rate': 4.342573654429146e-06, 'epoch': 0.26} {'loss': 2.4307, 'grad_norm': 1.3789550065994263, 'learning_rate': 4.342280031654997e-06, 'epoch': 0.26} {'loss': 2.176, 'grad_norm': 1.4557098150253296, 'learning_rate': 4.34198635325732e-06, 'epoch': 0.26} {'loss': 2.3798, 'grad_norm': 1.2449498176574707, 'learning_rate': 4.341692619244981e-06, 'epoch': 0.26} {'loss': 2.2467, 'grad_norm': 1.8051986694335938, 'learning_rate': 4.34139882962685e-06, 'epoch': 0.26} {'loss': 2.2439, 'grad_norm': 1.278777003288269, 'learning_rate': 4.3411049844117945e-06, 'epoch': 0.26} {'loss': 2.0835, 'grad_norm': 1.264844536781311, 'learning_rate': 4.3408110836086886e-06, 'epoch': 0.26} {'loss': 2.4834, 'grad_norm': 1.421617031097412, 'learning_rate': 4.340517127226405e-06, 'epoch': 0.26} {'loss': 2.1221, 'grad_norm': 1.0610733032226562, 'learning_rate': 4.340223115273822e-06, 'epoch': 0.26} {'loss': 2.3249, 'grad_norm': 1.3463908433914185, 'learning_rate': 4.339929047759812e-06, 'epoch': 0.26} {'loss': 2.2485, 'grad_norm': 1.3777925968170166, 'learning_rate': 4.339634924693257e-06, 'epoch': 0.26} {'loss': 2.0172, 'grad_norm': 2.166346549987793, 'learning_rate': 4.339340746083036e-06, 'epoch': 0.26} {'loss': 2.2608, 'grad_norm': 1.351366639137268, 'learning_rate': 4.339046511938031e-06, 'epoch': 0.26} {'loss': 2.2863, 'grad_norm': 1.4497090578079224, 'learning_rate': 4.338752222267127e-06, 'epoch': 0.26} {'loss': 2.1968, 'grad_norm': 1.5247631072998047, 'learning_rate': 4.338457877079208e-06, 'epoch': 0.26} {'loss': 2.1077, 'grad_norm': 1.801844835281372, 'learning_rate': 4.3381634763831624e-06, 'epoch': 0.26} {'loss': 2.2419, 'grad_norm': 5.149079322814941, 'learning_rate': 4.337869020187877e-06, 'epoch': 0.26} {'loss': 1.6337, 'grad_norm': 1.2535032033920288, 'learning_rate': 4.337574508502245e-06, 'epoch': 0.26} {'loss': 2.0453, 'grad_norm': 1.5266965627670288, 'learning_rate': 4.337279941335156e-06, 'epoch': 0.26} {'loss': 2.503, 'grad_norm': 1.3953857421875, 'learning_rate': 4.336985318695505e-06, 'epoch': 0.26} {'loss': 2.1028, 'grad_norm': 1.5420866012573242, 'learning_rate': 4.336690640592187e-06, 'epoch': 0.26} {'loss': 2.2399, 'grad_norm': 1.4026782512664795, 'learning_rate': 4.3363959070341e-06, 'epoch': 0.26} {'loss': 2.5274, 'grad_norm': 1.2996913194656372, 'learning_rate': 4.336101118030142e-06, 'epoch': 0.26} {'loss': 2.3678, 'grad_norm': 1.4705771207809448, 'learning_rate': 4.335806273589214e-06, 'epoch': 0.26} {'loss': 2.1542, 'grad_norm': 1.2812087535858154, 'learning_rate': 4.3355113737202185e-06, 'epoch': 0.26} {'loss': 2.281, 'grad_norm': 1.1715989112854004, 'learning_rate': 4.335216418432058e-06, 'epoch': 0.26} {'loss': 2.4147, 'grad_norm': 1.594001054763794, 'learning_rate': 4.334921407733638e-06, 'epoch': 0.26} {'loss': 2.2587, 'grad_norm': 1.1099270582199097, 'learning_rate': 4.3346263416338675e-06, 'epoch': 0.26} {'loss': 2.3601, 'grad_norm': 1.278590440750122, 'learning_rate': 4.334331220141654e-06, 'epoch': 0.26} {'loss': 2.2898, 'grad_norm': 1.6035581827163696, 'learning_rate': 4.334036043265909e-06, 'epoch': 0.26} {'loss': 1.9059, 'grad_norm': 1.3233224153518677, 'learning_rate': 4.3337408110155435e-06, 'epoch': 0.26} {'loss': 2.0881, 'grad_norm': 1.1429449319839478, 'learning_rate': 4.333445523399472e-06, 'epoch': 0.26} {'loss': 2.4109, 'grad_norm': 1.2607967853546143, 'learning_rate': 4.33315018042661e-06, 'epoch': 0.26} {'loss': 2.3343, 'grad_norm': 1.6226083040237427, 'learning_rate': 4.332854782105875e-06, 'epoch': 0.26} {'loss': 2.1567, 'grad_norm': 1.4444100856781006, 'learning_rate': 4.332559328446185e-06, 'epoch': 0.26} {'loss': 2.2296, 'grad_norm': 1.2583414316177368, 'learning_rate': 4.332263819456461e-06, 'epoch': 0.26} {'loss': 2.4243, 'grad_norm': 1.3421982526779175, 'learning_rate': 4.331968255145627e-06, 'epoch': 0.26} {'loss': 2.3544, 'grad_norm': 1.3730186223983765, 'learning_rate': 4.3316726355226036e-06, 'epoch': 0.26} {'loss': 1.9948, 'grad_norm': 1.0839687585830688, 'learning_rate': 4.331376960596319e-06, 'epoch': 0.26} {'loss': 1.2112, 'grad_norm': 1.4229644536972046, 'learning_rate': 4.3310812303756996e-06, 'epoch': 0.26} {'loss': 2.2117, 'grad_norm': 1.0040287971496582, 'learning_rate': 4.330785444869674e-06, 'epoch': 0.26} {'loss': 2.3371, 'grad_norm': 1.7786331176757812, 'learning_rate': 4.330489604087173e-06, 'epoch': 0.26} {'loss': 2.3051, 'grad_norm': 1.5912742614746094, 'learning_rate': 4.330193708037129e-06, 'epoch': 0.26} {'loss': 2.3297, 'grad_norm': 1.294698715209961, 'learning_rate': 4.329897756728475e-06, 'epoch': 0.26} {'loss': 2.2171, 'grad_norm': 1.3701165914535522, 'learning_rate': 4.329601750170148e-06, 'epoch': 0.26} {'loss': 2.3853, 'grad_norm': 1.3847661018371582, 'learning_rate': 4.329305688371085e-06, 'epoch': 0.26} {'loss': 2.1656, 'grad_norm': 1.2282342910766602, 'learning_rate': 4.329009571340225e-06, 'epoch': 0.26} {'loss': 2.4815, 'grad_norm': 1.2801765203475952, 'learning_rate': 4.328713399086507e-06, 'epoch': 0.26} {'loss': 2.1133, 'grad_norm': 1.4987655878067017, 'learning_rate': 4.328417171618875e-06, 'epoch': 0.26} {'loss': 2.3888, 'grad_norm': 1.4141063690185547, 'learning_rate': 4.328120888946272e-06, 'epoch': 0.26} {'loss': 2.2234, 'grad_norm': 1.2283570766448975, 'learning_rate': 4.327824551077644e-06, 'epoch': 0.26} {'loss': 2.2786, 'grad_norm': 1.3510206937789917, 'learning_rate': 4.3275281580219385e-06, 'epoch': 0.26} {'loss': 2.3512, 'grad_norm': 1.5663013458251953, 'learning_rate': 4.327231709788104e-06, 'epoch': 0.26} {'loss': 2.3295, 'grad_norm': 1.3485668897628784, 'learning_rate': 4.326935206385091e-06, 'epoch': 0.26} {'loss': 2.3525, 'grad_norm': 1.4898134469985962, 'learning_rate': 4.326638647821853e-06, 'epoch': 0.26} {'loss': 2.4056, 'grad_norm': 1.3081623315811157, 'learning_rate': 4.326342034107341e-06, 'epoch': 0.26} {'loss': 2.2507, 'grad_norm': 1.5296578407287598, 'learning_rate': 4.326045365250514e-06, 'epoch': 0.26} {'loss': 2.49, 'grad_norm': 1.4058868885040283, 'learning_rate': 4.325748641260327e-06, 'epoch': 0.26} {'loss': 2.3249, 'grad_norm': 1.4289765357971191, 'learning_rate': 4.32545186214574e-06, 'epoch': 0.26} {'loss': 2.356, 'grad_norm': 1.4563928842544556, 'learning_rate': 4.325155027915713e-06, 'epoch': 0.26} {'loss': 2.1805, 'grad_norm': 1.817145824432373, 'learning_rate': 4.324858138579209e-06, 'epoch': 0.26} {'loss': 2.155, 'grad_norm': 1.4374120235443115, 'learning_rate': 4.324561194145191e-06, 'epoch': 0.26} {'loss': 2.2936, 'grad_norm': 1.4012548923492432, 'learning_rate': 4.324264194622625e-06, 'epoch': 0.26} {'loss': 2.1496, 'grad_norm': 1.2875539064407349, 'learning_rate': 4.323967140020479e-06, 'epoch': 0.26} {'loss': 2.4174, 'grad_norm': 1.320745825767517, 'learning_rate': 4.3236700303477194e-06, 'epoch': 0.26} {'loss': 2.3793, 'grad_norm': 1.3613402843475342, 'learning_rate': 4.32337286561332e-06, 'epoch': 0.26} {'loss': 2.2341, 'grad_norm': 1.2410712242126465, 'learning_rate': 4.323075645826251e-06, 'epoch': 0.26} {'loss': 1.4241, 'grad_norm': 1.3350324630737305, 'learning_rate': 4.322778370995486e-06, 'epoch': 0.26} {'loss': 2.1927, 'grad_norm': 1.5607573986053467, 'learning_rate': 4.3224810411300025e-06, 'epoch': 0.26} {'loss': 2.2543, 'grad_norm': 1.2957297563552856, 'learning_rate': 4.322183656238776e-06, 'epoch': 0.26} {'loss': 2.3117, 'grad_norm': 1.5021214485168457, 'learning_rate': 4.321886216330786e-06, 'epoch': 0.26} {'loss': 2.6166, 'grad_norm': 1.5452467203140259, 'learning_rate': 4.3215887214150134e-06, 'epoch': 0.26} {'loss': 2.2833, 'grad_norm': 1.277463436126709, 'learning_rate': 4.321291171500439e-06, 'epoch': 0.26} {'loss': 2.0734, 'grad_norm': 1.3175767660140991, 'learning_rate': 4.320993566596048e-06, 'epoch': 0.26} {'loss': 2.3244, 'grad_norm': 2.131577253341675, 'learning_rate': 4.320695906710826e-06, 'epoch': 0.26} {'loss': 2.1019, 'grad_norm': 1.467145323753357, 'learning_rate': 4.320398191853759e-06, 'epoch': 0.26} {'loss': 2.2832, 'grad_norm': 1.3435848951339722, 'learning_rate': 4.320100422033837e-06, 'epoch': 0.26} {'loss': 2.3017, 'grad_norm': 1.356048822402954, 'learning_rate': 4.31980259726005e-06, 'epoch': 0.26} {'loss': 2.4564, 'grad_norm': 1.2676447629928589, 'learning_rate': 4.3195047175413895e-06, 'epoch': 0.26} {'loss': 2.3608, 'grad_norm': 1.3053126335144043, 'learning_rate': 4.319206782886851e-06, 'epoch': 0.26} {'loss': 2.4616, 'grad_norm': 1.6386467218399048, 'learning_rate': 4.318908793305428e-06, 'epoch': 0.26} {'loss': 2.053, 'grad_norm': 1.3883670568466187, 'learning_rate': 4.318610748806119e-06, 'epoch': 0.26} {'loss': 2.2877, 'grad_norm': 1.5829551219940186, 'learning_rate': 4.318312649397922e-06, 'epoch': 0.26} {'loss': 2.2338, 'grad_norm': 1.3653408288955688, 'learning_rate': 4.318014495089839e-06, 'epoch': 0.26} {'loss': 2.332, 'grad_norm': 1.5707958936691284, 'learning_rate': 4.317716285890869e-06, 'epoch': 0.26} {'loss': 2.1324, 'grad_norm': 1.2048958539962769, 'learning_rate': 4.317418021810019e-06, 'epoch': 0.26} {'loss': 2.1641, 'grad_norm': 1.7018972635269165, 'learning_rate': 4.317119702856293e-06, 'epoch': 0.26} {'loss': 2.3762, 'grad_norm': 1.3550385236740112, 'learning_rate': 4.316821329038698e-06, 'epoch': 0.26} {'loss': 2.4016, 'grad_norm': 6.832102298736572, 'learning_rate': 4.316522900366243e-06, 'epoch': 0.26} {'loss': 2.1816, 'grad_norm': 1.1516891717910767, 'learning_rate': 4.316224416847939e-06, 'epoch': 0.26} {'loss': 2.2748, 'grad_norm': 1.2342513799667358, 'learning_rate': 4.315925878492797e-06, 'epoch': 0.26} {'loss': 2.4396, 'grad_norm': 1.268660545349121, 'learning_rate': 4.31562728530983e-06, 'epoch': 0.26} {'loss': 2.5176, 'grad_norm': 1.3737273216247559, 'learning_rate': 4.315328637308055e-06, 'epoch': 0.26} {'loss': 2.2788, 'grad_norm': 1.526369571685791, 'learning_rate': 4.315029934496489e-06, 'epoch': 0.26} {'loss': 2.4294, 'grad_norm': 1.3185139894485474, 'learning_rate': 4.314731176884149e-06, 'epoch': 0.26} {'loss': 2.1363, 'grad_norm': 1.7181143760681152, 'learning_rate': 4.314432364480057e-06, 'epoch': 0.26} {'loss': 2.2663, 'grad_norm': 1.3996254205703735, 'learning_rate': 4.314133497293233e-06, 'epoch': 0.26} {'loss': 2.2088, 'grad_norm': 1.4128931760787964, 'learning_rate': 4.313834575332703e-06, 'epoch': 0.26} {'loss': 2.4011, 'grad_norm': 1.2946629524230957, 'learning_rate': 4.313535598607492e-06, 'epoch': 0.26} {'loss': 2.2391, 'grad_norm': 1.3024029731750488, 'learning_rate': 4.313236567126626e-06, 'epoch': 0.26} {'loss': 2.283, 'grad_norm': 1.2250474691390991, 'learning_rate': 4.312937480899133e-06, 'epoch': 0.26} {'loss': 2.406, 'grad_norm': 1.2232544422149658, 'learning_rate': 4.312638339934045e-06, 'epoch': 0.27} {'loss': 1.367, 'grad_norm': 2.940908908843994, 'learning_rate': 4.312339144240392e-06, 'epoch': 0.27} {'loss': 2.2589, 'grad_norm': 1.3842527866363525, 'learning_rate': 4.312039893827209e-06, 'epoch': 0.27} {'loss': 2.261, 'grad_norm': 1.2307825088500977, 'learning_rate': 4.31174058870353e-06, 'epoch': 0.27} {'loss': 2.5203, 'grad_norm': 1.4354695081710815, 'learning_rate': 4.3114412288783935e-06, 'epoch': 0.27} {'loss': 2.1669, 'grad_norm': 1.2472885847091675, 'learning_rate': 4.311141814360836e-06, 'epoch': 0.27} {'loss': 2.2223, 'grad_norm': 1.2918510437011719, 'learning_rate': 4.310842345159899e-06, 'epoch': 0.27} {'loss': 2.3968, 'grad_norm': 1.1528593301773071, 'learning_rate': 4.310542821284625e-06, 'epoch': 0.27} {'loss': 2.4933, 'grad_norm': 1.2348899841308594, 'learning_rate': 4.310243242744055e-06, 'epoch': 0.27} {'loss': 2.1121, 'grad_norm': 1.3857501745224, 'learning_rate': 4.309943609547236e-06, 'epoch': 0.27} {'loss': 2.1693, 'grad_norm': 1.2734688520431519, 'learning_rate': 4.309643921703214e-06, 'epoch': 0.27} {'loss': 2.3264, 'grad_norm': 1.5599111318588257, 'learning_rate': 4.309344179221038e-06, 'epoch': 0.27} {'loss': 2.2652, 'grad_norm': 1.0367002487182617, 'learning_rate': 4.309044382109757e-06, 'epoch': 0.27} {'loss': 2.4025, 'grad_norm': 1.4513957500457764, 'learning_rate': 4.308744530378425e-06, 'epoch': 0.27} {'loss': 2.2069, 'grad_norm': 1.3689954280853271, 'learning_rate': 4.308444624036092e-06, 'epoch': 0.27} {'loss': 2.1249, 'grad_norm': 1.2546120882034302, 'learning_rate': 4.308144663091816e-06, 'epoch': 0.27} {'loss': 2.3476, 'grad_norm': 1.6062411069869995, 'learning_rate': 4.307844647554652e-06, 'epoch': 0.27} {'loss': 2.3796, 'grad_norm': 1.5228404998779297, 'learning_rate': 4.30754457743366e-06, 'epoch': 0.27} {'loss': 2.2948, 'grad_norm': 1.2062166929244995, 'learning_rate': 4.307244452737897e-06, 'epoch': 0.27} {'loss': 2.5736, 'grad_norm': 1.3289083242416382, 'learning_rate': 4.306944273476427e-06, 'epoch': 0.27} {'loss': 2.4482, 'grad_norm': 1.5624699592590332, 'learning_rate': 4.306644039658312e-06, 'epoch': 0.27} {'loss': 1.801, 'grad_norm': 1.241837739944458, 'learning_rate': 4.3063437512926174e-06, 'epoch': 0.27} {'loss': 2.3302, 'grad_norm': 2.51621675491333, 'learning_rate': 4.30604340838841e-06, 'epoch': 0.27} {'loss': 2.2618, 'grad_norm': 1.3444901704788208, 'learning_rate': 4.305743010954758e-06, 'epoch': 0.27} {'loss': 2.264, 'grad_norm': 1.248565435409546, 'learning_rate': 4.305442559000731e-06, 'epoch': 0.27} {'loss': 2.1906, 'grad_norm': 1.2382774353027344, 'learning_rate': 4.3051420525354e-06, 'epoch': 0.27} {'loss': 2.3677, 'grad_norm': 1.802303671836853, 'learning_rate': 4.304841491567839e-06, 'epoch': 0.27} {'loss': 2.3834, 'grad_norm': 1.4669591188430786, 'learning_rate': 4.304540876107121e-06, 'epoch': 0.27} {'loss': 2.2617, 'grad_norm': 1.670754313468933, 'learning_rate': 4.304240206162326e-06, 'epoch': 0.27} {'loss': 2.0165, 'grad_norm': 1.2535589933395386, 'learning_rate': 4.3039394817425285e-06, 'epoch': 0.27} {'loss': 2.2083, 'grad_norm': 1.2884461879730225, 'learning_rate': 4.303638702856809e-06, 'epoch': 0.27} {'loss': 2.5143, 'grad_norm': 1.2634315490722656, 'learning_rate': 4.303337869514251e-06, 'epoch': 0.27} {'loss': 2.2281, 'grad_norm': 1.457110047340393, 'learning_rate': 4.303036981723934e-06, 'epoch': 0.27} {'loss': 2.2218, 'grad_norm': 2.2297818660736084, 'learning_rate': 4.302736039494945e-06, 'epoch': 0.27} {'loss': 1.9755, 'grad_norm': 0.9956889152526855, 'learning_rate': 4.30243504283637e-06, 'epoch': 0.27} {'loss': 2.3296, 'grad_norm': 1.256490707397461, 'learning_rate': 4.3021339917572975e-06, 'epoch': 0.27} {'loss': 2.4423, 'grad_norm': 1.417594075202942, 'learning_rate': 4.3018328862668155e-06, 'epoch': 0.27} {'loss': 2.3927, 'grad_norm': 1.1783504486083984, 'learning_rate': 4.301531726374015e-06, 'epoch': 0.27} {'loss': 2.2166, 'grad_norm': 2.6332640647888184, 'learning_rate': 4.301230512087992e-06, 'epoch': 0.27} {'loss': 2.4813, 'grad_norm': 1.3823796510696411, 'learning_rate': 4.300929243417837e-06, 'epoch': 0.27} {'loss': 2.1912, 'grad_norm': 1.3533602952957153, 'learning_rate': 4.300627920372648e-06, 'epoch': 0.27} {'loss': 2.3207, 'grad_norm': 1.3954432010650635, 'learning_rate': 4.300326542961523e-06, 'epoch': 0.27} {'loss': 2.2725, 'grad_norm': 1.5588010549545288, 'learning_rate': 4.300025111193561e-06, 'epoch': 0.27} {'loss': 2.0438, 'grad_norm': 1.4824800491333008, 'learning_rate': 4.299723625077864e-06, 'epoch': 0.27} {'loss': 2.2173, 'grad_norm': 1.352290153503418, 'learning_rate': 4.299422084623532e-06, 'epoch': 0.27} {'loss': 2.3153, 'grad_norm': 1.3440053462982178, 'learning_rate': 4.299120489839673e-06, 'epoch': 0.27} {'loss': 2.4139, 'grad_norm': 1.2835479974746704, 'learning_rate': 4.298818840735391e-06, 'epoch': 0.27} {'loss': 2.1684, 'grad_norm': 1.3719205856323242, 'learning_rate': 4.298517137319793e-06, 'epoch': 0.27} {'loss': 2.5497, 'grad_norm': 1.3065173625946045, 'learning_rate': 4.2982153796019895e-06, 'epoch': 0.27} {'loss': 2.4513, 'grad_norm': 1.5087333917617798, 'learning_rate': 4.297913567591091e-06, 'epoch': 0.27} {'loss': 2.1645, 'grad_norm': 1.418238878250122, 'learning_rate': 4.29761170129621e-06, 'epoch': 0.27} {'loss': 2.5868, 'grad_norm': 3.0693984031677246, 'learning_rate': 4.29730978072646e-06, 'epoch': 0.27} {'loss': 2.3448, 'grad_norm': 1.3223739862442017, 'learning_rate': 4.297007805890958e-06, 'epoch': 0.27} {'loss': 2.5465, 'grad_norm': 1.527571201324463, 'learning_rate': 4.296705776798822e-06, 'epoch': 0.27} {'loss': 2.2605, 'grad_norm': 1.3328962326049805, 'learning_rate': 4.296403693459169e-06, 'epoch': 0.27} {'loss': 2.3782, 'grad_norm': 1.3360021114349365, 'learning_rate': 4.29610155588112e-06, 'epoch': 0.27} {'loss': 2.3566, 'grad_norm': 1.4117408990859985, 'learning_rate': 4.2957993640738e-06, 'epoch': 0.27} {'loss': 1.7897, 'grad_norm': 1.9808634519577026, 'learning_rate': 4.29549711804633e-06, 'epoch': 0.27} {'loss': 2.1979, 'grad_norm': 1.3581477403640747, 'learning_rate': 4.295194817807837e-06, 'epoch': 0.27} {'loss': 2.2826, 'grad_norm': 1.3385461568832397, 'learning_rate': 4.294892463367448e-06, 'epoch': 0.27} {'loss': 2.4289, 'grad_norm': 1.4239351749420166, 'learning_rate': 4.294590054734292e-06, 'epoch': 0.27} {'loss': 2.3832, 'grad_norm': 1.520639181137085, 'learning_rate': 4.294287591917499e-06, 'epoch': 0.27} {'loss': 2.0431, 'grad_norm': 1.3181447982788086, 'learning_rate': 4.293985074926202e-06, 'epoch': 0.27} {'loss': 2.2145, 'grad_norm': 1.2739182710647583, 'learning_rate': 4.293682503769535e-06, 'epoch': 0.27} {'loss': 2.0938, 'grad_norm': 1.3622190952301025, 'learning_rate': 4.293379878456634e-06, 'epoch': 0.27} {'loss': 2.2214, 'grad_norm': 1.2822149991989136, 'learning_rate': 4.2930771989966335e-06, 'epoch': 0.27} {'loss': 2.2385, 'grad_norm': 1.3744333982467651, 'learning_rate': 4.2927744653986745e-06, 'epoch': 0.27} {'loss': 1.5525, 'grad_norm': 1.2973759174346924, 'learning_rate': 4.292471677671897e-06, 'epoch': 0.27} {'loss': 2.2589, 'grad_norm': 1.5829969644546509, 'learning_rate': 4.292168835825442e-06, 'epoch': 0.27} {'loss': 2.0988, 'grad_norm': 1.2086747884750366, 'learning_rate': 4.291865939868454e-06, 'epoch': 0.27} {'loss': 2.2114, 'grad_norm': 2.0807058811187744, 'learning_rate': 4.291562989810079e-06, 'epoch': 0.27} {'loss': 1.9167, 'grad_norm': 1.4548686742782593, 'learning_rate': 4.291259985659462e-06, 'epoch': 0.27} {'loss': 2.3412, 'grad_norm': 1.3382760286331177, 'learning_rate': 4.290956927425753e-06, 'epoch': 0.27} {'loss': 2.3155, 'grad_norm': 1.5678690671920776, 'learning_rate': 4.290653815118101e-06, 'epoch': 0.27} {'loss': 2.0214, 'grad_norm': 1.2697694301605225, 'learning_rate': 4.290350648745659e-06, 'epoch': 0.27} {'loss': 2.233, 'grad_norm': 1.3039318323135376, 'learning_rate': 4.290047428317581e-06, 'epoch': 0.27} {'loss': 2.3192, 'grad_norm': 1.314761757850647, 'learning_rate': 4.28974415384302e-06, 'epoch': 0.27} {'loss': 2.3464, 'grad_norm': 1.351046085357666, 'learning_rate': 4.289440825331133e-06, 'epoch': 0.27} {'loss': 2.1461, 'grad_norm': 1.1469202041625977, 'learning_rate': 4.28913744279108e-06, 'epoch': 0.27} {'loss': 2.1814, 'grad_norm': 2.1836276054382324, 'learning_rate': 4.28883400623202e-06, 'epoch': 0.27} {'loss': 2.0215, 'grad_norm': 1.353124976158142, 'learning_rate': 4.288530515663114e-06, 'epoch': 0.27} {'loss': 2.2631, 'grad_norm': 1.345713496208191, 'learning_rate': 4.288226971093526e-06, 'epoch': 0.27} {'loss': 2.4116, 'grad_norm': 1.3977351188659668, 'learning_rate': 4.287923372532421e-06, 'epoch': 0.27} {'loss': 2.5256, 'grad_norm': 1.544020175933838, 'learning_rate': 4.287619719988965e-06, 'epoch': 0.27} {'loss': 2.2676, 'grad_norm': 1.587257981300354, 'learning_rate': 4.287316013472326e-06, 'epoch': 0.27} {'loss': 2.427, 'grad_norm': 1.2156556844711304, 'learning_rate': 4.287012252991674e-06, 'epoch': 0.27} {'loss': 2.558, 'grad_norm': 1.4727579355239868, 'learning_rate': 4.28670843855618e-06, 'epoch': 0.27} {'loss': 2.2256, 'grad_norm': 1.4053401947021484, 'learning_rate': 4.286404570175018e-06, 'epoch': 0.27} {'loss': 2.3742, 'grad_norm': 1.5847079753875732, 'learning_rate': 4.2861006478573615e-06, 'epoch': 0.27} {'loss': 2.2896, 'grad_norm': 1.9975436925888062, 'learning_rate': 4.285796671612388e-06, 'epoch': 0.27} {'loss': 2.2441, 'grad_norm': 1.4838610887527466, 'learning_rate': 4.285492641449274e-06, 'epoch': 0.27} {'loss': 2.3861, 'grad_norm': 1.2856327295303345, 'learning_rate': 4.285188557377199e-06, 'epoch': 0.27} {'loss': 2.3101, 'grad_norm': 1.2092539072036743, 'learning_rate': 4.284884419405346e-06, 'epoch': 0.27} {'loss': 2.0137, 'grad_norm': 1.4489800930023193, 'learning_rate': 4.2845802275428964e-06, 'epoch': 0.27} {'loss': 2.4818, 'grad_norm': 1.3279945850372314, 'learning_rate': 4.284275981799033e-06, 'epoch': 0.27} {'loss': 2.3936, 'grad_norm': 1.4883575439453125, 'learning_rate': 4.283971682182945e-06, 'epoch': 0.27} {'loss': 2.198, 'grad_norm': 1.171967625617981, 'learning_rate': 4.2836673287038185e-06, 'epoch': 0.27} {'loss': 2.3111, 'grad_norm': 1.435179591178894, 'learning_rate': 4.283362921370843e-06, 'epoch': 0.27} {'loss': 2.481, 'grad_norm': 1.2800894975662231, 'learning_rate': 4.283058460193209e-06, 'epoch': 0.27} {'loss': 2.1909, 'grad_norm': 2.8953981399536133, 'learning_rate': 4.282753945180109e-06, 'epoch': 0.27} {'loss': 2.2883, 'grad_norm': 1.5334526300430298, 'learning_rate': 4.282449376340738e-06, 'epoch': 0.27} {'loss': 2.4197, 'grad_norm': 1.5062311887741089, 'learning_rate': 4.282144753684291e-06, 'epoch': 0.27} {'loss': 2.3177, 'grad_norm': 1.4818061590194702, 'learning_rate': 4.281840077219965e-06, 'epoch': 0.27} {'loss': 2.3908, 'grad_norm': 1.3199596405029297, 'learning_rate': 4.2815353469569606e-06, 'epoch': 0.27} {'loss': 2.1342, 'grad_norm': 1.455367922782898, 'learning_rate': 4.281230562904477e-06, 'epoch': 0.27} {'loss': 1.8652, 'grad_norm': 1.3164163827896118, 'learning_rate': 4.280925725071717e-06, 'epoch': 0.27} {'loss': 2.6928, 'grad_norm': 1.4694806337356567, 'learning_rate': 4.280620833467884e-06, 'epoch': 0.27} {'loss': 2.112, 'grad_norm': 1.1250041723251343, 'learning_rate': 4.280315888102185e-06, 'epoch': 0.27} {'loss': 2.5605, 'grad_norm': 1.379387378692627, 'learning_rate': 4.280010888983825e-06, 'epoch': 0.27} {'loss': 2.0291, 'grad_norm': 1.2103480100631714, 'learning_rate': 4.2797058361220145e-06, 'epoch': 0.27} {'loss': 2.2633, 'grad_norm': 1.1501247882843018, 'learning_rate': 4.279400729525963e-06, 'epoch': 0.27} {'loss': 2.0668, 'grad_norm': 1.0144981145858765, 'learning_rate': 4.279095569204883e-06, 'epoch': 0.27} {'loss': 2.2037, 'grad_norm': 1.4243783950805664, 'learning_rate': 4.278790355167988e-06, 'epoch': 0.27} {'loss': 2.3269, 'grad_norm': 1.429612636566162, 'learning_rate': 4.278485087424492e-06, 'epoch': 0.27} {'loss': 2.298, 'grad_norm': 1.616772174835205, 'learning_rate': 4.278179765983615e-06, 'epoch': 0.27} {'loss': 1.8707, 'grad_norm': 4.538635730743408, 'learning_rate': 4.277874390854572e-06, 'epoch': 0.27} {'loss': 2.189, 'grad_norm': 1.6581392288208008, 'learning_rate': 4.277568962046585e-06, 'epoch': 0.27} {'loss': 2.1664, 'grad_norm': 1.2346731424331665, 'learning_rate': 4.2772634795688765e-06, 'epoch': 0.27} {'loss': 2.4093, 'grad_norm': 1.1846965551376343, 'learning_rate': 4.2769579434306674e-06, 'epoch': 0.27} {'loss': 2.0601, 'grad_norm': 1.3121274709701538, 'learning_rate': 4.276652353641185e-06, 'epoch': 0.27} {'loss': 2.1054, 'grad_norm': 1.4552000761032104, 'learning_rate': 4.2763467102096545e-06, 'epoch': 0.27} {'loss': 2.4143, 'grad_norm': 1.27945876121521, 'learning_rate': 4.276041013145305e-06, 'epoch': 0.27} {'loss': 2.3033, 'grad_norm': 1.5154036283493042, 'learning_rate': 4.275735262457365e-06, 'epoch': 0.27} {'loss': 2.4515, 'grad_norm': 1.378668189048767, 'learning_rate': 4.275429458155068e-06, 'epoch': 0.27} {'loss': 2.3508, 'grad_norm': 1.4732182025909424, 'learning_rate': 4.2751236002476445e-06, 'epoch': 0.27} {'loss': 2.1809, 'grad_norm': 1.4523944854736328, 'learning_rate': 4.274817688744332e-06, 'epoch': 0.27} {'loss': 2.285, 'grad_norm': 1.3190053701400757, 'learning_rate': 4.274511723654365e-06, 'epoch': 0.27} {'loss': 2.3753, 'grad_norm': 1.5244964361190796, 'learning_rate': 4.2742057049869815e-06, 'epoch': 0.27} {'loss': 2.3331, 'grad_norm': 1.3714141845703125, 'learning_rate': 4.273899632751422e-06, 'epoch': 0.27} {'loss': 2.2788, 'grad_norm': 1.3573110103607178, 'learning_rate': 4.273593506956927e-06, 'epoch': 0.27} {'loss': 2.4674, 'grad_norm': 1.4939484596252441, 'learning_rate': 4.273287327612739e-06, 'epoch': 0.27} {'loss': 2.1943, 'grad_norm': 1.6218711137771606, 'learning_rate': 4.272981094728103e-06, 'epoch': 0.27} {'loss': 2.2304, 'grad_norm': 1.68217933177948, 'learning_rate': 4.2726748083122645e-06, 'epoch': 0.27} {'loss': 2.2055, 'grad_norm': 1.9088689088821411, 'learning_rate': 4.272368468374473e-06, 'epoch': 0.27} {'loss': 2.0815, 'grad_norm': 1.1622698307037354, 'learning_rate': 4.2720620749239745e-06, 'epoch': 0.27} {'loss': 2.3711, 'grad_norm': 1.3695124387741089, 'learning_rate': 4.2717556279700225e-06, 'epoch': 0.27} {'loss': 2.3433, 'grad_norm': 1.3187259435653687, 'learning_rate': 4.2714491275218675e-06, 'epoch': 0.27} {'loss': 2.1077, 'grad_norm': 1.5475512742996216, 'learning_rate': 4.271142573588766e-06, 'epoch': 0.27} {'loss': 2.5996, 'grad_norm': 1.3945552110671997, 'learning_rate': 4.270835966179972e-06, 'epoch': 0.27} {'loss': 2.3499, 'grad_norm': 1.7153942584991455, 'learning_rate': 4.270529305304741e-06, 'epoch': 0.27} {'loss': 2.1649, 'grad_norm': 1.2384716272354126, 'learning_rate': 4.2702225909723364e-06, 'epoch': 0.27} {'loss': 2.3514, 'grad_norm': 1.304511547088623, 'learning_rate': 4.269915823192016e-06, 'epoch': 0.27} {'loss': 2.3012, 'grad_norm': 1.1688787937164307, 'learning_rate': 4.269609001973043e-06, 'epoch': 0.27} {'loss': 2.3446, 'grad_norm': 1.440639615058899, 'learning_rate': 4.26930212732468e-06, 'epoch': 0.27} {'loss': 1.9701, 'grad_norm': 1.2931896448135376, 'learning_rate': 4.268995199256193e-06, 'epoch': 0.27} {'loss': 2.4506, 'grad_norm': 1.1630518436431885, 'learning_rate': 4.268688217776849e-06, 'epoch': 0.27} {'loss': 2.2178, 'grad_norm': 1.4432328939437866, 'learning_rate': 4.268381182895916e-06, 'epoch': 0.27} {'loss': 2.6975, 'grad_norm': 3.370286226272583, 'learning_rate': 4.268074094622666e-06, 'epoch': 0.27} {'loss': 2.2636, 'grad_norm': 1.330358862876892, 'learning_rate': 4.267766952966369e-06, 'epoch': 0.27} {'loss': 2.362, 'grad_norm': 2.4076426029205322, 'learning_rate': 4.2674597579363e-06, 'epoch': 0.27} {'loss': 2.2228, 'grad_norm': 1.1698631048202515, 'learning_rate': 4.267152509541732e-06, 'epoch': 0.27} {'loss': 2.2644, 'grad_norm': 1.3573989868164062, 'learning_rate': 4.266845207791944e-06, 'epoch': 0.27} {'loss': 2.5705, 'grad_norm': 1.3935761451721191, 'learning_rate': 4.266537852696213e-06, 'epoch': 0.27} {'loss': 2.3717, 'grad_norm': 1.5292274951934814, 'learning_rate': 4.266230444263818e-06, 'epoch': 0.27} {'loss': 2.3837, 'grad_norm': 1.39475679397583, 'learning_rate': 4.265922982504043e-06, 'epoch': 0.27} {'loss': 2.4516, 'grad_norm': 1.8508994579315186, 'learning_rate': 4.26561546742617e-06, 'epoch': 0.27} {'loss': 2.2106, 'grad_norm': 1.290399193763733, 'learning_rate': 4.265307899039482e-06, 'epoch': 0.27} {'loss': 2.2012, 'grad_norm': 1.650404691696167, 'learning_rate': 4.265000277353268e-06, 'epoch': 0.27} {'loss': 2.2205, 'grad_norm': 1.3637722730636597, 'learning_rate': 4.264692602376814e-06, 'epoch': 0.27} {'loss': 2.1888, 'grad_norm': 1.1829214096069336, 'learning_rate': 4.264384874119411e-06, 'epoch': 0.27} {'loss': 2.3793, 'grad_norm': 1.4340940713882446, 'learning_rate': 4.264077092590349e-06, 'epoch': 0.27} {'loss': 2.2972, 'grad_norm': 1.3910068273544312, 'learning_rate': 4.263769257798921e-06, 'epoch': 0.27} {'loss': 2.3141, 'grad_norm': 1.41350257396698, 'learning_rate': 4.263461369754422e-06, 'epoch': 0.27} {'loss': 2.2056, 'grad_norm': 1.2730504274368286, 'learning_rate': 4.263153428466147e-06, 'epoch': 0.27} {'loss': 2.3358, 'grad_norm': 1.2497092485427856, 'learning_rate': 4.262845433943396e-06, 'epoch': 0.27} {'loss': 2.3971, 'grad_norm': 1.3817212581634521, 'learning_rate': 4.262537386195464e-06, 'epoch': 0.27} {'loss': 2.2748, 'grad_norm': 1.5090575218200684, 'learning_rate': 4.262229285231656e-06, 'epoch': 0.27} {'loss': 2.2437, 'grad_norm': 2.461193084716797, 'learning_rate': 4.261921131061272e-06, 'epoch': 0.27} {'loss': 2.0417, 'grad_norm': 1.3447057008743286, 'learning_rate': 4.261612923693617e-06, 'epoch': 0.27} {'loss': 2.1474, 'grad_norm': 1.2058742046356201, 'learning_rate': 4.261304663137996e-06, 'epoch': 0.27} {'loss': 2.089, 'grad_norm': 1.2519980669021606, 'learning_rate': 4.260996349403717e-06, 'epoch': 0.27} {'loss': 1.9808, 'grad_norm': 1.1811704635620117, 'learning_rate': 4.260687982500088e-06, 'epoch': 0.27} {'loss': 2.2366, 'grad_norm': 1.392079472541809, 'learning_rate': 4.26037956243642e-06, 'epoch': 0.27} {'loss': 2.2034, 'grad_norm': 2.0677363872528076, 'learning_rate': 4.260071089222026e-06, 'epoch': 0.27} {'loss': 2.5117, 'grad_norm': 1.342209815979004, 'learning_rate': 4.259762562866216e-06, 'epoch': 0.27} {'loss': 2.0789, 'grad_norm': 1.2299880981445312, 'learning_rate': 4.2594539833783096e-06, 'epoch': 0.27} {'loss': 2.4119, 'grad_norm': 1.32047700881958, 'learning_rate': 4.259145350767622e-06, 'epoch': 0.27} {'loss': 2.1327, 'grad_norm': 1.419252634048462, 'learning_rate': 4.2588366650434715e-06, 'epoch': 0.27} {'loss': 2.3717, 'grad_norm': 1.4397735595703125, 'learning_rate': 4.2585279262151775e-06, 'epoch': 0.27} {'loss': 2.0624, 'grad_norm': 1.302578091621399, 'learning_rate': 4.258219134292064e-06, 'epoch': 0.27} {'loss': 2.3818, 'grad_norm': 1.517033576965332, 'learning_rate': 4.257910289283451e-06, 'epoch': 0.27} {'loss': 2.2122, 'grad_norm': 1.2350488901138306, 'learning_rate': 4.257601391198666e-06, 'epoch': 0.27} {'loss': 2.2313, 'grad_norm': 1.6916656494140625, 'learning_rate': 4.257292440047035e-06, 'epoch': 0.27} {'loss': 2.1087, 'grad_norm': 1.1269254684448242, 'learning_rate': 4.256983435837884e-06, 'epoch': 0.27} {'loss': 2.1793, 'grad_norm': 1.3345727920532227, 'learning_rate': 4.256674378580546e-06, 'epoch': 0.27} {'loss': 2.2907, 'grad_norm': 1.3503037691116333, 'learning_rate': 4.25636526828435e-06, 'epoch': 0.27} {'loss': 2.2399, 'grad_norm': 1.3210887908935547, 'learning_rate': 4.25605610495863e-06, 'epoch': 0.28} {'loss': 2.3589, 'grad_norm': 1.5001415014266968, 'learning_rate': 4.2557468886127195e-06, 'epoch': 0.28} {'loss': 2.3611, 'grad_norm': 1.2709132432937622, 'learning_rate': 4.255437619255956e-06, 'epoch': 0.28} {'loss': 2.3212, 'grad_norm': 1.336848497390747, 'learning_rate': 4.255128296897675e-06, 'epoch': 0.28} {'loss': 2.2065, 'grad_norm': 1.238572597503662, 'learning_rate': 4.254818921547218e-06, 'epoch': 0.28} {'loss': 2.06, 'grad_norm': 1.2732969522476196, 'learning_rate': 4.254509493213925e-06, 'epoch': 0.28} {'loss': 2.2509, 'grad_norm': 1.3019180297851562, 'learning_rate': 4.254200011907138e-06, 'epoch': 0.28} {'loss': 2.0353, 'grad_norm': 1.3336728811264038, 'learning_rate': 4.253890477636202e-06, 'epoch': 0.28} {'loss': 2.1334, 'grad_norm': 1.1933029890060425, 'learning_rate': 4.253580890410462e-06, 'epoch': 0.28} {'loss': 2.4081, 'grad_norm': 1.5035765171051025, 'learning_rate': 4.2532712502392674e-06, 'epoch': 0.28} {'loss': 2.3314, 'grad_norm': 1.0912796258926392, 'learning_rate': 4.2529615571319635e-06, 'epoch': 0.28} {'loss': 1.748, 'grad_norm': 1.7212821245193481, 'learning_rate': 4.252651811097903e-06, 'epoch': 0.28} {'loss': 2.3123, 'grad_norm': 1.5574736595153809, 'learning_rate': 4.252342012146438e-06, 'epoch': 0.28} {'loss': 2.4569, 'grad_norm': 1.2778644561767578, 'learning_rate': 4.252032160286921e-06, 'epoch': 0.28} {'loss': 2.3121, 'grad_norm': 1.5819686651229858, 'learning_rate': 4.251722255528709e-06, 'epoch': 0.28} {'loss': 2.1226, 'grad_norm': 1.4555691480636597, 'learning_rate': 4.251412297881157e-06, 'epoch': 0.28} {'loss': 2.1901, 'grad_norm': 1.233445167541504, 'learning_rate': 4.2511022873536254e-06, 'epoch': 0.28} {'loss': 2.0571, 'grad_norm': 1.24208664894104, 'learning_rate': 4.250792223955472e-06, 'epoch': 0.28} {'loss': 2.3582, 'grad_norm': 1.2599092721939087, 'learning_rate': 4.250482107696061e-06, 'epoch': 0.28} {'loss': 2.334, 'grad_norm': 1.55085289478302, 'learning_rate': 4.250171938584754e-06, 'epoch': 0.28} {'loss': 2.3599, 'grad_norm': 1.3603636026382446, 'learning_rate': 4.249861716630916e-06, 'epoch': 0.28} {'loss': 2.0434, 'grad_norm': 1.0400370359420776, 'learning_rate': 4.2495514418439145e-06, 'epoch': 0.28} {'loss': 2.0889, 'grad_norm': 2.799269437789917, 'learning_rate': 4.249241114233117e-06, 'epoch': 0.28} {'loss': 2.5173, 'grad_norm': 1.2948399782180786, 'learning_rate': 4.248930733807892e-06, 'epoch': 0.28} {'loss': 2.2491, 'grad_norm': 1.5789997577667236, 'learning_rate': 4.248620300577612e-06, 'epoch': 0.28} {'loss': 2.4179, 'grad_norm': 1.6369529962539673, 'learning_rate': 4.2483098145516496e-06, 'epoch': 0.28} {'loss': 2.3318, 'grad_norm': 1.317929983139038, 'learning_rate': 4.247999275739379e-06, 'epoch': 0.28} {'loss': 2.1316, 'grad_norm': 1.0702420473098755, 'learning_rate': 4.247688684150177e-06, 'epoch': 0.28} {'loss': 2.3501, 'grad_norm': 1.9283409118652344, 'learning_rate': 4.247378039793421e-06, 'epoch': 0.28} {'loss': 2.1949, 'grad_norm': 1.3748856782913208, 'learning_rate': 4.2470673426784885e-06, 'epoch': 0.28} {'loss': 2.2239, 'grad_norm': 1.4990483522415161, 'learning_rate': 4.2467565928147625e-06, 'epoch': 0.28} {'loss': 2.4572, 'grad_norm': 1.33983314037323, 'learning_rate': 4.246445790211624e-06, 'epoch': 0.28} {'loss': 2.5133, 'grad_norm': 1.379253625869751, 'learning_rate': 4.2461349348784585e-06, 'epoch': 0.28} {'loss': 2.3075, 'grad_norm': 1.4265518188476562, 'learning_rate': 4.24582402682465e-06, 'epoch': 0.28} {'loss': 2.5126, 'grad_norm': 1.2879512310028076, 'learning_rate': 4.245513066059586e-06, 'epoch': 0.28} {'loss': 2.1888, 'grad_norm': 1.2859792709350586, 'learning_rate': 4.245202052592656e-06, 'epoch': 0.28} {'loss': 2.3043, 'grad_norm': 1.2637146711349487, 'learning_rate': 4.24489098643325e-06, 'epoch': 0.28} {'loss': 2.2659, 'grad_norm': 1.3754401206970215, 'learning_rate': 4.244579867590759e-06, 'epoch': 0.28} {'loss': 2.1874, 'grad_norm': 1.4319254159927368, 'learning_rate': 4.244268696074578e-06, 'epoch': 0.28} {'loss': 2.2896, 'grad_norm': 1.6389193534851074, 'learning_rate': 4.243957471894102e-06, 'epoch': 0.28} {'loss': 1.7477, 'grad_norm': 1.3648602962493896, 'learning_rate': 4.243646195058727e-06, 'epoch': 0.28} {'loss': 2.3667, 'grad_norm': 1.385986089706421, 'learning_rate': 4.243334865577851e-06, 'epoch': 0.28} {'loss': 2.0209, 'grad_norm': 1.3868513107299805, 'learning_rate': 4.243023483460875e-06, 'epoch': 0.28} {'loss': 2.4041, 'grad_norm': 2.375197410583496, 'learning_rate': 4.2427120487171994e-06, 'epoch': 0.28} {'loss': 2.1708, 'grad_norm': 1.3337339162826538, 'learning_rate': 4.242400561356228e-06, 'epoch': 0.28} {'loss': 2.2146, 'grad_norm': 1.3357185125350952, 'learning_rate': 4.242089021387365e-06, 'epoch': 0.28} {'loss': 2.6462, 'grad_norm': 1.4766290187835693, 'learning_rate': 4.241777428820018e-06, 'epoch': 0.28} {'loss': 2.1218, 'grad_norm': 1.3067364692687988, 'learning_rate': 4.241465783663593e-06, 'epoch': 0.28} {'loss': 2.108, 'grad_norm': 1.459026575088501, 'learning_rate': 4.241154085927501e-06, 'epoch': 0.28} {'loss': 2.1638, 'grad_norm': 1.3283309936523438, 'learning_rate': 4.240842335621151e-06, 'epoch': 0.28} {'loss': 2.3347, 'grad_norm': 1.347233533859253, 'learning_rate': 4.240530532753957e-06, 'epoch': 0.28} {'loss': 2.1825, 'grad_norm': 1.2273359298706055, 'learning_rate': 4.240218677335334e-06, 'epoch': 0.28} {'loss': 2.2483, 'grad_norm': 1.5048913955688477, 'learning_rate': 4.239906769374695e-06, 'epoch': 0.28} {'loss': 2.3458, 'grad_norm': 1.2917808294296265, 'learning_rate': 4.239594808881461e-06, 'epoch': 0.28} {'loss': 2.1208, 'grad_norm': 1.6750189065933228, 'learning_rate': 4.239282795865048e-06, 'epoch': 0.28} {'loss': 2.358, 'grad_norm': 1.3258097171783447, 'learning_rate': 4.238970730334879e-06, 'epoch': 0.28} {'loss': 2.3103, 'grad_norm': 1.3858402967453003, 'learning_rate': 4.238658612300374e-06, 'epoch': 0.28} {'loss': 2.2269, 'grad_norm': 1.375516414642334, 'learning_rate': 4.238346441770957e-06, 'epoch': 0.28} {'loss': 2.2517, 'grad_norm': 1.4884830713272095, 'learning_rate': 4.238034218756054e-06, 'epoch': 0.28} {'loss': 2.4535, 'grad_norm': 1.2289118766784668, 'learning_rate': 4.2377219432650914e-06, 'epoch': 0.28} {'loss': 2.6197, 'grad_norm': 1.5096640586853027, 'learning_rate': 4.2374096153074985e-06, 'epoch': 0.28} {'loss': 2.1384, 'grad_norm': 2.6392154693603516, 'learning_rate': 4.2370972348927045e-06, 'epoch': 0.28} {'loss': 2.2861, 'grad_norm': 1.350480556488037, 'learning_rate': 4.236784802030141e-06, 'epoch': 0.28} {'loss': 2.1934, 'grad_norm': 1.3361363410949707, 'learning_rate': 4.236472316729242e-06, 'epoch': 0.28} {'loss': 1.4582, 'grad_norm': 1.334849238395691, 'learning_rate': 4.236159778999441e-06, 'epoch': 0.28} {'loss': 2.3503, 'grad_norm': 1.3450567722320557, 'learning_rate': 4.235847188850175e-06, 'epoch': 0.28} {'loss': 2.1708, 'grad_norm': 1.4672859907150269, 'learning_rate': 4.235534546290884e-06, 'epoch': 0.28} {'loss': 2.4392, 'grad_norm': 1.4257906675338745, 'learning_rate': 4.235221851331004e-06, 'epoch': 0.28} {'loss': 2.2303, 'grad_norm': 1.4506680965423584, 'learning_rate': 4.2349091039799786e-06, 'epoch': 0.28} {'loss': 2.1107, 'grad_norm': 1.1998234987258911, 'learning_rate': 4.234596304247249e-06, 'epoch': 0.28} {'loss': 2.0759, 'grad_norm': 1.4508569240570068, 'learning_rate': 4.234283452142261e-06, 'epoch': 0.28} {'loss': 2.1628, 'grad_norm': 1.427050232887268, 'learning_rate': 4.233970547674459e-06, 'epoch': 0.28} {'loss': 2.3434, 'grad_norm': 1.17997145652771, 'learning_rate': 4.23365759085329e-06, 'epoch': 0.28} {'loss': 2.1836, 'grad_norm': 1.4046803712844849, 'learning_rate': 4.233344581688205e-06, 'epoch': 0.28} {'loss': 1.778, 'grad_norm': 1.3837255239486694, 'learning_rate': 4.233031520188655e-06, 'epoch': 0.28} {'loss': 2.3894, 'grad_norm': 1.5713597536087036, 'learning_rate': 4.2327184063640905e-06, 'epoch': 0.28} {'loss': 2.0, 'grad_norm': 1.529776692390442, 'learning_rate': 4.232405240223965e-06, 'epoch': 0.28} {'loss': 2.2926, 'grad_norm': 1.4573729038238525, 'learning_rate': 4.232092021777734e-06, 'epoch': 0.28} {'loss': 2.3154, 'grad_norm': 1.515673279762268, 'learning_rate': 4.231778751034857e-06, 'epoch': 0.28} {'loss': 2.2016, 'grad_norm': 1.1519880294799805, 'learning_rate': 4.231465428004789e-06, 'epoch': 0.28} {'loss': 2.1189, 'grad_norm': 1.5241012573242188, 'learning_rate': 4.231152052696992e-06, 'epoch': 0.28} {'loss': 2.2295, 'grad_norm': 1.5358985662460327, 'learning_rate': 4.230838625120927e-06, 'epoch': 0.28} {'loss': 2.2084, 'grad_norm': 1.3408899307250977, 'learning_rate': 4.230525145286057e-06, 'epoch': 0.28} {'loss': 2.1152, 'grad_norm': 1.3194150924682617, 'learning_rate': 4.230211613201848e-06, 'epoch': 0.28} {'loss': 2.2257, 'grad_norm': 1.537580132484436, 'learning_rate': 4.229898028877767e-06, 'epoch': 0.28} {'loss': 2.3727, 'grad_norm': 1.4625517129898071, 'learning_rate': 4.229584392323279e-06, 'epoch': 0.28} {'loss': 2.5725, 'grad_norm': 1.3874555826187134, 'learning_rate': 4.2292707035478554e-06, 'epoch': 0.28} {'loss': 2.3113, 'grad_norm': 1.3671960830688477, 'learning_rate': 4.228956962560967e-06, 'epoch': 0.28} {'loss': 2.1765, 'grad_norm': 1.3213077783584595, 'learning_rate': 4.228643169372088e-06, 'epoch': 0.28} {'loss': 2.2497, 'grad_norm': 1.6054065227508545, 'learning_rate': 4.228329323990691e-06, 'epoch': 0.28} {'loss': 2.2912, 'grad_norm': 1.1613774299621582, 'learning_rate': 4.228015426426251e-06, 'epoch': 0.28} {'loss': 2.0478, 'grad_norm': 1.2451120615005493, 'learning_rate': 4.227701476688247e-06, 'epoch': 0.28} {'loss': 2.0967, 'grad_norm': 1.8184071779251099, 'learning_rate': 4.227387474786159e-06, 'epoch': 0.28} {'loss': 2.2447, 'grad_norm': 1.329810619354248, 'learning_rate': 4.227073420729466e-06, 'epoch': 0.28} {'loss': 2.2877, 'grad_norm': 1.1265616416931152, 'learning_rate': 4.226759314527649e-06, 'epoch': 0.28} {'loss': 2.0988, 'grad_norm': 1.2927178144454956, 'learning_rate': 4.226445156190194e-06, 'epoch': 0.28} {'loss': 2.228, 'grad_norm': 1.538016676902771, 'learning_rate': 4.226130945726586e-06, 'epoch': 0.28} {'loss': 2.4655, 'grad_norm': 1.3824162483215332, 'learning_rate': 4.225816683146311e-06, 'epoch': 0.28} {'loss': 2.3088, 'grad_norm': 1.3595017194747925, 'learning_rate': 4.225502368458858e-06, 'epoch': 0.28} {'loss': 2.1442, 'grad_norm': 4.487486362457275, 'learning_rate': 4.225188001673717e-06, 'epoch': 0.28} {'loss': 2.3056, 'grad_norm': 1.4007480144500732, 'learning_rate': 4.2248735828003785e-06, 'epoch': 0.28} {'loss': 2.4918, 'grad_norm': 1.380864143371582, 'learning_rate': 4.224559111848337e-06, 'epoch': 0.28} {'loss': 2.4162, 'grad_norm': 1.363326072692871, 'learning_rate': 4.2242445888270875e-06, 'epoch': 0.28} {'loss': 2.3903, 'grad_norm': 1.3385776281356812, 'learning_rate': 4.223930013746126e-06, 'epoch': 0.28} {'loss': 2.2943, 'grad_norm': 1.3226299285888672, 'learning_rate': 4.223615386614949e-06, 'epoch': 0.28} {'loss': 2.2905, 'grad_norm': 1.1901867389678955, 'learning_rate': 4.223300707443057e-06, 'epoch': 0.28} {'loss': 2.278, 'grad_norm': 1.403824806213379, 'learning_rate': 4.222985976239952e-06, 'epoch': 0.28} {'loss': 2.3745, 'grad_norm': 1.6184874773025513, 'learning_rate': 4.222671193015135e-06, 'epoch': 0.28} {'loss': 2.1762, 'grad_norm': 1.4539847373962402, 'learning_rate': 4.222356357778111e-06, 'epoch': 0.28} {'loss': 2.1548, 'grad_norm': 1.3271501064300537, 'learning_rate': 4.2220414705383854e-06, 'epoch': 0.28} {'loss': 2.3781, 'grad_norm': 3.267444133758545, 'learning_rate': 4.221726531305467e-06, 'epoch': 0.28} {'loss': 2.3694, 'grad_norm': 1.451798439025879, 'learning_rate': 4.221411540088862e-06, 'epoch': 0.28} {'loss': 2.5644, 'grad_norm': 1.3437318801879883, 'learning_rate': 4.221096496898083e-06, 'epoch': 0.28} {'loss': 2.5217, 'grad_norm': 3.569720983505249, 'learning_rate': 4.2207814017426405e-06, 'epoch': 0.28} {'loss': 2.3492, 'grad_norm': 1.3779711723327637, 'learning_rate': 4.2204662546320495e-06, 'epoch': 0.28} {'loss': 2.2538, 'grad_norm': 1.6914650201797485, 'learning_rate': 4.220151055575824e-06, 'epoch': 0.28} {'loss': 2.3322, 'grad_norm': 2.0960283279418945, 'learning_rate': 4.219835804583482e-06, 'epoch': 0.28} {'loss': 2.0799, 'grad_norm': 1.5461546182632446, 'learning_rate': 4.219520501664541e-06, 'epoch': 0.28} {'loss': 2.253, 'grad_norm': 1.374873161315918, 'learning_rate': 4.219205146828521e-06, 'epoch': 0.28} {'loss': 2.0663, 'grad_norm': 1.4015312194824219, 'learning_rate': 4.218889740084943e-06, 'epoch': 0.28} {'loss': 2.3305, 'grad_norm': 1.4393256902694702, 'learning_rate': 4.21857428144333e-06, 'epoch': 0.28} {'loss': 2.2562, 'grad_norm': 1.3401038646697998, 'learning_rate': 4.218258770913208e-06, 'epoch': 0.28} {'loss': 2.1185, 'grad_norm': 1.2800744771957397, 'learning_rate': 4.217943208504101e-06, 'epoch': 0.28} {'loss': 2.1808, 'grad_norm': 1.2058789730072021, 'learning_rate': 4.217627594225539e-06, 'epoch': 0.28} {'loss': 2.1897, 'grad_norm': 1.4832321405410767, 'learning_rate': 4.21731192808705e-06, 'epoch': 0.28} {'loss': 2.3083, 'grad_norm': 1.4130202531814575, 'learning_rate': 4.216996210098164e-06, 'epoch': 0.28} {'loss': 2.3918, 'grad_norm': 1.553207278251648, 'learning_rate': 4.2166804402684146e-06, 'epoch': 0.28} {'loss': 2.4909, 'grad_norm': 1.388093113899231, 'learning_rate': 4.2163646186073355e-06, 'epoch': 0.28} {'loss': 2.3412, 'grad_norm': 1.3600637912750244, 'learning_rate': 4.216048745124462e-06, 'epoch': 0.28} {'loss': 2.3037, 'grad_norm': 1.1618337631225586, 'learning_rate': 4.215732819829332e-06, 'epoch': 0.28} {'loss': 2.1177, 'grad_norm': 1.4654827117919922, 'learning_rate': 4.215416842731483e-06, 'epoch': 0.28} {'loss': 1.9635, 'grad_norm': 1.3337420225143433, 'learning_rate': 4.215100813840456e-06, 'epoch': 0.28} {'loss': 2.3152, 'grad_norm': 1.477061152458191, 'learning_rate': 4.214784733165793e-06, 'epoch': 0.28} {'loss': 2.266, 'grad_norm': 1.428373098373413, 'learning_rate': 4.214468600717036e-06, 'epoch': 0.28} {'loss': 2.1245, 'grad_norm': 1.5135383605957031, 'learning_rate': 4.214152416503731e-06, 'epoch': 0.28} {'loss': 1.8188, 'grad_norm': 1.271544337272644, 'learning_rate': 4.2138361805354245e-06, 'epoch': 0.28} {'loss': 2.1851, 'grad_norm': 1.3638372421264648, 'learning_rate': 4.213519892821664e-06, 'epoch': 0.28} {'loss': 2.3053, 'grad_norm': 1.2949248552322388, 'learning_rate': 4.213203553372e-06, 'epoch': 0.28} {'loss': 2.5473, 'grad_norm': 1.8513284921646118, 'learning_rate': 4.212887162195983e-06, 'epoch': 0.28} {'loss': 2.4483, 'grad_norm': 1.424858570098877, 'learning_rate': 4.212570719303165e-06, 'epoch': 0.28} {'loss': 2.7014, 'grad_norm': 1.3986140489578247, 'learning_rate': 4.212254224703102e-06, 'epoch': 0.28} {'loss': 2.1426, 'grad_norm': 4.689304828643799, 'learning_rate': 4.211937678405349e-06, 'epoch': 0.28} {'loss': 2.465, 'grad_norm': 1.404821515083313, 'learning_rate': 4.211621080419463e-06, 'epoch': 0.28} {'loss': 2.4535, 'grad_norm': 1.3127071857452393, 'learning_rate': 4.211304430755004e-06, 'epoch': 0.28} {'loss': 2.2756, 'grad_norm': 3.073326349258423, 'learning_rate': 4.21098772942153e-06, 'epoch': 0.28} {'loss': 2.2483, 'grad_norm': 1.4246277809143066, 'learning_rate': 4.210670976428606e-06, 'epoch': 0.28} {'loss': 2.207, 'grad_norm': 1.2855678796768188, 'learning_rate': 4.210354171785795e-06, 'epoch': 0.28} {'loss': 2.3489, 'grad_norm': 1.4680513143539429, 'learning_rate': 4.210037315502662e-06, 'epoch': 0.28} {'loss': 2.2732, 'grad_norm': 11.044355392456055, 'learning_rate': 4.209720407588773e-06, 'epoch': 0.28} {'loss': 2.1888, 'grad_norm': 1.3397061824798584, 'learning_rate': 4.209403448053697e-06, 'epoch': 0.28} {'loss': 2.5797, 'grad_norm': 1.3031245470046997, 'learning_rate': 4.209086436907004e-06, 'epoch': 0.28} {'loss': 2.2829, 'grad_norm': 1.389979600906372, 'learning_rate': 4.208769374158265e-06, 'epoch': 0.28} {'loss': 2.4046, 'grad_norm': 1.2984424829483032, 'learning_rate': 4.208452259817053e-06, 'epoch': 0.28} {'loss': 2.2292, 'grad_norm': 1.474424123764038, 'learning_rate': 4.208135093892943e-06, 'epoch': 0.28} {'loss': 2.1958, 'grad_norm': 1.3610624074935913, 'learning_rate': 4.207817876395511e-06, 'epoch': 0.28} {'loss': 2.342, 'grad_norm': 1.2142666578292847, 'learning_rate': 4.207500607334334e-06, 'epoch': 0.28} {'loss': 2.3067, 'grad_norm': 1.3932498693466187, 'learning_rate': 4.207183286718993e-06, 'epoch': 0.28} {'loss': 2.5669, 'grad_norm': 1.506768822669983, 'learning_rate': 4.2068659145590664e-06, 'epoch': 0.28} {'loss': 2.2593, 'grad_norm': 1.2575539350509644, 'learning_rate': 4.206548490864138e-06, 'epoch': 0.28} {'loss': 2.2098, 'grad_norm': 1.4685211181640625, 'learning_rate': 4.2062310156437925e-06, 'epoch': 0.28} {'loss': 2.2377, 'grad_norm': 1.5002377033233643, 'learning_rate': 4.205913488907612e-06, 'epoch': 0.28} {'loss': 2.2644, 'grad_norm': 1.477756142616272, 'learning_rate': 4.2055959106651875e-06, 'epoch': 0.28} {'loss': 1.9639, 'grad_norm': 1.3902099132537842, 'learning_rate': 4.205278280926106e-06, 'epoch': 0.28} {'loss': 2.3112, 'grad_norm': 1.3058732748031616, 'learning_rate': 4.204960599699957e-06, 'epoch': 0.28} {'loss': 2.4107, 'grad_norm': 1.3058775663375854, 'learning_rate': 4.204642866996333e-06, 'epoch': 0.28} {'loss': 2.1995, 'grad_norm': 1.5248193740844727, 'learning_rate': 4.204325082824826e-06, 'epoch': 0.28} {'loss': 2.2376, 'grad_norm': 1.132330060005188, 'learning_rate': 4.204007247195032e-06, 'epoch': 0.28} {'loss': 2.3217, 'grad_norm': 1.9655956029891968, 'learning_rate': 4.203689360116547e-06, 'epoch': 0.28} {'loss': 2.3623, 'grad_norm': 3.632291793823242, 'learning_rate': 4.203371421598971e-06, 'epoch': 0.28} {'loss': 2.1194, 'grad_norm': 1.584941029548645, 'learning_rate': 4.203053431651899e-06, 'epoch': 0.28} {'loss': 2.3279, 'grad_norm': 1.450371265411377, 'learning_rate': 4.2027353902849345e-06, 'epoch': 0.28} {'loss': 2.2213, 'grad_norm': 1.3237791061401367, 'learning_rate': 4.20241729750768e-06, 'epoch': 0.28} {'loss': 2.0049, 'grad_norm': 1.0109926462173462, 'learning_rate': 4.20209915332974e-06, 'epoch': 0.28} {'loss': 2.4096, 'grad_norm': 1.4023473262786865, 'learning_rate': 4.201780957760719e-06, 'epoch': 0.28} {'loss': 2.3561, 'grad_norm': 1.713315725326538, 'learning_rate': 4.201462710810226e-06, 'epoch': 0.28} {'loss': 2.3711, 'grad_norm': 1.3906464576721191, 'learning_rate': 4.201144412487867e-06, 'epoch': 0.28} {'loss': 2.0266, 'grad_norm': 1.397920846939087, 'learning_rate': 4.200826062803255e-06, 'epoch': 0.28} {'loss': 2.0637, 'grad_norm': 1.3822640180587769, 'learning_rate': 4.200507661766e-06, 'epoch': 0.28} {'loss': 2.4536, 'grad_norm': 1.3081847429275513, 'learning_rate': 4.200189209385717e-06, 'epoch': 0.28} {'loss': 2.2802, 'grad_norm': 1.361376166343689, 'learning_rate': 4.199870705672019e-06, 'epoch': 0.28} {'loss': 2.1394, 'grad_norm': 1.2919461727142334, 'learning_rate': 4.199552150634525e-06, 'epoch': 0.28} {'loss': 2.145, 'grad_norm': 1.2919390201568604, 'learning_rate': 4.1992335442828515e-06, 'epoch': 0.28} {'loss': 2.2636, 'grad_norm': 1.3241201639175415, 'learning_rate': 4.198914886626617e-06, 'epoch': 0.28} {'loss': 2.2742, 'grad_norm': 1.6842128038406372, 'learning_rate': 4.198596177675444e-06, 'epoch': 0.28} {'loss': 2.188, 'grad_norm': 1.2363498210906982, 'learning_rate': 4.198277417438958e-06, 'epoch': 0.28} {'loss': 2.5077, 'grad_norm': 1.2418339252471924, 'learning_rate': 4.197958605926778e-06, 'epoch': 0.28} {'loss': 1.5068, 'grad_norm': 1.5520706176757812, 'learning_rate': 4.1976397431485324e-06, 'epoch': 0.28} {'loss': 2.2559, 'grad_norm': 1.3444104194641113, 'learning_rate': 4.197320829113848e-06, 'epoch': 0.29} {'loss': 2.081, 'grad_norm': 3.049741506576538, 'learning_rate': 4.197001863832355e-06, 'epoch': 0.29} {'loss': 2.479, 'grad_norm': 1.255085825920105, 'learning_rate': 4.196682847313682e-06, 'epoch': 0.29} {'loss': 2.2521, 'grad_norm': 1.3506109714508057, 'learning_rate': 4.196363779567463e-06, 'epoch': 0.29} {'loss': 2.3477, 'grad_norm': 1.6188067197799683, 'learning_rate': 4.19604466060333e-06, 'epoch': 0.29} {'loss': 2.2101, 'grad_norm': 1.34382963180542, 'learning_rate': 4.195725490430917e-06, 'epoch': 0.29} {'loss': 2.5289, 'grad_norm': 1.3928169012069702, 'learning_rate': 4.195406269059864e-06, 'epoch': 0.29} {'loss': 2.2547, 'grad_norm': 1.352113127708435, 'learning_rate': 4.195086996499807e-06, 'epoch': 0.29} {'loss': 2.041, 'grad_norm': 1.263211727142334, 'learning_rate': 4.194767672760386e-06, 'epoch': 0.29} {'loss': 2.2279, 'grad_norm': 2.1483588218688965, 'learning_rate': 4.194448297851242e-06, 'epoch': 0.29} {'loss': 2.2566, 'grad_norm': 1.4854096174240112, 'learning_rate': 4.1941288717820185e-06, 'epoch': 0.29} {'loss': 2.1325, 'grad_norm': 1.0366175174713135, 'learning_rate': 4.193809394562359e-06, 'epoch': 0.29} {'loss': 2.593, 'grad_norm': 1.1006108522415161, 'learning_rate': 4.19348986620191e-06, 'epoch': 0.29} {'loss': 2.5034, 'grad_norm': 2.207791805267334, 'learning_rate': 4.193170286710319e-06, 'epoch': 0.29} {'loss': 1.8544, 'grad_norm': 1.1080607175827026, 'learning_rate': 4.192850656097235e-06, 'epoch': 0.29} {'loss': 2.3295, 'grad_norm': 1.2526116371154785, 'learning_rate': 4.192530974372307e-06, 'epoch': 0.29} {'loss': 2.3825, 'grad_norm': 1.2348859310150146, 'learning_rate': 4.19221124154519e-06, 'epoch': 0.29} {'loss': 2.3813, 'grad_norm': 2.4628984928131104, 'learning_rate': 4.191891457625536e-06, 'epoch': 0.29} {'loss': 2.052, 'grad_norm': 1.2056008577346802, 'learning_rate': 4.191571622623e-06, 'epoch': 0.29} {'loss': 2.2614, 'grad_norm': 1.5246846675872803, 'learning_rate': 4.191251736547239e-06, 'epoch': 0.29} {'loss': 2.3389, 'grad_norm': 1.1969069242477417, 'learning_rate': 4.1909317994079105e-06, 'epoch': 0.29} {'loss': 2.2399, 'grad_norm': 1.4049445390701294, 'learning_rate': 4.1906118112146745e-06, 'epoch': 0.29} {'loss': 2.3909, 'grad_norm': 1.3644524812698364, 'learning_rate': 4.190291771977194e-06, 'epoch': 0.29} {'loss': 2.025, 'grad_norm': 1.5685845613479614, 'learning_rate': 4.189971681705129e-06, 'epoch': 0.29} {'loss': 2.2816, 'grad_norm': 1.0965675115585327, 'learning_rate': 4.189651540408147e-06, 'epoch': 0.29} {'loss': 2.2792, 'grad_norm': 1.2093197107315063, 'learning_rate': 4.189331348095913e-06, 'epoch': 0.29} {'loss': 2.3266, 'grad_norm': 1.3440860509872437, 'learning_rate': 4.189011104778093e-06, 'epoch': 0.29} {'loss': 2.2411, 'grad_norm': 1.5248643159866333, 'learning_rate': 4.188690810464357e-06, 'epoch': 0.29} {'loss': 2.5441, 'grad_norm': 1.5997084379196167, 'learning_rate': 4.1883704651643755e-06, 'epoch': 0.29} {'loss': 2.2699, 'grad_norm': 1.5267788171768188, 'learning_rate': 4.188050068887821e-06, 'epoch': 0.29} {'loss': 2.1689, 'grad_norm': 1.2479997873306274, 'learning_rate': 4.187729621644367e-06, 'epoch': 0.29} {'loss': 2.236, 'grad_norm': 1.556512475013733, 'learning_rate': 4.187409123443688e-06, 'epoch': 0.29} {'loss': 2.2203, 'grad_norm': 1.225488305091858, 'learning_rate': 4.1870885742954616e-06, 'epoch': 0.29} {'loss': 2.1789, 'grad_norm': 1.3815730810165405, 'learning_rate': 4.186767974209366e-06, 'epoch': 0.29} {'loss': 2.3858, 'grad_norm': 1.9201236963272095, 'learning_rate': 4.18644732319508e-06, 'epoch': 0.29} {'loss': 2.4339, 'grad_norm': 1.3880109786987305, 'learning_rate': 4.186126621262287e-06, 'epoch': 0.29} {'loss': 2.5212, 'grad_norm': 1.6802955865859985, 'learning_rate': 4.185805868420667e-06, 'epoch': 0.29} {'loss': 2.0959, 'grad_norm': 1.2921512126922607, 'learning_rate': 4.185485064679906e-06, 'epoch': 0.29} {'loss': 2.3404, 'grad_norm': 1.7332086563110352, 'learning_rate': 4.185164210049692e-06, 'epoch': 0.29} {'loss': 2.4439, 'grad_norm': 1.5740838050842285, 'learning_rate': 4.184843304539708e-06, 'epoch': 0.29} {'loss': 2.3105, 'grad_norm': 1.5215038061141968, 'learning_rate': 4.184522348159647e-06, 'epoch': 0.29} {'loss': 2.4787, 'grad_norm': 1.27907395362854, 'learning_rate': 4.184201340919196e-06, 'epoch': 0.29} {'loss': 2.1961, 'grad_norm': 1.4168368577957153, 'learning_rate': 4.183880282828051e-06, 'epoch': 0.29} {'loss': 2.3609, 'grad_norm': 1.2337470054626465, 'learning_rate': 4.1835591738959034e-06, 'epoch': 0.29} {'loss': 2.2623, 'grad_norm': 1.3632909059524536, 'learning_rate': 4.183238014132448e-06, 'epoch': 0.29} {'loss': 2.3638, 'grad_norm': 1.2759157419204712, 'learning_rate': 4.182916803547383e-06, 'epoch': 0.29} {'loss': 2.6432, 'grad_norm': 1.753441333770752, 'learning_rate': 4.182595542150405e-06, 'epoch': 0.29} {'loss': 2.5123, 'grad_norm': 1.3974738121032715, 'learning_rate': 4.182274229951216e-06, 'epoch': 0.29} {'loss': 2.3211, 'grad_norm': 1.307824730873108, 'learning_rate': 4.1819528669595145e-06, 'epoch': 0.29} {'loss': 2.1793, 'grad_norm': 1.2060304880142212, 'learning_rate': 4.181631453185004e-06, 'epoch': 0.29} {'loss': 2.1481, 'grad_norm': 1.4520443677902222, 'learning_rate': 4.181309988637392e-06, 'epoch': 0.29} {'loss': 2.3618, 'grad_norm': 1.2506394386291504, 'learning_rate': 4.180988473326381e-06, 'epoch': 0.29} {'loss': 2.3626, 'grad_norm': 1.5998327732086182, 'learning_rate': 4.180666907261678e-06, 'epoch': 0.29} {'loss': 2.6139, 'grad_norm': 1.5224560499191284, 'learning_rate': 4.180345290452995e-06, 'epoch': 0.29} {'loss': 2.0148, 'grad_norm': 1.516493558883667, 'learning_rate': 4.1800236229100405e-06, 'epoch': 0.29} {'loss': 2.5074, 'grad_norm': 1.220171570777893, 'learning_rate': 4.179701904642527e-06, 'epoch': 0.29} {'loss': 2.3006, 'grad_norm': 1.3300745487213135, 'learning_rate': 4.179380135660168e-06, 'epoch': 0.29} {'loss': 2.4395, 'grad_norm': 1.3369560241699219, 'learning_rate': 4.1790583159726784e-06, 'epoch': 0.29} {'loss': 2.1106, 'grad_norm': 1.3817059993743896, 'learning_rate': 4.178736445589775e-06, 'epoch': 0.29} {'loss': 2.141, 'grad_norm': 1.8524466753005981, 'learning_rate': 4.178414524521176e-06, 'epoch': 0.29} {'loss': 2.1298, 'grad_norm': 1.3546829223632812, 'learning_rate': 4.178092552776602e-06, 'epoch': 0.29} {'loss': 2.2003, 'grad_norm': 1.8453757762908936, 'learning_rate': 4.177770530365772e-06, 'epoch': 0.29} {'loss': 2.0692, 'grad_norm': 0.9543159604072571, 'learning_rate': 4.1774484572984105e-06, 'epoch': 0.29} {'loss': 2.2244, 'grad_norm': 1.4383676052093506, 'learning_rate': 4.177126333584242e-06, 'epoch': 0.29} {'loss': 2.2943, 'grad_norm': 1.3789979219436646, 'learning_rate': 4.176804159232991e-06, 'epoch': 0.29} {'loss': 2.3177, 'grad_norm': 1.4091039896011353, 'learning_rate': 4.1764819342543865e-06, 'epoch': 0.29} {'loss': 2.3543, 'grad_norm': 1.451812744140625, 'learning_rate': 4.176159658658155e-06, 'epoch': 0.29} {'loss': 2.082, 'grad_norm': 1.1658954620361328, 'learning_rate': 4.175837332454028e-06, 'epoch': 0.29} {'loss': 2.1439, 'grad_norm': 1.1515681743621826, 'learning_rate': 4.175514955651738e-06, 'epoch': 0.29} {'loss': 1.9241, 'grad_norm': 1.314581036567688, 'learning_rate': 4.1751925282610186e-06, 'epoch': 0.29} {'loss': 2.3384, 'grad_norm': 1.286803126335144, 'learning_rate': 4.174870050291604e-06, 'epoch': 0.29} {'loss': 2.146, 'grad_norm': 1.384809970855713, 'learning_rate': 4.17454752175323e-06, 'epoch': 0.29} {'loss': 2.2489, 'grad_norm': 1.2953877449035645, 'learning_rate': 4.174224942655637e-06, 'epoch': 0.29} {'loss': 2.2609, 'grad_norm': 1.2511601448059082, 'learning_rate': 4.173902313008563e-06, 'epoch': 0.29} {'loss': 2.2789, 'grad_norm': 2.22845196723938, 'learning_rate': 4.173579632821748e-06, 'epoch': 0.29} {'loss': 2.2925, 'grad_norm': 1.3235803842544556, 'learning_rate': 4.1732569021049364e-06, 'epoch': 0.29} {'loss': 2.5096, 'grad_norm': 1.4318894147872925, 'learning_rate': 4.172934120867873e-06, 'epoch': 0.29} {'loss': 2.1511, 'grad_norm': 0.9978567957878113, 'learning_rate': 4.172611289120301e-06, 'epoch': 0.29} {'loss': 2.4367, 'grad_norm': 1.469740390777588, 'learning_rate': 4.172288406871969e-06, 'epoch': 0.29} {'loss': 2.0867, 'grad_norm': 1.4108291864395142, 'learning_rate': 4.171965474132626e-06, 'epoch': 0.29} {'loss': 2.2992, 'grad_norm': 18.777679443359375, 'learning_rate': 4.1716424909120205e-06, 'epoch': 0.29} {'loss': 2.1985, 'grad_norm': 1.5034455060958862, 'learning_rate': 4.171319457219906e-06, 'epoch': 0.29} {'loss': 2.1909, 'grad_norm': 1.2798768281936646, 'learning_rate': 4.170996373066036e-06, 'epoch': 0.29} {'loss': 2.0639, 'grad_norm': 1.0494613647460938, 'learning_rate': 4.170673238460164e-06, 'epoch': 0.29} {'loss': 2.3725, 'grad_norm': 1.5054503679275513, 'learning_rate': 4.170350053412047e-06, 'epoch': 0.29} {'loss': 2.1085, 'grad_norm': 1.4547404050827026, 'learning_rate': 4.170026817931443e-06, 'epoch': 0.29} {'loss': 2.4654, 'grad_norm': 1.322479009628296, 'learning_rate': 4.169703532028111e-06, 'epoch': 0.29} {'loss': 2.222, 'grad_norm': 1.2573456764221191, 'learning_rate': 4.1693801957118114e-06, 'epoch': 0.29} {'loss': 1.9905, 'grad_norm': 1.107547640800476, 'learning_rate': 4.169056808992308e-06, 'epoch': 0.29} {'loss': 1.3308, 'grad_norm': 1.4555102586746216, 'learning_rate': 4.168733371879363e-06, 'epoch': 0.29} {'loss': 2.1869, 'grad_norm': 1.5119762420654297, 'learning_rate': 4.168409884382744e-06, 'epoch': 0.29} {'loss': 2.2154, 'grad_norm': 1.3459663391113281, 'learning_rate': 4.168086346512217e-06, 'epoch': 0.29} {'loss': 2.3355, 'grad_norm': 1.3628828525543213, 'learning_rate': 4.167762758277549e-06, 'epoch': 0.29} {'loss': 2.2843, 'grad_norm': 1.5307854413986206, 'learning_rate': 4.167439119688513e-06, 'epoch': 0.29} {'loss': 2.3023, 'grad_norm': 1.4077099561691284, 'learning_rate': 4.167115430754878e-06, 'epoch': 0.29} {'loss': 2.2053, 'grad_norm': 1.2115776538848877, 'learning_rate': 4.166791691486417e-06, 'epoch': 0.29} {'loss': 2.2163, 'grad_norm': 1.3680387735366821, 'learning_rate': 4.166467901892908e-06, 'epoch': 0.29} {'loss': 2.3362, 'grad_norm': 1.3409061431884766, 'learning_rate': 4.166144061984122e-06, 'epoch': 0.29} {'loss': 2.227, 'grad_norm': 1.473103642463684, 'learning_rate': 4.165820171769841e-06, 'epoch': 0.29} {'loss': 2.2966, 'grad_norm': 1.437228798866272, 'learning_rate': 4.1654962312598415e-06, 'epoch': 0.29} {'loss': 2.4544, 'grad_norm': 1.5756202936172485, 'learning_rate': 4.165172240463906e-06, 'epoch': 0.29} {'loss': 1.9737, 'grad_norm': 1.3767938613891602, 'learning_rate': 4.164848199391815e-06, 'epoch': 0.29} {'loss': 2.3114, 'grad_norm': 1.4427515268325806, 'learning_rate': 4.164524108053352e-06, 'epoch': 0.29} {'loss': 2.1445, 'grad_norm': 1.2109973430633545, 'learning_rate': 4.164199966458306e-06, 'epoch': 0.29} {'loss': 2.1708, 'grad_norm': 1.5473718643188477, 'learning_rate': 4.163875774616458e-06, 'epoch': 0.29} {'loss': 2.4773, 'grad_norm': 1.359774112701416, 'learning_rate': 4.163551532537601e-06, 'epoch': 0.29} {'loss': 1.7653, 'grad_norm': 1.350265622138977, 'learning_rate': 4.163227240231522e-06, 'epoch': 0.29} {'loss': 2.1717, 'grad_norm': 1.2648168802261353, 'learning_rate': 4.162902897708013e-06, 'epoch': 0.29} {'loss': 2.4216, 'grad_norm': 1.5107903480529785, 'learning_rate': 4.1625785049768676e-06, 'epoch': 0.29} {'loss': 2.2097, 'grad_norm': 1.7196375131607056, 'learning_rate': 4.16225406204788e-06, 'epoch': 0.29} {'loss': 2.0942, 'grad_norm': 2.7263107299804688, 'learning_rate': 4.161929568930845e-06, 'epoch': 0.29} {'loss': 2.3738, 'grad_norm': 1.483261227607727, 'learning_rate': 4.16160502563556e-06, 'epoch': 0.29} {'loss': 2.4265, 'grad_norm': 1.586222529411316, 'learning_rate': 4.1612804321718245e-06, 'epoch': 0.29} {'loss': 2.4221, 'grad_norm': 1.3538148403167725, 'learning_rate': 4.160955788549439e-06, 'epoch': 0.29} {'loss': 2.3299, 'grad_norm': 1.3709430694580078, 'learning_rate': 4.160631094778205e-06, 'epoch': 0.29} {'loss': 2.1783, 'grad_norm': 1.3107454776763916, 'learning_rate': 4.160306350867925e-06, 'epoch': 0.29} {'loss': 2.436, 'grad_norm': 1.3892253637313843, 'learning_rate': 4.159981556828406e-06, 'epoch': 0.29} {'loss': 2.1219, 'grad_norm': 1.2698709964752197, 'learning_rate': 4.159656712669454e-06, 'epoch': 0.29} {'loss': 2.1726, 'grad_norm': 1.5008832216262817, 'learning_rate': 4.1593318184008754e-06, 'epoch': 0.29} {'loss': 1.9522, 'grad_norm': 1.3508555889129639, 'learning_rate': 4.159006874032481e-06, 'epoch': 0.29} {'loss': 2.0924, 'grad_norm': 1.0924934148788452, 'learning_rate': 4.1586818795740805e-06, 'epoch': 0.29} {'loss': 2.277, 'grad_norm': 1.383457064628601, 'learning_rate': 4.158356835035487e-06, 'epoch': 0.29} {'loss': 2.4474, 'grad_norm': 1.3724820613861084, 'learning_rate': 4.158031740426516e-06, 'epoch': 0.29} {'loss': 2.0072, 'grad_norm': 1.2691468000411987, 'learning_rate': 4.157706595756981e-06, 'epoch': 0.29} {'loss': 2.2813, 'grad_norm': 1.3697035312652588, 'learning_rate': 4.157381401036699e-06, 'epoch': 0.29} {'loss': 2.207, 'grad_norm': 1.6200684309005737, 'learning_rate': 4.157056156275491e-06, 'epoch': 0.29} {'loss': 2.1304, 'grad_norm': 1.3832786083221436, 'learning_rate': 4.156730861483173e-06, 'epoch': 0.29} {'loss': 2.2722, 'grad_norm': 1.407540202140808, 'learning_rate': 4.156405516669571e-06, 'epoch': 0.29} {'loss': 2.4005, 'grad_norm': 1.516169786453247, 'learning_rate': 4.156080121844505e-06, 'epoch': 0.29} {'loss': 2.2359, 'grad_norm': 1.3275007009506226, 'learning_rate': 4.1557546770178e-06, 'epoch': 0.29} {'loss': 2.2503, 'grad_norm': 1.27895987033844, 'learning_rate': 4.155429182199283e-06, 'epoch': 0.29} {'loss': 2.3884, 'grad_norm': 1.5146820545196533, 'learning_rate': 4.155103637398781e-06, 'epoch': 0.29} {'loss': 2.4858, 'grad_norm': 3.543250560760498, 'learning_rate': 4.1547780426261236e-06, 'epoch': 0.29} {'loss': 2.1749, 'grad_norm': 1.4312770366668701, 'learning_rate': 4.15445239789114e-06, 'epoch': 0.29} {'loss': 2.2639, 'grad_norm': 1.1570500135421753, 'learning_rate': 4.1541267032036646e-06, 'epoch': 0.29} {'loss': 2.1978, 'grad_norm': 1.38362455368042, 'learning_rate': 4.15380095857353e-06, 'epoch': 0.29} {'loss': 2.1675, 'grad_norm': 1.2602527141571045, 'learning_rate': 4.1534751640105695e-06, 'epoch': 0.29} {'loss': 2.4253, 'grad_norm': 1.471513032913208, 'learning_rate': 4.153149319524622e-06, 'epoch': 0.29} {'loss': 2.3233, 'grad_norm': 1.2623225450515747, 'learning_rate': 4.152823425125525e-06, 'epoch': 0.29} {'loss': 2.1656, 'grad_norm': 1.3304659128189087, 'learning_rate': 4.1524974808231185e-06, 'epoch': 0.29} {'loss': 2.2016, 'grad_norm': 1.5253896713256836, 'learning_rate': 4.152171486627243e-06, 'epoch': 0.29} {'loss': 2.2689, 'grad_norm': 1.3610948324203491, 'learning_rate': 4.1518454425477416e-06, 'epoch': 0.29} {'loss': 2.1196, 'grad_norm': 1.2831079959869385, 'learning_rate': 4.151519348594458e-06, 'epoch': 0.29} {'loss': 2.4229, 'grad_norm': 1.3628156185150146, 'learning_rate': 4.151193204777239e-06, 'epoch': 0.29} {'loss': 2.1983, 'grad_norm': 1.3526813983917236, 'learning_rate': 4.150867011105931e-06, 'epoch': 0.29} {'loss': 2.4525, 'grad_norm': 1.2210673093795776, 'learning_rate': 4.150540767590382e-06, 'epoch': 0.29} {'loss': 2.1108, 'grad_norm': 1.2776470184326172, 'learning_rate': 4.1502144742404425e-06, 'epoch': 0.29} {'loss': 2.4026, 'grad_norm': 1.371298909187317, 'learning_rate': 4.149888131065965e-06, 'epoch': 0.29} {'loss': 2.3504, 'grad_norm': 1.9349470138549805, 'learning_rate': 4.149561738076803e-06, 'epoch': 0.29} {'loss': 2.2479, 'grad_norm': 1.3360164165496826, 'learning_rate': 4.14923529528281e-06, 'epoch': 0.29} {'loss': 1.8572, 'grad_norm': 1.4595962762832642, 'learning_rate': 4.148908802693842e-06, 'epoch': 0.29} {'loss': 2.1091, 'grad_norm': 1.2996351718902588, 'learning_rate': 4.1485822603197575e-06, 'epoch': 0.29} {'loss': 2.208, 'grad_norm': 1.5048496723175049, 'learning_rate': 4.1482556681704165e-06, 'epoch': 0.29} {'loss': 2.1844, 'grad_norm': 6.0797648429870605, 'learning_rate': 4.147929026255678e-06, 'epoch': 0.29} {'loss': 2.3568, 'grad_norm': 1.573850154876709, 'learning_rate': 4.147602334585406e-06, 'epoch': 0.29} {'loss': 1.8916, 'grad_norm': 1.3477632999420166, 'learning_rate': 4.147275593169463e-06, 'epoch': 0.29} {'loss': 2.2046, 'grad_norm': 1.3363653421401978, 'learning_rate': 4.146948802017714e-06, 'epoch': 0.29} {'loss': 1.6412, 'grad_norm': 1.156680703163147, 'learning_rate': 4.146621961140027e-06, 'epoch': 0.29} {'loss': 2.1703, 'grad_norm': 1.2708503007888794, 'learning_rate': 4.146295070546269e-06, 'epoch': 0.29} {'loss': 1.3418, 'grad_norm': 1.3210761547088623, 'learning_rate': 4.14596813024631e-06, 'epoch': 0.29} {'loss': 2.4924, 'grad_norm': 1.3715096712112427, 'learning_rate': 4.145641140250022e-06, 'epoch': 0.29} {'loss': 2.2436, 'grad_norm': 1.352448582649231, 'learning_rate': 4.145314100567277e-06, 'epoch': 0.29} {'loss': 2.161, 'grad_norm': 1.3864436149597168, 'learning_rate': 4.14498701120795e-06, 'epoch': 0.29} {'loss': 2.2272, 'grad_norm': 1.336189866065979, 'learning_rate': 4.144659872181915e-06, 'epoch': 0.29} {'loss': 2.0433, 'grad_norm': 1.1542164087295532, 'learning_rate': 4.14433268349905e-06, 'epoch': 0.29} {'loss': 2.2832, 'grad_norm': 1.3596775531768799, 'learning_rate': 4.144005445169236e-06, 'epoch': 0.29} {'loss': 2.2989, 'grad_norm': 1.318446397781372, 'learning_rate': 4.1436781572023495e-06, 'epoch': 0.29} {'loss': 2.1669, 'grad_norm': 1.592558741569519, 'learning_rate': 4.143350819608275e-06, 'epoch': 0.29} {'loss': 2.4697, 'grad_norm': 1.4947926998138428, 'learning_rate': 4.1430234323968945e-06, 'epoch': 0.29} {'loss': 2.4416, 'grad_norm': 1.40901780128479, 'learning_rate': 4.142695995578093e-06, 'epoch': 0.29} {'loss': 2.0916, 'grad_norm': 1.3132877349853516, 'learning_rate': 4.142368509161757e-06, 'epoch': 0.29} {'loss': 2.1508, 'grad_norm': 1.4300315380096436, 'learning_rate': 4.142040973157774e-06, 'epoch': 0.29} {'loss': 2.202, 'grad_norm': 1.382888913154602, 'learning_rate': 4.141713387576033e-06, 'epoch': 0.29} {'loss': 2.386, 'grad_norm': 1.4399235248565674, 'learning_rate': 4.141385752426425e-06, 'epoch': 0.29} {'loss': 2.3622, 'grad_norm': 1.379339575767517, 'learning_rate': 4.141058067718843e-06, 'epoch': 0.29} {'loss': 2.395, 'grad_norm': 1.3388197422027588, 'learning_rate': 4.140730333463179e-06, 'epoch': 0.29} {'loss': 2.3075, 'grad_norm': 1.34584641456604, 'learning_rate': 4.140402549669328e-06, 'epoch': 0.29} {'loss': 2.2123, 'grad_norm': 1.431449294090271, 'learning_rate': 4.140074716347189e-06, 'epoch': 0.29} {'loss': 1.9923, 'grad_norm': 1.5522383451461792, 'learning_rate': 4.139746833506658e-06, 'epoch': 0.29} {'loss': 2.4398, 'grad_norm': 1.4277317523956299, 'learning_rate': 4.139418901157637e-06, 'epoch': 0.29} {'loss': 2.3307, 'grad_norm': 8.361177444458008, 'learning_rate': 4.139090919310024e-06, 'epoch': 0.29} {'loss': 2.4518, 'grad_norm': 1.3900518417358398, 'learning_rate': 4.138762887973724e-06, 'epoch': 0.29} {'loss': 2.1848, 'grad_norm': 2.169848918914795, 'learning_rate': 4.1384348071586414e-06, 'epoch': 0.29} {'loss': 2.1925, 'grad_norm': 1.4290153980255127, 'learning_rate': 4.13810667687468e-06, 'epoch': 0.29} {'loss': 1.9577, 'grad_norm': 1.2133549451828003, 'learning_rate': 4.137778497131749e-06, 'epoch': 0.29} {'loss': 2.1313, 'grad_norm': 1.3028990030288696, 'learning_rate': 4.137450267939757e-06, 'epoch': 0.29} {'loss': 2.1381, 'grad_norm': 2.771085500717163, 'learning_rate': 4.137121989308611e-06, 'epoch': 0.3} {'loss': 2.3273, 'grad_norm': 1.4173152446746826, 'learning_rate': 4.136793661248226e-06, 'epoch': 0.3} {'loss': 2.1766, 'grad_norm': 1.3525866270065308, 'learning_rate': 4.136465283768515e-06, 'epoch': 0.3} {'loss': 2.3909, 'grad_norm': 4.122291088104248, 'learning_rate': 4.13613685687939e-06, 'epoch': 0.3} {'loss': 2.42, 'grad_norm': 3.094316005706787, 'learning_rate': 4.13580838059077e-06, 'epoch': 0.3} {'loss': 2.0915, 'grad_norm': 1.4016180038452148, 'learning_rate': 4.13547985491257e-06, 'epoch': 0.3} {'loss': 1.9975, 'grad_norm': 1.0442498922348022, 'learning_rate': 4.135151279854712e-06, 'epoch': 0.3} {'loss': 2.1144, 'grad_norm': 1.3738951683044434, 'learning_rate': 4.134822655427114e-06, 'epoch': 0.3} {'loss': 2.3676, 'grad_norm': 1.3903402090072632, 'learning_rate': 4.1344939816397e-06, 'epoch': 0.3} {'loss': 2.136, 'grad_norm': 1.3205171823501587, 'learning_rate': 4.1341652585023915e-06, 'epoch': 0.3} {'loss': 2.2517, 'grad_norm': 1.2775673866271973, 'learning_rate': 4.133836486025116e-06, 'epoch': 0.3} {'loss': 2.3374, 'grad_norm': 1.4848219156265259, 'learning_rate': 4.133507664217799e-06, 'epoch': 0.3} {'loss': 2.1873, 'grad_norm': 1.4249656200408936, 'learning_rate': 4.1331787930903675e-06, 'epoch': 0.3} {'loss': 2.1855, 'grad_norm': 1.3103734254837036, 'learning_rate': 4.132849872652752e-06, 'epoch': 0.3} {'loss': 2.5405, 'grad_norm': 1.5762317180633545, 'learning_rate': 4.132520902914883e-06, 'epoch': 0.3} {'loss': 2.0021, 'grad_norm': 1.0975292921066284, 'learning_rate': 4.132191883886695e-06, 'epoch': 0.3} {'loss': 2.2733, 'grad_norm': 1.4672718048095703, 'learning_rate': 4.131862815578119e-06, 'epoch': 0.3} {'loss': 2.4397, 'grad_norm': 1.577335000038147, 'learning_rate': 4.131533697999092e-06, 'epoch': 0.3} {'loss': 2.3214, 'grad_norm': 1.348673939704895, 'learning_rate': 4.131204531159551e-06, 'epoch': 0.3} {'loss': 1.6412, 'grad_norm': 1.358231782913208, 'learning_rate': 4.130875315069435e-06, 'epoch': 0.3} {'loss': 2.2186, 'grad_norm': 1.302847146987915, 'learning_rate': 4.130546049738683e-06, 'epoch': 0.3} {'loss': 2.2339, 'grad_norm': 1.35374116897583, 'learning_rate': 4.130216735177236e-06, 'epoch': 0.3} {'loss': 2.2808, 'grad_norm': 1.3235708475112915, 'learning_rate': 4.1298873713950385e-06, 'epoch': 0.3} {'loss': 2.2647, 'grad_norm': 1.3238112926483154, 'learning_rate': 4.129557958402034e-06, 'epoch': 0.3} {'loss': 2.4143, 'grad_norm': 1.48179292678833, 'learning_rate': 4.129228496208167e-06, 'epoch': 0.3} {'loss': 2.4077, 'grad_norm': 1.447256088256836, 'learning_rate': 4.128898984823388e-06, 'epoch': 0.3} {'loss': 2.2085, 'grad_norm': 1.3127540349960327, 'learning_rate': 4.1285694242576435e-06, 'epoch': 0.3} {'loss': 2.1891, 'grad_norm': 1.1671324968338013, 'learning_rate': 4.128239814520885e-06, 'epoch': 0.3} {'loss': 2.1351, 'grad_norm': 2.3061258792877197, 'learning_rate': 4.127910155623063e-06, 'epoch': 0.3} {'loss': 2.2649, 'grad_norm': 1.352087378501892, 'learning_rate': 4.127580447574132e-06, 'epoch': 0.3} {'loss': 2.1934, 'grad_norm': 1.1235475540161133, 'learning_rate': 4.1272506903840455e-06, 'epoch': 0.3} {'loss': 2.1241, 'grad_norm': 1.4440765380859375, 'learning_rate': 4.126920884062762e-06, 'epoch': 0.3} {'loss': 2.3175, 'grad_norm': 2.906920909881592, 'learning_rate': 4.126591028620238e-06, 'epoch': 0.3} {'loss': 2.2168, 'grad_norm': 1.2527577877044678, 'learning_rate': 4.126261124066432e-06, 'epoch': 0.3} {'loss': 2.4366, 'grad_norm': 2.1743595600128174, 'learning_rate': 4.125931170411306e-06, 'epoch': 0.3} {'loss': 1.9772, 'grad_norm': 2.08651065826416, 'learning_rate': 4.125601167664821e-06, 'epoch': 0.3} {'loss': 2.0151, 'grad_norm': 1.332914113998413, 'learning_rate': 4.125271115836942e-06, 'epoch': 0.3} {'loss': 1.9115, 'grad_norm': 1.1251566410064697, 'learning_rate': 4.124941014937633e-06, 'epoch': 0.3} {'loss': 2.4709, 'grad_norm': 1.3311747312545776, 'learning_rate': 4.124610864976862e-06, 'epoch': 0.3} {'loss': 2.4196, 'grad_norm': 1.4849967956542969, 'learning_rate': 4.124280665964596e-06, 'epoch': 0.3} {'loss': 2.2207, 'grad_norm': 1.4229122400283813, 'learning_rate': 4.123950417910805e-06, 'epoch': 0.3} {'loss': 2.2786, 'grad_norm': 3.0427515506744385, 'learning_rate': 4.123620120825459e-06, 'epoch': 0.3} {'loss': 2.0226, 'grad_norm': 1.2019755840301514, 'learning_rate': 4.123289774718533e-06, 'epoch': 0.3} {'loss': 2.2484, 'grad_norm': 1.4078935384750366, 'learning_rate': 4.1229593795999995e-06, 'epoch': 0.3} {'loss': 2.2822, 'grad_norm': 2.459399461746216, 'learning_rate': 4.122628935479834e-06, 'epoch': 0.3} {'loss': 2.2028, 'grad_norm': 1.3620423078536987, 'learning_rate': 4.122298442368013e-06, 'epoch': 0.3} {'loss': 2.3272, 'grad_norm': 1.2279924154281616, 'learning_rate': 4.121967900274517e-06, 'epoch': 0.3} {'loss': 2.1837, 'grad_norm': 1.4786262512207031, 'learning_rate': 4.121637309209325e-06, 'epoch': 0.3} {'loss': 2.2476, 'grad_norm': 1.2879210710525513, 'learning_rate': 4.121306669182418e-06, 'epoch': 0.3} {'loss': 2.2546, 'grad_norm': 2.52043080329895, 'learning_rate': 4.120975980203778e-06, 'epoch': 0.3} {'loss': 2.0358, 'grad_norm': 11.33411979675293, 'learning_rate': 4.1206452422833905e-06, 'epoch': 0.3} {'loss': 2.3189, 'grad_norm': 1.234311819076538, 'learning_rate': 4.120314455431243e-06, 'epoch': 0.3} {'loss': 2.4003, 'grad_norm': 5.4598774909973145, 'learning_rate': 4.119983619657321e-06, 'epoch': 0.3} {'loss': 2.4339, 'grad_norm': 1.5048677921295166, 'learning_rate': 4.119652734971613e-06, 'epoch': 0.3} {'loss': 2.3368, 'grad_norm': 1.3824656009674072, 'learning_rate': 4.11932180138411e-06, 'epoch': 0.3} {'loss': 2.302, 'grad_norm': 1.3250491619110107, 'learning_rate': 4.118990818904804e-06, 'epoch': 0.3} {'loss': 1.304, 'grad_norm': 1.2715595960617065, 'learning_rate': 4.118659787543688e-06, 'epoch': 0.3} {'loss': 2.3055, 'grad_norm': 1.4455374479293823, 'learning_rate': 4.118328707310758e-06, 'epoch': 0.3} {'loss': 2.2124, 'grad_norm': 1.0137486457824707, 'learning_rate': 4.1179975782160075e-06, 'epoch': 0.3} {'loss': 2.0658, 'grad_norm': 1.2701963186264038, 'learning_rate': 4.117666400269436e-06, 'epoch': 0.3} {'loss': 2.0259, 'grad_norm': 1.3263640403747559, 'learning_rate': 4.117335173481043e-06, 'epoch': 0.3} {'loss': 2.1972, 'grad_norm': 1.365533709526062, 'learning_rate': 4.117003897860828e-06, 'epoch': 0.3} {'loss': 2.5564, 'grad_norm': 1.567028522491455, 'learning_rate': 4.116672573418794e-06, 'epoch': 0.3} {'loss': 2.4755, 'grad_norm': 1.4813100099563599, 'learning_rate': 4.116341200164945e-06, 'epoch': 0.3} {'loss': 2.3238, 'grad_norm': 1.3501322269439697, 'learning_rate': 4.116009778109285e-06, 'epoch': 0.3} {'loss': 2.0767, 'grad_norm': 1.5173017978668213, 'learning_rate': 4.11567830726182e-06, 'epoch': 0.3} {'loss': 2.2998, 'grad_norm': 1.5466724634170532, 'learning_rate': 4.115346787632559e-06, 'epoch': 0.3} {'loss': 2.2688, 'grad_norm': 1.7835558652877808, 'learning_rate': 4.1150152192315126e-06, 'epoch': 0.3} {'loss': 2.5543, 'grad_norm': 1.5680902004241943, 'learning_rate': 4.11468360206869e-06, 'epoch': 0.3} {'loss': 2.2553, 'grad_norm': 1.4262161254882812, 'learning_rate': 4.114351936154104e-06, 'epoch': 0.3} {'loss': 2.1431, 'grad_norm': 1.4250355958938599, 'learning_rate': 4.114020221497769e-06, 'epoch': 0.3} {'loss': 2.0824, 'grad_norm': 19.17849349975586, 'learning_rate': 4.113688458109701e-06, 'epoch': 0.3} {'loss': 2.2673, 'grad_norm': 1.4456100463867188, 'learning_rate': 4.113356645999915e-06, 'epoch': 0.3} {'loss': 2.1544, 'grad_norm': 1.8032821416854858, 'learning_rate': 4.113024785178431e-06, 'epoch': 0.3} {'loss': 2.4135, 'grad_norm': 1.4733537435531616, 'learning_rate': 4.112692875655267e-06, 'epoch': 0.3} {'loss': 2.0788, 'grad_norm': 1.0533534288406372, 'learning_rate': 4.112360917440446e-06, 'epoch': 0.3} {'loss': 2.3493, 'grad_norm': 1.3447593450546265, 'learning_rate': 4.1120289105439915e-06, 'epoch': 0.3} {'loss': 2.1253, 'grad_norm': 1.3794361352920532, 'learning_rate': 4.111696854975925e-06, 'epoch': 0.3} {'loss': 2.352, 'grad_norm': 1.4568120241165161, 'learning_rate': 4.111364750746274e-06, 'epoch': 0.3} {'loss': 2.4308, 'grad_norm': 1.777111291885376, 'learning_rate': 4.111032597865064e-06, 'epoch': 0.3} {'loss': 2.4526, 'grad_norm': 2.0574002265930176, 'learning_rate': 4.110700396342326e-06, 'epoch': 0.3} {'loss': 2.3752, 'grad_norm': 1.5751008987426758, 'learning_rate': 4.110368146188089e-06, 'epoch': 0.3} {'loss': 2.3418, 'grad_norm': 1.5123980045318604, 'learning_rate': 4.110035847412384e-06, 'epoch': 0.3} {'loss': 2.3918, 'grad_norm': 1.3599052429199219, 'learning_rate': 4.1097035000252435e-06, 'epoch': 0.3} {'loss': 2.0838, 'grad_norm': 1.4699546098709106, 'learning_rate': 4.109371104036704e-06, 'epoch': 0.3} {'loss': 2.1239, 'grad_norm': 1.4142591953277588, 'learning_rate': 4.1090386594568e-06, 'epoch': 0.3} {'loss': 2.2839, 'grad_norm': 1.4878312349319458, 'learning_rate': 4.1087061662955695e-06, 'epoch': 0.3} {'loss': 2.4394, 'grad_norm': 1.315213680267334, 'learning_rate': 4.108373624563051e-06, 'epoch': 0.3} {'loss': 2.3345, 'grad_norm': 1.390446662902832, 'learning_rate': 4.108041034269285e-06, 'epoch': 0.3} {'loss': 2.2578, 'grad_norm': 1.3917582035064697, 'learning_rate': 4.107708395424313e-06, 'epoch': 0.3} {'loss': 2.3176, 'grad_norm': 1.3119382858276367, 'learning_rate': 4.10737570803818e-06, 'epoch': 0.3} {'loss': 2.1115, 'grad_norm': 1.401854395866394, 'learning_rate': 4.107042972120928e-06, 'epoch': 0.3} {'loss': 2.1775, 'grad_norm': 1.549887776374817, 'learning_rate': 4.106710187682606e-06, 'epoch': 0.3} {'loss': 2.3325, 'grad_norm': 1.294798493385315, 'learning_rate': 4.1063773547332595e-06, 'epoch': 0.3} {'loss': 2.2098, 'grad_norm': 1.6942462921142578, 'learning_rate': 4.106044473282938e-06, 'epoch': 0.3} {'loss': 2.3167, 'grad_norm': 1.583571195602417, 'learning_rate': 4.105711543341693e-06, 'epoch': 0.3} {'loss': 2.0877, 'grad_norm': 1.2708642482757568, 'learning_rate': 4.105378564919576e-06, 'epoch': 0.3} {'loss': 2.3993, 'grad_norm': 1.3037384748458862, 'learning_rate': 4.10504553802664e-06, 'epoch': 0.3} {'loss': 2.2336, 'grad_norm': 1.4961433410644531, 'learning_rate': 4.104712462672942e-06, 'epoch': 0.3} {'loss': 2.1949, 'grad_norm': 1.4493472576141357, 'learning_rate': 4.104379338868537e-06, 'epoch': 0.3} {'loss': 2.3853, 'grad_norm': 2.085373878479004, 'learning_rate': 4.104046166623482e-06, 'epoch': 0.3} {'loss': 2.219, 'grad_norm': 1.252465844154358, 'learning_rate': 4.103712945947838e-06, 'epoch': 0.3} {'loss': 2.1969, 'grad_norm': 1.1790684461593628, 'learning_rate': 4.103379676851665e-06, 'epoch': 0.3} {'loss': 2.2906, 'grad_norm': 1.3727481365203857, 'learning_rate': 4.103046359345027e-06, 'epoch': 0.3} {'loss': 2.1451, 'grad_norm': 1.2875772714614868, 'learning_rate': 4.102712993437985e-06, 'epoch': 0.3} {'loss': 2.1774, 'grad_norm': 1.1621007919311523, 'learning_rate': 4.102379579140605e-06, 'epoch': 0.3} {'loss': 2.2189, 'grad_norm': 1.370139479637146, 'learning_rate': 4.102046116462956e-06, 'epoch': 0.3} {'loss': 2.5882, 'grad_norm': 1.528881549835205, 'learning_rate': 4.101712605415104e-06, 'epoch': 0.3} {'loss': 2.3956, 'grad_norm': 1.4151527881622314, 'learning_rate': 4.101379046007119e-06, 'epoch': 0.3} {'loss': 2.4344, 'grad_norm': 1.4075419902801514, 'learning_rate': 4.101045438249072e-06, 'epoch': 0.3} {'loss': 2.2648, 'grad_norm': 2.9130892753601074, 'learning_rate': 4.100711782151036e-06, 'epoch': 0.3} {'loss': 2.2498, 'grad_norm': 3.1979682445526123, 'learning_rate': 4.100378077723085e-06, 'epoch': 0.3} {'loss': 2.3154, 'grad_norm': 1.4726369380950928, 'learning_rate': 4.100044324975293e-06, 'epoch': 0.3} {'loss': 2.3832, 'grad_norm': 1.4932900667190552, 'learning_rate': 4.099710523917739e-06, 'epoch': 0.3} {'loss': 2.3381, 'grad_norm': 1.3942238092422485, 'learning_rate': 4.099376674560501e-06, 'epoch': 0.3} {'loss': 2.0724, 'grad_norm': 1.4566380977630615, 'learning_rate': 4.099042776913657e-06, 'epoch': 0.3} {'loss': 2.2774, 'grad_norm': 1.2954537868499756, 'learning_rate': 4.098708830987292e-06, 'epoch': 0.3} {'loss': 2.0354, 'grad_norm': 1.1416816711425781, 'learning_rate': 4.098374836791485e-06, 'epoch': 0.3} {'loss': 2.1247, 'grad_norm': 1.3953015804290771, 'learning_rate': 4.098040794336321e-06, 'epoch': 0.3} {'loss': 2.4224, 'grad_norm': 1.424910545349121, 'learning_rate': 4.097706703631887e-06, 'epoch': 0.3} {'loss': 2.0884, 'grad_norm': 1.1311378479003906, 'learning_rate': 4.097372564688268e-06, 'epoch': 0.3} {'loss': 2.4264, 'grad_norm': 1.741468071937561, 'learning_rate': 4.097038377515556e-06, 'epoch': 0.3} {'loss': 2.1627, 'grad_norm': 1.346289873123169, 'learning_rate': 4.096704142123837e-06, 'epoch': 0.3} {'loss': 1.9485, 'grad_norm': 1.2272098064422607, 'learning_rate': 4.096369858523206e-06, 'epoch': 0.3} {'loss': 2.4012, 'grad_norm': 4.005715847015381, 'learning_rate': 4.096035526723754e-06, 'epoch': 0.3} {'loss': 2.226, 'grad_norm': 1.4263533353805542, 'learning_rate': 4.0957011467355754e-06, 'epoch': 0.3} {'loss': 2.1966, 'grad_norm': 1.3845363855361938, 'learning_rate': 4.095366718568767e-06, 'epoch': 0.3} {'loss': 2.1478, 'grad_norm': 1.2800418138504028, 'learning_rate': 4.095032242233426e-06, 'epoch': 0.3} {'loss': 2.2061, 'grad_norm': 1.5190095901489258, 'learning_rate': 4.0946977177396495e-06, 'epoch': 0.3} {'loss': 2.2222, 'grad_norm': 1.6948390007019043, 'learning_rate': 4.09436314509754e-06, 'epoch': 0.3} {'loss': 2.3214, 'grad_norm': 1.5232542753219604, 'learning_rate': 4.0940285243171976e-06, 'epoch': 0.3} {'loss': 2.0701, 'grad_norm': 1.216957926750183, 'learning_rate': 4.093693855408726e-06, 'epoch': 0.3} {'loss': 2.2043, 'grad_norm': 1.2994657754898071, 'learning_rate': 4.09335913838223e-06, 'epoch': 0.3} {'loss': 2.1501, 'grad_norm': 1.6342687606811523, 'learning_rate': 4.093024373247815e-06, 'epoch': 0.3} {'loss': 2.3583, 'grad_norm': 1.2513360977172852, 'learning_rate': 4.092689560015589e-06, 'epoch': 0.3} {'loss': 2.3443, 'grad_norm': 2.216447353363037, 'learning_rate': 4.092354698695662e-06, 'epoch': 0.3} {'loss': 2.2956, 'grad_norm': 1.1440874338150024, 'learning_rate': 4.092019789298142e-06, 'epoch': 0.3} {'loss': 2.2072, 'grad_norm': 1.878041386604309, 'learning_rate': 4.091684831833142e-06, 'epoch': 0.3} {'loss': 2.4089, 'grad_norm': 1.443677306175232, 'learning_rate': 4.091349826310776e-06, 'epoch': 0.3} {'loss': 2.3047, 'grad_norm': 1.5547406673431396, 'learning_rate': 4.091014772741157e-06, 'epoch': 0.3} {'loss': 2.0631, 'grad_norm': 1.1168632507324219, 'learning_rate': 4.090679671134403e-06, 'epoch': 0.3} {'loss': 2.3121, 'grad_norm': 1.4455931186676025, 'learning_rate': 4.090344521500631e-06, 'epoch': 0.3} {'loss': 2.3966, 'grad_norm': 1.3152016401290894, 'learning_rate': 4.09000932384996e-06, 'epoch': 0.3} {'loss': 2.3248, 'grad_norm': 1.356750249862671, 'learning_rate': 4.0896740781925105e-06, 'epoch': 0.3} {'loss': 2.2088, 'grad_norm': 1.4216879606246948, 'learning_rate': 4.089338784538405e-06, 'epoch': 0.3} {'loss': 2.2392, 'grad_norm': 1.228576898574829, 'learning_rate': 4.089003442897766e-06, 'epoch': 0.3} {'loss': 2.1491, 'grad_norm': 1.3207995891571045, 'learning_rate': 4.088668053280718e-06, 'epoch': 0.3} {'loss': 2.2898, 'grad_norm': 2.3389368057250977, 'learning_rate': 4.08833261569739e-06, 'epoch': 0.3} {'loss': 2.3582, 'grad_norm': 2.9603917598724365, 'learning_rate': 4.087997130157907e-06, 'epoch': 0.3} {'loss': 2.1757, 'grad_norm': 1.287766933441162, 'learning_rate': 4.087661596672398e-06, 'epoch': 0.3} {'loss': 2.3347, 'grad_norm': 1.5170120000839233, 'learning_rate': 4.087326015250998e-06, 'epoch': 0.3} {'loss': 2.4146, 'grad_norm': 1.5668004751205444, 'learning_rate': 4.0869903859038335e-06, 'epoch': 0.3} {'loss': 2.386, 'grad_norm': 1.5377253293991089, 'learning_rate': 4.086654708641042e-06, 'epoch': 0.3} {'loss': 2.3794, 'grad_norm': 1.759872555732727, 'learning_rate': 4.086318983472756e-06, 'epoch': 0.3} {'loss': 2.3369, 'grad_norm': 1.3844619989395142, 'learning_rate': 4.085983210409114e-06, 'epoch': 0.3} {'loss': 2.1267, 'grad_norm': 3.7982306480407715, 'learning_rate': 4.085647389460253e-06, 'epoch': 0.3} {'loss': 2.241, 'grad_norm': 1.312081217765808, 'learning_rate': 4.085311520636312e-06, 'epoch': 0.3} {'loss': 1.5233, 'grad_norm': 1.5679099559783936, 'learning_rate': 4.084975603947433e-06, 'epoch': 0.3} {'loss': 2.2847, 'grad_norm': 1.2718433141708374, 'learning_rate': 4.084639639403757e-06, 'epoch': 0.3} {'loss': 2.4316, 'grad_norm': 1.1442599296569824, 'learning_rate': 4.084303627015428e-06, 'epoch': 0.3} {'loss': 2.1727, 'grad_norm': 1.3210723400115967, 'learning_rate': 4.083967566792591e-06, 'epoch': 0.3} {'loss': 2.4704, 'grad_norm': 1.2769922018051147, 'learning_rate': 4.083631458745394e-06, 'epoch': 0.3} {'loss': 2.0157, 'grad_norm': 1.55484938621521, 'learning_rate': 4.0832953028839835e-06, 'epoch': 0.3} {'loss': 1.9013, 'grad_norm': 1.3804036378860474, 'learning_rate': 4.082959099218509e-06, 'epoch': 0.3} {'loss': 2.2115, 'grad_norm': 1.5432641506195068, 'learning_rate': 4.082622847759122e-06, 'epoch': 0.3} {'loss': 2.3231, 'grad_norm': 1.5573573112487793, 'learning_rate': 4.082286548515975e-06, 'epoch': 0.3} {'loss': 2.4124, 'grad_norm': 1.5517879724502563, 'learning_rate': 4.081950201499221e-06, 'epoch': 0.3} {'loss': 2.1228, 'grad_norm': 1.4378842115402222, 'learning_rate': 4.081613806719016e-06, 'epoch': 0.3} {'loss': 2.2994, 'grad_norm': 1.2293237447738647, 'learning_rate': 4.081277364185516e-06, 'epoch': 0.3} {'loss': 1.8178, 'grad_norm': 1.4004319906234741, 'learning_rate': 4.0809408739088804e-06, 'epoch': 0.3} {'loss': 2.1868, 'grad_norm': 1.2678675651550293, 'learning_rate': 4.0806043358992675e-06, 'epoch': 0.3} {'loss': 2.288, 'grad_norm': 1.473337173461914, 'learning_rate': 4.080267750166839e-06, 'epoch': 0.3} {'loss': 2.3113, 'grad_norm': 1.3962126970291138, 'learning_rate': 4.079931116721757e-06, 'epoch': 0.3} {'loss': 2.1857, 'grad_norm': 1.3885467052459717, 'learning_rate': 4.079594435574186e-06, 'epoch': 0.3} {'loss': 2.2443, 'grad_norm': 1.428124189376831, 'learning_rate': 4.07925770673429e-06, 'epoch': 0.3} {'loss': 2.2199, 'grad_norm': 1.6052621603012085, 'learning_rate': 4.078920930212237e-06, 'epoch': 0.3} {'loss': 2.422, 'grad_norm': 1.308228850364685, 'learning_rate': 4.078584106018194e-06, 'epoch': 0.3} {'loss': 2.2886, 'grad_norm': 1.3035264015197754, 'learning_rate': 4.078247234162332e-06, 'epoch': 0.3} {'loss': 2.382, 'grad_norm': 1.3524413108825684, 'learning_rate': 4.077910314654822e-06, 'epoch': 0.3} {'loss': 2.4755, 'grad_norm': 1.377758502960205, 'learning_rate': 4.077573347505837e-06, 'epoch': 0.3} {'loss': 2.3581, 'grad_norm': 1.3649576902389526, 'learning_rate': 4.077236332725548e-06, 'epoch': 0.3} {'loss': 2.3318, 'grad_norm': 1.0945258140563965, 'learning_rate': 4.076899270324133e-06, 'epoch': 0.3} {'loss': 2.4576, 'grad_norm': 1.6673932075500488, 'learning_rate': 4.076562160311769e-06, 'epoch': 0.3} {'loss': 2.2234, 'grad_norm': 1.3988454341888428, 'learning_rate': 4.0762250026986335e-06, 'epoch': 0.3} {'loss': 2.4083, 'grad_norm': 1.5207840204238892, 'learning_rate': 4.075887797494906e-06, 'epoch': 0.3} {'loss': 2.052, 'grad_norm': 1.3344876766204834, 'learning_rate': 4.075550544710768e-06, 'epoch': 0.3} {'loss': 2.3433, 'grad_norm': 1.51613187789917, 'learning_rate': 4.075213244356402e-06, 'epoch': 0.3} {'loss': 2.2466, 'grad_norm': 1.394096851348877, 'learning_rate': 4.074875896441992e-06, 'epoch': 0.31} {'loss': 2.1811, 'grad_norm': 1.5377808809280396, 'learning_rate': 4.074538500977725e-06, 'epoch': 0.31} {'loss': 2.1854, 'grad_norm': 1.4722511768341064, 'learning_rate': 4.074201057973785e-06, 'epoch': 0.31} {'loss': 2.3581, 'grad_norm': 1.3650801181793213, 'learning_rate': 4.073863567440363e-06, 'epoch': 0.31} {'loss': 2.496, 'grad_norm': 1.5257960557937622, 'learning_rate': 4.073526029387646e-06, 'epoch': 0.31} {'loss': 2.3067, 'grad_norm': 1.2375541925430298, 'learning_rate': 4.073188443825828e-06, 'epoch': 0.31} {'loss': 2.1031, 'grad_norm': 1.2095866203308105, 'learning_rate': 4.0728508107651e-06, 'epoch': 0.31} {'loss': 2.1826, 'grad_norm': 1.3011871576309204, 'learning_rate': 4.072513130215656e-06, 'epoch': 0.31} {'loss': 2.2151, 'grad_norm': 1.6190072298049927, 'learning_rate': 4.072175402187693e-06, 'epoch': 0.31} {'loss': 2.2205, 'grad_norm': 1.4324859380722046, 'learning_rate': 4.071837626691407e-06, 'epoch': 0.31} {'loss': 2.0829, 'grad_norm': 1.6129558086395264, 'learning_rate': 4.071499803736996e-06, 'epoch': 0.31} {'loss': 2.1771, 'grad_norm': 1.468011736869812, 'learning_rate': 4.071161933334659e-06, 'epoch': 0.31} {'loss': 2.3685, 'grad_norm': 1.4367543458938599, 'learning_rate': 4.0708240154946e-06, 'epoch': 0.31} {'loss': 2.1819, 'grad_norm': 1.3240309953689575, 'learning_rate': 4.0704860502270195e-06, 'epoch': 0.31} {'loss': 2.5753, 'grad_norm': 1.4401029348373413, 'learning_rate': 4.070148037542123e-06, 'epoch': 0.31} {'loss': 2.2036, 'grad_norm': 1.3353359699249268, 'learning_rate': 4.069809977450115e-06, 'epoch': 0.31} {'loss': 2.4889, 'grad_norm': 8.862578392028809, 'learning_rate': 4.069471869961201e-06, 'epoch': 0.31} {'loss': 2.3862, 'grad_norm': 1.4887027740478516, 'learning_rate': 4.069133715085592e-06, 'epoch': 0.31} {'loss': 2.2409, 'grad_norm': 1.4874505996704102, 'learning_rate': 4.068795512833498e-06, 'epoch': 0.31} {'loss': 2.1604, 'grad_norm': 1.4580141305923462, 'learning_rate': 4.0684572632151275e-06, 'epoch': 0.31} {'loss': 2.269, 'grad_norm': 1.524873971939087, 'learning_rate': 4.068118966240696e-06, 'epoch': 0.31} {'loss': 2.2097, 'grad_norm': 1.241546630859375, 'learning_rate': 4.067780621920416e-06, 'epoch': 0.31} {'loss': 2.1691, 'grad_norm': 1.2779959440231323, 'learning_rate': 4.067442230264503e-06, 'epoch': 0.31} {'loss': 2.2345, 'grad_norm': 1.238029956817627, 'learning_rate': 4.067103791283175e-06, 'epoch': 0.31} {'loss': 2.2526, 'grad_norm': 3.3578290939331055, 'learning_rate': 4.06676530498665e-06, 'epoch': 0.31} {'loss': 2.26, 'grad_norm': 1.8842111825942993, 'learning_rate': 4.066426771385149e-06, 'epoch': 0.31} {'loss': 1.9113, 'grad_norm': 1.3308213949203491, 'learning_rate': 4.06608819048889e-06, 'epoch': 0.31} {'loss': 2.4674, 'grad_norm': 1.3513343334197998, 'learning_rate': 4.0657495623081e-06, 'epoch': 0.31} {'loss': 2.0762, 'grad_norm': 1.437351107597351, 'learning_rate': 4.0654108868529986e-06, 'epoch': 0.31} {'loss': 2.2571, 'grad_norm': 1.49918794631958, 'learning_rate': 4.065072164133815e-06, 'epoch': 0.31} {'loss': 2.4531, 'grad_norm': 1.4321484565734863, 'learning_rate': 4.064733394160774e-06, 'epoch': 0.31} {'loss': 2.3245, 'grad_norm': 1.316144585609436, 'learning_rate': 4.064394576944105e-06, 'epoch': 0.31} {'loss': 2.4015, 'grad_norm': 1.4634536504745483, 'learning_rate': 4.064055712494038e-06, 'epoch': 0.31} {'loss': 2.2876, 'grad_norm': 1.3908226490020752, 'learning_rate': 4.0637168008208026e-06, 'epoch': 0.31} {'loss': 2.2032, 'grad_norm': 1.3373477458953857, 'learning_rate': 4.063377841934633e-06, 'epoch': 0.31} {'loss': 2.2226, 'grad_norm': 1.3989357948303223, 'learning_rate': 4.063038835845764e-06, 'epoch': 0.31} {'loss': 2.4327, 'grad_norm': 1.3497830629348755, 'learning_rate': 4.062699782564431e-06, 'epoch': 0.31} {'loss': 2.4143, 'grad_norm': 2.25803279876709, 'learning_rate': 4.062360682100869e-06, 'epoch': 0.31} {'loss': 2.1658, 'grad_norm': 1.391983985900879, 'learning_rate': 4.0620215344653165e-06, 'epoch': 0.31} {'loss': 2.1647, 'grad_norm': 1.2796801328659058, 'learning_rate': 4.061682339668016e-06, 'epoch': 0.31} {'loss': 2.3031, 'grad_norm': 1.456968903541565, 'learning_rate': 4.061343097719206e-06, 'epoch': 0.31} {'loss': 2.4157, 'grad_norm': 1.5105525255203247, 'learning_rate': 4.06100380862913e-06, 'epoch': 0.31} {'loss': 2.3589, 'grad_norm': 1.7286176681518555, 'learning_rate': 4.060664472408033e-06, 'epoch': 0.31} {'loss': 2.5343, 'grad_norm': 1.6165162324905396, 'learning_rate': 4.06032508906616e-06, 'epoch': 0.31} {'loss': 2.2766, 'grad_norm': 1.4612947702407837, 'learning_rate': 4.059985658613757e-06, 'epoch': 0.31} {'loss': 2.7198, 'grad_norm': 1.519787311553955, 'learning_rate': 4.059646181061073e-06, 'epoch': 0.31} {'loss': 2.501, 'grad_norm': 1.405494213104248, 'learning_rate': 4.059306656418359e-06, 'epoch': 0.31} {'loss': 2.3325, 'grad_norm': 1.4190503358840942, 'learning_rate': 4.058967084695864e-06, 'epoch': 0.31} {'loss': 1.9851, 'grad_norm': 1.240964412689209, 'learning_rate': 4.058627465903841e-06, 'epoch': 0.31} {'loss': 2.064, 'grad_norm': 1.3014048337936401, 'learning_rate': 4.058287800052546e-06, 'epoch': 0.31} {'loss': 2.2684, 'grad_norm': 1.541025161743164, 'learning_rate': 4.057948087152232e-06, 'epoch': 0.31} {'loss': 2.1079, 'grad_norm': 1.2527133226394653, 'learning_rate': 4.057608327213157e-06, 'epoch': 0.31} {'loss': 2.2924, 'grad_norm': 1.2668806314468384, 'learning_rate': 4.05726852024558e-06, 'epoch': 0.31} {'loss': 2.2238, 'grad_norm': 1.5482497215270996, 'learning_rate': 4.056928666259759e-06, 'epoch': 0.31} {'loss': 2.3004, 'grad_norm': 1.470178484916687, 'learning_rate': 4.056588765265957e-06, 'epoch': 0.31} {'loss': 2.1986, 'grad_norm': 1.5532933473587036, 'learning_rate': 4.056248817274435e-06, 'epoch': 0.31} {'loss': 1.9929, 'grad_norm': 1.2718422412872314, 'learning_rate': 4.055908822295458e-06, 'epoch': 0.31} {'loss': 2.0681, 'grad_norm': 1.403761625289917, 'learning_rate': 4.0555687803392905e-06, 'epoch': 0.31} {'loss': 2.4478, 'grad_norm': 1.355272889137268, 'learning_rate': 4.055228691416201e-06, 'epoch': 0.31} {'loss': 2.161, 'grad_norm': 1.4263219833374023, 'learning_rate': 4.054888555536456e-06, 'epoch': 0.31} {'loss': 2.0335, 'grad_norm': 1.6973152160644531, 'learning_rate': 4.054548372710325e-06, 'epoch': 0.31} {'loss': 2.2939, 'grad_norm': 1.5490440130233765, 'learning_rate': 4.05420814294808e-06, 'epoch': 0.31} {'loss': 2.3126, 'grad_norm': 1.657361626625061, 'learning_rate': 4.053867866259994e-06, 'epoch': 0.31} {'loss': 2.1374, 'grad_norm': 1.3809483051300049, 'learning_rate': 4.053527542656339e-06, 'epoch': 0.31} {'loss': 2.2426, 'grad_norm': 1.4597104787826538, 'learning_rate': 4.053187172147391e-06, 'epoch': 0.31} {'loss': 2.1674, 'grad_norm': 1.2546296119689941, 'learning_rate': 4.0528467547434285e-06, 'epoch': 0.31} {'loss': 2.3892, 'grad_norm': 1.3623522520065308, 'learning_rate': 4.052506290454728e-06, 'epoch': 0.31} {'loss': 2.4609, 'grad_norm': 1.3201828002929688, 'learning_rate': 4.0521657792915695e-06, 'epoch': 0.31} {'loss': 2.293, 'grad_norm': 1.5300309658050537, 'learning_rate': 4.051825221264233e-06, 'epoch': 0.31} {'loss': 1.4267, 'grad_norm': 1.4522902965545654, 'learning_rate': 4.051484616383002e-06, 'epoch': 0.31} {'loss': 2.3072, 'grad_norm': 1.3857709169387817, 'learning_rate': 4.0511439646581606e-06, 'epoch': 0.31} {'loss': 2.3607, 'grad_norm': 1.4904454946517944, 'learning_rate': 4.050803266099993e-06, 'epoch': 0.31} {'loss': 2.0942, 'grad_norm': 1.4489847421646118, 'learning_rate': 4.050462520718786e-06, 'epoch': 0.31} {'loss': 2.0241, 'grad_norm': 1.3150558471679688, 'learning_rate': 4.050121728524829e-06, 'epoch': 0.31} {'loss': 2.3521, 'grad_norm': 1.3363829851150513, 'learning_rate': 4.049780889528408e-06, 'epoch': 0.31} {'loss': 2.2508, 'grad_norm': 1.5047639608383179, 'learning_rate': 4.049440003739818e-06, 'epoch': 0.31} {'loss': 2.473, 'grad_norm': 1.5026495456695557, 'learning_rate': 4.04909907116935e-06, 'epoch': 0.31} {'loss': 1.6303, 'grad_norm': 12.407692909240723, 'learning_rate': 4.048758091827296e-06, 'epoch': 0.31} {'loss': 2.0844, 'grad_norm': 1.3768272399902344, 'learning_rate': 4.048417065723953e-06, 'epoch': 0.31} {'loss': 2.2548, 'grad_norm': 1.3312957286834717, 'learning_rate': 4.048075992869617e-06, 'epoch': 0.31} {'loss': 2.2757, 'grad_norm': 1.3554630279541016, 'learning_rate': 4.047734873274586e-06, 'epoch': 0.31} {'loss': 2.3577, 'grad_norm': 1.4638768434524536, 'learning_rate': 4.047393706949157e-06, 'epoch': 0.31} {'loss': 2.1725, 'grad_norm': 1.2715502977371216, 'learning_rate': 4.047052493903635e-06, 'epoch': 0.31} {'loss': 2.3677, 'grad_norm': 1.6652662754058838, 'learning_rate': 4.046711234148319e-06, 'epoch': 0.31} {'loss': 2.3588, 'grad_norm': 1.4805527925491333, 'learning_rate': 4.046369927693516e-06, 'epoch': 0.31} {'loss': 2.046, 'grad_norm': 1.184088110923767, 'learning_rate': 4.046028574549526e-06, 'epoch': 0.31} {'loss': 2.4311, 'grad_norm': 1.2991359233856201, 'learning_rate': 4.045687174726659e-06, 'epoch': 0.31} {'loss': 2.1534, 'grad_norm': 1.672582983970642, 'learning_rate': 4.045345728235221e-06, 'epoch': 0.31} {'loss': 2.2528, 'grad_norm': 1.4412033557891846, 'learning_rate': 4.045004235085522e-06, 'epoch': 0.31} {'loss': 2.2901, 'grad_norm': 1.339589238166809, 'learning_rate': 4.044662695287874e-06, 'epoch': 0.31} {'loss': 2.3993, 'grad_norm': 1.4800071716308594, 'learning_rate': 4.044321108852587e-06, 'epoch': 0.31} {'loss': 1.965, 'grad_norm': 1.31625235080719, 'learning_rate': 4.043979475789974e-06, 'epoch': 0.31} {'loss': 2.3428, 'grad_norm': 1.567817211151123, 'learning_rate': 4.043637796110352e-06, 'epoch': 0.31} {'loss': 2.2329, 'grad_norm': 1.4252607822418213, 'learning_rate': 4.043296069824037e-06, 'epoch': 0.31} {'loss': 2.3689, 'grad_norm': 1.2999069690704346, 'learning_rate': 4.042954296941345e-06, 'epoch': 0.31} {'loss': 2.6068, 'grad_norm': 1.5831931829452515, 'learning_rate': 4.0426124774725956e-06, 'epoch': 0.31} {'loss': 2.2937, 'grad_norm': 1.4944424629211426, 'learning_rate': 4.0422706114281096e-06, 'epoch': 0.31} {'loss': 2.3681, 'grad_norm': 1.3514009714126587, 'learning_rate': 4.041928698818209e-06, 'epoch': 0.31} {'loss': 2.262, 'grad_norm': 1.5957690477371216, 'learning_rate': 4.041586739653218e-06, 'epoch': 0.31} {'loss': 2.6662, 'grad_norm': 1.2952711582183838, 'learning_rate': 4.04124473394346e-06, 'epoch': 0.31} {'loss': 2.1188, 'grad_norm': 1.2392678260803223, 'learning_rate': 4.04090268169926e-06, 'epoch': 0.31} {'loss': 2.1334, 'grad_norm': 1.2619109153747559, 'learning_rate': 4.040560582930948e-06, 'epoch': 0.31} {'loss': 2.3952, 'grad_norm': 1.4918471574783325, 'learning_rate': 4.0402184376488515e-06, 'epoch': 0.31} {'loss': 2.1965, 'grad_norm': 1.4112993478775024, 'learning_rate': 4.039876245863302e-06, 'epoch': 0.31} {'loss': 1.968, 'grad_norm': 1.2389898300170898, 'learning_rate': 4.039534007584629e-06, 'epoch': 0.31} {'loss': 2.4376, 'grad_norm': 1.4373563528060913, 'learning_rate': 4.039191722823167e-06, 'epoch': 0.31} {'loss': 2.4461, 'grad_norm': 1.296429991722107, 'learning_rate': 4.0388493915892515e-06, 'epoch': 0.31} {'loss': 2.3492, 'grad_norm': 1.6524708271026611, 'learning_rate': 4.038507013893217e-06, 'epoch': 0.31} {'loss': 2.1254, 'grad_norm': 1.7744450569152832, 'learning_rate': 4.038164589745401e-06, 'epoch': 0.31} {'loss': 1.9388, 'grad_norm': 1.22013521194458, 'learning_rate': 4.037822119156142e-06, 'epoch': 0.31} {'loss': 2.5525, 'grad_norm': 1.4393178224563599, 'learning_rate': 4.037479602135781e-06, 'epoch': 0.31} {'loss': 2.4624, 'grad_norm': 1.7135732173919678, 'learning_rate': 4.03713703869466e-06, 'epoch': 0.31} {'loss': 2.5189, 'grad_norm': 1.4786226749420166, 'learning_rate': 4.036794428843119e-06, 'epoch': 0.31} {'loss': 2.0573, 'grad_norm': 1.265604853630066, 'learning_rate': 4.036451772591506e-06, 'epoch': 0.31} {'loss': 2.1028, 'grad_norm': 1.4307684898376465, 'learning_rate': 4.036109069950165e-06, 'epoch': 0.31} {'loss': 2.1349, 'grad_norm': 1.3537698984146118, 'learning_rate': 4.035766320929443e-06, 'epoch': 0.31} {'loss': 2.2663, 'grad_norm': 1.3925491571426392, 'learning_rate': 4.035423525539689e-06, 'epoch': 0.31} {'loss': 2.2205, 'grad_norm': 1.3359932899475098, 'learning_rate': 4.0350806837912525e-06, 'epoch': 0.31} {'loss': 2.2089, 'grad_norm': 1.4050886631011963, 'learning_rate': 4.034737795694485e-06, 'epoch': 0.31} {'loss': 2.3198, 'grad_norm': 1.6069879531860352, 'learning_rate': 4.03439486125974e-06, 'epoch': 0.31} {'loss': 2.3991, 'grad_norm': 1.3600398302078247, 'learning_rate': 4.03405188049737e-06, 'epoch': 0.31} {'loss': 2.0859, 'grad_norm': 1.471459150314331, 'learning_rate': 4.033708853417733e-06, 'epoch': 0.31} {'loss': 2.1692, 'grad_norm': 1.3663729429244995, 'learning_rate': 4.033365780031183e-06, 'epoch': 0.31} {'loss': 2.3524, 'grad_norm': 1.4209940433502197, 'learning_rate': 4.03302266034808e-06, 'epoch': 0.31} {'loss': 2.2791, 'grad_norm': 1.255976915359497, 'learning_rate': 4.032679494378784e-06, 'epoch': 0.31} {'loss': 2.5359, 'grad_norm': 1.2183526754379272, 'learning_rate': 4.0323362821336555e-06, 'epoch': 0.31} {'loss': 2.1737, 'grad_norm': 1.2164422273635864, 'learning_rate': 4.0319930236230566e-06, 'epoch': 0.31} {'loss': 1.872, 'grad_norm': 1.1526315212249756, 'learning_rate': 4.031649718857352e-06, 'epoch': 0.31} {'loss': 2.3555, 'grad_norm': 1.5897020101547241, 'learning_rate': 4.031306367846908e-06, 'epoch': 0.31} {'loss': 2.1792, 'grad_norm': 1.4817225933074951, 'learning_rate': 4.030962970602089e-06, 'epoch': 0.31} {'loss': 2.1867, 'grad_norm': 2.483764410018921, 'learning_rate': 4.030619527133265e-06, 'epoch': 0.31} {'loss': 2.2054, 'grad_norm': 1.7333160638809204, 'learning_rate': 4.030276037450804e-06, 'epoch': 0.31} {'loss': 2.0804, 'grad_norm': 1.3606500625610352, 'learning_rate': 4.029932501565078e-06, 'epoch': 0.31} {'loss': 2.2304, 'grad_norm': 1.3906664848327637, 'learning_rate': 4.029588919486459e-06, 'epoch': 0.31} {'loss': 2.253, 'grad_norm': 1.3337547779083252, 'learning_rate': 4.02924529122532e-06, 'epoch': 0.31} {'loss': 2.2987, 'grad_norm': 1.2399014234542847, 'learning_rate': 4.028901616792037e-06, 'epoch': 0.31} {'loss': 2.1655, 'grad_norm': 1.1811914443969727, 'learning_rate': 4.028557896196986e-06, 'epoch': 0.31} {'loss': 2.1211, 'grad_norm': 1.4651488065719604, 'learning_rate': 4.028214129450546e-06, 'epoch': 0.31} {'loss': 2.182, 'grad_norm': 1.2192994356155396, 'learning_rate': 4.027870316563095e-06, 'epoch': 0.31} {'loss': 2.269, 'grad_norm': 1.2199244499206543, 'learning_rate': 4.027526457545015e-06, 'epoch': 0.31} {'loss': 2.4972, 'grad_norm': 1.5545547008514404, 'learning_rate': 4.0271825524066855e-06, 'epoch': 0.31} {'loss': 2.2039, 'grad_norm': 1.2338107824325562, 'learning_rate': 4.026838601158492e-06, 'epoch': 0.31} {'loss': 2.2947, 'grad_norm': 2.1778085231781006, 'learning_rate': 4.026494603810818e-06, 'epoch': 0.31} {'loss': 2.2279, 'grad_norm': 1.0893511772155762, 'learning_rate': 4.026150560374052e-06, 'epoch': 0.31} {'loss': 2.4881, 'grad_norm': 1.3846956491470337, 'learning_rate': 4.02580647085858e-06, 'epoch': 0.31} {'loss': 2.4911, 'grad_norm': 1.4905753135681152, 'learning_rate': 4.02546233527479e-06, 'epoch': 0.31} {'loss': 2.2064, 'grad_norm': 1.3309577703475952, 'learning_rate': 4.025118153633075e-06, 'epoch': 0.31} {'loss': 2.3787, 'grad_norm': 1.569792628288269, 'learning_rate': 4.024773925943825e-06, 'epoch': 0.31} {'loss': 2.4355, 'grad_norm': 1.3819103240966797, 'learning_rate': 4.0244296522174346e-06, 'epoch': 0.31} {'loss': 2.2475, 'grad_norm': 1.5207468271255493, 'learning_rate': 4.024085332464296e-06, 'epoch': 0.31} {'loss': 2.2047, 'grad_norm': 1.3282800912857056, 'learning_rate': 4.023740966694807e-06, 'epoch': 0.31} {'loss': 2.2875, 'grad_norm': 1.4877768754959106, 'learning_rate': 4.023396554919364e-06, 'epoch': 0.31} {'loss': 2.1213, 'grad_norm': 1.2206835746765137, 'learning_rate': 4.023052097148367e-06, 'epoch': 0.31} {'loss': 1.9955, 'grad_norm': 1.5885003805160522, 'learning_rate': 4.022707593392216e-06, 'epoch': 0.31} {'loss': 2.223, 'grad_norm': 1.4760076999664307, 'learning_rate': 4.0223630436613105e-06, 'epoch': 0.31} {'loss': 2.3827, 'grad_norm': 1.4097520112991333, 'learning_rate': 4.022018447966056e-06, 'epoch': 0.31} {'loss': 2.3218, 'grad_norm': 1.3420275449752808, 'learning_rate': 4.021673806316855e-06, 'epoch': 0.31} {'loss': 2.1752, 'grad_norm': 1.2954903841018677, 'learning_rate': 4.021329118724113e-06, 'epoch': 0.31} {'loss': 2.4538, 'grad_norm': 1.3203480243682861, 'learning_rate': 4.0209843851982384e-06, 'epoch': 0.31} {'loss': 2.1174, 'grad_norm': 1.5920377969741821, 'learning_rate': 4.02063960574964e-06, 'epoch': 0.31} {'loss': 2.4879, 'grad_norm': 1.431911587715149, 'learning_rate': 4.020294780388726e-06, 'epoch': 0.31} {'loss': 2.2364, 'grad_norm': 1.5101070404052734, 'learning_rate': 4.019949909125909e-06, 'epoch': 0.31} {'loss': 2.3251, 'grad_norm': 1.3755563497543335, 'learning_rate': 4.019604991971601e-06, 'epoch': 0.31} {'loss': 2.0875, 'grad_norm': 1.0476672649383545, 'learning_rate': 4.0192600289362146e-06, 'epoch': 0.31} {'loss': 1.8944, 'grad_norm': 1.3277875185012817, 'learning_rate': 4.018915020030168e-06, 'epoch': 0.31} {'loss': 2.1835, 'grad_norm': 1.2977263927459717, 'learning_rate': 4.018569965263876e-06, 'epoch': 0.31} {'loss': 2.3485, 'grad_norm': 1.2878985404968262, 'learning_rate': 4.018224864647759e-06, 'epoch': 0.31} {'loss': 2.2063, 'grad_norm': 1.526236653327942, 'learning_rate': 4.017879718192232e-06, 'epoch': 0.31} {'loss': 2.3833, 'grad_norm': 1.3673596382141113, 'learning_rate': 4.017534525907721e-06, 'epoch': 0.31} {'loss': 2.0168, 'grad_norm': 1.2280751466751099, 'learning_rate': 4.017189287804646e-06, 'epoch': 0.31} {'loss': 2.3255, 'grad_norm': 2.0710325241088867, 'learning_rate': 4.01684400389343e-06, 'epoch': 0.31} {'loss': 2.253, 'grad_norm': 1.266101360321045, 'learning_rate': 4.0164986741844995e-06, 'epoch': 0.31} {'loss': 2.3138, 'grad_norm': 1.335493803024292, 'learning_rate': 4.01615329868828e-06, 'epoch': 0.31} {'loss': 2.084, 'grad_norm': 1.2489944696426392, 'learning_rate': 4.0158078774152e-06, 'epoch': 0.31} {'loss': 1.9733, 'grad_norm': 1.51082444190979, 'learning_rate': 4.015462410375688e-06, 'epoch': 0.31} {'loss': 2.2292, 'grad_norm': 1.3965479135513306, 'learning_rate': 4.015116897580175e-06, 'epoch': 0.31} {'loss': 2.3188, 'grad_norm': 1.4490561485290527, 'learning_rate': 4.014771339039093e-06, 'epoch': 0.31} {'loss': 2.0236, 'grad_norm': 1.3344054222106934, 'learning_rate': 4.014425734762876e-06, 'epoch': 0.31} {'loss': 2.104, 'grad_norm': 2.1611578464508057, 'learning_rate': 4.014080084761957e-06, 'epoch': 0.31} {'loss': 2.3767, 'grad_norm': 1.3506325483322144, 'learning_rate': 4.013734389046774e-06, 'epoch': 0.31} {'loss': 2.2306, 'grad_norm': 1.3832772970199585, 'learning_rate': 4.013388647627764e-06, 'epoch': 0.31} {'loss': 2.3248, 'grad_norm': 1.505828619003296, 'learning_rate': 4.013042860515365e-06, 'epoch': 0.31} {'loss': 2.2485, 'grad_norm': 1.0858372449874878, 'learning_rate': 4.012697027720019e-06, 'epoch': 0.31} {'loss': 2.2551, 'grad_norm': 1.3615769147872925, 'learning_rate': 4.0123511492521656e-06, 'epoch': 0.31} {'loss': 2.1893, 'grad_norm': 1.3243950605392456, 'learning_rate': 4.0120052251222485e-06, 'epoch': 0.31} {'loss': 2.2847, 'grad_norm': 1.4365261793136597, 'learning_rate': 4.011659255340713e-06, 'epoch': 0.31} {'loss': 2.2393, 'grad_norm': 1.362168550491333, 'learning_rate': 4.011313239918005e-06, 'epoch': 0.32} {'loss': 2.187, 'grad_norm': 1.286145567893982, 'learning_rate': 4.01096717886457e-06, 'epoch': 0.32} {'loss': 2.2984, 'grad_norm': 1.3495314121246338, 'learning_rate': 4.010621072190858e-06, 'epoch': 0.32} {'loss': 2.0026, 'grad_norm': 1.3690388202667236, 'learning_rate': 4.010274919907318e-06, 'epoch': 0.32} {'loss': 1.9951, 'grad_norm': 1.5466806888580322, 'learning_rate': 4.0099287220244015e-06, 'epoch': 0.32} {'loss': 2.0967, 'grad_norm': 1.2617849111557007, 'learning_rate': 4.009582478552562e-06, 'epoch': 0.32} {'loss': 2.5626, 'grad_norm': 1.631239414215088, 'learning_rate': 4.009236189502253e-06, 'epoch': 0.32} {'loss': 2.3171, 'grad_norm': 1.104596495628357, 'learning_rate': 4.0088898548839285e-06, 'epoch': 0.32} {'loss': 2.3845, 'grad_norm': 1.8215866088867188, 'learning_rate': 4.008543474708047e-06, 'epoch': 0.32} {'loss': 2.3051, 'grad_norm': 1.3353911638259888, 'learning_rate': 4.008197048985068e-06, 'epoch': 0.32} {'loss': 2.1435, 'grad_norm': 1.2554665803909302, 'learning_rate': 4.007850577725448e-06, 'epoch': 0.32} {'loss': 1.8129, 'grad_norm': 1.4089579582214355, 'learning_rate': 4.00750406093965e-06, 'epoch': 0.32} {'loss': 2.1971, 'grad_norm': 1.7016485929489136, 'learning_rate': 4.007157498638135e-06, 'epoch': 0.32} {'loss': 2.0427, 'grad_norm': 1.4625771045684814, 'learning_rate': 4.006810890831368e-06, 'epoch': 0.32} {'loss': 2.2841, 'grad_norm': 1.4263584613800049, 'learning_rate': 4.006464237529813e-06, 'epoch': 0.32} {'loss': 2.0482, 'grad_norm': 1.1856904029846191, 'learning_rate': 4.006117538743937e-06, 'epoch': 0.32} {'loss': 2.5615, 'grad_norm': 1.423359751701355, 'learning_rate': 4.005770794484206e-06, 'epoch': 0.32} {'loss': 2.3036, 'grad_norm': 1.1739780902862549, 'learning_rate': 4.005424004761092e-06, 'epoch': 0.32} {'loss': 2.0499, 'grad_norm': 1.1342941522598267, 'learning_rate': 4.005077169585064e-06, 'epoch': 0.32} {'loss': 2.2428, 'grad_norm': 1.464175820350647, 'learning_rate': 4.004730288966595e-06, 'epoch': 0.32} {'loss': 2.2819, 'grad_norm': 1.4919548034667969, 'learning_rate': 4.0043833629161565e-06, 'epoch': 0.32} {'loss': 2.3932, 'grad_norm': 1.2593588829040527, 'learning_rate': 4.0040363914442236e-06, 'epoch': 0.32} {'loss': 2.3346, 'grad_norm': 1.234706997871399, 'learning_rate': 4.003689374561274e-06, 'epoch': 0.32} {'loss': 2.3707, 'grad_norm': 1.384163498878479, 'learning_rate': 4.003342312277784e-06, 'epoch': 0.32} {'loss': 2.2301, 'grad_norm': 1.386602759361267, 'learning_rate': 4.002995204604231e-06, 'epoch': 0.32} {'loss': 2.5513, 'grad_norm': 1.43043851852417, 'learning_rate': 4.002648051551098e-06, 'epoch': 0.32} {'loss': 2.2549, 'grad_norm': 1.6308279037475586, 'learning_rate': 4.002300853128864e-06, 'epoch': 0.32} {'loss': 2.2416, 'grad_norm': 1.3895539045333862, 'learning_rate': 4.0019536093480125e-06, 'epoch': 0.32} {'loss': 2.5458, 'grad_norm': 1.700250506401062, 'learning_rate': 4.001606320219028e-06, 'epoch': 0.32} {'loss': 2.3321, 'grad_norm': 1.4658989906311035, 'learning_rate': 4.001258985752397e-06, 'epoch': 0.32} {'loss': 2.2126, 'grad_norm': 1.748357892036438, 'learning_rate': 4.000911605958606e-06, 'epoch': 0.32} {'loss': 2.2074, 'grad_norm': 1.5841739177703857, 'learning_rate': 4.000564180848143e-06, 'epoch': 0.32} {'loss': 2.269, 'grad_norm': 1.4803937673568726, 'learning_rate': 4.000216710431497e-06, 'epoch': 0.32} {'loss': 2.2899, 'grad_norm': 1.2654374837875366, 'learning_rate': 3.99986919471916e-06, 'epoch': 0.32} {'loss': 2.4387, 'grad_norm': 1.568416714668274, 'learning_rate': 3.999521633721624e-06, 'epoch': 0.32} {'loss': 2.2375, 'grad_norm': 1.3928263187408447, 'learning_rate': 3.999174027449384e-06, 'epoch': 0.32} {'loss': 2.2673, 'grad_norm': 2.359147787094116, 'learning_rate': 3.998826375912934e-06, 'epoch': 0.32} {'loss': 2.1931, 'grad_norm': 1.3019367456436157, 'learning_rate': 3.998478679122771e-06, 'epoch': 0.32} {'loss': 2.2614, 'grad_norm': 1.2517238855361938, 'learning_rate': 3.998130937089393e-06, 'epoch': 0.32} {'loss': 2.3909, 'grad_norm': 1.3992232084274292, 'learning_rate': 3.997783149823298e-06, 'epoch': 0.32} {'loss': 2.2474, 'grad_norm': 1.3836698532104492, 'learning_rate': 3.997435317334989e-06, 'epoch': 0.32} {'loss': 2.3584, 'grad_norm': 1.3613141775131226, 'learning_rate': 3.9970874396349665e-06, 'epoch': 0.32} {'loss': 2.3809, 'grad_norm': 1.322877287864685, 'learning_rate': 3.996739516733734e-06, 'epoch': 0.32} {'loss': 2.2514, 'grad_norm': 1.3105590343475342, 'learning_rate': 3.996391548641797e-06, 'epoch': 0.32} {'loss': 2.1715, 'grad_norm': 1.760127305984497, 'learning_rate': 3.99604353536966e-06, 'epoch': 0.32} {'loss': 2.2401, 'grad_norm': 1.4145069122314453, 'learning_rate': 3.995695476927833e-06, 'epoch': 0.32} {'loss': 2.12, 'grad_norm': 1.537939190864563, 'learning_rate': 3.995347373326822e-06, 'epoch': 0.32} {'loss': 2.4453, 'grad_norm': 1.5429917573928833, 'learning_rate': 3.99499922457714e-06, 'epoch': 0.32} {'loss': 2.2396, 'grad_norm': 1.3955916166305542, 'learning_rate': 3.9946510306892964e-06, 'epoch': 0.32} {'loss': 2.1409, 'grad_norm': 1.3247120380401611, 'learning_rate': 3.994302791673805e-06, 'epoch': 0.32} {'loss': 2.3507, 'grad_norm': 1.3299760818481445, 'learning_rate': 3.99395450754118e-06, 'epoch': 0.32} {'loss': 2.0503, 'grad_norm': 1.4263391494750977, 'learning_rate': 3.993606178301937e-06, 'epoch': 0.32} {'loss': 2.2498, 'grad_norm': 1.4661478996276855, 'learning_rate': 3.993257803966593e-06, 'epoch': 0.32} {'loss': 2.142, 'grad_norm': 1.4244416952133179, 'learning_rate': 3.992909384545667e-06, 'epoch': 0.32} {'loss': 2.1494, 'grad_norm': 1.4430783987045288, 'learning_rate': 3.992560920049679e-06, 'epoch': 0.32} {'loss': 2.1628, 'grad_norm': 1.3963559865951538, 'learning_rate': 3.9922124104891475e-06, 'epoch': 0.32} {'loss': 2.2889, 'grad_norm': 1.4241660833358765, 'learning_rate': 3.991863855874597e-06, 'epoch': 0.32} {'loss': 2.1768, 'grad_norm': 1.7290140390396118, 'learning_rate': 3.9915152562165525e-06, 'epoch': 0.32} {'loss': 2.0385, 'grad_norm': 1.344428300857544, 'learning_rate': 3.991166611525537e-06, 'epoch': 0.32} {'loss': 2.2898, 'grad_norm': 1.4090670347213745, 'learning_rate': 3.990817921812078e-06, 'epoch': 0.32} {'loss': 2.1362, 'grad_norm': 1.1183990240097046, 'learning_rate': 3.990469187086703e-06, 'epoch': 0.32} {'loss': 1.8282, 'grad_norm': 1.093375325202942, 'learning_rate': 3.990120407359942e-06, 'epoch': 0.32} {'loss': 2.1466, 'grad_norm': 1.215208649635315, 'learning_rate': 3.989771582642325e-06, 'epoch': 0.32} {'loss': 2.2016, 'grad_norm': 1.393731951713562, 'learning_rate': 3.989422712944384e-06, 'epoch': 0.32} {'loss': 1.4871, 'grad_norm': 1.3831143379211426, 'learning_rate': 3.9890737982766525e-06, 'epoch': 0.32} {'loss': 2.2988, 'grad_norm': 1.4719438552856445, 'learning_rate': 3.988724838649666e-06, 'epoch': 0.32} {'loss': 2.1588, 'grad_norm': 1.4514520168304443, 'learning_rate': 3.988375834073959e-06, 'epoch': 0.32} {'loss': 2.2785, 'grad_norm': 1.4457788467407227, 'learning_rate': 3.9880267845600696e-06, 'epoch': 0.32} {'loss': 2.1552, 'grad_norm': 1.3554222583770752, 'learning_rate': 3.9876776901185365e-06, 'epoch': 0.32} {'loss': 2.1054, 'grad_norm': 1.1484888792037964, 'learning_rate': 3.9873285507599e-06, 'epoch': 0.32} {'loss': 2.2963, 'grad_norm': 1.4687474966049194, 'learning_rate': 3.986979366494702e-06, 'epoch': 0.32} {'loss': 2.4212, 'grad_norm': 1.3335825204849243, 'learning_rate': 3.986630137333485e-06, 'epoch': 0.32} {'loss': 2.4562, 'grad_norm': 1.3364695310592651, 'learning_rate': 3.986280863286792e-06, 'epoch': 0.32} {'loss': 1.8692, 'grad_norm': 1.2788304090499878, 'learning_rate': 3.985931544365171e-06, 'epoch': 0.32} {'loss': 2.2456, 'grad_norm': 1.3509128093719482, 'learning_rate': 3.985582180579167e-06, 'epoch': 0.32} {'loss': 2.3266, 'grad_norm': 1.3948979377746582, 'learning_rate': 3.985232771939329e-06, 'epoch': 0.32} {'loss': 2.3045, 'grad_norm': 1.5525155067443848, 'learning_rate': 3.984883318456206e-06, 'epoch': 0.32} {'loss': 2.3289, 'grad_norm': 1.5647971630096436, 'learning_rate': 3.984533820140349e-06, 'epoch': 0.32} {'loss': 2.4104, 'grad_norm': 1.2367948293685913, 'learning_rate': 3.984184277002311e-06, 'epoch': 0.32} {'loss': 2.2495, 'grad_norm': 1.6153628826141357, 'learning_rate': 3.983834689052646e-06, 'epoch': 0.32} {'loss': 2.3106, 'grad_norm': 1.1676959991455078, 'learning_rate': 3.983485056301908e-06, 'epoch': 0.32} {'loss': 1.8685, 'grad_norm': 1.6218992471694946, 'learning_rate': 3.983135378760654e-06, 'epoch': 0.32} {'loss': 2.2434, 'grad_norm': 1.3009065389633179, 'learning_rate': 3.9827856564394406e-06, 'epoch': 0.32} {'loss': 2.0982, 'grad_norm': 1.1720595359802246, 'learning_rate': 3.982435889348829e-06, 'epoch': 0.32} {'loss': 2.0411, 'grad_norm': 1.3721423149108887, 'learning_rate': 3.982086077499377e-06, 'epoch': 0.32} {'loss': 1.4223, 'grad_norm': 1.6543272733688354, 'learning_rate': 3.98173622090165e-06, 'epoch': 0.32} {'loss': 2.2903, 'grad_norm': 1.3494998216629028, 'learning_rate': 3.981386319566207e-06, 'epoch': 0.32} {'loss': 2.4323, 'grad_norm': 1.5931499004364014, 'learning_rate': 3.981036373503615e-06, 'epoch': 0.32} {'loss': 2.2765, 'grad_norm': 1.39492666721344, 'learning_rate': 3.98068638272444e-06, 'epoch': 0.32} {'loss': 2.2041, 'grad_norm': 1.4700298309326172, 'learning_rate': 3.980336347239247e-06, 'epoch': 0.32} {'loss': 2.1588, 'grad_norm': 1.210188627243042, 'learning_rate': 3.9799862670586065e-06, 'epoch': 0.32} {'loss': 2.2998, 'grad_norm': 1.3887741565704346, 'learning_rate': 3.979636142193089e-06, 'epoch': 0.32} {'loss': 2.4327, 'grad_norm': 1.7014334201812744, 'learning_rate': 3.979285972653263e-06, 'epoch': 0.32} {'loss': 2.3908, 'grad_norm': 1.5565305948257446, 'learning_rate': 3.978935758449704e-06, 'epoch': 0.32} {'loss': 2.2646, 'grad_norm': 1.344342827796936, 'learning_rate': 3.978585499592984e-06, 'epoch': 0.32} {'loss': 2.2691, 'grad_norm': 1.5224277973175049, 'learning_rate': 3.978235196093679e-06, 'epoch': 0.32} {'loss': 2.1627, 'grad_norm': 1.2822117805480957, 'learning_rate': 3.977884847962365e-06, 'epoch': 0.32} {'loss': 2.0867, 'grad_norm': 1.4916346073150635, 'learning_rate': 3.977534455209623e-06, 'epoch': 0.32} {'loss': 2.2506, 'grad_norm': 2.9462192058563232, 'learning_rate': 3.977184017846027e-06, 'epoch': 0.32} {'loss': 2.2465, 'grad_norm': 1.5056499242782593, 'learning_rate': 3.976833535882162e-06, 'epoch': 0.32} {'loss': 2.1806, 'grad_norm': 1.2833329439163208, 'learning_rate': 3.976483009328609e-06, 'epoch': 0.32} {'loss': 2.0992, 'grad_norm': 1.072334885597229, 'learning_rate': 3.9761324381959484e-06, 'epoch': 0.32} {'loss': 2.3454, 'grad_norm': 1.174496054649353, 'learning_rate': 3.97578182249477e-06, 'epoch': 0.32} {'loss': 2.1584, 'grad_norm': 1.4426332712173462, 'learning_rate': 3.975431162235657e-06, 'epoch': 0.32} {'loss': 2.2159, 'grad_norm': 1.2138456106185913, 'learning_rate': 3.975080457429196e-06, 'epoch': 0.32} {'loss': 2.263, 'grad_norm': 1.39769446849823, 'learning_rate': 3.974729708085978e-06, 'epoch': 0.32} {'loss': 2.257, 'grad_norm': 6.508936882019043, 'learning_rate': 3.974378914216591e-06, 'epoch': 0.32} {'loss': 2.3974, 'grad_norm': 1.3737374544143677, 'learning_rate': 3.974028075831629e-06, 'epoch': 0.32} {'loss': 2.1801, 'grad_norm': 1.4077364206314087, 'learning_rate': 3.973677192941681e-06, 'epoch': 0.32} {'loss': 2.2765, 'grad_norm': 1.397320032119751, 'learning_rate': 3.973326265557344e-06, 'epoch': 0.32} {'loss': 1.7739, 'grad_norm': 1.2147523164749146, 'learning_rate': 3.972975293689214e-06, 'epoch': 0.32} {'loss': 2.1526, 'grad_norm': 1.3358607292175293, 'learning_rate': 3.9726242773478855e-06, 'epoch': 0.32} {'loss': 2.0737, 'grad_norm': 1.2810086011886597, 'learning_rate': 3.972273216543957e-06, 'epoch': 0.32} {'loss': 2.1775, 'grad_norm': 1.3313672542572021, 'learning_rate': 3.97192211128803e-06, 'epoch': 0.32} {'loss': 1.6317, 'grad_norm': 1.25983464717865, 'learning_rate': 3.971570961590703e-06, 'epoch': 0.32} {'loss': 2.442, 'grad_norm': 1.349513053894043, 'learning_rate': 3.97121976746258e-06, 'epoch': 0.32} {'loss': 2.21, 'grad_norm': 1.2588133811950684, 'learning_rate': 3.970868528914264e-06, 'epoch': 0.32} {'loss': 2.4018, 'grad_norm': 1.3079249858856201, 'learning_rate': 3.970517245956359e-06, 'epoch': 0.32} {'loss': 2.219, 'grad_norm': 1.2168998718261719, 'learning_rate': 3.970165918599472e-06, 'epoch': 0.32} {'loss': 1.9759, 'grad_norm': 1.21315336227417, 'learning_rate': 3.96981454685421e-06, 'epoch': 0.32} {'loss': 2.3923, 'grad_norm': 1.4610745906829834, 'learning_rate': 3.969463130731183e-06, 'epoch': 0.32} {'loss': 2.3409, 'grad_norm': 1.3758206367492676, 'learning_rate': 3.969111670241e-06, 'epoch': 0.32} {'loss': 2.3335, 'grad_norm': 1.7068089246749878, 'learning_rate': 3.968760165394274e-06, 'epoch': 0.32} {'loss': 2.0821, 'grad_norm': 1.2771812677383423, 'learning_rate': 3.968408616201616e-06, 'epoch': 0.32} {'loss': 2.2664, 'grad_norm': 1.4000864028930664, 'learning_rate': 3.968057022673641e-06, 'epoch': 0.32} {'loss': 1.9429, 'grad_norm': 1.061402440071106, 'learning_rate': 3.967705384820966e-06, 'epoch': 0.32} {'loss': 2.0585, 'grad_norm': 1.3093785047531128, 'learning_rate': 3.967353702654205e-06, 'epoch': 0.32} {'loss': 2.3033, 'grad_norm': 1.4890022277832031, 'learning_rate': 3.967001976183979e-06, 'epoch': 0.32} {'loss': 2.2161, 'grad_norm': 1.4709620475769043, 'learning_rate': 3.966650205420906e-06, 'epoch': 0.32} {'loss': 1.8822, 'grad_norm': 1.114967703819275, 'learning_rate': 3.966298390375608e-06, 'epoch': 0.32} {'loss': 2.2148, 'grad_norm': 1.370835781097412, 'learning_rate': 3.965946531058706e-06, 'epoch': 0.32} {'loss': 2.2095, 'grad_norm': 1.8968689441680908, 'learning_rate': 3.965594627480826e-06, 'epoch': 0.32} {'loss': 2.2442, 'grad_norm': 1.792375922203064, 'learning_rate': 3.96524267965259e-06, 'epoch': 0.32} {'loss': 1.8557, 'grad_norm': 1.5790334939956665, 'learning_rate': 3.964890687584625e-06, 'epoch': 0.32} {'loss': 2.2488, 'grad_norm': 1.4072262048721313, 'learning_rate': 3.96453865128756e-06, 'epoch': 0.32} {'loss': 1.4946, 'grad_norm': 1.2357879877090454, 'learning_rate': 3.9641865707720225e-06, 'epoch': 0.32} {'loss': 2.2664, 'grad_norm': 1.3748326301574707, 'learning_rate': 3.963834446048644e-06, 'epoch': 0.32} {'loss': 2.1939, 'grad_norm': 1.2854689359664917, 'learning_rate': 3.9634822771280555e-06, 'epoch': 0.32} {'loss': 2.3443, 'grad_norm': 1.5735291242599487, 'learning_rate': 3.96313006402089e-06, 'epoch': 0.32} {'loss': 2.1405, 'grad_norm': 1.0736336708068848, 'learning_rate': 3.962777806737782e-06, 'epoch': 0.32} {'loss': 2.4377, 'grad_norm': 1.546279788017273, 'learning_rate': 3.962425505289367e-06, 'epoch': 0.32} {'loss': 2.3994, 'grad_norm': 1.437889575958252, 'learning_rate': 3.962073159686282e-06, 'epoch': 0.32} {'loss': 2.2459, 'grad_norm': 1.1342790126800537, 'learning_rate': 3.961720769939164e-06, 'epoch': 0.32} {'loss': 2.1904, 'grad_norm': 1.433527946472168, 'learning_rate': 3.961368336058654e-06, 'epoch': 0.32} {'loss': 2.4727, 'grad_norm': 1.1936719417572021, 'learning_rate': 3.961015858055394e-06, 'epoch': 0.32} {'loss': 2.4817, 'grad_norm': 1.4497169256210327, 'learning_rate': 3.960663335940023e-06, 'epoch': 0.32} {'loss': 2.5448, 'grad_norm': 1.4518686532974243, 'learning_rate': 3.960310769723189e-06, 'epoch': 0.32} {'loss': 2.2682, 'grad_norm': 1.275664210319519, 'learning_rate': 3.959958159415534e-06, 'epoch': 0.32} {'loss': 2.3242, 'grad_norm': 1.3790339231491089, 'learning_rate': 3.959605505027703e-06, 'epoch': 0.32} {'loss': 2.3142, 'grad_norm': 2.1742212772369385, 'learning_rate': 3.959252806570347e-06, 'epoch': 0.32} {'loss': 2.2982, 'grad_norm': 1.497609257698059, 'learning_rate': 3.958900064054113e-06, 'epoch': 0.32} {'loss': 2.2492, 'grad_norm': 1.3400509357452393, 'learning_rate': 3.958547277489652e-06, 'epoch': 0.32} {'loss': 1.9777, 'grad_norm': 1.2320431470870972, 'learning_rate': 3.958194446887614e-06, 'epoch': 0.32} {'loss': 2.3415, 'grad_norm': 1.3914586305618286, 'learning_rate': 3.957841572258655e-06, 'epoch': 0.32} {'loss': 2.2377, 'grad_norm': 1.3490352630615234, 'learning_rate': 3.957488653613426e-06, 'epoch': 0.32} {'loss': 2.3698, 'grad_norm': 1.3950414657592773, 'learning_rate': 3.9571356909625855e-06, 'epoch': 0.32} {'loss': 2.4396, 'grad_norm': 1.2156002521514893, 'learning_rate': 3.956782684316788e-06, 'epoch': 0.32} {'loss': 2.1922, 'grad_norm': 1.4551489353179932, 'learning_rate': 3.956429633686692e-06, 'epoch': 0.32} {'loss': 2.0592, 'grad_norm': 1.346534252166748, 'learning_rate': 3.956076539082959e-06, 'epoch': 0.32} {'loss': 2.3596, 'grad_norm': 1.2834972143173218, 'learning_rate': 3.955723400516249e-06, 'epoch': 0.32} {'loss': 2.5758, 'grad_norm': 1.686742901802063, 'learning_rate': 3.955370217997223e-06, 'epoch': 0.32} {'loss': 1.7023, 'grad_norm': 1.078207015991211, 'learning_rate': 3.955016991536547e-06, 'epoch': 0.32} {'loss': 2.3891, 'grad_norm': 1.601454734802246, 'learning_rate': 3.954663721144882e-06, 'epoch': 0.32} {'loss': 1.9687, 'grad_norm': 1.1917636394500732, 'learning_rate': 3.954310406832899e-06, 'epoch': 0.32} {'loss': 1.9409, 'grad_norm': 1.2045788764953613, 'learning_rate': 3.953957048611261e-06, 'epoch': 0.32} {'loss': 2.4779, 'grad_norm': 1.3625417947769165, 'learning_rate': 3.95360364649064e-06, 'epoch': 0.32} {'loss': 2.1016, 'grad_norm': 1.2555559873580933, 'learning_rate': 3.953250200481706e-06, 'epoch': 0.32} {'loss': 2.1972, 'grad_norm': 1.3457425832748413, 'learning_rate': 3.952896710595128e-06, 'epoch': 0.32} {'loss': 2.3284, 'grad_norm': 1.431816816329956, 'learning_rate': 3.952543176841581e-06, 'epoch': 0.32} {'loss': 2.3155, 'grad_norm': 1.427112340927124, 'learning_rate': 3.952189599231739e-06, 'epoch': 0.32} {'loss': 2.4971, 'grad_norm': 1.3288233280181885, 'learning_rate': 3.951835977776277e-06, 'epoch': 0.32} {'loss': 2.2919, 'grad_norm': 1.4562783241271973, 'learning_rate': 3.951482312485873e-06, 'epoch': 0.32} {'loss': 2.1984, 'grad_norm': 1.679364562034607, 'learning_rate': 3.951128603371203e-06, 'epoch': 0.32} {'loss': 2.5288, 'grad_norm': 1.2773252725601196, 'learning_rate': 3.950774850442948e-06, 'epoch': 0.32} {'loss': 2.3859, 'grad_norm': 1.7305341958999634, 'learning_rate': 3.9504210537117876e-06, 'epoch': 0.32} {'loss': 2.2023, 'grad_norm': 1.4356937408447266, 'learning_rate': 3.950067213188406e-06, 'epoch': 0.32} {'loss': 2.302, 'grad_norm': 1.3703795671463013, 'learning_rate': 3.949713328883483e-06, 'epoch': 0.32} {'loss': 2.1231, 'grad_norm': 1.8170459270477295, 'learning_rate': 3.949359400807708e-06, 'epoch': 0.32} {'loss': 2.234, 'grad_norm': 1.2621817588806152, 'learning_rate': 3.949005428971764e-06, 'epoch': 0.32} {'loss': 1.3249, 'grad_norm': 1.4735603332519531, 'learning_rate': 3.948651413386338e-06, 'epoch': 0.32} {'loss': 2.4274, 'grad_norm': 1.481858253479004, 'learning_rate': 3.948297354062121e-06, 'epoch': 0.32} {'loss': 2.2951, 'grad_norm': 1.396786093711853, 'learning_rate': 3.947943251009801e-06, 'epoch': 0.32} {'loss': 2.3383, 'grad_norm': 1.5417286157608032, 'learning_rate': 3.947589104240071e-06, 'epoch': 0.32} {'loss': 2.36, 'grad_norm': 1.420938491821289, 'learning_rate': 3.947234913763622e-06, 'epoch': 0.32} {'loss': 2.2142, 'grad_norm': 1.43526029586792, 'learning_rate': 3.946880679591149e-06, 'epoch': 0.32} {'loss': 2.3969, 'grad_norm': 1.3256782293319702, 'learning_rate': 3.946526401733347e-06, 'epoch': 0.32} {'loss': 2.1779, 'grad_norm': 1.354140043258667, 'learning_rate': 3.946172080200914e-06, 'epoch': 0.33} {'loss': 2.4171, 'grad_norm': 1.3182255029678345, 'learning_rate': 3.945817715004545e-06, 'epoch': 0.33} {'loss': 1.2547, 'grad_norm': 1.3270312547683716, 'learning_rate': 3.945463306154942e-06, 'epoch': 0.33} {'loss': 2.4142, 'grad_norm': 1.8841599225997925, 'learning_rate': 3.9451088536628045e-06, 'epoch': 0.33} {'loss': 1.939, 'grad_norm': 1.2304511070251465, 'learning_rate': 3.944754357538834e-06, 'epoch': 0.33} {'loss': 2.3151, 'grad_norm': 1.3385754823684692, 'learning_rate': 3.944399817793735e-06, 'epoch': 0.33} {'loss': 2.4194, 'grad_norm': 2.2281248569488525, 'learning_rate': 3.944045234438211e-06, 'epoch': 0.33} {'loss': 2.4607, 'grad_norm': 1.3934074640274048, 'learning_rate': 3.9436906074829675e-06, 'epoch': 0.33} {'loss': 2.0042, 'grad_norm': 1.275821566581726, 'learning_rate': 3.943335936938712e-06, 'epoch': 0.33} {'loss': 2.2418, 'grad_norm': 1.275038242340088, 'learning_rate': 3.9429812228161536e-06, 'epoch': 0.33} {'loss': 2.1752, 'grad_norm': 1.1992568969726562, 'learning_rate': 3.942626465126001e-06, 'epoch': 0.33} {'loss': 2.2624, 'grad_norm': 1.9551094770431519, 'learning_rate': 3.942271663878967e-06, 'epoch': 0.33} {'loss': 2.4454, 'grad_norm': 1.3997042179107666, 'learning_rate': 3.941916819085763e-06, 'epoch': 0.33} {'loss': 2.4578, 'grad_norm': 1.5217247009277344, 'learning_rate': 3.941561930757103e-06, 'epoch': 0.33} {'loss': 2.0932, 'grad_norm': 1.3834190368652344, 'learning_rate': 3.941206998903702e-06, 'epoch': 0.33} {'loss': 2.3952, 'grad_norm': 1.5070440769195557, 'learning_rate': 3.940852023536276e-06, 'epoch': 0.33} {'loss': 2.2919, 'grad_norm': 1.8680914640426636, 'learning_rate': 3.940497004665542e-06, 'epoch': 0.33} {'loss': 1.7379, 'grad_norm': 1.1562632322311401, 'learning_rate': 3.940141942302221e-06, 'epoch': 0.33} {'loss': 2.405, 'grad_norm': 1.385358452796936, 'learning_rate': 3.939786836457031e-06, 'epoch': 0.33} {'loss': 2.201, 'grad_norm': 1.44832444190979, 'learning_rate': 3.939431687140697e-06, 'epoch': 0.33} {'loss': 2.2833, 'grad_norm': 1.5171477794647217, 'learning_rate': 3.9390764943639385e-06, 'epoch': 0.33} {'loss': 2.3082, 'grad_norm': 1.483892798423767, 'learning_rate': 3.938721258137481e-06, 'epoch': 0.33} {'loss': 2.2239, 'grad_norm': 1.1166363954544067, 'learning_rate': 3.938365978472049e-06, 'epoch': 0.33} {'loss': 2.0663, 'grad_norm': 1.1954537630081177, 'learning_rate': 3.938010655378373e-06, 'epoch': 0.33} {'loss': 2.285, 'grad_norm': 1.4657039642333984, 'learning_rate': 3.937655288867176e-06, 'epoch': 0.33} {'loss': 2.2492, 'grad_norm': 1.2901153564453125, 'learning_rate': 3.937299878949192e-06, 'epoch': 0.33} {'loss': 2.3059, 'grad_norm': 2.5172698497772217, 'learning_rate': 3.93694442563515e-06, 'epoch': 0.33} {'loss': 2.6347, 'grad_norm': 1.4450727701187134, 'learning_rate': 3.936588928935782e-06, 'epoch': 0.33} {'loss': 2.2077, 'grad_norm': 1.3544381856918335, 'learning_rate': 3.9362333888618205e-06, 'epoch': 0.33} {'loss': 2.2257, 'grad_norm': 1.411892294883728, 'learning_rate': 3.935877805424002e-06, 'epoch': 0.33} {'loss': 2.3819, 'grad_norm': 1.2639573812484741, 'learning_rate': 3.935522178633062e-06, 'epoch': 0.33} {'loss': 2.3355, 'grad_norm': 1.342213749885559, 'learning_rate': 3.9351665084997385e-06, 'epoch': 0.33} {'loss': 2.1159, 'grad_norm': 1.3847976922988892, 'learning_rate': 3.934810795034768e-06, 'epoch': 0.33} {'loss': 2.2456, 'grad_norm': 1.5427281856536865, 'learning_rate': 3.934455038248892e-06, 'epoch': 0.33} {'loss': 2.1685, 'grad_norm': 1.4805700778961182, 'learning_rate': 3.934099238152852e-06, 'epoch': 0.33} {'loss': 2.35, 'grad_norm': 1.2999088764190674, 'learning_rate': 3.93374339475739e-06, 'epoch': 0.33} {'loss': 2.5144, 'grad_norm': 1.4747238159179688, 'learning_rate': 3.93338750807325e-06, 'epoch': 0.33} {'loss': 2.4186, 'grad_norm': 1.6348778009414673, 'learning_rate': 3.933031578111178e-06, 'epoch': 0.33} {'loss': 2.097, 'grad_norm': 1.3757802248001099, 'learning_rate': 3.9326756048819185e-06, 'epoch': 0.33} {'loss': 2.3883, 'grad_norm': 1.5057902336120605, 'learning_rate': 3.932319588396222e-06, 'epoch': 0.33} {'loss': 2.2477, 'grad_norm': 1.3176623582839966, 'learning_rate': 3.931963528664835e-06, 'epoch': 0.33} {'loss': 2.0607, 'grad_norm': 1.336725115776062, 'learning_rate': 3.931607425698509e-06, 'epoch': 0.33} {'loss': 2.278, 'grad_norm': 1.3595011234283447, 'learning_rate': 3.931251279507997e-06, 'epoch': 0.33} {'loss': 1.9171, 'grad_norm': 1.2989863157272339, 'learning_rate': 3.930895090104051e-06, 'epoch': 0.33} {'loss': 2.4511, 'grad_norm': 1.3096462488174438, 'learning_rate': 3.930538857497425e-06, 'epoch': 0.33} {'loss': 2.3789, 'grad_norm': 1.4978630542755127, 'learning_rate': 3.9301825816988745e-06, 'epoch': 0.33} {'loss': 2.0967, 'grad_norm': 1.2900049686431885, 'learning_rate': 3.929826262719157e-06, 'epoch': 0.33} {'loss': 2.3693, 'grad_norm': 2.135716676712036, 'learning_rate': 3.929469900569031e-06, 'epoch': 0.33} {'loss': 2.317, 'grad_norm': 1.1791282892227173, 'learning_rate': 3.929113495259256e-06, 'epoch': 0.33} {'loss': 2.3382, 'grad_norm': 1.8430759906768799, 'learning_rate': 3.928757046800592e-06, 'epoch': 0.33} {'loss': 2.3332, 'grad_norm': 1.3359018564224243, 'learning_rate': 3.928400555203801e-06, 'epoch': 0.33} {'loss': 2.2252, 'grad_norm': 1.2495310306549072, 'learning_rate': 3.928044020479648e-06, 'epoch': 0.33} {'loss': 1.7769, 'grad_norm': 1.1953222751617432, 'learning_rate': 3.927687442638898e-06, 'epoch': 0.33} {'loss': 2.3296, 'grad_norm': 1.9285470247268677, 'learning_rate': 3.927330821692314e-06, 'epoch': 0.33} {'loss': 1.9597, 'grad_norm': 1.590352177619934, 'learning_rate': 3.926974157650667e-06, 'epoch': 0.33} {'loss': 2.2454, 'grad_norm': 1.5460946559906006, 'learning_rate': 3.926617450524723e-06, 'epoch': 0.33} {'loss': 2.6543, 'grad_norm': 1.4370816946029663, 'learning_rate': 3.926260700325253e-06, 'epoch': 0.33} {'loss': 2.1752, 'grad_norm': 1.683282494544983, 'learning_rate': 3.925903907063029e-06, 'epoch': 0.33} {'loss': 2.4556, 'grad_norm': 1.509598970413208, 'learning_rate': 3.925547070748823e-06, 'epoch': 0.33} {'loss': 2.4274, 'grad_norm': 1.4513237476348877, 'learning_rate': 3.9251901913934085e-06, 'epoch': 0.33} {'loss': 1.8133, 'grad_norm': 1.145928144454956, 'learning_rate': 3.924833269007561e-06, 'epoch': 0.33} {'loss': 2.2211, 'grad_norm': 1.4371678829193115, 'learning_rate': 3.924476303602057e-06, 'epoch': 0.33} {'loss': 1.9191, 'grad_norm': 1.4568145275115967, 'learning_rate': 3.924119295187674e-06, 'epoch': 0.33} {'loss': 2.3824, 'grad_norm': 1.4051222801208496, 'learning_rate': 3.923762243775191e-06, 'epoch': 0.33} {'loss': 2.3378, 'grad_norm': 1.222388505935669, 'learning_rate': 3.923405149375389e-06, 'epoch': 0.33} {'loss': 2.0175, 'grad_norm': 1.412110447883606, 'learning_rate': 3.923048011999048e-06, 'epoch': 0.33} {'loss': 2.0519, 'grad_norm': 1.184849500656128, 'learning_rate': 3.922690831656955e-06, 'epoch': 0.33} {'loss': 2.3503, 'grad_norm': 1.3993688821792603, 'learning_rate': 3.92233360835989e-06, 'epoch': 0.33} {'loss': 2.1212, 'grad_norm': 1.3627541065216064, 'learning_rate': 3.92197634211864e-06, 'epoch': 0.33} {'loss': 2.1972, 'grad_norm': 1.4704824686050415, 'learning_rate': 3.921619032943991e-06, 'epoch': 0.33} {'loss': 2.3194, 'grad_norm': 1.3918232917785645, 'learning_rate': 3.921261680846735e-06, 'epoch': 0.33} {'loss': 2.2309, 'grad_norm': 1.3148014545440674, 'learning_rate': 3.9209042858376565e-06, 'epoch': 0.33} {'loss': 2.3268, 'grad_norm': 1.313732624053955, 'learning_rate': 3.920546847927548e-06, 'epoch': 0.33} {'loss': 2.0662, 'grad_norm': 1.5773123502731323, 'learning_rate': 3.920189367127203e-06, 'epoch': 0.33} {'loss': 2.0586, 'grad_norm': 1.6550101041793823, 'learning_rate': 3.919831843447413e-06, 'epoch': 0.33} {'loss': 2.3804, 'grad_norm': 1.2425153255462646, 'learning_rate': 3.919474276898973e-06, 'epoch': 0.33} {'loss': 1.7642, 'grad_norm': 1.5558452606201172, 'learning_rate': 3.919116667492679e-06, 'epoch': 0.33} {'loss': 2.3253, 'grad_norm': 1.2681199312210083, 'learning_rate': 3.91875901523933e-06, 'epoch': 0.33} {'loss': 2.1959, 'grad_norm': 1.473028540611267, 'learning_rate': 3.918401320149721e-06, 'epoch': 0.33} {'loss': 2.5101, 'grad_norm': 1.1942203044891357, 'learning_rate': 3.9180435822346556e-06, 'epoch': 0.33} {'loss': 2.1579, 'grad_norm': 1.9621222019195557, 'learning_rate': 3.917685801504931e-06, 'epoch': 0.33} {'loss': 2.2531, 'grad_norm': 1.2312260866165161, 'learning_rate': 3.9173279779713536e-06, 'epoch': 0.33} {'loss': 2.4702, 'grad_norm': 1.6946525573730469, 'learning_rate': 3.916970111644724e-06, 'epoch': 0.33} {'loss': 2.2436, 'grad_norm': 1.2287325859069824, 'learning_rate': 3.916612202535849e-06, 'epoch': 0.33} {'loss': 2.2697, 'grad_norm': 1.547756314277649, 'learning_rate': 3.916254250655533e-06, 'epoch': 0.33} {'loss': 2.4285, 'grad_norm': 1.5706462860107422, 'learning_rate': 3.915896256014586e-06, 'epoch': 0.33} {'loss': 2.4787, 'grad_norm': 1.3637423515319824, 'learning_rate': 3.915538218623815e-06, 'epoch': 0.33} {'loss': 2.2612, 'grad_norm': 1.3997255563735962, 'learning_rate': 3.91518013849403e-06, 'epoch': 0.33} {'loss': 2.3273, 'grad_norm': 1.3788686990737915, 'learning_rate': 3.914822015636044e-06, 'epoch': 0.33} {'loss': 2.2375, 'grad_norm': 1.2675588130950928, 'learning_rate': 3.914463850060669e-06, 'epoch': 0.33} {'loss': 2.1725, 'grad_norm': 1.4323813915252686, 'learning_rate': 3.914105641778718e-06, 'epoch': 0.33} {'loss': 2.3609, 'grad_norm': 1.7634832859039307, 'learning_rate': 3.913747390801008e-06, 'epoch': 0.33} {'loss': 2.3371, 'grad_norm': 1.2724339962005615, 'learning_rate': 3.913389097138355e-06, 'epoch': 0.33} {'loss': 2.2894, 'grad_norm': 1.348560094833374, 'learning_rate': 3.913030760801576e-06, 'epoch': 0.33} {'loss': 2.1527, 'grad_norm': 1.1399492025375366, 'learning_rate': 3.912672381801491e-06, 'epoch': 0.33} {'loss': 2.2081, 'grad_norm': 1.3422009944915771, 'learning_rate': 3.912313960148919e-06, 'epoch': 0.33} {'loss': 2.4374, 'grad_norm': 1.3480740785598755, 'learning_rate': 3.911955495854684e-06, 'epoch': 0.33} {'loss': 2.4003, 'grad_norm': 1.3796093463897705, 'learning_rate': 3.911596988929608e-06, 'epoch': 0.33} {'loss': 2.5162, 'grad_norm': 1.4262079000473022, 'learning_rate': 3.911238439384516e-06, 'epoch': 0.33} {'loss': 2.327, 'grad_norm': 1.4422751665115356, 'learning_rate': 3.910879847230232e-06, 'epoch': 0.33} {'loss': 2.3299, 'grad_norm': 1.5098599195480347, 'learning_rate': 3.910521212477585e-06, 'epoch': 0.33} {'loss': 1.9831, 'grad_norm': 1.3790377378463745, 'learning_rate': 3.910162535137401e-06, 'epoch': 0.33} {'loss': 2.2478, 'grad_norm': 1.3973348140716553, 'learning_rate': 3.90980381522051e-06, 'epoch': 0.33} {'loss': 2.2643, 'grad_norm': 1.4692519903182983, 'learning_rate': 3.909445052737743e-06, 'epoch': 0.33} {'loss': 2.0738, 'grad_norm': 1.253674030303955, 'learning_rate': 3.909086247699934e-06, 'epoch': 0.33} {'loss': 2.0963, 'grad_norm': 1.5052000284194946, 'learning_rate': 3.908727400117914e-06, 'epoch': 0.33} {'loss': 2.1919, 'grad_norm': 1.4422839879989624, 'learning_rate': 3.9083685100025174e-06, 'epoch': 0.33} {'loss': 2.3305, 'grad_norm': 1.2151066064834595, 'learning_rate': 3.908009577364581e-06, 'epoch': 0.33} {'loss': 1.8944, 'grad_norm': 7.133994102478027, 'learning_rate': 3.907650602214942e-06, 'epoch': 0.33} {'loss': 2.5197, 'grad_norm': 1.3245015144348145, 'learning_rate': 3.907291584564438e-06, 'epoch': 0.33} {'loss': 2.427, 'grad_norm': 1.709640622138977, 'learning_rate': 3.90693252442391e-06, 'epoch': 0.33} {'loss': 2.1355, 'grad_norm': 1.6875680685043335, 'learning_rate': 3.9065734218041985e-06, 'epoch': 0.33} {'loss': 2.2375, 'grad_norm': 1.0845019817352295, 'learning_rate': 3.906214276716146e-06, 'epoch': 0.33} {'loss': 2.3366, 'grad_norm': 1.5290286540985107, 'learning_rate': 3.905855089170595e-06, 'epoch': 0.33} {'loss': 2.1533, 'grad_norm': 2.6789357662200928, 'learning_rate': 3.905495859178391e-06, 'epoch': 0.33} {'loss': 2.2306, 'grad_norm': 1.2964061498641968, 'learning_rate': 3.905136586750381e-06, 'epoch': 0.33} {'loss': 2.0901, 'grad_norm': 1.2299610376358032, 'learning_rate': 3.904777271897412e-06, 'epoch': 0.33} {'loss': 2.4271, 'grad_norm': 1.8139643669128418, 'learning_rate': 3.904417914630331e-06, 'epoch': 0.33} {'loss': 2.1395, 'grad_norm': 20.939542770385742, 'learning_rate': 3.90405851495999e-06, 'epoch': 0.33} {'loss': 2.1525, 'grad_norm': 1.2558252811431885, 'learning_rate': 3.903699072897241e-06, 'epoch': 0.33} {'loss': 2.0879, 'grad_norm': 1.1869101524353027, 'learning_rate': 3.903339588452934e-06, 'epoch': 0.33} {'loss': 2.514, 'grad_norm': 1.4712185859680176, 'learning_rate': 3.902980061637924e-06, 'epoch': 0.33} {'loss': 2.4253, 'grad_norm': 1.760266900062561, 'learning_rate': 3.902620492463067e-06, 'epoch': 0.33} {'loss': 2.1095, 'grad_norm': 1.5084344148635864, 'learning_rate': 3.902260880939218e-06, 'epoch': 0.33} {'loss': 2.2559, 'grad_norm': 1.2221487760543823, 'learning_rate': 3.901901227077236e-06, 'epoch': 0.33} {'loss': 2.1608, 'grad_norm': 1.5954703092575073, 'learning_rate': 3.901541530887978e-06, 'epoch': 0.33} {'loss': 2.1139, 'grad_norm': 1.9287298917770386, 'learning_rate': 3.901181792382307e-06, 'epoch': 0.33} {'loss': 2.4116, 'grad_norm': 1.298027753829956, 'learning_rate': 3.900822011571082e-06, 'epoch': 0.33} {'loss': 2.1221, 'grad_norm': 1.515547513961792, 'learning_rate': 3.900462188465166e-06, 'epoch': 0.33} {'loss': 2.2721, 'grad_norm': 1.429242491722107, 'learning_rate': 3.900102323075424e-06, 'epoch': 0.33} {'loss': 2.1329, 'grad_norm': 1.3975281715393066, 'learning_rate': 3.899742415412721e-06, 'epoch': 0.33} {'loss': 2.4304, 'grad_norm': 1.3420729637145996, 'learning_rate': 3.8993824654879246e-06, 'epoch': 0.33} {'loss': 2.3615, 'grad_norm': 1.3511033058166504, 'learning_rate': 3.899022473311902e-06, 'epoch': 0.33} {'loss': 2.2546, 'grad_norm': 1.4234850406646729, 'learning_rate': 3.8986624388955204e-06, 'epoch': 0.33} {'loss': 2.5358, 'grad_norm': 1.4310261011123657, 'learning_rate': 3.898302362249653e-06, 'epoch': 0.33} {'loss': 2.5654, 'grad_norm': 1.4003154039382935, 'learning_rate': 3.897942243385171e-06, 'epoch': 0.33} {'loss': 2.0386, 'grad_norm': 1.2333399057388306, 'learning_rate': 3.897582082312946e-06, 'epoch': 0.33} {'loss': 2.2853, 'grad_norm': 1.390762209892273, 'learning_rate': 3.8972218790438534e-06, 'epoch': 0.33} {'loss': 2.2396, 'grad_norm': 1.3688921928405762, 'learning_rate': 3.896861633588769e-06, 'epoch': 0.33} {'loss': 2.2643, 'grad_norm': 1.3292900323867798, 'learning_rate': 3.896501345958568e-06, 'epoch': 0.33} {'loss': 1.8045, 'grad_norm': 1.093149185180664, 'learning_rate': 3.89614101616413e-06, 'epoch': 0.33} {'loss': 2.2514, 'grad_norm': 1.3612083196640015, 'learning_rate': 3.895780644216334e-06, 'epoch': 0.33} {'loss': 2.2128, 'grad_norm': 1.2811156511306763, 'learning_rate': 3.8954202301260604e-06, 'epoch': 0.33} {'loss': 2.2884, 'grad_norm': 1.4927057027816772, 'learning_rate': 3.895059773904191e-06, 'epoch': 0.33} {'loss': 2.2053, 'grad_norm': 2.843698024749756, 'learning_rate': 3.89469927556161e-06, 'epoch': 0.33} {'loss': 2.2261, 'grad_norm': 1.2479279041290283, 'learning_rate': 3.8943387351092e-06, 'epoch': 0.33} {'loss': 2.0665, 'grad_norm': 1.4643946886062622, 'learning_rate': 3.893978152557848e-06, 'epoch': 0.33} {'loss': 2.3752, 'grad_norm': 4.834478855133057, 'learning_rate': 3.89361752791844e-06, 'epoch': 0.33} {'loss': 2.297, 'grad_norm': 1.5285042524337769, 'learning_rate': 3.893256861201866e-06, 'epoch': 0.33} {'loss': 2.4936, 'grad_norm': 1.4932730197906494, 'learning_rate': 3.892896152419015e-06, 'epoch': 0.33} {'loss': 2.3502, 'grad_norm': 1.4053982496261597, 'learning_rate': 3.892535401580776e-06, 'epoch': 0.33} {'loss': 2.4418, 'grad_norm': 1.487870693206787, 'learning_rate': 3.892174608698043e-06, 'epoch': 0.33} {'loss': 2.065, 'grad_norm': 1.460911512374878, 'learning_rate': 3.891813773781709e-06, 'epoch': 0.33} {'loss': 2.197, 'grad_norm': 1.3891305923461914, 'learning_rate': 3.8914528968426675e-06, 'epoch': 0.33} {'loss': 2.0207, 'grad_norm': 2.612617254257202, 'learning_rate': 3.891091977891816e-06, 'epoch': 0.33} {'loss': 2.2046, 'grad_norm': 1.4658137559890747, 'learning_rate': 3.8907310169400504e-06, 'epoch': 0.33} {'loss': 2.4189, 'grad_norm': 1.368478775024414, 'learning_rate': 3.8903700139982694e-06, 'epoch': 0.33} {'loss': 2.1177, 'grad_norm': 1.3689693212509155, 'learning_rate': 3.890008969077373e-06, 'epoch': 0.33} {'loss': 2.1557, 'grad_norm': 1.3291702270507812, 'learning_rate': 3.889647882188262e-06, 'epoch': 0.33} {'loss': 2.0293, 'grad_norm': 1.1518481969833374, 'learning_rate': 3.889286753341839e-06, 'epoch': 0.33} {'loss': 2.1145, 'grad_norm': 1.3207160234451294, 'learning_rate': 3.888925582549006e-06, 'epoch': 0.33} {'loss': 2.2499, 'grad_norm': 1.4499911069869995, 'learning_rate': 3.888564369820668e-06, 'epoch': 0.33} {'loss': 2.3088, 'grad_norm': 1.7353564500808716, 'learning_rate': 3.888203115167734e-06, 'epoch': 0.33} {'loss': 2.3797, 'grad_norm': 1.3910596370697021, 'learning_rate': 3.887841818601109e-06, 'epoch': 0.33} {'loss': 2.4414, 'grad_norm': 1.4821583032608032, 'learning_rate': 3.8874804801317e-06, 'epoch': 0.33} {'loss': 2.3133, 'grad_norm': 1.3632432222366333, 'learning_rate': 3.887119099770419e-06, 'epoch': 0.33} {'loss': 2.2768, 'grad_norm': 1.2548344135284424, 'learning_rate': 3.886757677528177e-06, 'epoch': 0.33} {'loss': 2.2462, 'grad_norm': 1.578744888305664, 'learning_rate': 3.886396213415885e-06, 'epoch': 0.33} {'loss': 2.4606, 'grad_norm': 1.8347245454788208, 'learning_rate': 3.886034707444458e-06, 'epoch': 0.33} {'loss': 2.2667, 'grad_norm': 1.621164083480835, 'learning_rate': 3.88567315962481e-06, 'epoch': 0.33} {'loss': 2.1606, 'grad_norm': 1.462547779083252, 'learning_rate': 3.885311569967858e-06, 'epoch': 0.33} {'loss': 2.2402, 'grad_norm': 2.373406410217285, 'learning_rate': 3.884949938484518e-06, 'epoch': 0.33} {'loss': 2.3318, 'grad_norm': 1.353695034980774, 'learning_rate': 3.88458826518571e-06, 'epoch': 0.33} {'loss': 2.247, 'grad_norm': 1.1312167644500732, 'learning_rate': 3.884226550082353e-06, 'epoch': 0.33} {'loss': 2.2421, 'grad_norm': 1.2877676486968994, 'learning_rate': 3.883864793185369e-06, 'epoch': 0.33} {'loss': 2.2845, 'grad_norm': 1.3866691589355469, 'learning_rate': 3.883502994505679e-06, 'epoch': 0.33} {'loss': 2.1121, 'grad_norm': 1.2166835069656372, 'learning_rate': 3.883141154054209e-06, 'epoch': 0.33} {'loss': 2.1945, 'grad_norm': 1.2426835298538208, 'learning_rate': 3.882779271841882e-06, 'epoch': 0.33} {'loss': 2.5207, 'grad_norm': 1.4466413259506226, 'learning_rate': 3.882417347879626e-06, 'epoch': 0.33} {'loss': 2.4518, 'grad_norm': 1.38124680519104, 'learning_rate': 3.8820553821783654e-06, 'epoch': 0.33} {'loss': 2.2807, 'grad_norm': 1.5244996547698975, 'learning_rate': 3.8816933747490324e-06, 'epoch': 0.33} {'loss': 2.2626, 'grad_norm': 1.5065275430679321, 'learning_rate': 3.881331325602555e-06, 'epoch': 0.33} {'loss': 2.0719, 'grad_norm': 1.1953340768814087, 'learning_rate': 3.880969234749865e-06, 'epoch': 0.33} {'loss': 2.1797, 'grad_norm': 1.4182006120681763, 'learning_rate': 3.880607102201895e-06, 'epoch': 0.33} {'loss': 2.0714, 'grad_norm': 1.1812732219696045, 'learning_rate': 3.880244927969579e-06, 'epoch': 0.33} {'loss': 2.49, 'grad_norm': 1.3137438297271729, 'learning_rate': 3.879882712063852e-06, 'epoch': 0.33} {'loss': 2.285, 'grad_norm': 1.5808615684509277, 'learning_rate': 3.879520454495649e-06, 'epoch': 0.33} {'loss': 2.3269, 'grad_norm': 1.425258755683899, 'learning_rate': 3.879158155275908e-06, 'epoch': 0.34} {'loss': 2.1928, 'grad_norm': 2.0387580394744873, 'learning_rate': 3.87879581441557e-06, 'epoch': 0.34} {'loss': 2.2831, 'grad_norm': 1.5940487384796143, 'learning_rate': 3.878433431925573e-06, 'epoch': 0.34} {'loss': 2.3818, 'grad_norm': 1.5654547214508057, 'learning_rate': 3.87807100781686e-06, 'epoch': 0.34} {'loss': 2.1975, 'grad_norm': 1.7217055559158325, 'learning_rate': 3.87770854210037e-06, 'epoch': 0.34} {'loss': 2.1598, 'grad_norm': 1.6022995710372925, 'learning_rate': 3.87734603478705e-06, 'epoch': 0.34} {'loss': 2.3062, 'grad_norm': 1.3201349973678589, 'learning_rate': 3.876983485887845e-06, 'epoch': 0.34} {'loss': 2.4803, 'grad_norm': 1.4664616584777832, 'learning_rate': 3.876620895413701e-06, 'epoch': 0.34} {'loss': 2.306, 'grad_norm': 1.4684245586395264, 'learning_rate': 3.8762582633755655e-06, 'epoch': 0.34} {'loss': 2.5199, 'grad_norm': 2.029207706451416, 'learning_rate': 3.875895589784385e-06, 'epoch': 0.34} {'loss': 2.1579, 'grad_norm': 1.455013632774353, 'learning_rate': 3.875532874651113e-06, 'epoch': 0.34} {'loss': 2.0489, 'grad_norm': 1.3100916147232056, 'learning_rate': 3.875170117986701e-06, 'epoch': 0.34} {'loss': 2.331, 'grad_norm': 1.7600421905517578, 'learning_rate': 3.874807319802099e-06, 'epoch': 0.34} {'loss': 2.0184, 'grad_norm': 1.5150431394577026, 'learning_rate': 3.874444480108263e-06, 'epoch': 0.34} {'loss': 2.4013, 'grad_norm': 1.5189645290374756, 'learning_rate': 3.874081598916146e-06, 'epoch': 0.34} {'loss': 1.901, 'grad_norm': 1.4468756914138794, 'learning_rate': 3.873718676236707e-06, 'epoch': 0.34} {'loss': 2.3753, 'grad_norm': 1.3467559814453125, 'learning_rate': 3.873355712080902e-06, 'epoch': 0.34} {'loss': 2.4022, 'grad_norm': 1.5808312892913818, 'learning_rate': 3.8729927064596895e-06, 'epoch': 0.34} {'loss': 2.1149, 'grad_norm': 1.5847537517547607, 'learning_rate': 3.8726296593840304e-06, 'epoch': 0.34} {'loss': 2.276, 'grad_norm': 1.6160452365875244, 'learning_rate': 3.8722665708648865e-06, 'epoch': 0.34} {'loss': 1.0606, 'grad_norm': 1.9760268926620483, 'learning_rate': 3.87190344091322e-06, 'epoch': 0.34} {'loss': 2.3597, 'grad_norm': 1.4468380212783813, 'learning_rate': 3.871540269539995e-06, 'epoch': 0.34} {'loss': 2.2864, 'grad_norm': 2.4414610862731934, 'learning_rate': 3.871177056756176e-06, 'epoch': 0.34} {'loss': 2.3276, 'grad_norm': 1.4311810731887817, 'learning_rate': 3.87081380257273e-06, 'epoch': 0.34} {'loss': 2.1435, 'grad_norm': 1.529992938041687, 'learning_rate': 3.870450507000625e-06, 'epoch': 0.34} {'loss': 2.4015, 'grad_norm': 1.3982223272323608, 'learning_rate': 3.870087170050828e-06, 'epoch': 0.34} {'loss': 2.2164, 'grad_norm': 1.6170828342437744, 'learning_rate': 3.869723791734312e-06, 'epoch': 0.34} {'loss': 2.4421, 'grad_norm': 1.5131142139434814, 'learning_rate': 3.8693603720620464e-06, 'epoch': 0.34} {'loss': 2.1549, 'grad_norm': 1.5544012784957886, 'learning_rate': 3.868996911045005e-06, 'epoch': 0.34} {'loss': 2.3841, 'grad_norm': 1.5486555099487305, 'learning_rate': 3.86863340869416e-06, 'epoch': 0.34} {'loss': 1.8543, 'grad_norm': 1.0354562997817993, 'learning_rate': 3.868269865020489e-06, 'epoch': 0.34} {'loss': 2.4234, 'grad_norm': 1.5357552766799927, 'learning_rate': 3.867906280034965e-06, 'epoch': 0.34} {'loss': 2.1093, 'grad_norm': 1.188955545425415, 'learning_rate': 3.867542653748569e-06, 'epoch': 0.34} {'loss': 2.1325, 'grad_norm': 1.236797571182251, 'learning_rate': 3.867178986172279e-06, 'epoch': 0.34} {'loss': 1.9005, 'grad_norm': 1.275349736213684, 'learning_rate': 3.8668152773170735e-06, 'epoch': 0.34} {'loss': 2.3332, 'grad_norm': 1.6370301246643066, 'learning_rate': 3.866451527193936e-06, 'epoch': 0.34} {'loss': 2.0545, 'grad_norm': 1.4016544818878174, 'learning_rate': 3.866087735813847e-06, 'epoch': 0.34} {'loss': 2.4077, 'grad_norm': 1.6162351369857788, 'learning_rate': 3.865723903187792e-06, 'epoch': 0.34} {'loss': 2.0037, 'grad_norm': 1.3306087255477905, 'learning_rate': 3.8653600293267565e-06, 'epoch': 0.34} {'loss': 2.5435, 'grad_norm': 4.7715373039245605, 'learning_rate': 3.864996114241725e-06, 'epoch': 0.34} {'loss': 1.9702, 'grad_norm': 1.3337410688400269, 'learning_rate': 3.864632157943686e-06, 'epoch': 0.34} {'loss': 2.087, 'grad_norm': 1.4679689407348633, 'learning_rate': 3.864268160443629e-06, 'epoch': 0.34} {'loss': 2.3647, 'grad_norm': 1.351992130279541, 'learning_rate': 3.863904121752544e-06, 'epoch': 0.34} {'loss': 2.0129, 'grad_norm': 1.418066382408142, 'learning_rate': 3.863540041881422e-06, 'epoch': 0.34} {'loss': 2.3083, 'grad_norm': 1.500707745552063, 'learning_rate': 3.863175920841254e-06, 'epoch': 0.34} {'loss': 2.2717, 'grad_norm': 6.493648529052734, 'learning_rate': 3.862811758643035e-06, 'epoch': 0.34} {'loss': 1.8747, 'grad_norm': 1.411453127861023, 'learning_rate': 3.862447555297763e-06, 'epoch': 0.34} {'loss': 2.2166, 'grad_norm': 1.385439395904541, 'learning_rate': 3.862083310816429e-06, 'epoch': 0.34} {'loss': 2.1951, 'grad_norm': 2.579744815826416, 'learning_rate': 3.861719025210034e-06, 'epoch': 0.34} {'loss': 2.2621, 'grad_norm': 1.724898099899292, 'learning_rate': 3.861354698489576e-06, 'epoch': 0.34} {'loss': 2.3171, 'grad_norm': 1.5882360935211182, 'learning_rate': 3.860990330666055e-06, 'epoch': 0.34} {'loss': 2.2365, 'grad_norm': 1.3877136707305908, 'learning_rate': 3.860625921750474e-06, 'epoch': 0.34} {'loss': 2.3241, 'grad_norm': 1.9223088026046753, 'learning_rate': 3.860261471753832e-06, 'epoch': 0.34} {'loss': 2.6306, 'grad_norm': 1.8392900228500366, 'learning_rate': 3.859896980687135e-06, 'epoch': 0.34} {'loss': 2.2588, 'grad_norm': 1.5349417924880981, 'learning_rate': 3.859532448561386e-06, 'epoch': 0.34} {'loss': 2.0725, 'grad_norm': 1.1491702795028687, 'learning_rate': 3.859167875387595e-06, 'epoch': 0.34} {'loss': 2.2605, 'grad_norm': 10.733426094055176, 'learning_rate': 3.8588032611767665e-06, 'epoch': 0.34} {'loss': 2.3296, 'grad_norm': 1.5075838565826416, 'learning_rate': 3.85843860593991e-06, 'epoch': 0.34} {'loss': 2.2037, 'grad_norm': 2.6896042823791504, 'learning_rate': 3.858073909688035e-06, 'epoch': 0.34} {'loss': 2.4771, 'grad_norm': 1.6419333219528198, 'learning_rate': 3.857709172432153e-06, 'epoch': 0.34} {'loss': 2.3742, 'grad_norm': 1.5565507411956787, 'learning_rate': 3.857344394183277e-06, 'epoch': 0.34} {'loss': 2.2568, 'grad_norm': 1.4735013246536255, 'learning_rate': 3.856979574952419e-06, 'epoch': 0.34} {'loss': 1.9973, 'grad_norm': 1.1989693641662598, 'learning_rate': 3.856614714750597e-06, 'epoch': 0.34} {'loss': 2.6266, 'grad_norm': 4.490205764770508, 'learning_rate': 3.856249813588824e-06, 'epoch': 0.34} {'loss': 2.087, 'grad_norm': 1.2256189584732056, 'learning_rate': 3.855884871478119e-06, 'epoch': 0.34} {'loss': 1.38, 'grad_norm': 1.9927901029586792, 'learning_rate': 3.855519888429501e-06, 'epoch': 0.34} {'loss': 2.2335, 'grad_norm': 1.394152283668518, 'learning_rate': 3.855154864453987e-06, 'epoch': 0.34} {'loss': 2.2872, 'grad_norm': 3.090458631515503, 'learning_rate': 3.8547897995626025e-06, 'epoch': 0.34} {'loss': 2.3794, 'grad_norm': 1.6368776559829712, 'learning_rate': 3.854424693766366e-06, 'epoch': 0.34} {'loss': 2.2994, 'grad_norm': 2.3276658058166504, 'learning_rate': 3.854059547076303e-06, 'epoch': 0.34} {'loss': 1.9603, 'grad_norm': 1.46492338180542, 'learning_rate': 3.853694359503437e-06, 'epoch': 0.34} {'loss': 2.5207, 'grad_norm': 1.3829314708709717, 'learning_rate': 3.853329131058796e-06, 'epoch': 0.34} {'loss': 2.2318, 'grad_norm': 1.3139957189559937, 'learning_rate': 3.852963861753406e-06, 'epoch': 0.34} {'loss': 2.0703, 'grad_norm': 1.1784919500350952, 'learning_rate': 3.852598551598295e-06, 'epoch': 0.34} {'loss': 2.211, 'grad_norm': 1.3850423097610474, 'learning_rate': 3.852233200604493e-06, 'epoch': 0.34} {'loss': 2.3995, 'grad_norm': 1.731902003288269, 'learning_rate': 3.851867808783032e-06, 'epoch': 0.34} {'loss': 2.2175, 'grad_norm': 1.530334711074829, 'learning_rate': 3.851502376144943e-06, 'epoch': 0.34} {'loss': 1.9523, 'grad_norm': 1.220383882522583, 'learning_rate': 3.85113690270126e-06, 'epoch': 0.34} {'loss': 2.0751, 'grad_norm': 1.4292024374008179, 'learning_rate': 3.8507713884630174e-06, 'epoch': 0.34} {'loss': 2.4885, 'grad_norm': 1.2505770921707153, 'learning_rate': 3.850405833441251e-06, 'epoch': 0.34} {'loss': 2.3672, 'grad_norm': 1.3056080341339111, 'learning_rate': 3.850040237646998e-06, 'epoch': 0.34} {'loss': 2.3235, 'grad_norm': 1.8368221521377563, 'learning_rate': 3.849674601091298e-06, 'epoch': 0.34} {'loss': 2.3204, 'grad_norm': 1.2423819303512573, 'learning_rate': 3.8493089237851885e-06, 'epoch': 0.34} {'loss': 2.3677, 'grad_norm': 1.3403520584106445, 'learning_rate': 3.848943205739711e-06, 'epoch': 0.34} {'loss': 2.6419, 'grad_norm': 1.676029920578003, 'learning_rate': 3.8485774469659085e-06, 'epoch': 0.34} {'loss': 1.9162, 'grad_norm': 1.326041579246521, 'learning_rate': 3.848211647474824e-06, 'epoch': 0.34} {'loss': 2.063, 'grad_norm': 1.682722806930542, 'learning_rate': 3.847845807277501e-06, 'epoch': 0.34} {'loss': 2.0268, 'grad_norm': 1.4190996885299683, 'learning_rate': 3.847479926384986e-06, 'epoch': 0.34} {'loss': 2.2723, 'grad_norm': 1.3999545574188232, 'learning_rate': 3.847114004808326e-06, 'epoch': 0.34} {'loss': 2.1635, 'grad_norm': 1.412208914756775, 'learning_rate': 3.846748042558568e-06, 'epoch': 0.34} {'loss': 2.3856, 'grad_norm': 1.3530380725860596, 'learning_rate': 3.846382039646762e-06, 'epoch': 0.34} {'loss': 2.2597, 'grad_norm': 1.8071779012680054, 'learning_rate': 3.8460159960839606e-06, 'epoch': 0.34} {'loss': 1.7605, 'grad_norm': 1.0220457315444946, 'learning_rate': 3.845649911881213e-06, 'epoch': 0.34} {'loss': 2.0646, 'grad_norm': 1.3356634378433228, 'learning_rate': 3.8452837870495735e-06, 'epoch': 0.34} {'loss': 2.4612, 'grad_norm': 1.6045458316802979, 'learning_rate': 3.844917621600096e-06, 'epoch': 0.34} {'loss': 2.1062, 'grad_norm': 1.407333493232727, 'learning_rate': 3.844551415543837e-06, 'epoch': 0.34} {'loss': 2.329, 'grad_norm': 1.5741393566131592, 'learning_rate': 3.844185168891852e-06, 'epoch': 0.34} {'loss': 2.4804, 'grad_norm': 3.266425848007202, 'learning_rate': 3.8438188816552e-06, 'epoch': 0.34} {'loss': 2.3787, 'grad_norm': 1.6010602712631226, 'learning_rate': 3.84345255384494e-06, 'epoch': 0.34} {'loss': 2.3774, 'grad_norm': 1.3751670122146606, 'learning_rate': 3.843086185472131e-06, 'epoch': 0.34} {'loss': 2.2361, 'grad_norm': 1.2498719692230225, 'learning_rate': 3.8427197765478374e-06, 'epoch': 0.34} {'loss': 1.7297, 'grad_norm': 1.2906341552734375, 'learning_rate': 3.84235332708312e-06, 'epoch': 0.34} {'loss': 2.3461, 'grad_norm': 2.3686916828155518, 'learning_rate': 3.841986837089044e-06, 'epoch': 0.34} {'loss': 2.417, 'grad_norm': 1.2460500001907349, 'learning_rate': 3.841620306576673e-06, 'epoch': 0.34} {'loss': 2.3582, 'grad_norm': 1.5867910385131836, 'learning_rate': 3.841253735557077e-06, 'epoch': 0.34} {'loss': 2.1522, 'grad_norm': 1.4070888757705688, 'learning_rate': 3.840887124041319e-06, 'epoch': 0.34} {'loss': 2.3827, 'grad_norm': 1.452125906944275, 'learning_rate': 3.8405204720404726e-06, 'epoch': 0.34} {'loss': 2.4492, 'grad_norm': 2.207505941390991, 'learning_rate': 3.840153779565606e-06, 'epoch': 0.34} {'loss': 2.1536, 'grad_norm': 1.6600888967514038, 'learning_rate': 3.839787046627791e-06, 'epoch': 0.34} {'loss': 2.3022, 'grad_norm': 1.3883662223815918, 'learning_rate': 3.8394202732380995e-06, 'epoch': 0.34} {'loss': 2.3947, 'grad_norm': 1.3842953443527222, 'learning_rate': 3.839053459407606e-06, 'epoch': 0.34} {'loss': 2.0738, 'grad_norm': 1.5438265800476074, 'learning_rate': 3.838686605147384e-06, 'epoch': 0.34} {'loss': 2.3778, 'grad_norm': 2.9977214336395264, 'learning_rate': 3.838319710468513e-06, 'epoch': 0.34} {'loss': 2.3898, 'grad_norm': 1.5673528909683228, 'learning_rate': 3.83795277538207e-06, 'epoch': 0.34} {'loss': 2.3069, 'grad_norm': 1.9175660610198975, 'learning_rate': 3.8375857998991316e-06, 'epoch': 0.34} {'loss': 2.1854, 'grad_norm': 1.7557395696640015, 'learning_rate': 3.837218784030779e-06, 'epoch': 0.34} {'loss': 2.2552, 'grad_norm': 1.3138290643692017, 'learning_rate': 3.836851727788094e-06, 'epoch': 0.34} {'loss': 2.3675, 'grad_norm': 1.7046599388122559, 'learning_rate': 3.836484631182158e-06, 'epoch': 0.34} {'loss': 2.1814, 'grad_norm': 1.361918568611145, 'learning_rate': 3.836117494224055e-06, 'epoch': 0.34} {'loss': 2.3144, 'grad_norm': 1.7055100202560425, 'learning_rate': 3.83575031692487e-06, 'epoch': 0.34} {'loss': 2.5762, 'grad_norm': 1.6225265264511108, 'learning_rate': 3.835383099295689e-06, 'epoch': 0.34} {'loss': 2.2533, 'grad_norm': 1.2997620105743408, 'learning_rate': 3.8350158413476e-06, 'epoch': 0.34} {'loss': 2.4562, 'grad_norm': 1.475014328956604, 'learning_rate': 3.834648543091691e-06, 'epoch': 0.34} {'loss': 2.2014, 'grad_norm': 1.3553208112716675, 'learning_rate': 3.834281204539051e-06, 'epoch': 0.34} {'loss': 2.3747, 'grad_norm': 1.4530366659164429, 'learning_rate': 3.833913825700772e-06, 'epoch': 0.34} {'loss': 2.5931, 'grad_norm': 1.41780686378479, 'learning_rate': 3.833546406587946e-06, 'epoch': 0.34} {'loss': 2.3523, 'grad_norm': 1.554456114768982, 'learning_rate': 3.833178947211667e-06, 'epoch': 0.34} {'loss': 2.234, 'grad_norm': 1.2901263236999512, 'learning_rate': 3.832811447583027e-06, 'epoch': 0.34} {'loss': 2.334, 'grad_norm': 1.5654377937316895, 'learning_rate': 3.832443907713124e-06, 'epoch': 0.34} {'loss': 2.196, 'grad_norm': 1.3794069290161133, 'learning_rate': 3.832076327613056e-06, 'epoch': 0.34} {'loss': 2.2829, 'grad_norm': 4.975091934204102, 'learning_rate': 3.831708707293919e-06, 'epoch': 0.34} {'loss': 2.2461, 'grad_norm': 2.074338436126709, 'learning_rate': 3.831341046766814e-06, 'epoch': 0.34} {'loss': 2.2264, 'grad_norm': 1.386121392250061, 'learning_rate': 3.830973346042841e-06, 'epoch': 0.34} {'loss': 2.0824, 'grad_norm': 1.2878543138504028, 'learning_rate': 3.830605605133102e-06, 'epoch': 0.34} {'loss': 2.0873, 'grad_norm': 1.2218302488327026, 'learning_rate': 3.8302378240486995e-06, 'epoch': 0.34} {'loss': 2.1941, 'grad_norm': 1.6448884010314941, 'learning_rate': 3.82987000280074e-06, 'epoch': 0.34} {'loss': 2.5649, 'grad_norm': 1.417178750038147, 'learning_rate': 3.829502141400327e-06, 'epoch': 0.34} {'loss': 2.4576, 'grad_norm': 1.361562728881836, 'learning_rate': 3.829134239858567e-06, 'epoch': 0.34} {'loss': 1.8028, 'grad_norm': 1.1940594911575317, 'learning_rate': 3.828766298186569e-06, 'epoch': 0.34} {'loss': 2.1841, 'grad_norm': 1.3963851928710938, 'learning_rate': 3.828398316395442e-06, 'epoch': 0.34} {'loss': 2.4733, 'grad_norm': 1.6720631122589111, 'learning_rate': 3.8280302944962965e-06, 'epoch': 0.34} {'loss': 2.5324, 'grad_norm': 1.6624995470046997, 'learning_rate': 3.827662232500244e-06, 'epoch': 0.34} {'loss': 2.2124, 'grad_norm': 1.3570040464401245, 'learning_rate': 3.827294130418397e-06, 'epoch': 0.34} {'loss': 2.283, 'grad_norm': 1.4931702613830566, 'learning_rate': 3.82692598826187e-06, 'epoch': 0.34} {'loss': 2.1575, 'grad_norm': 1.3648391962051392, 'learning_rate': 3.826557806041779e-06, 'epoch': 0.34} {'loss': 2.522, 'grad_norm': 1.4024423360824585, 'learning_rate': 3.826189583769237e-06, 'epoch': 0.34} {'loss': 2.2815, 'grad_norm': 1.498680830001831, 'learning_rate': 3.825821321455365e-06, 'epoch': 0.34} {'loss': 2.0928, 'grad_norm': 1.3559666872024536, 'learning_rate': 3.8254530191112815e-06, 'epoch': 0.34} {'loss': 1.9737, 'grad_norm': 1.2270348072052002, 'learning_rate': 3.825084676748106e-06, 'epoch': 0.34} {'loss': 2.4952, 'grad_norm': 1.5853955745697021, 'learning_rate': 3.82471629437696e-06, 'epoch': 0.34} {'loss': 2.4061, 'grad_norm': 1.324788212776184, 'learning_rate': 3.824347872008966e-06, 'epoch': 0.34} {'loss': 2.1777, 'grad_norm': 1.1054415702819824, 'learning_rate': 3.8239794096552455e-06, 'epoch': 0.34} {'loss': 2.2555, 'grad_norm': 1.6014986038208008, 'learning_rate': 3.823610907326927e-06, 'epoch': 0.34} {'loss': 2.3023, 'grad_norm': 1.4888561964035034, 'learning_rate': 3.8232423650351344e-06, 'epoch': 0.34} {'loss': 2.4145, 'grad_norm': 1.466916799545288, 'learning_rate': 3.822873782790996e-06, 'epoch': 0.34} {'loss': 2.2655, 'grad_norm': 1.4280308485031128, 'learning_rate': 3.82250516060564e-06, 'epoch': 0.34} {'loss': 2.1201, 'grad_norm': 1.5005484819412231, 'learning_rate': 3.822136498490195e-06, 'epoch': 0.34} {'loss': 2.2387, 'grad_norm': 1.4878922700881958, 'learning_rate': 3.821767796455793e-06, 'epoch': 0.34} {'loss': 2.2957, 'grad_norm': 1.4106266498565674, 'learning_rate': 3.821399054513567e-06, 'epoch': 0.34} {'loss': 2.2203, 'grad_norm': 1.4952090978622437, 'learning_rate': 3.821030272674648e-06, 'epoch': 0.34} {'loss': 2.0189, 'grad_norm': 1.2765313386917114, 'learning_rate': 3.820661450950173e-06, 'epoch': 0.34} {'loss': 2.298, 'grad_norm': 1.2692092657089233, 'learning_rate': 3.820292589351276e-06, 'epoch': 0.34} {'loss': 2.1477, 'grad_norm': 2.080418109893799, 'learning_rate': 3.8199236878890954e-06, 'epoch': 0.34} {'loss': 2.3106, 'grad_norm': 1.4335898160934448, 'learning_rate': 3.819554746574768e-06, 'epoch': 0.34} {'loss': 2.276, 'grad_norm': 1.4354840517044067, 'learning_rate': 3.819185765419435e-06, 'epoch': 0.34} {'loss': 2.0759, 'grad_norm': 1.292160153388977, 'learning_rate': 3.818816744434235e-06, 'epoch': 0.34} {'loss': 2.2615, 'grad_norm': 1.348283052444458, 'learning_rate': 3.818447683630311e-06, 'epoch': 0.34} {'loss': 2.3794, 'grad_norm': 1.5178455114364624, 'learning_rate': 3.818078583018804e-06, 'epoch': 0.34} {'loss': 2.436, 'grad_norm': 1.3080862760543823, 'learning_rate': 3.81770944261086e-06, 'epoch': 0.34} {'loss': 2.3075, 'grad_norm': 1.71969735622406, 'learning_rate': 3.817340262417624e-06, 'epoch': 0.34} {'loss': 2.3396, 'grad_norm': 1.4548228979110718, 'learning_rate': 3.8169710424502436e-06, 'epoch': 0.34} {'loss': 2.3306, 'grad_norm': 1.3521168231964111, 'learning_rate': 3.816601782719864e-06, 'epoch': 0.34} {'loss': 2.3689, 'grad_norm': 1.2059763669967651, 'learning_rate': 3.816232483237638e-06, 'epoch': 0.34} {'loss': 2.2768, 'grad_norm': 1.4981037378311157, 'learning_rate': 3.815863144014711e-06, 'epoch': 0.34} {'loss': 2.3711, 'grad_norm': 3.38205885887146, 'learning_rate': 3.815493765062238e-06, 'epoch': 0.34} {'loss': 2.47, 'grad_norm': 1.3896703720092773, 'learning_rate': 3.81512434639137e-06, 'epoch': 0.34} {'loss': 2.3083, 'grad_norm': 1.3766453266143799, 'learning_rate': 3.814754888013261e-06, 'epoch': 0.34} {'loss': 2.1336, 'grad_norm': 1.3648570775985718, 'learning_rate': 3.814385389939067e-06, 'epoch': 0.34} {'loss': 2.3438, 'grad_norm': 1.4411721229553223, 'learning_rate': 3.814015852179943e-06, 'epoch': 0.34} {'loss': 2.411, 'grad_norm': 1.2792072296142578, 'learning_rate': 3.813646274747046e-06, 'epoch': 0.34} {'loss': 2.3705, 'grad_norm': 1.1754347085952759, 'learning_rate': 3.8132766576515355e-06, 'epoch': 0.34} {'loss': 2.2439, 'grad_norm': 1.3197308778762817, 'learning_rate': 3.8129070009045723e-06, 'epoch': 0.34} {'loss': 2.1182, 'grad_norm': 1.4153891801834106, 'learning_rate': 3.812537304517314e-06, 'epoch': 0.34} {'loss': 2.4778, 'grad_norm': 1.389613389968872, 'learning_rate': 3.812167568500927e-06, 'epoch': 0.34} {'loss': 2.047, 'grad_norm': 1.248624563217163, 'learning_rate': 3.8117977928665707e-06, 'epoch': 0.34} {'loss': 2.1583, 'grad_norm': 2.0799033641815186, 'learning_rate': 3.8114279776254125e-06, 'epoch': 0.34} {'loss': 2.2325, 'grad_norm': 2.5087671279907227, 'learning_rate': 3.8110581227886166e-06, 'epoch': 0.35} {'loss': 2.1702, 'grad_norm': 1.8247483968734741, 'learning_rate': 3.810688228367351e-06, 'epoch': 0.35} {'loss': 2.371, 'grad_norm': 1.5115059614181519, 'learning_rate': 3.8103182943727824e-06, 'epoch': 0.35} {'loss': 2.4365, 'grad_norm': 1.4052335023880005, 'learning_rate': 3.8099483208160816e-06, 'epoch': 0.35} {'loss': 2.2013, 'grad_norm': 1.3167140483856201, 'learning_rate': 3.8095783077084182e-06, 'epoch': 0.35} {'loss': 1.7112, 'grad_norm': 1.432983636856079, 'learning_rate': 3.809208255060964e-06, 'epoch': 0.35} {'loss': 2.4737, 'grad_norm': 1.6556049585342407, 'learning_rate': 3.8088381628848924e-06, 'epoch': 0.35} {'loss': 2.1427, 'grad_norm': 1.4849791526794434, 'learning_rate': 3.808468031191378e-06, 'epoch': 0.35} {'loss': 1.9224, 'grad_norm': 1.1858291625976562, 'learning_rate': 3.808097859991594e-06, 'epoch': 0.35} {'loss': 2.379, 'grad_norm': 1.423277497291565, 'learning_rate': 3.8077276492967193e-06, 'epoch': 0.35} {'loss': 2.1037, 'grad_norm': 1.275699257850647, 'learning_rate': 3.80735739911793e-06, 'epoch': 0.35} {'loss': 2.3455, 'grad_norm': 1.4181658029556274, 'learning_rate': 3.806987109466406e-06, 'epoch': 0.35} {'loss': 2.2367, 'grad_norm': 1.2438486814498901, 'learning_rate': 3.8066167803533262e-06, 'epoch': 0.35} {'loss': 2.383, 'grad_norm': 1.846069574356079, 'learning_rate': 3.806246411789872e-06, 'epoch': 0.35} {'loss': 2.3927, 'grad_norm': 1.7154114246368408, 'learning_rate': 3.805876003787228e-06, 'epoch': 0.35} {'loss': 2.3706, 'grad_norm': 1.4271003007888794, 'learning_rate': 3.805505556356575e-06, 'epoch': 0.35} {'loss': 2.2433, 'grad_norm': 1.3748867511749268, 'learning_rate': 3.8051350695090993e-06, 'epoch': 0.35} {'loss': 2.3209, 'grad_norm': 1.6252453327178955, 'learning_rate': 3.804764543255987e-06, 'epoch': 0.35} {'loss': 2.3845, 'grad_norm': 1.3945691585540771, 'learning_rate': 3.804393977608425e-06, 'epoch': 0.35} {'loss': 2.0685, 'grad_norm': 1.7789602279663086, 'learning_rate': 3.804023372577602e-06, 'epoch': 0.35} {'loss': 1.5483, 'grad_norm': 1.509685754776001, 'learning_rate': 3.8036527281747066e-06, 'epoch': 0.35} {'loss': 2.1116, 'grad_norm': 1.3482797145843506, 'learning_rate': 3.8032820444109297e-06, 'epoch': 0.35} {'loss': 2.3645, 'grad_norm': 1.3718268871307373, 'learning_rate': 3.8029113212974643e-06, 'epoch': 0.35} {'loss': 2.3864, 'grad_norm': 1.4623862504959106, 'learning_rate': 3.802540558845504e-06, 'epoch': 0.35} {'loss': 2.2557, 'grad_norm': 7.074548721313477, 'learning_rate': 3.802169757066242e-06, 'epoch': 0.35} {'loss': 2.3866, 'grad_norm': 1.4995418787002563, 'learning_rate': 3.8017989159708736e-06, 'epoch': 0.35} {'loss': 2.3144, 'grad_norm': 1.2509571313858032, 'learning_rate': 3.8014280355705956e-06, 'epoch': 0.35} {'loss': 2.2096, 'grad_norm': 1.3468259572982788, 'learning_rate': 3.801057115876606e-06, 'epoch': 0.35} {'loss': 2.1673, 'grad_norm': 1.34392511844635, 'learning_rate': 3.8006861569001064e-06, 'epoch': 0.35} {'loss': 2.2973, 'grad_norm': 1.473832607269287, 'learning_rate': 3.800315158652293e-06, 'epoch': 0.35} {'loss': 2.1039, 'grad_norm': 1.558215856552124, 'learning_rate': 3.7999441211443692e-06, 'epoch': 0.35} {'loss': 2.5628, 'grad_norm': 1.5232497453689575, 'learning_rate': 3.799573044387538e-06, 'epoch': 0.35} {'loss': 2.4402, 'grad_norm': 1.4501172304153442, 'learning_rate': 3.7992019283930027e-06, 'epoch': 0.35} {'loss': 2.3627, 'grad_norm': 1.6622258424758911, 'learning_rate': 3.798830773171968e-06, 'epoch': 0.35} {'loss': 2.1348, 'grad_norm': 2.0232038497924805, 'learning_rate': 3.798459578735641e-06, 'epoch': 0.35} {'loss': 2.2965, 'grad_norm': 1.473836064338684, 'learning_rate': 3.798088345095228e-06, 'epoch': 0.35} {'loss': 2.3215, 'grad_norm': 1.4368524551391602, 'learning_rate': 3.7977170722619388e-06, 'epoch': 0.35} {'loss': 2.2803, 'grad_norm': 1.573657512664795, 'learning_rate': 3.7973457602469825e-06, 'epoch': 0.35} {'loss': 2.1696, 'grad_norm': 1.6372370719909668, 'learning_rate': 3.79697440906157e-06, 'epoch': 0.35} {'loss': 2.1239, 'grad_norm': 1.3895238637924194, 'learning_rate': 3.7966030187169134e-06, 'epoch': 0.35} {'loss': 2.5336, 'grad_norm': 1.3323166370391846, 'learning_rate': 3.7962315892242264e-06, 'epoch': 0.35} {'loss': 2.6107, 'grad_norm': 1.4975160360336304, 'learning_rate': 3.795860120594723e-06, 'epoch': 0.35} {'loss': 2.1704, 'grad_norm': 1.3187066316604614, 'learning_rate': 3.7954886128396186e-06, 'epoch': 0.35} {'loss': 2.2342, 'grad_norm': 1.4303984642028809, 'learning_rate': 3.7951170659701304e-06, 'epoch': 0.35} {'loss': 2.315, 'grad_norm': 1.5964797735214233, 'learning_rate': 3.794745479997477e-06, 'epoch': 0.35} {'loss': 2.1722, 'grad_norm': 1.3571821451187134, 'learning_rate': 3.7943738549328766e-06, 'epoch': 0.35} {'loss': 2.2113, 'grad_norm': 1.3883659839630127, 'learning_rate': 3.7940021907875515e-06, 'epoch': 0.35} {'loss': 2.259, 'grad_norm': 1.8634958267211914, 'learning_rate': 3.79363048757272e-06, 'epoch': 0.35} {'loss': 2.2335, 'grad_norm': 1.660954236984253, 'learning_rate': 3.793258745299608e-06, 'epoch': 0.35} {'loss': 2.1591, 'grad_norm': 1.4764294624328613, 'learning_rate': 3.7928869639794373e-06, 'epoch': 0.35} {'loss': 2.2239, 'grad_norm': 1.234781265258789, 'learning_rate': 3.7925151436234346e-06, 'epoch': 0.35} {'loss': 2.3294, 'grad_norm': 1.5989177227020264, 'learning_rate': 3.7921432842428253e-06, 'epoch': 0.35} {'loss': 2.4025, 'grad_norm': 1.498311161994934, 'learning_rate': 3.791771385848837e-06, 'epoch': 0.35} {'loss': 2.2927, 'grad_norm': 1.346754550933838, 'learning_rate': 3.791399448452698e-06, 'epoch': 0.35} {'loss': 1.945, 'grad_norm': 1.2382075786590576, 'learning_rate': 3.791027472065638e-06, 'epoch': 0.35} {'loss': 1.9653, 'grad_norm': 1.1924548149108887, 'learning_rate': 3.7906554566988896e-06, 'epoch': 0.35} {'loss': 2.4031, 'grad_norm': 1.8447448015213013, 'learning_rate': 3.790283402363683e-06, 'epoch': 0.35} {'loss': 2.333, 'grad_norm': 1.4024606943130493, 'learning_rate': 3.7899113090712526e-06, 'epoch': 0.35} {'loss': 2.2055, 'grad_norm': 1.3806215524673462, 'learning_rate': 3.7895391768328326e-06, 'epoch': 0.35} {'loss': 2.3228, 'grad_norm': 1.5431177616119385, 'learning_rate': 3.7891670056596597e-06, 'epoch': 0.35} {'loss': 2.2692, 'grad_norm': 1.1286429166793823, 'learning_rate': 3.788794795562969e-06, 'epoch': 0.35} {'loss': 2.1192, 'grad_norm': 1.5850770473480225, 'learning_rate': 3.788422546553999e-06, 'epoch': 0.35} {'loss': 2.4499, 'grad_norm': 1.4153685569763184, 'learning_rate': 3.7880502586439907e-06, 'epoch': 0.35} {'loss': 2.5393, 'grad_norm': 1.3940708637237549, 'learning_rate': 3.7876779318441825e-06, 'epoch': 0.35} {'loss': 2.0997, 'grad_norm': 12.740437507629395, 'learning_rate': 3.7873055661658167e-06, 'epoch': 0.35} {'loss': 2.2039, 'grad_norm': 1.6795686483383179, 'learning_rate': 3.7869331616201353e-06, 'epoch': 0.35} {'loss': 2.2864, 'grad_norm': 1.560244083404541, 'learning_rate': 3.786560718218383e-06, 'epoch': 0.35} {'loss': 2.327, 'grad_norm': 1.711350917816162, 'learning_rate': 3.7861882359718056e-06, 'epoch': 0.35} {'loss': 2.155, 'grad_norm': 1.5140128135681152, 'learning_rate': 3.7858157148916486e-06, 'epoch': 0.35} {'loss': 2.4763, 'grad_norm': 1.5251073837280273, 'learning_rate': 3.785443154989159e-06, 'epoch': 0.35} {'loss': 2.0466, 'grad_norm': 1.4040336608886719, 'learning_rate': 3.7850705562755863e-06, 'epoch': 0.35} {'loss': 2.2351, 'grad_norm': 1.3360854387283325, 'learning_rate': 3.784697918762179e-06, 'epoch': 0.35} {'loss': 2.024, 'grad_norm': 1.268568515777588, 'learning_rate': 3.7843252424601894e-06, 'epoch': 0.35} {'loss': 2.3989, 'grad_norm': 4.018975734710693, 'learning_rate': 3.7839525273808687e-06, 'epoch': 0.35} {'loss': 2.1396, 'grad_norm': 3.112670421600342, 'learning_rate': 3.783579773535471e-06, 'epoch': 0.35} {'loss': 2.3221, 'grad_norm': 1.532141089439392, 'learning_rate': 3.78320698093525e-06, 'epoch': 0.35} {'loss': 2.2668, 'grad_norm': 1.5496803522109985, 'learning_rate': 3.782834149591462e-06, 'epoch': 0.35} {'loss': 2.3867, 'grad_norm': 1.5894904136657715, 'learning_rate': 3.7824612795153637e-06, 'epoch': 0.35} {'loss': 2.2556, 'grad_norm': 1.3832825422286987, 'learning_rate': 3.7820883707182125e-06, 'epoch': 0.35} {'loss': 2.2771, 'grad_norm': 1.2357467412948608, 'learning_rate': 3.7817154232112685e-06, 'epoch': 0.35} {'loss': 2.1852, 'grad_norm': 1.801103949546814, 'learning_rate': 3.7813424370057905e-06, 'epoch': 0.35} {'loss': 2.2618, 'grad_norm': 1.547884225845337, 'learning_rate': 3.7809694121130424e-06, 'epoch': 0.35} {'loss': 2.1811, 'grad_norm': 1.5542031526565552, 'learning_rate': 3.780596348544284e-06, 'epoch': 0.35} {'loss': 2.0923, 'grad_norm': 1.2121013402938843, 'learning_rate': 3.780223246310781e-06, 'epoch': 0.35} {'loss': 2.3698, 'grad_norm': 1.4558266401290894, 'learning_rate': 3.779850105423798e-06, 'epoch': 0.35} {'loss': 2.2415, 'grad_norm': 1.5886198282241821, 'learning_rate': 3.779476925894601e-06, 'epoch': 0.35} {'loss': 2.2875, 'grad_norm': 1.2989619970321655, 'learning_rate': 3.779103707734458e-06, 'epoch': 0.35} {'loss': 2.3416, 'grad_norm': 2.1490824222564697, 'learning_rate': 3.7787304509546363e-06, 'epoch': 0.35} {'loss': 2.2823, 'grad_norm': 1.3594331741333008, 'learning_rate': 3.7783571555664057e-06, 'epoch': 0.35} {'loss': 2.2803, 'grad_norm': 1.5159779787063599, 'learning_rate': 3.7779838215810372e-06, 'epoch': 0.35} {'loss': 2.2157, 'grad_norm': 1.4452751874923706, 'learning_rate': 3.777610449009804e-06, 'epoch': 0.35} {'loss': 2.5746, 'grad_norm': 1.5698561668395996, 'learning_rate': 3.7772370378639783e-06, 'epoch': 0.35} {'loss': 2.1182, 'grad_norm': 1.5496207475662231, 'learning_rate': 3.7768635881548345e-06, 'epoch': 0.35} {'loss': 2.2539, 'grad_norm': 1.606806755065918, 'learning_rate': 3.7764900998936472e-06, 'epoch': 0.35} {'loss': 2.3249, 'grad_norm': 1.6851266622543335, 'learning_rate': 3.7761165730916943e-06, 'epoch': 0.35} {'loss': 2.446, 'grad_norm': 1.4876527786254883, 'learning_rate': 3.775743007760253e-06, 'epoch': 0.35} {'loss': 2.3228, 'grad_norm': 1.332470178604126, 'learning_rate': 3.7753694039106027e-06, 'epoch': 0.35} {'loss': 2.309, 'grad_norm': 12.597851753234863, 'learning_rate': 3.7749957615540223e-06, 'epoch': 0.35} {'loss': 2.1586, 'grad_norm': 1.5044827461242676, 'learning_rate': 3.774622080701795e-06, 'epoch': 0.35} {'loss': 2.3533, 'grad_norm': 1.5167250633239746, 'learning_rate': 3.7742483613652014e-06, 'epoch': 0.35} {'loss': 2.1015, 'grad_norm': 1.3608652353286743, 'learning_rate': 3.7738746035555273e-06, 'epoch': 0.35} {'loss': 2.162, 'grad_norm': 1.3641568422317505, 'learning_rate': 3.773500807284055e-06, 'epoch': 0.35} {'loss': 2.305, 'grad_norm': 1.808520793914795, 'learning_rate': 3.7731269725620724e-06, 'epoch': 0.35} {'loss': 2.2012, 'grad_norm': 1.4053006172180176, 'learning_rate': 3.772753099400866e-06, 'epoch': 0.35} {'loss': 2.4868, 'grad_norm': 1.5163025856018066, 'learning_rate': 3.772379187811723e-06, 'epoch': 0.35} {'loss': 2.3189, 'grad_norm': 1.625240445137024, 'learning_rate': 3.772005237805934e-06, 'epoch': 0.35} {'loss': 2.1219, 'grad_norm': 1.4170719385147095, 'learning_rate': 3.771631249394789e-06, 'epoch': 0.35} {'loss': 2.1938, 'grad_norm': 1.3178287744522095, 'learning_rate': 3.771257222589581e-06, 'epoch': 0.35} {'loss': 2.26, 'grad_norm': 1.4973037242889404, 'learning_rate': 3.770883157401602e-06, 'epoch': 0.35} {'loss': 2.2395, 'grad_norm': 1.3881757259368896, 'learning_rate': 3.770509053842145e-06, 'epoch': 0.35} {'loss': 2.2435, 'grad_norm': 1.459144115447998, 'learning_rate': 3.770134911922507e-06, 'epoch': 0.35} {'loss': 2.1279, 'grad_norm': 1.6259008646011353, 'learning_rate': 3.769760731653983e-06, 'epoch': 0.35} {'loss': 2.4613, 'grad_norm': 1.2764596939086914, 'learning_rate': 3.7693865130478726e-06, 'epoch': 0.35} {'loss': 2.3471, 'grad_norm': 1.365822196006775, 'learning_rate': 3.769012256115471e-06, 'epoch': 0.35} {'loss': 2.461, 'grad_norm': 1.5906635522842407, 'learning_rate': 3.768637960868081e-06, 'epoch': 0.35} {'loss': 2.2131, 'grad_norm': 1.3141703605651855, 'learning_rate': 3.7682636273170036e-06, 'epoch': 0.35} {'loss': 2.1516, 'grad_norm': 1.1806355714797974, 'learning_rate': 3.7678892554735393e-06, 'epoch': 0.35} {'loss': 2.2113, 'grad_norm': 1.504241943359375, 'learning_rate': 3.767514845348992e-06, 'epoch': 0.35} {'loss': 2.1074, 'grad_norm': 1.3619860410690308, 'learning_rate': 3.767140396954666e-06, 'epoch': 0.35} {'loss': 2.357, 'grad_norm': 1.3303145170211792, 'learning_rate': 3.7667659103018684e-06, 'epoch': 0.35} {'loss': 1.3928, 'grad_norm': 1.4275656938552856, 'learning_rate': 3.766391385401904e-06, 'epoch': 0.35} {'loss': 2.2864, 'grad_norm': 1.4495702981948853, 'learning_rate': 3.766016822266083e-06, 'epoch': 0.35} {'loss': 2.4558, 'grad_norm': 1.4562325477600098, 'learning_rate': 3.7656422209057114e-06, 'epoch': 0.35} {'loss': 2.3544, 'grad_norm': 1.4686837196350098, 'learning_rate': 3.7652675813321015e-06, 'epoch': 0.35} {'loss': 2.2322, 'grad_norm': 1.379331111907959, 'learning_rate': 3.764892903556565e-06, 'epoch': 0.35} {'loss': 2.4504, 'grad_norm': 1.4196382761001587, 'learning_rate': 3.7645181875904147e-06, 'epoch': 0.35} {'loss': 2.3122, 'grad_norm': 1.491058111190796, 'learning_rate': 3.764143433444962e-06, 'epoch': 0.35} {'loss': 2.216, 'grad_norm': 1.7267078161239624, 'learning_rate': 3.763768641131524e-06, 'epoch': 0.35} {'loss': 1.9567, 'grad_norm': 1.344507098197937, 'learning_rate': 3.763393810661415e-06, 'epoch': 0.35} {'loss': 2.2571, 'grad_norm': 1.4446678161621094, 'learning_rate': 3.7630189420459538e-06, 'epoch': 0.35} {'loss': 2.1988, 'grad_norm': 1.5421905517578125, 'learning_rate': 3.762644035296458e-06, 'epoch': 0.35} {'loss': 2.3004, 'grad_norm': 1.5585570335388184, 'learning_rate': 3.7622690904242477e-06, 'epoch': 0.35} {'loss': 2.5218, 'grad_norm': 1.6440478563308716, 'learning_rate': 3.7618941074406416e-06, 'epoch': 0.35} {'loss': 2.2458, 'grad_norm': 1.5944221019744873, 'learning_rate': 3.761519086356964e-06, 'epoch': 0.35} {'loss': 2.3227, 'grad_norm': 1.5017720460891724, 'learning_rate': 3.7611440271845355e-06, 'epoch': 0.35} {'loss': 2.3836, 'grad_norm': 1.4933990240097046, 'learning_rate': 3.760768929934682e-06, 'epoch': 0.35} {'loss': 2.3265, 'grad_norm': 1.4331042766571045, 'learning_rate': 3.760393794618728e-06, 'epoch': 0.35} {'loss': 2.1754, 'grad_norm': 1.2496833801269531, 'learning_rate': 3.760018621248e-06, 'epoch': 0.35} {'loss': 2.095, 'grad_norm': 1.764426589012146, 'learning_rate': 3.7596434098338254e-06, 'epoch': 0.35} {'loss': 2.1821, 'grad_norm': 1.4962037801742554, 'learning_rate': 3.7592681603875327e-06, 'epoch': 0.35} {'loss': 2.236, 'grad_norm': 1.3773409128189087, 'learning_rate': 3.7588928729204518e-06, 'epoch': 0.35} {'loss': 2.1853, 'grad_norm': 1.6125526428222656, 'learning_rate': 3.7585175474439138e-06, 'epoch': 0.35} {'loss': 2.4158, 'grad_norm': 1.4170609712600708, 'learning_rate': 3.758142183969251e-06, 'epoch': 0.35} {'loss': 2.0136, 'grad_norm': 2.5453779697418213, 'learning_rate': 3.757766782507797e-06, 'epoch': 0.35} {'loss': 2.3899, 'grad_norm': 2.0930137634277344, 'learning_rate': 3.7573913430708842e-06, 'epoch': 0.35} {'loss': 2.1273, 'grad_norm': 1.356724500656128, 'learning_rate': 3.7570158656698502e-06, 'epoch': 0.35} {'loss': 2.2915, 'grad_norm': 1.380228042602539, 'learning_rate': 3.7566403503160307e-06, 'epoch': 0.35} {'loss': 2.3706, 'grad_norm': 1.5100390911102295, 'learning_rate': 3.7562647970207655e-06, 'epoch': 0.35} {'loss': 2.2149, 'grad_norm': 1.3702104091644287, 'learning_rate': 3.755889205795391e-06, 'epoch': 0.35} {'loss': 2.3817, 'grad_norm': 1.5654704570770264, 'learning_rate': 3.7555135766512485e-06, 'epoch': 0.35} {'loss': 2.2301, 'grad_norm': 1.3199925422668457, 'learning_rate': 3.7551379095996786e-06, 'epoch': 0.35} {'loss': 2.33, 'grad_norm': 1.3605579137802124, 'learning_rate': 3.754762204652025e-06, 'epoch': 0.35} {'loss': 2.3052, 'grad_norm': 1.3631550073623657, 'learning_rate': 3.754386461819631e-06, 'epoch': 0.35} {'loss': 2.3813, 'grad_norm': 2.251589059829712, 'learning_rate': 3.75401068111384e-06, 'epoch': 0.35} {'loss': 2.1525, 'grad_norm': 1.4251147508621216, 'learning_rate': 3.753634862545999e-06, 'epoch': 0.35} {'loss': 2.2129, 'grad_norm': 1.395853042602539, 'learning_rate': 3.753259006127454e-06, 'epoch': 0.35} {'loss': 2.2612, 'grad_norm': 1.4284335374832153, 'learning_rate': 3.752883111869555e-06, 'epoch': 0.35} {'loss': 2.3187, 'grad_norm': 1.450382947921753, 'learning_rate': 3.75250717978365e-06, 'epoch': 0.35} {'loss': 2.4455, 'grad_norm': 1.8490978479385376, 'learning_rate': 3.7521312098810892e-06, 'epoch': 0.35} {'loss': 2.376, 'grad_norm': 1.4225797653198242, 'learning_rate': 3.751755202173225e-06, 'epoch': 0.35} {'loss': 2.2732, 'grad_norm': 1.6729384660720825, 'learning_rate': 3.7513791566714095e-06, 'epoch': 0.35} {'loss': 2.1542, 'grad_norm': 1.4528577327728271, 'learning_rate': 3.751003073386997e-06, 'epoch': 0.35} {'loss': 2.153, 'grad_norm': 1.513875961303711, 'learning_rate': 3.7506269523313416e-06, 'epoch': 0.35} {'loss': 1.7784, 'grad_norm': 1.139407753944397, 'learning_rate': 3.7502507935158007e-06, 'epoch': 0.35} {'loss': 2.2604, 'grad_norm': 1.2833248376846313, 'learning_rate': 3.74987459695173e-06, 'epoch': 0.35} {'loss': 2.4118, 'grad_norm': 1.3791223764419556, 'learning_rate': 3.7494983626504904e-06, 'epoch': 0.35} {'loss': 2.1886, 'grad_norm': 1.3431297540664673, 'learning_rate': 3.749122090623439e-06, 'epoch': 0.35} {'loss': 2.0641, 'grad_norm': 1.2889246940612793, 'learning_rate': 3.7487457808819373e-06, 'epoch': 0.35} {'loss': 2.1035, 'grad_norm': 1.401997685432434, 'learning_rate': 3.7483694334373468e-06, 'epoch': 0.35} {'loss': 2.0514, 'grad_norm': 1.291137933731079, 'learning_rate': 3.747993048301032e-06, 'epoch': 0.35} {'loss': 2.3886, 'grad_norm': 1.6282728910446167, 'learning_rate': 3.7476166254843554e-06, 'epoch': 0.35} {'loss': 2.3306, 'grad_norm': 1.4343492984771729, 'learning_rate': 3.7472401649986827e-06, 'epoch': 0.35} {'loss': 2.5083, 'grad_norm': 1.341374158859253, 'learning_rate': 3.7468636668553802e-06, 'epoch': 0.35} {'loss': 2.5983, 'grad_norm': 1.6882625818252563, 'learning_rate': 3.7464871310658158e-06, 'epoch': 0.35} {'loss': 2.379, 'grad_norm': 1.4449682235717773, 'learning_rate': 3.746110557641358e-06, 'epoch': 0.35} {'loss': 2.3636, 'grad_norm': 1.6613953113555908, 'learning_rate': 3.7457339465933763e-06, 'epoch': 0.35} {'loss': 2.4766, 'grad_norm': 1.4868648052215576, 'learning_rate': 3.745357297933242e-06, 'epoch': 0.35} {'loss': 2.0181, 'grad_norm': 1.143654227256775, 'learning_rate': 3.744980611672327e-06, 'epoch': 0.35} {'loss': 2.4058, 'grad_norm': 1.4482556581497192, 'learning_rate': 3.7446038878220047e-06, 'epoch': 0.35} {'loss': 2.3481, 'grad_norm': 1.4268049001693726, 'learning_rate': 3.7442271263936484e-06, 'epoch': 0.35} {'loss': 2.1853, 'grad_norm': 1.5326968431472778, 'learning_rate': 3.7438503273986355e-06, 'epoch': 0.35} {'loss': 2.0731, 'grad_norm': 1.333457350730896, 'learning_rate': 3.7434734908483403e-06, 'epoch': 0.35} {'loss': 2.3451, 'grad_norm': 1.5015615224838257, 'learning_rate': 3.743096616754143e-06, 'epoch': 0.35} {'loss': 2.5605, 'grad_norm': 1.4556254148483276, 'learning_rate': 3.7427197051274204e-06, 'epoch': 0.35} {'loss': 2.3066, 'grad_norm': 1.5108942985534668, 'learning_rate': 3.7423427559795537e-06, 'epoch': 0.35} {'loss': 2.2745, 'grad_norm': 1.4643949270248413, 'learning_rate': 3.7419657693219235e-06, 'epoch': 0.35} {'loss': 2.362, 'grad_norm': 1.5058305263519287, 'learning_rate': 3.7415887451659126e-06, 'epoch': 0.35} {'loss': 2.1113, 'grad_norm': 1.2907005548477173, 'learning_rate': 3.741211683522904e-06, 'epoch': 0.36} {'loss': 2.1385, 'grad_norm': 1.5062997341156006, 'learning_rate': 3.7408345844042824e-06, 'epoch': 0.36} {'loss': 2.6555, 'grad_norm': 1.4324803352355957, 'learning_rate': 3.740457447821433e-06, 'epoch': 0.36} {'loss': 2.4194, 'grad_norm': 1.3735454082489014, 'learning_rate': 3.7400802737857424e-06, 'epoch': 0.36} {'loss': 2.1549, 'grad_norm': 1.47373366355896, 'learning_rate': 3.7397030623086e-06, 'epoch': 0.36} {'loss': 2.1372, 'grad_norm': 1.4648815393447876, 'learning_rate': 3.739325813401393e-06, 'epoch': 0.36} {'loss': 2.3248, 'grad_norm': 1.5120002031326294, 'learning_rate': 3.7389485270755133e-06, 'epoch': 0.36} {'loss': 2.3449, 'grad_norm': 1.6829265356063843, 'learning_rate': 3.738571203342351e-06, 'epoch': 0.36} {'loss': 2.2695, 'grad_norm': 1.573442816734314, 'learning_rate': 3.738193842213299e-06, 'epoch': 0.36} {'loss': 2.2618, 'grad_norm': 2.455378770828247, 'learning_rate': 3.737816443699751e-06, 'epoch': 0.36} {'loss': 2.3026, 'grad_norm': 1.3237136602401733, 'learning_rate': 3.737439007813102e-06, 'epoch': 0.36} {'loss': 2.4051, 'grad_norm': 1.3945207595825195, 'learning_rate': 3.7370615345647467e-06, 'epoch': 0.36} {'loss': 2.4594, 'grad_norm': 2.220625877380371, 'learning_rate': 3.736684023966083e-06, 'epoch': 0.36} {'loss': 2.3087, 'grad_norm': 1.6476198434829712, 'learning_rate': 3.7363064760285085e-06, 'epoch': 0.36} {'loss': 2.2069, 'grad_norm': 1.3521995544433594, 'learning_rate': 3.735928890763423e-06, 'epoch': 0.36} {'loss': 2.1454, 'grad_norm': 1.3622008562088013, 'learning_rate': 3.7355512681822257e-06, 'epoch': 0.36} {'loss': 2.3974, 'grad_norm': 1.295922040939331, 'learning_rate': 3.73517360829632e-06, 'epoch': 0.36} {'loss': 1.8825, 'grad_norm': 1.055612564086914, 'learning_rate': 3.734795911117106e-06, 'epoch': 0.36} {'loss': 2.3619, 'grad_norm': 1.5313750505447388, 'learning_rate': 3.7344181766559907e-06, 'epoch': 0.36} {'loss': 1.9803, 'grad_norm': 1.401395320892334, 'learning_rate': 3.734040404924375e-06, 'epoch': 0.36} {'loss': 2.2507, 'grad_norm': 1.5373891592025757, 'learning_rate': 3.733662595933668e-06, 'epoch': 0.36} {'loss': 2.2296, 'grad_norm': 1.458549976348877, 'learning_rate': 3.733284749695275e-06, 'epoch': 0.36} {'loss': 1.9069, 'grad_norm': 1.132603645324707, 'learning_rate': 3.7329068662206063e-06, 'epoch': 0.36} {'loss': 1.7875, 'grad_norm': 1.3780393600463867, 'learning_rate': 3.732528945521069e-06, 'epoch': 0.36} {'loss': 2.0561, 'grad_norm': 1.1471532583236694, 'learning_rate': 3.732150987608074e-06, 'epoch': 0.36} {'loss': 2.212, 'grad_norm': 1.4746462106704712, 'learning_rate': 3.7317729924930336e-06, 'epoch': 0.36} {'loss': 2.3664, 'grad_norm': 1.4513486623764038, 'learning_rate': 3.731394960187361e-06, 'epoch': 0.36} {'loss': 1.8198, 'grad_norm': 1.4443669319152832, 'learning_rate': 3.731016890702469e-06, 'epoch': 0.36} {'loss': 1.9347, 'grad_norm': 1.33649480342865, 'learning_rate': 3.7306387840497725e-06, 'epoch': 0.36} {'loss': 2.1931, 'grad_norm': 1.5294508934020996, 'learning_rate': 3.7302606402406883e-06, 'epoch': 0.36} {'loss': 2.319, 'grad_norm': 1.4922329187393188, 'learning_rate': 3.729882459286632e-06, 'epoch': 0.36} {'loss': 2.2049, 'grad_norm': 1.42587149143219, 'learning_rate': 3.7295042411990244e-06, 'epoch': 0.36} {'loss': 2.2009, 'grad_norm': 1.2980842590332031, 'learning_rate': 3.729125985989284e-06, 'epoch': 0.36} {'loss': 2.3917, 'grad_norm': 1.4580068588256836, 'learning_rate': 3.7287476936688304e-06, 'epoch': 0.36} {'loss': 2.3794, 'grad_norm': 1.6395008563995361, 'learning_rate': 3.7283693642490857e-06, 'epoch': 0.36} {'loss': 2.0676, 'grad_norm': 1.542049527168274, 'learning_rate': 3.727990997741475e-06, 'epoch': 0.36} {'loss': 2.3181, 'grad_norm': 1.4703807830810547, 'learning_rate': 3.7276125941574175e-06, 'epoch': 0.36} {'loss': 1.9606, 'grad_norm': 1.1955410242080688, 'learning_rate': 3.7272341535083424e-06, 'epoch': 0.36} {'loss': 2.2369, 'grad_norm': 1.4196454286575317, 'learning_rate': 3.7268556758056745e-06, 'epoch': 0.36} {'loss': 2.3356, 'grad_norm': 2.3844175338745117, 'learning_rate': 3.726477161060841e-06, 'epoch': 0.36} {'loss': 2.2285, 'grad_norm': 1.536426305770874, 'learning_rate': 3.7260986092852702e-06, 'epoch': 0.36} {'loss': 2.1687, 'grad_norm': 1.4843966960906982, 'learning_rate': 3.7257200204903922e-06, 'epoch': 0.36} {'loss': 2.2515, 'grad_norm': 1.3564784526824951, 'learning_rate': 3.725341394687636e-06, 'epoch': 0.36} {'loss': 2.1149, 'grad_norm': 1.223218560218811, 'learning_rate': 3.724962731888435e-06, 'epoch': 0.36} {'loss': 2.3158, 'grad_norm': 1.4613856077194214, 'learning_rate': 3.7245840321042227e-06, 'epoch': 0.36} {'loss': 2.2171, 'grad_norm': 1.3984965085983276, 'learning_rate': 3.7242052953464315e-06, 'epoch': 0.36} {'loss': 2.623, 'grad_norm': 1.6760406494140625, 'learning_rate': 3.7238265216264967e-06, 'epoch': 0.36} {'loss': 2.2819, 'grad_norm': 1.4236608743667603, 'learning_rate': 3.7234477109558554e-06, 'epoch': 0.36} {'loss': 2.2927, 'grad_norm': 1.493051290512085, 'learning_rate': 3.7230688633459433e-06, 'epoch': 0.36} {'loss': 1.9657, 'grad_norm': 2.045302629470825, 'learning_rate': 3.722689978808202e-06, 'epoch': 0.36} {'loss': 2.2727, 'grad_norm': 1.2258179187774658, 'learning_rate': 3.722311057354067e-06, 'epoch': 0.36} {'loss': 2.1241, 'grad_norm': 1.5414364337921143, 'learning_rate': 3.721932098994982e-06, 'epoch': 0.36} {'loss': 2.3775, 'grad_norm': 1.3087472915649414, 'learning_rate': 3.721553103742388e-06, 'epoch': 0.36} {'loss': 2.303, 'grad_norm': 1.2137852907180786, 'learning_rate': 3.721174071607727e-06, 'epoch': 0.36} {'loss': 2.0448, 'grad_norm': 1.7760053873062134, 'learning_rate': 3.720795002602444e-06, 'epoch': 0.36} {'loss': 2.3091, 'grad_norm': 1.3637800216674805, 'learning_rate': 3.7204158967379843e-06, 'epoch': 0.36} {'loss': 2.1514, 'grad_norm': 1.4893972873687744, 'learning_rate': 3.7200367540257944e-06, 'epoch': 0.36} {'loss': 2.5454, 'grad_norm': 1.5987217426300049, 'learning_rate': 3.7196575744773206e-06, 'epoch': 0.36} {'loss': 2.545, 'grad_norm': 1.4753153324127197, 'learning_rate': 3.7192783581040107e-06, 'epoch': 0.36} {'loss': 2.2521, 'grad_norm': 4.044870376586914, 'learning_rate': 3.7188991049173166e-06, 'epoch': 0.36} {'loss': 2.2686, 'grad_norm': 1.3998456001281738, 'learning_rate': 3.718519814928687e-06, 'epoch': 0.36} {'loss': 2.1889, 'grad_norm': 1.1236392259597778, 'learning_rate': 3.7181404881495754e-06, 'epoch': 0.36} {'loss': 2.0636, 'grad_norm': 1.8922197818756104, 'learning_rate': 3.717761124591434e-06, 'epoch': 0.36} {'loss': 2.2419, 'grad_norm': 2.179311752319336, 'learning_rate': 3.7173817242657163e-06, 'epoch': 0.36} {'loss': 1.9922, 'grad_norm': 1.638905644416809, 'learning_rate': 3.7170022871838774e-06, 'epoch': 0.36} {'loss': 2.2132, 'grad_norm': 1.7547186613082886, 'learning_rate': 3.716622813357374e-06, 'epoch': 0.36} {'loss': 2.0259, 'grad_norm': 1.6068952083587646, 'learning_rate': 3.716243302797664e-06, 'epoch': 0.36} {'loss': 2.2773, 'grad_norm': 1.4059895277023315, 'learning_rate': 3.715863755516206e-06, 'epoch': 0.36} {'loss': 2.1565, 'grad_norm': 1.4693502187728882, 'learning_rate': 3.715484171524458e-06, 'epoch': 0.36} {'loss': 2.3183, 'grad_norm': 1.6236411333084106, 'learning_rate': 3.715104550833881e-06, 'epoch': 0.36} {'loss': 2.1789, 'grad_norm': 1.5535759925842285, 'learning_rate': 3.714724893455938e-06, 'epoch': 0.36} {'loss': 2.3719, 'grad_norm': 1.7081072330474854, 'learning_rate': 3.714345199402092e-06, 'epoch': 0.36} {'loss': 2.1556, 'grad_norm': 1.389893651008606, 'learning_rate': 3.713965468683805e-06, 'epoch': 0.36} {'loss': 2.234, 'grad_norm': 1.53445303440094, 'learning_rate': 3.713585701312544e-06, 'epoch': 0.36} {'loss': 1.8402, 'grad_norm': 1.0967592000961304, 'learning_rate': 3.7132058972997755e-06, 'epoch': 0.36} {'loss': 2.3217, 'grad_norm': 1.2785816192626953, 'learning_rate': 3.712826056656965e-06, 'epoch': 0.36} {'loss': 2.1174, 'grad_norm': 1.1523802280426025, 'learning_rate': 3.7124461793955823e-06, 'epoch': 0.36} {'loss': 2.1636, 'grad_norm': 1.1022987365722656, 'learning_rate': 3.7120662655270962e-06, 'epoch': 0.36} {'loss': 2.2559, 'grad_norm': 1.4156585931777954, 'learning_rate': 3.7116863150629777e-06, 'epoch': 0.36} {'loss': 2.3959, 'grad_norm': 1.524519443511963, 'learning_rate': 3.7113063280147e-06, 'epoch': 0.36} {'loss': 2.03, 'grad_norm': 1.2044224739074707, 'learning_rate': 3.710926304393733e-06, 'epoch': 0.36} {'loss': 2.2924, 'grad_norm': 1.5784095525741577, 'learning_rate': 3.7105462442115523e-06, 'epoch': 0.36} {'loss': 2.0855, 'grad_norm': 19.89160919189453, 'learning_rate': 3.7101661474796334e-06, 'epoch': 0.36} {'loss': 2.3909, 'grad_norm': 1.4523333311080933, 'learning_rate': 3.709786014209452e-06, 'epoch': 0.36} {'loss': 2.2069, 'grad_norm': 1.5998201370239258, 'learning_rate': 3.709405844412486e-06, 'epoch': 0.36} {'loss': 2.0329, 'grad_norm': 1.2623927593231201, 'learning_rate': 3.709025638100212e-06, 'epoch': 0.36} {'loss': 2.4661, 'grad_norm': 1.6840022802352905, 'learning_rate': 3.7086453952841105e-06, 'epoch': 0.36} {'loss': 2.1712, 'grad_norm': 1.374257206916809, 'learning_rate': 3.708265115975662e-06, 'epoch': 0.36} {'loss': 1.9553, 'grad_norm': 1.0839450359344482, 'learning_rate': 3.70788480018635e-06, 'epoch': 0.36} {'loss': 2.3199, 'grad_norm': 1.4740309715270996, 'learning_rate': 3.7075044479276546e-06, 'epoch': 0.36} {'loss': 2.1191, 'grad_norm': 1.897629737854004, 'learning_rate': 3.70712405921106e-06, 'epoch': 0.36} {'loss': 1.9532, 'grad_norm': 1.3602482080459595, 'learning_rate': 3.7067436340480527e-06, 'epoch': 0.36} {'loss': 1.9426, 'grad_norm': 1.3458384275436401, 'learning_rate': 3.706363172450118e-06, 'epoch': 0.36} {'loss': 2.3541, 'grad_norm': 1.4998124837875366, 'learning_rate': 3.705982674428743e-06, 'epoch': 0.36} {'loss': 2.0907, 'grad_norm': 1.7312755584716797, 'learning_rate': 3.705602139995416e-06, 'epoch': 0.36} {'loss': 2.5547, 'grad_norm': 1.5956013202667236, 'learning_rate': 3.7052215691616265e-06, 'epoch': 0.36} {'loss': 2.4149, 'grad_norm': 1.5591791868209839, 'learning_rate': 3.704840961938865e-06, 'epoch': 0.36} {'loss': 2.3418, 'grad_norm': 1.7081432342529297, 'learning_rate': 3.7044603183386236e-06, 'epoch': 0.36} {'loss': 2.3768, 'grad_norm': 1.433266282081604, 'learning_rate': 3.7040796383723932e-06, 'epoch': 0.36} {'loss': 2.1583, 'grad_norm': 1.3361419439315796, 'learning_rate': 3.7036989220516693e-06, 'epoch': 0.36} {'loss': 2.2247, 'grad_norm': 1.5159611701965332, 'learning_rate': 3.7033181693879465e-06, 'epoch': 0.36} {'loss': 2.4461, 'grad_norm': 3.2116525173187256, 'learning_rate': 3.702937380392721e-06, 'epoch': 0.36} {'loss': 2.1831, 'grad_norm': 1.4045124053955078, 'learning_rate': 3.702556555077489e-06, 'epoch': 0.36} {'loss': 2.358, 'grad_norm': 1.4803547859191895, 'learning_rate': 3.702175693453749e-06, 'epoch': 0.36} {'loss': 2.2797, 'grad_norm': 1.4186421632766724, 'learning_rate': 3.701794795533e-06, 'epoch': 0.36} {'loss': 2.3163, 'grad_norm': 1.045519471168518, 'learning_rate': 3.7014138613267426e-06, 'epoch': 0.36} {'loss': 2.3711, 'grad_norm': 1.3641313314437866, 'learning_rate': 3.7010328908464797e-06, 'epoch': 0.36} {'loss': 2.4711, 'grad_norm': 1.5399200916290283, 'learning_rate': 3.7006518841037115e-06, 'epoch': 0.36} {'loss': 2.1998, 'grad_norm': 1.8634132146835327, 'learning_rate': 3.700270841109943e-06, 'epoch': 0.36} {'loss': 2.3976, 'grad_norm': 1.5799874067306519, 'learning_rate': 3.699889761876678e-06, 'epoch': 0.36} {'loss': 2.1319, 'grad_norm': 1.3075252771377563, 'learning_rate': 3.699508646415424e-06, 'epoch': 0.36} {'loss': 2.3668, 'grad_norm': 1.3944813013076782, 'learning_rate': 3.699127494737686e-06, 'epoch': 0.36} {'loss': 2.377, 'grad_norm': 1.500064492225647, 'learning_rate': 3.6987463068549733e-06, 'epoch': 0.36} {'loss': 2.2957, 'grad_norm': 1.4405593872070312, 'learning_rate': 3.698365082778794e-06, 'epoch': 0.36} {'loss': 2.2549, 'grad_norm': 1.5679404735565186, 'learning_rate': 3.69798382252066e-06, 'epoch': 0.36} {'loss': 2.343, 'grad_norm': 1.450005054473877, 'learning_rate': 3.697602526092081e-06, 'epoch': 0.36} {'loss': 1.8235, 'grad_norm': 1.1235257387161255, 'learning_rate': 3.69722119350457e-06, 'epoch': 0.36} {'loss': 2.095, 'grad_norm': 1.513170599937439, 'learning_rate': 3.6968398247696403e-06, 'epoch': 0.36} {'loss': 2.6005, 'grad_norm': 1.6262638568878174, 'learning_rate': 3.6964584198988063e-06, 'epoch': 0.36} {'loss': 2.5138, 'grad_norm': 1.578515887260437, 'learning_rate': 3.696076978903585e-06, 'epoch': 0.36} {'loss': 2.2324, 'grad_norm': 1.1626454591751099, 'learning_rate': 3.695695501795491e-06, 'epoch': 0.36} {'loss': 2.0941, 'grad_norm': 1.5618401765823364, 'learning_rate': 3.6953139885860434e-06, 'epoch': 0.36} {'loss': 1.9593, 'grad_norm': 1.2795178890228271, 'learning_rate': 3.6949324392867613e-06, 'epoch': 0.36} {'loss': 2.3797, 'grad_norm': 1.4061262607574463, 'learning_rate': 3.6945508539091646e-06, 'epoch': 0.36} {'loss': 2.0739, 'grad_norm': 1.3596842288970947, 'learning_rate': 3.6941692324647745e-06, 'epoch': 0.36} {'loss': 1.7993, 'grad_norm': 1.2067079544067383, 'learning_rate': 3.6937875749651124e-06, 'epoch': 0.36} {'loss': 2.4491, 'grad_norm': 1.7225133180618286, 'learning_rate': 3.693405881421702e-06, 'epoch': 0.36} {'loss': 2.4386, 'grad_norm': 1.5937293767929077, 'learning_rate': 3.693024151846068e-06, 'epoch': 0.36} {'loss': 2.42, 'grad_norm': 2.0825037956237793, 'learning_rate': 3.692642386249736e-06, 'epoch': 0.36} {'loss': 2.3639, 'grad_norm': 1.6783479452133179, 'learning_rate': 3.692260584644232e-06, 'epoch': 0.36} {'loss': 2.6342, 'grad_norm': 1.468515396118164, 'learning_rate': 3.6918787470410843e-06, 'epoch': 0.36} {'loss': 2.4742, 'grad_norm': 1.5987814664840698, 'learning_rate': 3.6914968734518206e-06, 'epoch': 0.36} {'loss': 2.0713, 'grad_norm': 1.378782868385315, 'learning_rate': 3.6911149638879716e-06, 'epoch': 0.36} {'loss': 2.2949, 'grad_norm': 1.4599446058273315, 'learning_rate': 3.6907330183610683e-06, 'epoch': 0.36} {'loss': 2.3088, 'grad_norm': 1.3555574417114258, 'learning_rate': 3.6903510368826423e-06, 'epoch': 0.36} {'loss': 1.531, 'grad_norm': 1.4014731645584106, 'learning_rate': 3.6899690194642268e-06, 'epoch': 0.36} {'loss': 2.4664, 'grad_norm': 1.4295086860656738, 'learning_rate': 3.6895869661173557e-06, 'epoch': 0.36} {'loss': 1.5732, 'grad_norm': 1.475127100944519, 'learning_rate': 3.6892048768535645e-06, 'epoch': 0.36} {'loss': 2.7214, 'grad_norm': 2.00888729095459, 'learning_rate': 3.688822751684389e-06, 'epoch': 0.36} {'loss': 2.2632, 'grad_norm': 1.4122873544692993, 'learning_rate': 3.688440590621368e-06, 'epoch': 0.36} {'loss': 2.3246, 'grad_norm': 1.7156052589416504, 'learning_rate': 3.6880583936760382e-06, 'epoch': 0.36} {'loss': 2.0624, 'grad_norm': 1.0643112659454346, 'learning_rate': 3.687676160859941e-06, 'epoch': 0.36} {'loss': 2.2606, 'grad_norm': 3.131361722946167, 'learning_rate': 3.6872938921846156e-06, 'epoch': 0.36} {'loss': 2.0999, 'grad_norm': 1.4648895263671875, 'learning_rate': 3.686911587661604e-06, 'epoch': 0.36} {'loss': 2.3604, 'grad_norm': 1.6864657402038574, 'learning_rate': 3.6865292473024493e-06, 'epoch': 0.36} {'loss': 2.2524, 'grad_norm': 1.2881242036819458, 'learning_rate': 3.686146871118696e-06, 'epoch': 0.36} {'loss': 2.5401, 'grad_norm': 1.6156197786331177, 'learning_rate': 3.6857644591218887e-06, 'epoch': 0.36} {'loss': 2.363, 'grad_norm': 1.3883087635040283, 'learning_rate': 3.6853820113235733e-06, 'epoch': 0.36} {'loss': 2.1832, 'grad_norm': 1.3813550472259521, 'learning_rate': 3.684999527735297e-06, 'epoch': 0.36} {'loss': 1.6917, 'grad_norm': 1.2527031898498535, 'learning_rate': 3.684617008368607e-06, 'epoch': 0.36} {'loss': 2.3387, 'grad_norm': 1.2466684579849243, 'learning_rate': 3.6842344532350544e-06, 'epoch': 0.36} {'loss': 2.2903, 'grad_norm': 1.424993634223938, 'learning_rate': 3.6838518623461884e-06, 'epoch': 0.36} {'loss': 2.0703, 'grad_norm': 1.4554150104522705, 'learning_rate': 3.6834692357135616e-06, 'epoch': 0.36} {'loss': 2.2747, 'grad_norm': 1.4774442911148071, 'learning_rate': 3.6830865733487254e-06, 'epoch': 0.36} {'loss': 2.2133, 'grad_norm': 1.557076334953308, 'learning_rate': 3.682703875263234e-06, 'epoch': 0.36} {'loss': 2.2983, 'grad_norm': 1.3116300106048584, 'learning_rate': 3.682321141468641e-06, 'epoch': 0.36} {'loss': 2.3215, 'grad_norm': 1.4958542585372925, 'learning_rate': 3.6819383719765047e-06, 'epoch': 0.36} {'loss': 2.3078, 'grad_norm': 1.3648865222930908, 'learning_rate': 3.6815555667983794e-06, 'epoch': 0.36} {'loss': 1.9665, 'grad_norm': 1.227803349494934, 'learning_rate': 3.6811727259458246e-06, 'epoch': 0.36} {'loss': 2.402, 'grad_norm': 1.435510277748108, 'learning_rate': 3.680789849430399e-06, 'epoch': 0.36} {'loss': 2.0934, 'grad_norm': 1.4004079103469849, 'learning_rate': 3.680406937263662e-06, 'epoch': 0.36} {'loss': 2.1421, 'grad_norm': 1.4324290752410889, 'learning_rate': 3.6800239894571755e-06, 'epoch': 0.36} {'loss': 2.1863, 'grad_norm': 1.6849584579467773, 'learning_rate': 3.679641006022502e-06, 'epoch': 0.36} {'loss': 2.246, 'grad_norm': 1.4318037033081055, 'learning_rate': 3.679257986971204e-06, 'epoch': 0.36} {'loss': 2.1641, 'grad_norm': 1.4949102401733398, 'learning_rate': 3.6788749323148466e-06, 'epoch': 0.36} {'loss': 1.9773, 'grad_norm': 1.395939826965332, 'learning_rate': 3.6784918420649952e-06, 'epoch': 0.36} {'loss': 1.9691, 'grad_norm': 1.4222697019577026, 'learning_rate': 3.6781087162332147e-06, 'epoch': 0.36} {'loss': 2.3065, 'grad_norm': 1.402303695678711, 'learning_rate': 3.6777255548310754e-06, 'epoch': 0.36} {'loss': 2.3253, 'grad_norm': 1.2365678548812866, 'learning_rate': 3.6773423578701444e-06, 'epoch': 0.36} {'loss': 2.5181, 'grad_norm': 1.4924107789993286, 'learning_rate': 3.6769591253619918e-06, 'epoch': 0.36} {'loss': 2.1145, 'grad_norm': 1.6608140468597412, 'learning_rate': 3.676575857318189e-06, 'epoch': 0.36} {'loss': 2.2098, 'grad_norm': 1.5805091857910156, 'learning_rate': 3.676192553750307e-06, 'epoch': 0.36} {'loss': 2.5328, 'grad_norm': 1.438055157661438, 'learning_rate': 3.6758092146699186e-06, 'epoch': 0.36} {'loss': 2.3172, 'grad_norm': 1.2695201635360718, 'learning_rate': 3.6754258400885994e-06, 'epoch': 0.36} {'loss': 2.4003, 'grad_norm': 2.7563259601593018, 'learning_rate': 3.675042430017923e-06, 'epoch': 0.36} {'loss': 2.5272, 'grad_norm': 1.5600240230560303, 'learning_rate': 3.6746589844694668e-06, 'epoch': 0.36} {'loss': 2.312, 'grad_norm': 1.5785208940505981, 'learning_rate': 3.674275503454807e-06, 'epoch': 0.36} {'loss': 2.4105, 'grad_norm': 1.3453141450881958, 'learning_rate': 3.673891986985523e-06, 'epoch': 0.36} {'loss': 2.2795, 'grad_norm': 1.3453423976898193, 'learning_rate': 3.6735084350731932e-06, 'epoch': 0.36} {'loss': 2.4838, 'grad_norm': 1.6896252632141113, 'learning_rate': 3.6731248477293983e-06, 'epoch': 0.36} {'loss': 2.448, 'grad_norm': 1.3720932006835938, 'learning_rate': 3.6727412249657205e-06, 'epoch': 0.36} {'loss': 2.1832, 'grad_norm': 1.177620768547058, 'learning_rate': 3.672357566793743e-06, 'epoch': 0.36} {'loss': 2.3127, 'grad_norm': 1.4273402690887451, 'learning_rate': 3.6719738732250466e-06, 'epoch': 0.36} {'loss': 1.9608, 'grad_norm': 1.8332197666168213, 'learning_rate': 3.6715901442712195e-06, 'epoch': 0.36} {'loss': 2.1193, 'grad_norm': 1.588000774383545, 'learning_rate': 3.671206379943845e-06, 'epoch': 0.36} {'loss': 2.1209, 'grad_norm': 1.4746553897857666, 'learning_rate': 3.670822580254512e-06, 'epoch': 0.36} {'loss': 2.1923, 'grad_norm': 1.5035122632980347, 'learning_rate': 3.670438745214808e-06, 'epoch': 0.37} {'loss': 2.3129, 'grad_norm': 3.075547695159912, 'learning_rate': 3.6700548748363207e-06, 'epoch': 0.37} {'loss': 2.272, 'grad_norm': 1.5556223392486572, 'learning_rate': 3.6696709691306403e-06, 'epoch': 0.37} {'loss': 2.3109, 'grad_norm': 1.6063143014907837, 'learning_rate': 3.6692870281093597e-06, 'epoch': 0.37} {'loss': 2.225, 'grad_norm': 1.35938560962677, 'learning_rate': 3.6689030517840708e-06, 'epoch': 0.37} {'loss': 2.2546, 'grad_norm': 1.3573801517486572, 'learning_rate': 3.6685190401663655e-06, 'epoch': 0.37} {'loss': 2.2875, 'grad_norm': 1.3583049774169922, 'learning_rate': 3.6681349932678393e-06, 'epoch': 0.37} {'loss': 2.3707, 'grad_norm': 1.5916417837142944, 'learning_rate': 3.6677509111000877e-06, 'epoch': 0.37} {'loss': 2.2314, 'grad_norm': 1.6052608489990234, 'learning_rate': 3.6673667936747057e-06, 'epoch': 0.37} {'loss': 2.1898, 'grad_norm': 1.4410148859024048, 'learning_rate': 3.666982641003293e-06, 'epoch': 0.37} {'loss': 2.2166, 'grad_norm': 1.4078929424285889, 'learning_rate': 3.6665984530974473e-06, 'epoch': 0.37} {'loss': 2.2877, 'grad_norm': 1.4683173894882202, 'learning_rate': 3.6662142299687677e-06, 'epoch': 0.37} {'loss': 2.0726, 'grad_norm': 2.2232651710510254, 'learning_rate': 3.665829971628856e-06, 'epoch': 0.37} {'loss': 2.2809, 'grad_norm': 1.5164231061935425, 'learning_rate': 3.665445678089313e-06, 'epoch': 0.37} {'loss': 2.0188, 'grad_norm': 1.5016347169876099, 'learning_rate': 3.665061349361742e-06, 'epoch': 0.37} {'loss': 2.3083, 'grad_norm': 1.5709737539291382, 'learning_rate': 3.6646769854577473e-06, 'epoch': 0.37} {'loss': 2.2406, 'grad_norm': 1.384810209274292, 'learning_rate': 3.664292586388933e-06, 'epoch': 0.37} {'loss': 2.3789, 'grad_norm': 1.4167635440826416, 'learning_rate': 3.663908152166907e-06, 'epoch': 0.37} {'loss': 2.1885, 'grad_norm': 1.4145112037658691, 'learning_rate': 3.6635236828032755e-06, 'epoch': 0.37} {'loss': 2.342, 'grad_norm': 1.5206773281097412, 'learning_rate': 3.663139178309645e-06, 'epoch': 0.37} {'loss': 1.9656, 'grad_norm': 1.1240845918655396, 'learning_rate': 3.6627546386976272e-06, 'epoch': 0.37} {'loss': 2.0789, 'grad_norm': 1.505140781402588, 'learning_rate': 3.662370063978831e-06, 'epoch': 0.37} {'loss': 2.4072, 'grad_norm': 1.6888195276260376, 'learning_rate': 3.6619854541648684e-06, 'epoch': 0.37} {'loss': 2.2954, 'grad_norm': 1.3788481950759888, 'learning_rate': 3.6616008092673516e-06, 'epoch': 0.37} {'loss': 2.1292, 'grad_norm': 1.3583757877349854, 'learning_rate': 3.6612161292978944e-06, 'epoch': 0.37} {'loss': 2.0617, 'grad_norm': 1.6252539157867432, 'learning_rate': 3.66083141426811e-06, 'epoch': 0.37} {'loss': 2.2816, 'grad_norm': 1.5195623636245728, 'learning_rate': 3.6604466641896164e-06, 'epoch': 0.37} {'loss': 2.3094, 'grad_norm': 1.8866890668869019, 'learning_rate': 3.6600618790740284e-06, 'epoch': 0.37} {'loss': 2.0151, 'grad_norm': 1.5910669565200806, 'learning_rate': 3.659677058932964e-06, 'epoch': 0.37} {'loss': 1.4233, 'grad_norm': 1.3843241930007935, 'learning_rate': 3.6592922037780426e-06, 'epoch': 0.37} {'loss': 2.2121, 'grad_norm': 1.4499326944351196, 'learning_rate': 3.6589073136208836e-06, 'epoch': 0.37} {'loss': 2.2491, 'grad_norm': 1.4325186014175415, 'learning_rate': 3.6585223884731082e-06, 'epoch': 0.37} {'loss': 2.4493, 'grad_norm': 1.553390622138977, 'learning_rate': 3.658137428346338e-06, 'epoch': 0.37} {'loss': 2.4186, 'grad_norm': 1.4223438501358032, 'learning_rate': 3.6577524332521957e-06, 'epoch': 0.37} {'loss': 2.3575, 'grad_norm': 1.4701305627822876, 'learning_rate': 3.657367403202306e-06, 'epoch': 0.37} {'loss': 2.2911, 'grad_norm': 1.6330044269561768, 'learning_rate': 3.6569823382082943e-06, 'epoch': 0.37} {'loss': 2.0298, 'grad_norm': 1.2264593839645386, 'learning_rate': 3.656597238281786e-06, 'epoch': 0.37} {'loss': 2.4068, 'grad_norm': 1.4444235563278198, 'learning_rate': 3.656212103434409e-06, 'epoch': 0.37} {'loss': 2.2973, 'grad_norm': 1.504629135131836, 'learning_rate': 3.6558269336777907e-06, 'epoch': 0.37} {'loss': 2.5995, 'grad_norm': 1.4674381017684937, 'learning_rate': 3.655441729023562e-06, 'epoch': 0.37} {'loss': 2.2996, 'grad_norm': 1.6665573120117188, 'learning_rate': 3.6550564894833517e-06, 'epoch': 0.37} {'loss': 2.4232, 'grad_norm': 1.6044554710388184, 'learning_rate': 3.654671215068791e-06, 'epoch': 0.37} {'loss': 2.2728, 'grad_norm': 1.3795610666275024, 'learning_rate': 3.6542859057915137e-06, 'epoch': 0.37} {'loss': 2.3354, 'grad_norm': 1.3931607007980347, 'learning_rate': 3.6539005616631536e-06, 'epoch': 0.37} {'loss': 2.6807, 'grad_norm': 1.693136215209961, 'learning_rate': 3.6535151826953442e-06, 'epoch': 0.37} {'loss': 2.4145, 'grad_norm': 1.4154067039489746, 'learning_rate': 3.6531297688997216e-06, 'epoch': 0.37} {'loss': 2.2514, 'grad_norm': 1.4483230113983154, 'learning_rate': 3.652744320287922e-06, 'epoch': 0.37} {'loss': 2.3393, 'grad_norm': 1.6498268842697144, 'learning_rate': 3.652358836871584e-06, 'epoch': 0.37} {'loss': 2.4335, 'grad_norm': 1.251517653465271, 'learning_rate': 3.6519733186623462e-06, 'epoch': 0.37} {'loss': 2.1564, 'grad_norm': 1.4911175966262817, 'learning_rate': 3.6515877656718478e-06, 'epoch': 0.37} {'loss': 2.0746, 'grad_norm': 1.343172311782837, 'learning_rate': 3.6512021779117306e-06, 'epoch': 0.37} {'loss': 2.4783, 'grad_norm': 1.2593491077423096, 'learning_rate': 3.650816555393636e-06, 'epoch': 0.37} {'loss': 1.8904, 'grad_norm': 1.2271156311035156, 'learning_rate': 3.650430898129207e-06, 'epoch': 0.37} {'loss': 2.5242, 'grad_norm': 1.3670172691345215, 'learning_rate': 3.6500452061300882e-06, 'epoch': 0.37} {'loss': 2.4337, 'grad_norm': 1.407310128211975, 'learning_rate': 3.6496594794079243e-06, 'epoch': 0.37} {'loss': 2.2194, 'grad_norm': 1.4597244262695312, 'learning_rate': 3.649273717974361e-06, 'epoch': 0.37} {'loss': 2.2459, 'grad_norm': 1.4699345827102661, 'learning_rate': 3.648887921841046e-06, 'epoch': 0.37} {'loss': 2.1371, 'grad_norm': 1.3794256448745728, 'learning_rate': 3.648502091019629e-06, 'epoch': 0.37} {'loss': 2.2867, 'grad_norm': 1.5203105211257935, 'learning_rate': 3.6481162255217564e-06, 'epoch': 0.37} {'loss': 2.4946, 'grad_norm': 1.7307788133621216, 'learning_rate': 3.6477303253590797e-06, 'epoch': 0.37} {'loss': 2.1812, 'grad_norm': 1.2765541076660156, 'learning_rate': 3.647344390543251e-06, 'epoch': 0.37} {'loss': 2.1088, 'grad_norm': 1.4848891496658325, 'learning_rate': 3.6469584210859233e-06, 'epoch': 0.37} {'loss': 2.3615, 'grad_norm': 1.5605049133300781, 'learning_rate': 3.6465724169987482e-06, 'epoch': 0.37} {'loss': 2.3591, 'grad_norm': 1.3556714057922363, 'learning_rate': 3.646186378293381e-06, 'epoch': 0.37} {'loss': 2.3558, 'grad_norm': 1.2964011430740356, 'learning_rate': 3.645800304981477e-06, 'epoch': 0.37} {'loss': 2.1562, 'grad_norm': 1.1354954242706299, 'learning_rate': 3.6454141970746943e-06, 'epoch': 0.37} {'loss': 2.089, 'grad_norm': 2.5650525093078613, 'learning_rate': 3.6450280545846896e-06, 'epoch': 0.37} {'loss': 2.3741, 'grad_norm': 1.9419045448303223, 'learning_rate': 3.6446418775231208e-06, 'epoch': 0.37} {'loss': 2.4009, 'grad_norm': 1.4953351020812988, 'learning_rate': 3.644255665901648e-06, 'epoch': 0.37} {'loss': 2.3481, 'grad_norm': 1.3456047773361206, 'learning_rate': 3.6438694197319335e-06, 'epoch': 0.37} {'loss': 2.1215, 'grad_norm': 1.766541838645935, 'learning_rate': 3.6434831390256374e-06, 'epoch': 0.37} {'loss': 2.205, 'grad_norm': 1.5959115028381348, 'learning_rate': 3.6430968237944232e-06, 'epoch': 0.37} {'loss': 2.4712, 'grad_norm': 1.3228532075881958, 'learning_rate': 3.6427104740499546e-06, 'epoch': 0.37} {'loss': 2.5512, 'grad_norm': 1.445631504058838, 'learning_rate': 3.642324089803897e-06, 'epoch': 0.37} {'loss': 2.2152, 'grad_norm': 1.5391074419021606, 'learning_rate': 3.641937671067916e-06, 'epoch': 0.37} {'loss': 2.1563, 'grad_norm': 1.803919792175293, 'learning_rate': 3.6415512178536796e-06, 'epoch': 0.37} {'loss': 2.1143, 'grad_norm': 1.4672173261642456, 'learning_rate': 3.641164730172854e-06, 'epoch': 0.37} {'loss': 2.1819, 'grad_norm': 1.3631654977798462, 'learning_rate': 3.6407782080371103e-06, 'epoch': 0.37} {'loss': 2.4696, 'grad_norm': 1.3743414878845215, 'learning_rate': 3.640391651458117e-06, 'epoch': 0.37} {'loss': 2.4038, 'grad_norm': 1.5828720331192017, 'learning_rate': 3.6400050604475472e-06, 'epoch': 0.37} {'loss': 2.2102, 'grad_norm': 2.0156710147857666, 'learning_rate': 3.6396184350170714e-06, 'epoch': 0.37} {'loss': 2.3173, 'grad_norm': 1.6584254503250122, 'learning_rate': 3.6392317751783635e-06, 'epoch': 0.37} {'loss': 1.9116, 'grad_norm': 1.5411570072174072, 'learning_rate': 3.6388450809430986e-06, 'epoch': 0.37} {'loss': 2.0492, 'grad_norm': 1.405226707458496, 'learning_rate': 3.638458352322951e-06, 'epoch': 0.37} {'loss': 2.5872, 'grad_norm': 1.5013080835342407, 'learning_rate': 3.6380715893295976e-06, 'epoch': 0.37} {'loss': 2.2964, 'grad_norm': 1.377221941947937, 'learning_rate': 3.6376847919747154e-06, 'epoch': 0.37} {'loss': 2.0524, 'grad_norm': 1.8704475164413452, 'learning_rate': 3.637297960269984e-06, 'epoch': 0.37} {'loss': 2.2946, 'grad_norm': 1.4416236877441406, 'learning_rate': 3.6369110942270803e-06, 'epoch': 0.37} {'loss': 2.1448, 'grad_norm': 1.2296833992004395, 'learning_rate': 3.636524193857689e-06, 'epoch': 0.37} {'loss': 1.7696, 'grad_norm': 1.3616312742233276, 'learning_rate': 3.636137259173488e-06, 'epoch': 0.37} {'loss': 2.2658, 'grad_norm': 1.3784282207489014, 'learning_rate': 3.635750290186162e-06, 'epoch': 0.37} {'loss': 2.3323, 'grad_norm': 1.4476991891860962, 'learning_rate': 3.635363286907393e-06, 'epoch': 0.37} {'loss': 2.2243, 'grad_norm': 1.310617446899414, 'learning_rate': 3.634976249348867e-06, 'epoch': 0.37} {'loss': 2.25, 'grad_norm': 1.5402742624282837, 'learning_rate': 3.63458917752227e-06, 'epoch': 0.37} {'loss': 2.0873, 'grad_norm': 1.245415210723877, 'learning_rate': 3.6342020714392877e-06, 'epoch': 0.37} {'loss': 2.2273, 'grad_norm': 1.5287516117095947, 'learning_rate': 3.6338149311116088e-06, 'epoch': 0.37} {'loss': 2.3083, 'grad_norm': 1.4434535503387451, 'learning_rate': 3.6334277565509218e-06, 'epoch': 0.37} {'loss': 2.0422, 'grad_norm': 1.476590871810913, 'learning_rate': 3.6330405477689158e-06, 'epoch': 0.37} {'loss': 2.2208, 'grad_norm': 1.3976579904556274, 'learning_rate': 3.6326533047772827e-06, 'epoch': 0.37} {'loss': 2.2454, 'grad_norm': 1.3993518352508545, 'learning_rate': 3.6322660275877143e-06, 'epoch': 0.37} {'loss': 2.1404, 'grad_norm': 1.279201865196228, 'learning_rate': 3.631878716211903e-06, 'epoch': 0.37} {'loss': 2.2937, 'grad_norm': 1.2452553510665894, 'learning_rate': 3.631491370661544e-06, 'epoch': 0.37} {'loss': 2.2521, 'grad_norm': 1.3386310338974, 'learning_rate': 3.631103990948331e-06, 'epoch': 0.37} {'loss': 2.4997, 'grad_norm': 1.6687031984329224, 'learning_rate': 3.6307165770839597e-06, 'epoch': 0.37} {'loss': 2.4854, 'grad_norm': 1.729781150817871, 'learning_rate': 3.630329129080129e-06, 'epoch': 0.37} {'loss': 2.2308, 'grad_norm': 1.4928096532821655, 'learning_rate': 3.6299416469485366e-06, 'epoch': 0.37} {'loss': 2.5423, 'grad_norm': 1.532011866569519, 'learning_rate': 3.629554130700881e-06, 'epoch': 0.37} {'loss': 2.0088, 'grad_norm': 1.5617808103561401, 'learning_rate': 3.6291665803488618e-06, 'epoch': 0.37} {'loss': 2.2385, 'grad_norm': 1.3810231685638428, 'learning_rate': 3.628778995904182e-06, 'epoch': 0.37} {'loss': 2.35, 'grad_norm': 3.196739673614502, 'learning_rate': 3.628391377378542e-06, 'epoch': 0.37} {'loss': 2.3936, 'grad_norm': 1.5975474119186401, 'learning_rate': 3.6280037247836463e-06, 'epoch': 0.37} {'loss': 2.1783, 'grad_norm': 1.4685429334640503, 'learning_rate': 3.6276160381311988e-06, 'epoch': 0.37} {'loss': 2.2382, 'grad_norm': 1.5978342294692993, 'learning_rate': 3.6272283174329044e-06, 'epoch': 0.37} {'loss': 2.4332, 'grad_norm': 1.5717930793762207, 'learning_rate': 3.62684056270047e-06, 'epoch': 0.37} {'loss': 2.3936, 'grad_norm': 1.413562297821045, 'learning_rate': 3.626452773945603e-06, 'epoch': 0.37} {'loss': 2.2301, 'grad_norm': 1.2497109174728394, 'learning_rate': 3.6260649511800118e-06, 'epoch': 0.37} {'loss': 2.1729, 'grad_norm': 1.279589056968689, 'learning_rate': 3.6256770944154057e-06, 'epoch': 0.37} {'loss': 2.3711, 'grad_norm': 1.5696780681610107, 'learning_rate': 3.625289203663495e-06, 'epoch': 0.37} {'loss': 1.9865, 'grad_norm': 1.3760271072387695, 'learning_rate': 3.6249012789359917e-06, 'epoch': 0.37} {'loss': 2.1821, 'grad_norm': 1.4253889322280884, 'learning_rate': 3.6245133202446085e-06, 'epoch': 0.37} {'loss': 2.1461, 'grad_norm': 1.4957057237625122, 'learning_rate': 3.6241253276010578e-06, 'epoch': 0.37} {'loss': 2.2886, 'grad_norm': 1.7063466310501099, 'learning_rate': 3.6237373010170552e-06, 'epoch': 0.37} {'loss': 2.3354, 'grad_norm': 1.2812485694885254, 'learning_rate': 3.6233492405043154e-06, 'epoch': 0.37} {'loss': 2.1885, 'grad_norm': 1.4430510997772217, 'learning_rate': 3.622961146074556e-06, 'epoch': 0.37} {'loss': 2.3542, 'grad_norm': 1.370879054069519, 'learning_rate': 3.6225730177394946e-06, 'epoch': 0.37} {'loss': 2.3931, 'grad_norm': 1.437784194946289, 'learning_rate': 3.6221848555108486e-06, 'epoch': 0.37} {'loss': 2.3929, 'grad_norm': 1.6398218870162964, 'learning_rate': 3.6217966594003383e-06, 'epoch': 0.37} {'loss': 2.5612, 'grad_norm': 1.5635154247283936, 'learning_rate': 3.621408429419686e-06, 'epoch': 0.37} {'loss': 2.2541, 'grad_norm': 1.545665979385376, 'learning_rate': 3.6210201655806114e-06, 'epoch': 0.37} {'loss': 2.246, 'grad_norm': 1.6116752624511719, 'learning_rate': 3.6206318678948384e-06, 'epoch': 0.37} {'loss': 2.3675, 'grad_norm': 1.532895565032959, 'learning_rate': 3.6202435363740896e-06, 'epoch': 0.37} {'loss': 2.3341, 'grad_norm': 2.339257001876831, 'learning_rate': 3.6198551710300904e-06, 'epoch': 0.37} {'loss': 2.176, 'grad_norm': 3.9742565155029297, 'learning_rate': 3.6194667718745675e-06, 'epoch': 0.37} {'loss': 2.3127, 'grad_norm': 1.6383799314498901, 'learning_rate': 3.619078338919247e-06, 'epoch': 0.37} {'loss': 1.9454, 'grad_norm': 1.3526800870895386, 'learning_rate': 3.618689872175856e-06, 'epoch': 0.37} {'loss': 2.2802, 'grad_norm': 1.5295674800872803, 'learning_rate': 3.618301371656125e-06, 'epoch': 0.37} {'loss': 2.5191, 'grad_norm': 1.4326975345611572, 'learning_rate': 3.617912837371783e-06, 'epoch': 0.37} {'loss': 1.9115, 'grad_norm': 0.9981538653373718, 'learning_rate': 3.617524269334561e-06, 'epoch': 0.37} {'loss': 2.1921, 'grad_norm': 1.4271115064620972, 'learning_rate': 3.61713566755619e-06, 'epoch': 0.37} {'loss': 2.2199, 'grad_norm': 2.7249596118927, 'learning_rate': 3.616747032048405e-06, 'epoch': 0.37} {'loss': 2.4087, 'grad_norm': 1.286529779434204, 'learning_rate': 3.616358362822939e-06, 'epoch': 0.37} {'loss': 2.3678, 'grad_norm': 1.3982230424880981, 'learning_rate': 3.6159696598915267e-06, 'epoch': 0.37} {'loss': 2.0546, 'grad_norm': 1.4010636806488037, 'learning_rate': 3.6155809232659032e-06, 'epoch': 0.37} {'loss': 2.3902, 'grad_norm': 1.3854717016220093, 'learning_rate': 3.6151921529578075e-06, 'epoch': 0.37} {'loss': 2.268, 'grad_norm': 1.5202025175094604, 'learning_rate': 3.614803348978977e-06, 'epoch': 0.37} {'loss': 2.1116, 'grad_norm': 1.3080168962478638, 'learning_rate': 3.614414511341151e-06, 'epoch': 0.37} {'loss': 2.7415, 'grad_norm': 1.8063571453094482, 'learning_rate': 3.614025640056068e-06, 'epoch': 0.37} {'loss': 2.3957, 'grad_norm': 1.5825618505477905, 'learning_rate': 3.613636735135471e-06, 'epoch': 0.37} {'loss': 2.0377, 'grad_norm': 1.7007830142974854, 'learning_rate': 3.6132477965911012e-06, 'epoch': 0.37} {'loss': 2.1265, 'grad_norm': 1.6261029243469238, 'learning_rate': 3.612858824434702e-06, 'epoch': 0.37} {'loss': 1.8762, 'grad_norm': 1.2923657894134521, 'learning_rate': 3.6124698186780166e-06, 'epoch': 0.37} {'loss': 2.2414, 'grad_norm': 1.3947232961654663, 'learning_rate': 3.6120807793327916e-06, 'epoch': 0.37} {'loss': 2.1697, 'grad_norm': 1.4074935913085938, 'learning_rate': 3.6116917064107727e-06, 'epoch': 0.37} {'loss': 2.2763, 'grad_norm': 1.7191129922866821, 'learning_rate': 3.6113025999237066e-06, 'epoch': 0.37} {'loss': 2.485, 'grad_norm': 1.5107213258743286, 'learning_rate': 3.610913459883342e-06, 'epoch': 0.37} {'loss': 2.3317, 'grad_norm': 1.3712161779403687, 'learning_rate': 3.6105242863014283e-06, 'epoch': 0.37} {'loss': 2.3004, 'grad_norm': 1.3459231853485107, 'learning_rate': 3.610135079189715e-06, 'epoch': 0.37} {'loss': 2.1997, 'grad_norm': 1.3892192840576172, 'learning_rate': 3.6097458385599536e-06, 'epoch': 0.37} {'loss': 2.2221, 'grad_norm': 1.4331645965576172, 'learning_rate': 3.609356564423897e-06, 'epoch': 0.37} {'loss': 2.1773, 'grad_norm': 1.3679664134979248, 'learning_rate': 3.6089672567932975e-06, 'epoch': 0.37} {'loss': 2.1092, 'grad_norm': 1.4237314462661743, 'learning_rate': 3.60857791567991e-06, 'epoch': 0.37} {'loss': 1.6066, 'grad_norm': 1.1443086862564087, 'learning_rate': 3.6081885410954897e-06, 'epoch': 0.37} {'loss': 2.352, 'grad_norm': 1.3594821691513062, 'learning_rate': 3.6077991330517924e-06, 'epoch': 0.37} {'loss': 2.191, 'grad_norm': 1.2889430522918701, 'learning_rate': 3.6074096915605766e-06, 'epoch': 0.37} {'loss': 2.3185, 'grad_norm': 1.7121226787567139, 'learning_rate': 3.6070202166335993e-06, 'epoch': 0.37} {'loss': 2.0863, 'grad_norm': 2.0185775756835938, 'learning_rate': 3.60663070828262e-06, 'epoch': 0.37} {'loss': 2.1854, 'grad_norm': 3.4433956146240234, 'learning_rate': 3.6062411665193997e-06, 'epoch': 0.37} {'loss': 1.6767, 'grad_norm': 1.4340267181396484, 'learning_rate': 3.6058515913556995e-06, 'epoch': 0.37} {'loss': 2.1054, 'grad_norm': 1.3661003112792969, 'learning_rate': 3.605461982803282e-06, 'epoch': 0.37} {'loss': 2.2377, 'grad_norm': 1.246264934539795, 'learning_rate': 3.6050723408739098e-06, 'epoch': 0.37} {'loss': 2.2282, 'grad_norm': 1.5288461446762085, 'learning_rate': 3.6046826655793478e-06, 'epoch': 0.37} {'loss': 2.2199, 'grad_norm': 1.2349251508712769, 'learning_rate': 3.604292956931361e-06, 'epoch': 0.37} {'loss': 2.0833, 'grad_norm': 1.402969479560852, 'learning_rate': 3.6039032149417163e-06, 'epoch': 0.37} {'loss': 1.8017, 'grad_norm': 1.541727066040039, 'learning_rate': 3.6035134396221805e-06, 'epoch': 0.37} {'loss': 2.2417, 'grad_norm': 1.3445076942443848, 'learning_rate': 3.603123630984523e-06, 'epoch': 0.37} {'loss': 2.474, 'grad_norm': 1.457708716392517, 'learning_rate': 3.602733789040512e-06, 'epoch': 0.37} {'loss': 2.1986, 'grad_norm': 1.412330985069275, 'learning_rate': 3.602343913801919e-06, 'epoch': 0.37} {'loss': 2.3536, 'grad_norm': 1.4456124305725098, 'learning_rate': 3.6019540052805148e-06, 'epoch': 0.37} {'loss': 2.3614, 'grad_norm': 1.448690414428711, 'learning_rate': 3.601564063488071e-06, 'epoch': 0.37} {'loss': 2.3799, 'grad_norm': 1.4970598220825195, 'learning_rate': 3.6011740884363625e-06, 'epoch': 0.37} {'loss': 2.1805, 'grad_norm': 1.4095937013626099, 'learning_rate': 3.6007840801371636e-06, 'epoch': 0.37} {'loss': 2.1495, 'grad_norm': 1.596618890762329, 'learning_rate': 3.6003940386022485e-06, 'epoch': 0.37} {'loss': 2.1859, 'grad_norm': 1.5304063558578491, 'learning_rate': 3.6000039638433944e-06, 'epoch': 0.37} {'loss': 2.2755, 'grad_norm': 1.3699692487716675, 'learning_rate': 3.5996138558723793e-06, 'epoch': 0.37} {'loss': 2.3412, 'grad_norm': 1.3054895401000977, 'learning_rate': 3.59922371470098e-06, 'epoch': 0.37} {'loss': 2.2001, 'grad_norm': 1.673695683479309, 'learning_rate': 3.5988335403409785e-06, 'epoch': 0.37} {'loss': 2.443, 'grad_norm': 1.5906991958618164, 'learning_rate': 3.598443332804153e-06, 'epoch': 0.38} {'loss': 2.334, 'grad_norm': 1.3376318216323853, 'learning_rate': 3.5980530921022856e-06, 'epoch': 0.38} {'loss': 2.5055, 'grad_norm': 1.4782027006149292, 'learning_rate': 3.5976628182471586e-06, 'epoch': 0.38} {'loss': 2.1497, 'grad_norm': 1.1901473999023438, 'learning_rate': 3.5972725112505563e-06, 'epoch': 0.38} {'loss': 2.1396, 'grad_norm': 1.4590404033660889, 'learning_rate': 3.596882171124262e-06, 'epoch': 0.38} {'loss': 2.5411, 'grad_norm': 1.4019227027893066, 'learning_rate': 3.5964917978800617e-06, 'epoch': 0.38} {'loss': 1.3992, 'grad_norm': 1.332124948501587, 'learning_rate': 3.5961013915297423e-06, 'epoch': 0.38} {'loss': 2.2746, 'grad_norm': 3.0119991302490234, 'learning_rate': 3.5957109520850905e-06, 'epoch': 0.38} {'loss': 1.3994, 'grad_norm': 1.5826221704483032, 'learning_rate': 3.5953204795578944e-06, 'epoch': 0.38} {'loss': 2.2318, 'grad_norm': 1.4329360723495483, 'learning_rate': 3.5949299739599453e-06, 'epoch': 0.38} {'loss': 2.2713, 'grad_norm': 1.5063965320587158, 'learning_rate': 3.5945394353030316e-06, 'epoch': 0.38} {'loss': 2.3212, 'grad_norm': 1.1498984098434448, 'learning_rate': 3.5941488635989454e-06, 'epoch': 0.38} {'loss': 2.2687, 'grad_norm': 1.262702465057373, 'learning_rate': 3.5937582588594795e-06, 'epoch': 0.38} {'loss': 2.2718, 'grad_norm': 1.4734928607940674, 'learning_rate': 3.5933676210964274e-06, 'epoch': 0.38} {'loss': 2.2316, 'grad_norm': 1.3860937356948853, 'learning_rate': 3.5929769503215826e-06, 'epoch': 0.38} {'loss': 2.5799, 'grad_norm': 1.3602614402770996, 'learning_rate': 3.592586246546742e-06, 'epoch': 0.38} {'loss': 2.3534, 'grad_norm': 1.2427059412002563, 'learning_rate': 3.5921955097837014e-06, 'epoch': 0.38} {'loss': 1.9979, 'grad_norm': 1.2597901821136475, 'learning_rate': 3.5918047400442574e-06, 'epoch': 0.38} {'loss': 2.2636, 'grad_norm': 1.4652866125106812, 'learning_rate': 3.5914139373402083e-06, 'epoch': 0.38} {'loss': 2.2195, 'grad_norm': 1.5378305912017822, 'learning_rate': 3.591023101683355e-06, 'epoch': 0.38} {'loss': 2.3939, 'grad_norm': 1.57584810256958, 'learning_rate': 3.5906322330854977e-06, 'epoch': 0.38} {'loss': 2.2136, 'grad_norm': 1.2963011264801025, 'learning_rate': 3.5902413315584374e-06, 'epoch': 0.38} {'loss': 2.296, 'grad_norm': 1.4453976154327393, 'learning_rate': 3.589850397113976e-06, 'epoch': 0.38} {'loss': 2.3703, 'grad_norm': 1.4831602573394775, 'learning_rate': 3.5894594297639168e-06, 'epoch': 0.38} {'loss': 2.3522, 'grad_norm': 1.3723182678222656, 'learning_rate': 3.5890684295200645e-06, 'epoch': 0.38} {'loss': 2.2667, 'grad_norm': 1.3233827352523804, 'learning_rate': 3.5886773963942254e-06, 'epoch': 0.38} {'loss': 2.226, 'grad_norm': 1.3848850727081299, 'learning_rate': 3.588286330398205e-06, 'epoch': 0.38} {'loss': 2.3367, 'grad_norm': 1.5313208103179932, 'learning_rate': 3.587895231543811e-06, 'epoch': 0.38} {'loss': 2.2574, 'grad_norm': 2.033557176589966, 'learning_rate': 3.5875040998428513e-06, 'epoch': 0.38} {'loss': 2.1418, 'grad_norm': 1.627288579940796, 'learning_rate': 3.587112935307135e-06, 'epoch': 0.38} {'loss': 2.4104, 'grad_norm': 1.3068797588348389, 'learning_rate': 3.586721737948473e-06, 'epoch': 0.38} {'loss': 2.0801, 'grad_norm': 1.748645544052124, 'learning_rate': 3.586330507778677e-06, 'epoch': 0.38} {'loss': 2.2361, 'grad_norm': 1.4364442825317383, 'learning_rate': 3.585939244809559e-06, 'epoch': 0.38} {'loss': 2.3473, 'grad_norm': 1.4079698324203491, 'learning_rate': 3.5855479490529315e-06, 'epoch': 0.38} {'loss': 2.2015, 'grad_norm': 1.6047422885894775, 'learning_rate': 3.5851566205206108e-06, 'epoch': 0.38} {'loss': 2.3627, 'grad_norm': 1.6668063402175903, 'learning_rate': 3.5847652592244094e-06, 'epoch': 0.38} {'loss': 2.0908, 'grad_norm': 1.4821275472640991, 'learning_rate': 3.584373865176145e-06, 'epoch': 0.38} {'loss': 2.3016, 'grad_norm': 1.6452339887619019, 'learning_rate': 3.583982438387636e-06, 'epoch': 0.38} {'loss': 2.1881, 'grad_norm': 1.2783164978027344, 'learning_rate': 3.583590978870699e-06, 'epoch': 0.38} {'loss': 2.222, 'grad_norm': 1.3644497394561768, 'learning_rate': 3.5831994866371546e-06, 'epoch': 0.38} {'loss': 2.3035, 'grad_norm': 1.5567418336868286, 'learning_rate': 3.582807961698821e-06, 'epoch': 0.38} {'loss': 1.7097, 'grad_norm': 2.014706611633301, 'learning_rate': 3.582416404067521e-06, 'epoch': 0.38} {'loss': 2.1854, 'grad_norm': 6.547465801239014, 'learning_rate': 3.582024813755077e-06, 'epoch': 0.38} {'loss': 2.1922, 'grad_norm': 2.5202903747558594, 'learning_rate': 3.5816331907733115e-06, 'epoch': 0.38} {'loss': 2.265, 'grad_norm': 1.6390420198440552, 'learning_rate': 3.5812415351340486e-06, 'epoch': 0.38} {'loss': 1.865, 'grad_norm': 1.2423211336135864, 'learning_rate': 3.5808498468491135e-06, 'epoch': 0.38} {'loss': 2.2402, 'grad_norm': 1.7429546117782593, 'learning_rate': 3.5804581259303334e-06, 'epoch': 0.38} {'loss': 2.1695, 'grad_norm': 1.4788603782653809, 'learning_rate': 3.580066372389534e-06, 'epoch': 0.38} {'loss': 2.265, 'grad_norm': 1.5205669403076172, 'learning_rate': 3.579674586238544e-06, 'epoch': 0.38} {'loss': 2.0102, 'grad_norm': 1.344826340675354, 'learning_rate': 3.579282767489193e-06, 'epoch': 0.38} {'loss': 2.2037, 'grad_norm': 1.8502384424209595, 'learning_rate': 3.5788909161533102e-06, 'epoch': 0.38} {'loss': 2.0699, 'grad_norm': 1.556571364402771, 'learning_rate': 3.5784990322427275e-06, 'epoch': 0.38} {'loss': 2.2543, 'grad_norm': 1.8016893863677979, 'learning_rate': 3.5781071157692763e-06, 'epoch': 0.38} {'loss': 2.3401, 'grad_norm': 1.5110739469528198, 'learning_rate': 3.57771516674479e-06, 'epoch': 0.38} {'loss': 2.3794, 'grad_norm': 1.4274299144744873, 'learning_rate': 3.577323185181103e-06, 'epoch': 0.38} {'loss': 2.3749, 'grad_norm': 1.4881749153137207, 'learning_rate': 3.576931171090049e-06, 'epoch': 0.38} {'loss': 2.4022, 'grad_norm': 1.957499384880066, 'learning_rate': 3.5765391244834657e-06, 'epoch': 0.38} {'loss': 2.2271, 'grad_norm': 1.3438087701797485, 'learning_rate': 3.5761470453731886e-06, 'epoch': 0.38} {'loss': 2.5698, 'grad_norm': 1.544123649597168, 'learning_rate': 3.5757549337710562e-06, 'epoch': 0.38} {'loss': 2.2716, 'grad_norm': 1.542656660079956, 'learning_rate': 3.5753627896889077e-06, 'epoch': 0.38} {'loss': 2.3631, 'grad_norm': 1.3072032928466797, 'learning_rate': 3.5749706131385823e-06, 'epoch': 0.38} {'loss': 2.2716, 'grad_norm': 1.6364070177078247, 'learning_rate': 3.5745784041319233e-06, 'epoch': 0.38} {'loss': 1.5382, 'grad_norm': 1.4905989170074463, 'learning_rate': 3.574186162680769e-06, 'epoch': 0.38} {'loss': 2.2595, 'grad_norm': 1.6142522096633911, 'learning_rate': 3.573793888796964e-06, 'epoch': 0.38} {'loss': 1.9678, 'grad_norm': 1.1961321830749512, 'learning_rate': 3.573401582492352e-06, 'epoch': 0.38} {'loss': 2.5005, 'grad_norm': 1.6450841426849365, 'learning_rate': 3.5730092437787783e-06, 'epoch': 0.38} {'loss': 2.5189, 'grad_norm': 1.6296801567077637, 'learning_rate': 3.572616872668088e-06, 'epoch': 0.38} {'loss': 2.4327, 'grad_norm': 1.6453884840011597, 'learning_rate': 3.5722244691721285e-06, 'epoch': 0.38} {'loss': 2.2271, 'grad_norm': 1.3600528240203857, 'learning_rate': 3.571832033302747e-06, 'epoch': 0.38} {'loss': 2.1244, 'grad_norm': 1.6638065576553345, 'learning_rate': 3.571439565071792e-06, 'epoch': 0.38} {'loss': 1.977, 'grad_norm': 1.3679696321487427, 'learning_rate': 3.571047064491114e-06, 'epoch': 0.38} {'loss': 2.1901, 'grad_norm': 1.4558689594268799, 'learning_rate': 3.5706545315725632e-06, 'epoch': 0.38} {'loss': 2.3027, 'grad_norm': 1.3570740222930908, 'learning_rate': 3.5702619663279913e-06, 'epoch': 0.38} {'loss': 2.0243, 'grad_norm': 1.4842164516448975, 'learning_rate': 3.5698693687692514e-06, 'epoch': 0.38} {'loss': 2.3075, 'grad_norm': 1.305939793586731, 'learning_rate': 3.5694767389081963e-06, 'epoch': 0.38} {'loss': 1.5378, 'grad_norm': 1.5054433345794678, 'learning_rate': 3.569084076756681e-06, 'epoch': 0.38} {'loss': 2.1983, 'grad_norm': 1.3943922519683838, 'learning_rate': 3.5686913823265614e-06, 'epoch': 0.38} {'loss': 2.1204, 'grad_norm': 1.4126089811325073, 'learning_rate': 3.568298655629693e-06, 'epoch': 0.38} {'loss': 2.1754, 'grad_norm': 1.2911114692687988, 'learning_rate': 3.5679058966779346e-06, 'epoch': 0.38} {'loss': 2.0383, 'grad_norm': 1.2536755800247192, 'learning_rate': 3.5675131054831435e-06, 'epoch': 0.38} {'loss': 2.3079, 'grad_norm': 1.4357402324676514, 'learning_rate': 3.567120282057179e-06, 'epoch': 0.38} {'loss': 1.9418, 'grad_norm': 1.3642776012420654, 'learning_rate': 3.5667274264119035e-06, 'epoch': 0.38} {'loss': 2.2938, 'grad_norm': 1.721253514289856, 'learning_rate': 3.566334538559176e-06, 'epoch': 0.38} {'loss': 2.3504, 'grad_norm': 1.5342763662338257, 'learning_rate': 3.5659416185108613e-06, 'epoch': 0.38} {'loss': 2.2452, 'grad_norm': 1.4710346460342407, 'learning_rate': 3.565548666278821e-06, 'epoch': 0.38} {'loss': 2.1834, 'grad_norm': 1.6790549755096436, 'learning_rate': 3.5651556818749196e-06, 'epoch': 0.38} {'loss': 2.1486, 'grad_norm': 2.2838780879974365, 'learning_rate': 3.5647626653110217e-06, 'epoch': 0.38} {'loss': 2.3059, 'grad_norm': 1.7085174322128296, 'learning_rate': 3.564369616598996e-06, 'epoch': 0.38} {'loss': 2.2915, 'grad_norm': 1.20753812789917, 'learning_rate': 3.5639765357507077e-06, 'epoch': 0.38} {'loss': 2.2948, 'grad_norm': 1.3393698930740356, 'learning_rate': 3.5635834227780255e-06, 'epoch': 0.38} {'loss': 1.9167, 'grad_norm': 2.077826499938965, 'learning_rate': 3.5631902776928186e-06, 'epoch': 0.38} {'loss': 2.0467, 'grad_norm': 1.7156116962432861, 'learning_rate': 3.562797100506957e-06, 'epoch': 0.38} {'loss': 2.1931, 'grad_norm': 1.4461619853973389, 'learning_rate': 3.5624038912323113e-06, 'epoch': 0.38} {'loss': 2.1917, 'grad_norm': 1.5770859718322754, 'learning_rate': 3.562010649880755e-06, 'epoch': 0.38} {'loss': 1.8911, 'grad_norm': 4.459570407867432, 'learning_rate': 3.56161737646416e-06, 'epoch': 0.38} {'loss': 2.0294, 'grad_norm': 1.1969562768936157, 'learning_rate': 3.5612240709944008e-06, 'epoch': 0.38} {'loss': 2.0202, 'grad_norm': 1.3461261987686157, 'learning_rate': 3.5608307334833524e-06, 'epoch': 0.38} {'loss': 2.1215, 'grad_norm': 1.5598872900009155, 'learning_rate': 3.5604373639428903e-06, 'epoch': 0.38} {'loss': 2.1213, 'grad_norm': 1.3970175981521606, 'learning_rate': 3.5600439623848916e-06, 'epoch': 0.38} {'loss': 2.2406, 'grad_norm': 1.3933061361312866, 'learning_rate': 3.559650528821234e-06, 'epoch': 0.38} {'loss': 2.2624, 'grad_norm': 1.1037049293518066, 'learning_rate': 3.5592570632637976e-06, 'epoch': 0.38} {'loss': 2.1129, 'grad_norm': 1.8765888214111328, 'learning_rate': 3.5588635657244607e-06, 'epoch': 0.38} {'loss': 2.2892, 'grad_norm': 1.4874075651168823, 'learning_rate': 3.558470036215104e-06, 'epoch': 0.38} {'loss': 2.4283, 'grad_norm': 1.5440664291381836, 'learning_rate': 3.5580764747476106e-06, 'epoch': 0.38} {'loss': 2.38, 'grad_norm': 1.4877080917358398, 'learning_rate': 3.5576828813338617e-06, 'epoch': 0.38} {'loss': 2.1523, 'grad_norm': 2.0485153198242188, 'learning_rate': 3.557289255985743e-06, 'epoch': 0.38} {'loss': 2.4894, 'grad_norm': 1.4862865209579468, 'learning_rate': 3.5568955987151373e-06, 'epoch': 0.38} {'loss': 2.4942, 'grad_norm': 3.8561813831329346, 'learning_rate': 3.5565019095339304e-06, 'epoch': 0.38} {'loss': 2.346, 'grad_norm': 1.4156289100646973, 'learning_rate': 3.5561081884540094e-06, 'epoch': 0.38} {'loss': 2.2899, 'grad_norm': 1.4625810384750366, 'learning_rate': 3.5557144354872613e-06, 'epoch': 0.38} {'loss': 2.2372, 'grad_norm': 1.4686527252197266, 'learning_rate': 3.5553206506455757e-06, 'epoch': 0.38} {'loss': 1.9015, 'grad_norm': 1.2918366193771362, 'learning_rate': 3.554926833940841e-06, 'epoch': 0.38} {'loss': 2.4159, 'grad_norm': 1.5385547876358032, 'learning_rate': 3.5545329853849474e-06, 'epoch': 0.38} {'loss': 2.4628, 'grad_norm': 1.6376628875732422, 'learning_rate': 3.5541391049897876e-06, 'epoch': 0.38} {'loss': 2.2805, 'grad_norm': 1.4753223657608032, 'learning_rate': 3.553745192767253e-06, 'epoch': 0.38} {'loss': 2.4933, 'grad_norm': 2.0424320697784424, 'learning_rate': 3.5533512487292364e-06, 'epoch': 0.38} {'loss': 2.0805, 'grad_norm': 1.2379062175750732, 'learning_rate': 3.552957272887634e-06, 'epoch': 0.38} {'loss': 2.2715, 'grad_norm': 1.2036736011505127, 'learning_rate': 3.5525632652543383e-06, 'epoch': 0.38} {'loss': 2.3116, 'grad_norm': 1.443591594696045, 'learning_rate': 3.5521692258412483e-06, 'epoch': 0.38} {'loss': 2.3167, 'grad_norm': 1.4672949314117432, 'learning_rate': 3.5517751546602587e-06, 'epoch': 0.38} {'loss': 2.2632, 'grad_norm': 1.4518742561340332, 'learning_rate': 3.5513810517232683e-06, 'epoch': 0.38} {'loss': 2.4078, 'grad_norm': 1.4921389818191528, 'learning_rate': 3.5509869170421774e-06, 'epoch': 0.38} {'loss': 2.1948, 'grad_norm': 1.5881885290145874, 'learning_rate': 3.5505927506288852e-06, 'epoch': 0.38} {'loss': 2.4147, 'grad_norm': 1.615777611732483, 'learning_rate': 3.550198552495292e-06, 'epoch': 0.38} {'loss': 2.3769, 'grad_norm': 1.4781193733215332, 'learning_rate': 3.549804322653301e-06, 'epoch': 0.38} {'loss': 2.2328, 'grad_norm': 1.2851500511169434, 'learning_rate': 3.549410061114813e-06, 'epoch': 0.38} {'loss': 2.0962, 'grad_norm': 1.3613777160644531, 'learning_rate': 3.549015767891734e-06, 'epoch': 0.38} {'loss': 2.1467, 'grad_norm': 1.131056785583496, 'learning_rate': 3.5486214429959687e-06, 'epoch': 0.38} {'loss': 2.2707, 'grad_norm': 1.5438752174377441, 'learning_rate': 3.548227086439422e-06, 'epoch': 0.38} {'loss': 2.2705, 'grad_norm': 1.6165395975112915, 'learning_rate': 3.5478326982340004e-06, 'epoch': 0.38} {'loss': 2.3064, 'grad_norm': 1.7686961889266968, 'learning_rate': 3.5474382783916124e-06, 'epoch': 0.38} {'loss': 2.0073, 'grad_norm': 1.5419442653656006, 'learning_rate': 3.547043826924166e-06, 'epoch': 0.38} {'loss': 2.1571, 'grad_norm': 1.4060407876968384, 'learning_rate': 3.5466493438435707e-06, 'epoch': 0.38} {'loss': 2.3748, 'grad_norm': 2.1350767612457275, 'learning_rate': 3.5462548291617377e-06, 'epoch': 0.38} {'loss': 2.3195, 'grad_norm': 1.5835888385772705, 'learning_rate': 3.545860282890578e-06, 'epoch': 0.38} {'loss': 2.138, 'grad_norm': 1.5308562517166138, 'learning_rate': 3.5454657050420037e-06, 'epoch': 0.38} {'loss': 2.4436, 'grad_norm': 1.4792020320892334, 'learning_rate': 3.5450710956279293e-06, 'epoch': 0.38} {'loss': 2.2837, 'grad_norm': 1.5629016160964966, 'learning_rate': 3.5446764546602686e-06, 'epoch': 0.38} {'loss': 2.2712, 'grad_norm': 1.732651710510254, 'learning_rate': 3.544281782150937e-06, 'epoch': 0.38} {'loss': 2.2454, 'grad_norm': 1.771511197090149, 'learning_rate': 3.5438870781118503e-06, 'epoch': 0.38} {'loss': 2.102, 'grad_norm': 1.492269515991211, 'learning_rate': 3.543492342554926e-06, 'epoch': 0.38} {'loss': 2.4598, 'grad_norm': 1.2588258981704712, 'learning_rate': 3.5430975754920823e-06, 'epoch': 0.38} {'loss': 2.2336, 'grad_norm': 1.4006578922271729, 'learning_rate': 3.5427027769352373e-06, 'epoch': 0.38} {'loss': 2.2819, 'grad_norm': 1.5897362232208252, 'learning_rate': 3.5423079468963127e-06, 'epoch': 0.38} {'loss': 2.4479, 'grad_norm': 1.5214604139328003, 'learning_rate': 3.54191308538723e-06, 'epoch': 0.38} {'loss': 2.3102, 'grad_norm': 1.700340747833252, 'learning_rate': 3.5415181924199083e-06, 'epoch': 0.38} {'loss': 2.4669, 'grad_norm': 1.4812581539154053, 'learning_rate': 3.541123268006273e-06, 'epoch': 0.38} {'loss': 2.0661, 'grad_norm': 1.2273448705673218, 'learning_rate': 3.540728312158247e-06, 'epoch': 0.38} {'loss': 2.1888, 'grad_norm': 1.6681246757507324, 'learning_rate': 3.540333324887755e-06, 'epoch': 0.38} {'loss': 2.3372, 'grad_norm': 1.4309213161468506, 'learning_rate': 3.5399383062067235e-06, 'epoch': 0.38} {'loss': 2.5661, 'grad_norm': 1.289438247680664, 'learning_rate': 3.539543256127078e-06, 'epoch': 0.38} {'loss': 2.1952, 'grad_norm': 1.4819854497909546, 'learning_rate': 3.5391481746607477e-06, 'epoch': 0.38} {'loss': 2.2221, 'grad_norm': 1.5064640045166016, 'learning_rate': 3.5387530618196596e-06, 'epoch': 0.38} {'loss': 2.2065, 'grad_norm': 1.4701539278030396, 'learning_rate': 3.538357917615745e-06, 'epoch': 0.38} {'loss': 2.5487, 'grad_norm': 1.266905426979065, 'learning_rate': 3.537962742060933e-06, 'epoch': 0.38} {'loss': 1.8619, 'grad_norm': 1.1653016805648804, 'learning_rate': 3.537567535167155e-06, 'epoch': 0.38} {'loss': 2.398, 'grad_norm': 1.3341618776321411, 'learning_rate': 3.537172296946344e-06, 'epoch': 0.38} {'loss': 2.1405, 'grad_norm': 1.3650214672088623, 'learning_rate': 3.536777027410434e-06, 'epoch': 0.38} {'loss': 1.7816, 'grad_norm': 1.6660027503967285, 'learning_rate': 3.5363817265713577e-06, 'epoch': 0.38} {'loss': 1.8798, 'grad_norm': 1.1885535717010498, 'learning_rate': 3.535986394441051e-06, 'epoch': 0.38} {'loss': 2.5674, 'grad_norm': 1.63679039478302, 'learning_rate': 3.5355910310314506e-06, 'epoch': 0.38} {'loss': 2.3473, 'grad_norm': 1.574468731880188, 'learning_rate': 3.5351956363544933e-06, 'epoch': 0.38} {'loss': 2.2927, 'grad_norm': 1.3876655101776123, 'learning_rate': 3.534800210422117e-06, 'epoch': 0.38} {'loss': 2.3925, 'grad_norm': 1.7459757328033447, 'learning_rate': 3.5344047532462606e-06, 'epoch': 0.38} {'loss': 2.403, 'grad_norm': 1.502570629119873, 'learning_rate': 3.5340092648388643e-06, 'epoch': 0.38} {'loss': 2.4749, 'grad_norm': 1.263372540473938, 'learning_rate': 3.533613745211868e-06, 'epoch': 0.38} {'loss': 2.1824, 'grad_norm': 1.4296120405197144, 'learning_rate': 3.533218194377216e-06, 'epoch': 0.38} {'loss': 2.1465, 'grad_norm': 1.2555186748504639, 'learning_rate': 3.5328226123468483e-06, 'epoch': 0.38} {'loss': 2.4283, 'grad_norm': 1.55518639087677, 'learning_rate': 3.5324269991327098e-06, 'epoch': 0.38} {'loss': 2.1509, 'grad_norm': 1.265496015548706, 'learning_rate': 3.5320313547467453e-06, 'epoch': 0.38} {'loss': 1.8173, 'grad_norm': 1.3166147470474243, 'learning_rate': 3.531635679200901e-06, 'epoch': 0.38} {'loss': 2.3758, 'grad_norm': 1.4758870601654053, 'learning_rate': 3.5312399725071223e-06, 'epoch': 0.38} {'loss': 2.1174, 'grad_norm': 1.6287429332733154, 'learning_rate': 3.5308442346773565e-06, 'epoch': 0.38} {'loss': 2.1342, 'grad_norm': 1.4377782344818115, 'learning_rate': 3.5304484657235525e-06, 'epoch': 0.38} {'loss': 2.2619, 'grad_norm': 1.4711322784423828, 'learning_rate': 3.5300526656576605e-06, 'epoch': 0.38} {'loss': 2.2356, 'grad_norm': 1.323542833328247, 'learning_rate': 3.52965683449163e-06, 'epoch': 0.38} {'loss': 2.2418, 'grad_norm': 1.6299479007720947, 'learning_rate': 3.529260972237412e-06, 'epoch': 0.38} {'loss': 2.3141, 'grad_norm': 1.2885947227478027, 'learning_rate': 3.5288650789069588e-06, 'epoch': 0.38} {'loss': 1.5786, 'grad_norm': 1.266083836555481, 'learning_rate': 3.528469154512224e-06, 'epoch': 0.38} {'loss': 2.1887, 'grad_norm': 1.5370007753372192, 'learning_rate': 3.528073199065162e-06, 'epoch': 0.38} {'loss': 2.6335, 'grad_norm': 1.4732719659805298, 'learning_rate': 3.5276772125777265e-06, 'epoch': 0.38} {'loss': 2.1465, 'grad_norm': 1.597367763519287, 'learning_rate': 3.5272811950618734e-06, 'epoch': 0.38} {'loss': 2.2067, 'grad_norm': 1.3470137119293213, 'learning_rate': 3.5268851465295605e-06, 'epoch': 0.38} {'loss': 2.2775, 'grad_norm': 1.5376290082931519, 'learning_rate': 3.5264890669927455e-06, 'epoch': 0.38} {'loss': 2.2944, 'grad_norm': 1.2760653495788574, 'learning_rate': 3.526092956463388e-06, 'epoch': 0.38} {'loss': 2.3467, 'grad_norm': 1.4818849563598633, 'learning_rate': 3.5256968149534453e-06, 'epoch': 0.38} {'loss': 2.07, 'grad_norm': 1.5066486597061157, 'learning_rate': 3.5253006424748796e-06, 'epoch': 0.38} {'loss': 2.1107, 'grad_norm': 1.6796036958694458, 'learning_rate': 3.5249044390396518e-06, 'epoch': 0.39} {'loss': 2.239, 'grad_norm': 1.6663833856582642, 'learning_rate': 3.524508204659725e-06, 'epoch': 0.39} {'loss': 2.1014, 'grad_norm': 1.1909596920013428, 'learning_rate': 3.5241119393470633e-06, 'epoch': 0.39} {'loss': 1.9767, 'grad_norm': 2.04338002204895, 'learning_rate': 3.5237156431136294e-06, 'epoch': 0.39} {'loss': 2.3764, 'grad_norm': 1.365208387374878, 'learning_rate': 3.523319315971389e-06, 'epoch': 0.39} {'loss': 2.4325, 'grad_norm': 1.4043782949447632, 'learning_rate': 3.5229229579323088e-06, 'epoch': 0.39} {'loss': 2.6211, 'grad_norm': 1.4276247024536133, 'learning_rate': 3.522526569008356e-06, 'epoch': 0.39} {'loss': 2.0073, 'grad_norm': 1.2876906394958496, 'learning_rate': 3.5221301492114983e-06, 'epoch': 0.39} {'loss': 2.2104, 'grad_norm': 1.452094554901123, 'learning_rate': 3.5217336985537047e-06, 'epoch': 0.39} {'loss': 2.0683, 'grad_norm': 1.4212895631790161, 'learning_rate': 3.521337217046945e-06, 'epoch': 0.39} {'loss': 2.4194, 'grad_norm': 1.4591859579086304, 'learning_rate': 3.5209407047031914e-06, 'epoch': 0.39} {'loss': 2.1608, 'grad_norm': 1.4990204572677612, 'learning_rate': 3.5205441615344134e-06, 'epoch': 0.39} {'loss': 2.3746, 'grad_norm': 1.4680249691009521, 'learning_rate': 3.520147587552585e-06, 'epoch': 0.39} {'loss': 2.3607, 'grad_norm': 1.3927541971206665, 'learning_rate': 3.5197509827696806e-06, 'epoch': 0.39} {'loss': 2.262, 'grad_norm': 1.6681116819381714, 'learning_rate': 3.5193543471976744e-06, 'epoch': 0.39} {'loss': 2.595, 'grad_norm': 1.6615896224975586, 'learning_rate': 3.518957680848541e-06, 'epoch': 0.39} {'loss': 2.1418, 'grad_norm': 1.352702260017395, 'learning_rate': 3.518560983734258e-06, 'epoch': 0.39} {'loss': 2.0652, 'grad_norm': 1.3523303270339966, 'learning_rate': 3.5181642558668007e-06, 'epoch': 0.39} {'loss': 2.247, 'grad_norm': 1.5282734632492065, 'learning_rate': 3.51776749725815e-06, 'epoch': 0.39} {'loss': 2.1643, 'grad_norm': 1.5017155408859253, 'learning_rate': 3.517370707920284e-06, 'epoch': 0.39} {'loss': 2.2816, 'grad_norm': 1.3667994737625122, 'learning_rate': 3.5169738878651825e-06, 'epoch': 0.39} {'loss': 2.2457, 'grad_norm': 1.5541408061981201, 'learning_rate': 3.516577037104828e-06, 'epoch': 0.39} {'loss': 2.3359, 'grad_norm': 1.3501417636871338, 'learning_rate': 3.516180155651201e-06, 'epoch': 0.39} {'loss': 2.5775, 'grad_norm': 1.5077298879623413, 'learning_rate': 3.515783243516284e-06, 'epoch': 0.39} {'loss': 2.2992, 'grad_norm': 1.6984909772872925, 'learning_rate': 3.515386300712063e-06, 'epoch': 0.39} {'loss': 2.3561, 'grad_norm': 1.3329027891159058, 'learning_rate': 3.5149893272505216e-06, 'epoch': 0.39} {'loss': 2.3378, 'grad_norm': 1.478976845741272, 'learning_rate': 3.5145923231436453e-06, 'epoch': 0.39} {'loss': 2.2807, 'grad_norm': 1.4096879959106445, 'learning_rate': 3.5141952884034215e-06, 'epoch': 0.39} {'loss': 2.5366, 'grad_norm': 1.4988951683044434, 'learning_rate': 3.513798223041837e-06, 'epoch': 0.39} {'loss': 2.3536, 'grad_norm': 1.443189024925232, 'learning_rate': 3.51340112707088e-06, 'epoch': 0.39} {'loss': 2.2514, 'grad_norm': 1.542603850364685, 'learning_rate': 3.513004000502541e-06, 'epoch': 0.39} {'loss': 2.0757, 'grad_norm': 2.2659595012664795, 'learning_rate': 3.5126068433488103e-06, 'epoch': 0.39} {'loss': 2.345, 'grad_norm': 1.441951870918274, 'learning_rate': 3.512209655621679e-06, 'epoch': 0.39} {'loss': 2.2524, 'grad_norm': 1.6946419477462769, 'learning_rate': 3.511812437333138e-06, 'epoch': 0.39} {'loss': 2.3312, 'grad_norm': 1.3067548274993896, 'learning_rate': 3.511415188495182e-06, 'epoch': 0.39} {'loss': 2.2418, 'grad_norm': 1.514825701713562, 'learning_rate': 3.5110179091198048e-06, 'epoch': 0.39} {'loss': 2.1749, 'grad_norm': 1.4664649963378906, 'learning_rate': 3.5106205992190014e-06, 'epoch': 0.39} {'loss': 2.2713, 'grad_norm': 1.5010216236114502, 'learning_rate': 3.510223258804767e-06, 'epoch': 0.39} {'loss': 1.9829, 'grad_norm': 1.3301386833190918, 'learning_rate': 3.5098258878890985e-06, 'epoch': 0.39} {'loss': 1.9147, 'grad_norm': 1.6319094896316528, 'learning_rate': 3.509428486483994e-06, 'epoch': 0.39} {'loss': 2.2246, 'grad_norm': 1.3890591859817505, 'learning_rate': 3.509031054601452e-06, 'epoch': 0.39} {'loss': 2.1182, 'grad_norm': 1.246338963508606, 'learning_rate': 3.508633592253472e-06, 'epoch': 0.39} {'loss': 2.4062, 'grad_norm': 1.4997339248657227, 'learning_rate': 3.5082360994520546e-06, 'epoch': 0.39} {'loss': 1.497, 'grad_norm': 2.2339086532592773, 'learning_rate': 3.507838576209202e-06, 'epoch': 0.39} {'loss': 2.308, 'grad_norm': 1.509867787361145, 'learning_rate': 3.5074410225369147e-06, 'epoch': 0.39} {'loss': 1.9849, 'grad_norm': 1.3964465856552124, 'learning_rate': 3.507043438447198e-06, 'epoch': 0.39} {'loss': 2.068, 'grad_norm': 1.2551723718643188, 'learning_rate': 3.5066458239520544e-06, 'epoch': 0.39} {'loss': 2.2026, 'grad_norm': 1.3833973407745361, 'learning_rate': 3.5062481790634893e-06, 'epoch': 0.39} {'loss': 1.5923, 'grad_norm': 1.4364162683486938, 'learning_rate': 3.5058505037935097e-06, 'epoch': 0.39} {'loss': 2.2423, 'grad_norm': 1.4871810674667358, 'learning_rate': 3.505452798154122e-06, 'epoch': 0.39} {'loss': 2.5672, 'grad_norm': 1.545515775680542, 'learning_rate': 3.5050550621573334e-06, 'epoch': 0.39} {'loss': 2.1959, 'grad_norm': 1.383879542350769, 'learning_rate': 3.504657295815153e-06, 'epoch': 0.39} {'loss': 2.445, 'grad_norm': 1.5071160793304443, 'learning_rate': 3.5042594991395912e-06, 'epoch': 0.39} {'loss': 2.4563, 'grad_norm': 1.374474287033081, 'learning_rate': 3.5038616721426576e-06, 'epoch': 0.39} {'loss': 2.3704, 'grad_norm': 1.5588550567626953, 'learning_rate': 3.5034638148363644e-06, 'epoch': 0.39} {'loss': 2.2062, 'grad_norm': 1.360715389251709, 'learning_rate': 3.5030659272327233e-06, 'epoch': 0.39} {'loss': 2.2087, 'grad_norm': 1.4977775812149048, 'learning_rate': 3.502668009343748e-06, 'epoch': 0.39} {'loss': 2.5256, 'grad_norm': 1.2632594108581543, 'learning_rate': 3.5022700611814527e-06, 'epoch': 0.39} {'loss': 1.7638, 'grad_norm': 1.2800676822662354, 'learning_rate': 3.5018720827578523e-06, 'epoch': 0.39} {'loss': 2.2583, 'grad_norm': 1.99589204788208, 'learning_rate': 3.5014740740849646e-06, 'epoch': 0.39} {'loss': 2.2913, 'grad_norm': 1.4568816423416138, 'learning_rate': 3.501076035174804e-06, 'epoch': 0.39} {'loss': 2.2883, 'grad_norm': 1.5416792631149292, 'learning_rate': 3.5006779660393897e-06, 'epoch': 0.39} {'loss': 2.315, 'grad_norm': 1.7652993202209473, 'learning_rate': 3.50027986669074e-06, 'epoch': 0.39} {'loss': 2.339, 'grad_norm': 1.3815497159957886, 'learning_rate': 3.4998817371408754e-06, 'epoch': 0.39} {'loss': 2.2901, 'grad_norm': 1.4199881553649902, 'learning_rate': 3.4994835774018165e-06, 'epoch': 0.39} {'loss': 2.3366, 'grad_norm': 1.554677963256836, 'learning_rate': 3.4990853874855842e-06, 'epoch': 0.39} {'loss': 2.5932, 'grad_norm': 1.6515088081359863, 'learning_rate': 3.498687167404201e-06, 'epoch': 0.39} {'loss': 1.6514, 'grad_norm': 1.4661296606063843, 'learning_rate': 3.4982889171696903e-06, 'epoch': 0.39} {'loss': 1.508, 'grad_norm': 1.488137125968933, 'learning_rate': 3.4978906367940768e-06, 'epoch': 0.39} {'loss': 2.2312, 'grad_norm': 1.5268150568008423, 'learning_rate': 3.4974923262893857e-06, 'epoch': 0.39} {'loss': 2.4126, 'grad_norm': 1.6108039617538452, 'learning_rate': 3.497093985667643e-06, 'epoch': 0.39} {'loss': 2.1625, 'grad_norm': 1.3999958038330078, 'learning_rate': 3.4966956149408748e-06, 'epoch': 0.39} {'loss': 2.4347, 'grad_norm': 1.388348937034607, 'learning_rate': 3.4962972141211106e-06, 'epoch': 0.39} {'loss': 2.2605, 'grad_norm': 1.5000842809677124, 'learning_rate': 3.4958987832203774e-06, 'epoch': 0.39} {'loss': 2.1248, 'grad_norm': 1.256534457206726, 'learning_rate': 3.495500322250707e-06, 'epoch': 0.39} {'loss': 2.2581, 'grad_norm': 1.5634568929672241, 'learning_rate': 3.495101831224128e-06, 'epoch': 0.39} {'loss': 2.0345, 'grad_norm': 1.349122166633606, 'learning_rate': 3.4947033101526727e-06, 'epoch': 0.39} {'loss': 2.204, 'grad_norm': 1.4243550300598145, 'learning_rate': 3.4943047590483755e-06, 'epoch': 0.39} {'loss': 2.4168, 'grad_norm': 1.5093629360198975, 'learning_rate': 3.4939061779232663e-06, 'epoch': 0.39} {'loss': 2.0442, 'grad_norm': 1.3291574716567993, 'learning_rate': 3.4935075667893816e-06, 'epoch': 0.39} {'loss': 2.1932, 'grad_norm': 1.3363105058670044, 'learning_rate': 3.493108925658756e-06, 'epoch': 0.39} {'loss': 2.576, 'grad_norm': 1.3224880695343018, 'learning_rate': 3.4927102545434256e-06, 'epoch': 0.39} {'loss': 2.0481, 'grad_norm': 1.2582480907440186, 'learning_rate': 3.4923115534554275e-06, 'epoch': 0.39} {'loss': 2.2017, 'grad_norm': 1.524138331413269, 'learning_rate': 3.4919128224067995e-06, 'epoch': 0.39} {'loss': 2.1927, 'grad_norm': 1.4756494760513306, 'learning_rate': 3.4915140614095807e-06, 'epoch': 0.39} {'loss': 2.2146, 'grad_norm': 1.1993285417556763, 'learning_rate': 3.49111527047581e-06, 'epoch': 0.39} {'loss': 2.0685, 'grad_norm': 2.3309826850891113, 'learning_rate': 3.4907164496175283e-06, 'epoch': 0.39} {'loss': 2.3345, 'grad_norm': 1.5239611864089966, 'learning_rate': 3.490317598846778e-06, 'epoch': 0.39} {'loss': 2.2815, 'grad_norm': 1.3662230968475342, 'learning_rate': 3.4899187181756e-06, 'epoch': 0.39} {'loss': 2.2812, 'grad_norm': 1.4243156909942627, 'learning_rate': 3.489519807616039e-06, 'epoch': 0.39} {'loss': 2.1517, 'grad_norm': 4.9857258796691895, 'learning_rate': 3.4891208671801387e-06, 'epoch': 0.39} {'loss': 2.1058, 'grad_norm': 1.3959686756134033, 'learning_rate': 3.4887218968799435e-06, 'epoch': 0.39} {'loss': 2.0753, 'grad_norm': 1.592218279838562, 'learning_rate': 3.4883228967275007e-06, 'epoch': 0.39} {'loss': 2.0366, 'grad_norm': 1.253032922744751, 'learning_rate': 3.487923866734856e-06, 'epoch': 0.39} {'loss': 2.2142, 'grad_norm': 1.5743896961212158, 'learning_rate': 3.4875248069140587e-06, 'epoch': 0.39} {'loss': 2.2577, 'grad_norm': 1.3225570917129517, 'learning_rate': 3.4871257172771556e-06, 'epoch': 0.39} {'loss': 2.2862, 'grad_norm': 1.554538607597351, 'learning_rate': 3.486726597836198e-06, 'epoch': 0.39} {'loss': 2.3828, 'grad_norm': 3.265653371810913, 'learning_rate': 3.4863274486032357e-06, 'epoch': 0.39} {'loss': 2.2216, 'grad_norm': 1.182265043258667, 'learning_rate': 3.4859282695903196e-06, 'epoch': 0.39} {'loss': 2.1231, 'grad_norm': 1.571900486946106, 'learning_rate': 3.4855290608095038e-06, 'epoch': 0.39} {'loss': 2.297, 'grad_norm': 1.6021851301193237, 'learning_rate': 3.4851298222728393e-06, 'epoch': 0.39} {'loss': 2.492, 'grad_norm': 1.4508349895477295, 'learning_rate': 3.484730553992381e-06, 'epoch': 0.39} {'loss': 1.1299, 'grad_norm': 1.3954308032989502, 'learning_rate': 3.4843312559801846e-06, 'epoch': 0.39} {'loss': 2.1559, 'grad_norm': 1.303883671760559, 'learning_rate': 3.483931928248306e-06, 'epoch': 0.39} {'loss': 2.2512, 'grad_norm': 1.4395354986190796, 'learning_rate': 3.483532570808801e-06, 'epoch': 0.39} {'loss': 2.4151, 'grad_norm': 1.2383042573928833, 'learning_rate': 3.4831331836737274e-06, 'epoch': 0.39} {'loss': 2.4215, 'grad_norm': 1.428794503211975, 'learning_rate': 3.4827337668551454e-06, 'epoch': 0.39} {'loss': 2.1471, 'grad_norm': 2.6186208724975586, 'learning_rate': 3.4823343203651124e-06, 'epoch': 0.39} {'loss': 2.0617, 'grad_norm': 1.2708736658096313, 'learning_rate': 3.4819348442156904e-06, 'epoch': 0.39} {'loss': 2.2002, 'grad_norm': 1.4908573627471924, 'learning_rate': 3.4815353384189392e-06, 'epoch': 0.39} {'loss': 2.2982, 'grad_norm': 3.7129218578338623, 'learning_rate': 3.4811358029869226e-06, 'epoch': 0.39} {'loss': 2.3759, 'grad_norm': 1.3782280683517456, 'learning_rate': 3.480736237931703e-06, 'epoch': 0.39} {'loss': 2.1363, 'grad_norm': 1.4626001119613647, 'learning_rate': 3.4803366432653437e-06, 'epoch': 0.39} {'loss': 2.303, 'grad_norm': 2.7958905696868896, 'learning_rate': 3.4799370189999103e-06, 'epoch': 0.39} {'loss': 2.1752, 'grad_norm': 1.4497624635696411, 'learning_rate': 3.4795373651474682e-06, 'epoch': 0.39} {'loss': 2.2695, 'grad_norm': 2.1683902740478516, 'learning_rate': 3.4791376817200852e-06, 'epoch': 0.39} {'loss': 2.0207, 'grad_norm': 1.5292627811431885, 'learning_rate': 3.4787379687298272e-06, 'epoch': 0.39} {'loss': 2.4827, 'grad_norm': 1.548232078552246, 'learning_rate': 3.478338226188764e-06, 'epoch': 0.39} {'loss': 2.2881, 'grad_norm': 1.8815807104110718, 'learning_rate': 3.477938454108963e-06, 'epoch': 0.39} {'loss': 2.3479, 'grad_norm': 1.5939007997512817, 'learning_rate': 3.477538652502496e-06, 'epoch': 0.39} {'loss': 2.1518, 'grad_norm': 1.4147379398345947, 'learning_rate': 3.477138821381435e-06, 'epoch': 0.39} {'loss': 2.2396, 'grad_norm': 1.8029663562774658, 'learning_rate': 3.4767389607578505e-06, 'epoch': 0.39} {'loss': 2.5083, 'grad_norm': 1.4443937540054321, 'learning_rate': 3.476339070643815e-06, 'epoch': 0.39} {'loss': 2.3777, 'grad_norm': 1.5967910289764404, 'learning_rate': 3.4759391510514033e-06, 'epoch': 0.39} {'loss': 1.2919, 'grad_norm': 1.6211133003234863, 'learning_rate': 3.47553920199269e-06, 'epoch': 0.39} {'loss': 2.0943, 'grad_norm': 1.2137641906738281, 'learning_rate': 3.4751392234797502e-06, 'epoch': 0.39} {'loss': 2.3574, 'grad_norm': 1.4714586734771729, 'learning_rate': 3.474739215524661e-06, 'epoch': 0.39} {'loss': 2.3111, 'grad_norm': 1.5231130123138428, 'learning_rate': 3.474339178139499e-06, 'epoch': 0.39} {'loss': 2.3927, 'grad_norm': 1.4691166877746582, 'learning_rate': 3.473939111336343e-06, 'epoch': 0.39} {'loss': 2.2552, 'grad_norm': 1.3635526895523071, 'learning_rate': 3.473539015127272e-06, 'epoch': 0.39} {'loss': 2.3011, 'grad_norm': 1.2967535257339478, 'learning_rate': 3.4731388895243657e-06, 'epoch': 0.39} {'loss': 2.4466, 'grad_norm': 1.4698660373687744, 'learning_rate': 3.4727387345397056e-06, 'epoch': 0.39} {'loss': 2.2651, 'grad_norm': 1.3985228538513184, 'learning_rate': 3.472338550185373e-06, 'epoch': 0.39} {'loss': 2.3039, 'grad_norm': 1.4881538152694702, 'learning_rate': 3.4719383364734507e-06, 'epoch': 0.39} {'loss': 2.2636, 'grad_norm': 1.590765357017517, 'learning_rate': 3.471538093416022e-06, 'epoch': 0.39} {'loss': 2.257, 'grad_norm': 1.441636085510254, 'learning_rate': 3.4711378210251717e-06, 'epoch': 0.39} {'loss': 2.3429, 'grad_norm': 1.5992588996887207, 'learning_rate': 3.470737519312985e-06, 'epoch': 0.39} {'loss': 2.3073, 'grad_norm': 1.486020565032959, 'learning_rate': 3.470337188291548e-06, 'epoch': 0.39} {'loss': 1.8606, 'grad_norm': 1.2677648067474365, 'learning_rate': 3.469936827972949e-06, 'epoch': 0.39} {'loss': 1.7889, 'grad_norm': 1.332586646080017, 'learning_rate': 3.4695364383692744e-06, 'epoch': 0.39} {'loss': 2.4753, 'grad_norm': 1.4693282842636108, 'learning_rate': 3.4691360194926126e-06, 'epoch': 0.39} {'loss': 2.3775, 'grad_norm': 1.2926071882247925, 'learning_rate': 3.4687355713550554e-06, 'epoch': 0.39} {'loss': 2.2395, 'grad_norm': 1.4810293912887573, 'learning_rate': 3.4683350939686915e-06, 'epoch': 0.39} {'loss': 2.3016, 'grad_norm': 1.529138207435608, 'learning_rate': 3.4679345873456145e-06, 'epoch': 0.39} {'loss': 2.4252, 'grad_norm': 1.41195809841156, 'learning_rate': 3.467534051497915e-06, 'epoch': 0.39} {'loss': 2.1969, 'grad_norm': 1.3483872413635254, 'learning_rate': 3.4671334864376873e-06, 'epoch': 0.39} {'loss': 2.2849, 'grad_norm': 1.344193458557129, 'learning_rate': 3.4667328921770245e-06, 'epoch': 0.39} {'loss': 2.4312, 'grad_norm': 1.4456509351730347, 'learning_rate': 3.4663322687280226e-06, 'epoch': 0.39} {'loss': 2.4829, 'grad_norm': 1.5548014640808105, 'learning_rate': 3.4659316161027773e-06, 'epoch': 0.39} {'loss': 2.2352, 'grad_norm': 1.5027053356170654, 'learning_rate': 3.465530934313385e-06, 'epoch': 0.39} {'loss': 2.1163, 'grad_norm': 3.839831829071045, 'learning_rate': 3.465130223371944e-06, 'epoch': 0.39} {'loss': 2.4682, 'grad_norm': 1.6617968082427979, 'learning_rate': 3.464729483290553e-06, 'epoch': 0.39} {'loss': 2.1059, 'grad_norm': 1.496253252029419, 'learning_rate': 3.4643287140813103e-06, 'epoch': 0.39} {'loss': 1.3296, 'grad_norm': 1.4874473810195923, 'learning_rate': 3.4639279157563175e-06, 'epoch': 0.39} {'loss': 2.0903, 'grad_norm': 1.3531092405319214, 'learning_rate': 3.463527088327675e-06, 'epoch': 0.39} {'loss': 2.3062, 'grad_norm': 1.355104923248291, 'learning_rate': 3.463126231807486e-06, 'epoch': 0.39} {'loss': 2.4558, 'grad_norm': 1.432108759880066, 'learning_rate': 3.4627253462078523e-06, 'epoch': 0.39} {'loss': 2.3895, 'grad_norm': 1.5918198823928833, 'learning_rate': 3.4623244315408776e-06, 'epoch': 0.39} {'loss': 2.322, 'grad_norm': 1.4952020645141602, 'learning_rate': 3.4619234878186675e-06, 'epoch': 0.39} {'loss': 2.0878, 'grad_norm': 1.8664504289627075, 'learning_rate': 3.4615225150533273e-06, 'epoch': 0.39} {'loss': 2.3659, 'grad_norm': 1.5161851644515991, 'learning_rate': 3.4611215132569637e-06, 'epoch': 0.39} {'loss': 2.1271, 'grad_norm': 1.5376198291778564, 'learning_rate': 3.460720482441683e-06, 'epoch': 0.39} {'loss': 2.2242, 'grad_norm': 1.447488784790039, 'learning_rate': 3.4603194226195945e-06, 'epoch': 0.39} {'loss': 2.0151, 'grad_norm': 1.2295221090316772, 'learning_rate': 3.459918333802807e-06, 'epoch': 0.39} {'loss': 2.2307, 'grad_norm': 1.3935548067092896, 'learning_rate': 3.4595172160034303e-06, 'epoch': 0.39} {'loss': 2.4594, 'grad_norm': 9.271126747131348, 'learning_rate': 3.4591160692335763e-06, 'epoch': 0.39} {'loss': 2.2749, 'grad_norm': 1.426344633102417, 'learning_rate': 3.458714893505355e-06, 'epoch': 0.39} {'loss': 2.3526, 'grad_norm': 1.4990466833114624, 'learning_rate': 3.45831368883088e-06, 'epoch': 0.39} {'loss': 2.0441, 'grad_norm': 1.3017239570617676, 'learning_rate': 3.4579124552222648e-06, 'epoch': 0.39} {'loss': 2.3608, 'grad_norm': 1.6340274810791016, 'learning_rate': 3.457511192691624e-06, 'epoch': 0.39} {'loss': 2.223, 'grad_norm': 1.5077391862869263, 'learning_rate': 3.4571099012510717e-06, 'epoch': 0.39} {'loss': 2.2412, 'grad_norm': 1.3759905099868774, 'learning_rate': 3.4567085809127247e-06, 'epoch': 0.39} {'loss': 2.151, 'grad_norm': 1.531803011894226, 'learning_rate': 3.4563072316887004e-06, 'epoch': 0.39} {'loss': 2.2179, 'grad_norm': 1.6430257558822632, 'learning_rate': 3.455905853591116e-06, 'epoch': 0.39} {'loss': 2.2175, 'grad_norm': 1.3189276456832886, 'learning_rate': 3.4555044466320907e-06, 'epoch': 0.39} {'loss': 2.2703, 'grad_norm': 1.5562074184417725, 'learning_rate': 3.4551030108237436e-06, 'epoch': 0.39} {'loss': 2.24, 'grad_norm': 1.5531412363052368, 'learning_rate': 3.454701546178195e-06, 'epoch': 0.39} {'loss': 2.4466, 'grad_norm': 2.4246249198913574, 'learning_rate': 3.4543000527075676e-06, 'epoch': 0.39} {'loss': 2.081, 'grad_norm': 1.5119608640670776, 'learning_rate': 3.4538985304239824e-06, 'epoch': 0.39} {'loss': 2.3607, 'grad_norm': 1.3951529264450073, 'learning_rate': 3.453496979339563e-06, 'epoch': 0.39} {'loss': 2.468, 'grad_norm': 1.4397295713424683, 'learning_rate': 3.4530953994664318e-06, 'epoch': 0.39} {'loss': 2.2991, 'grad_norm': 1.3314844369888306, 'learning_rate': 3.4526937908167152e-06, 'epoch': 0.39} {'loss': 2.352, 'grad_norm': 1.6063385009765625, 'learning_rate': 3.452292153402539e-06, 'epoch': 0.39} {'loss': 1.5004, 'grad_norm': 1.3501405715942383, 'learning_rate': 3.4518904872360294e-06, 'epoch': 0.39} {'loss': 2.3556, 'grad_norm': 1.5808645486831665, 'learning_rate': 3.451488792329313e-06, 'epoch': 0.39} {'loss': 2.1705, 'grad_norm': 1.4042527675628662, 'learning_rate': 3.4510870686945196e-06, 'epoch': 0.39} {'loss': 2.0799, 'grad_norm': 3.3535189628601074, 'learning_rate': 3.4506853163437763e-06, 'epoch': 0.4} {'loss': 2.1775, 'grad_norm': 2.187772035598755, 'learning_rate': 3.4502835352892155e-06, 'epoch': 0.4} {'loss': 2.498, 'grad_norm': 5.594254493713379, 'learning_rate': 3.449881725542966e-06, 'epoch': 0.4} {'loss': 2.1131, 'grad_norm': 1.5532408952713013, 'learning_rate': 3.449479887117161e-06, 'epoch': 0.4} {'loss': 2.2678, 'grad_norm': 1.3053195476531982, 'learning_rate': 3.4490780200239325e-06, 'epoch': 0.4} {'loss': 2.3206, 'grad_norm': 1.3898929357528687, 'learning_rate': 3.448676124275414e-06, 'epoch': 0.4} {'loss': 2.4136, 'grad_norm': 1.4463444948196411, 'learning_rate': 3.4482741998837393e-06, 'epoch': 0.4} {'loss': 2.2684, 'grad_norm': 1.3392775058746338, 'learning_rate': 3.447872246861045e-06, 'epoch': 0.4} {'loss': 1.6364, 'grad_norm': 1.6284980773925781, 'learning_rate': 3.447470265219466e-06, 'epoch': 0.4} {'loss': 2.4039, 'grad_norm': 1.4342169761657715, 'learning_rate': 3.447068254971139e-06, 'epoch': 0.4} {'loss': 2.5615, 'grad_norm': 1.5769048929214478, 'learning_rate': 3.4466662161282033e-06, 'epoch': 0.4} {'loss': 2.2283, 'grad_norm': 1.2215602397918701, 'learning_rate': 3.4462641487027963e-06, 'epoch': 0.4} {'loss': 2.4942, 'grad_norm': 1.3421862125396729, 'learning_rate': 3.445862052707058e-06, 'epoch': 0.4} {'loss': 2.4582, 'grad_norm': 1.596993088722229, 'learning_rate': 3.4454599281531285e-06, 'epoch': 0.4} {'loss': 1.9542, 'grad_norm': 1.7352863550186157, 'learning_rate': 3.44505777505315e-06, 'epoch': 0.4} {'loss': 2.187, 'grad_norm': 1.6325647830963135, 'learning_rate': 3.4446555934192627e-06, 'epoch': 0.4} {'loss': 2.1249, 'grad_norm': 1.735583782196045, 'learning_rate': 3.4442533832636104e-06, 'epoch': 0.4} {'loss': 2.2085, 'grad_norm': 1.5095182657241821, 'learning_rate': 3.4438511445983386e-06, 'epoch': 0.4} {'loss': 2.2829, 'grad_norm': 1.5327881574630737, 'learning_rate': 3.44344887743559e-06, 'epoch': 0.4} {'loss': 2.2368, 'grad_norm': 1.359908938407898, 'learning_rate': 3.4430465817875113e-06, 'epoch': 0.4} {'loss': 2.3483, 'grad_norm': 1.4082549810409546, 'learning_rate': 3.442644257666248e-06, 'epoch': 0.4} {'loss': 2.2401, 'grad_norm': 1.375734567642212, 'learning_rate': 3.442241905083948e-06, 'epoch': 0.4} {'loss': 2.053, 'grad_norm': 1.3262296915054321, 'learning_rate': 3.441839524052759e-06, 'epoch': 0.4} {'loss': 2.1631, 'grad_norm': 1.6107803583145142, 'learning_rate': 3.44143711458483e-06, 'epoch': 0.4} {'loss': 2.3476, 'grad_norm': 1.3062028884887695, 'learning_rate': 3.4410346766923115e-06, 'epoch': 0.4} {'loss': 2.2416, 'grad_norm': 1.3485711812973022, 'learning_rate': 3.4406322103873536e-06, 'epoch': 0.4} {'loss': 2.0929, 'grad_norm': 2.5527873039245605, 'learning_rate': 3.4402297156821084e-06, 'epoch': 0.4} {'loss': 2.2625, 'grad_norm': 3.13289737701416, 'learning_rate': 3.4398271925887273e-06, 'epoch': 0.4} {'loss': 2.2119, 'grad_norm': 1.4152448177337646, 'learning_rate': 3.439424641119365e-06, 'epoch': 0.4} {'loss': 2.3819, 'grad_norm': 1.6828807592391968, 'learning_rate': 3.4390220612861746e-06, 'epoch': 0.4} {'loss': 2.1818, 'grad_norm': 1.5212030410766602, 'learning_rate': 3.4386194531013116e-06, 'epoch': 0.4} {'loss': 2.3011, 'grad_norm': 1.529909610748291, 'learning_rate': 3.4382168165769315e-06, 'epoch': 0.4} {'loss': 2.4296, 'grad_norm': 1.5092853307724, 'learning_rate': 3.4378141517251916e-06, 'epoch': 0.4} {'loss': 2.1996, 'grad_norm': 3.7360005378723145, 'learning_rate': 3.4374114585582487e-06, 'epoch': 0.4} {'loss': 2.1051, 'grad_norm': 1.490601658821106, 'learning_rate': 3.4370087370882614e-06, 'epoch': 0.4} {'loss': 2.2666, 'grad_norm': 1.4878822565078735, 'learning_rate': 3.4366059873273893e-06, 'epoch': 0.4} {'loss': 2.4256, 'grad_norm': 1.2487239837646484, 'learning_rate': 3.4362032092877933e-06, 'epoch': 0.4} {'loss': 1.6087, 'grad_norm': 1.3302043676376343, 'learning_rate': 3.4358004029816326e-06, 'epoch': 0.4} {'loss': 2.4354, 'grad_norm': 2.5361077785491943, 'learning_rate': 3.43539756842107e-06, 'epoch': 0.4} {'loss': 1.9906, 'grad_norm': 2.808790922164917, 'learning_rate': 3.4349947056182675e-06, 'epoch': 0.4} {'loss': 1.883, 'grad_norm': 1.4232245683670044, 'learning_rate': 3.4345918145853894e-06, 'epoch': 0.4} {'loss': 2.4043, 'grad_norm': 1.3380852937698364, 'learning_rate': 3.4341888953346015e-06, 'epoch': 0.4} {'loss': 2.3098, 'grad_norm': 1.4475769996643066, 'learning_rate': 3.433785947878066e-06, 'epoch': 0.4} {'loss': 2.534, 'grad_norm': 1.607069492340088, 'learning_rate': 3.433382972227951e-06, 'epoch': 0.4} {'loss': 2.3063, 'grad_norm': 1.307146430015564, 'learning_rate': 3.4329799683964226e-06, 'epoch': 0.4} {'loss': 2.1433, 'grad_norm': 1.4113075733184814, 'learning_rate': 3.4325769363956484e-06, 'epoch': 0.4} {'loss': 2.031, 'grad_norm': 1.3985209465026855, 'learning_rate': 3.4321738762377986e-06, 'epoch': 0.4} {'loss': 1.8225, 'grad_norm': 1.2658993005752563, 'learning_rate': 3.4317707879350413e-06, 'epoch': 0.4} {'loss': 2.3328, 'grad_norm': 1.510581374168396, 'learning_rate': 3.431367671499547e-06, 'epoch': 0.4} {'loss': 1.9172, 'grad_norm': 1.2582894563674927, 'learning_rate': 3.4309645269434877e-06, 'epoch': 0.4} {'loss': 2.3411, 'grad_norm': 1.4866788387298584, 'learning_rate': 3.430561354279034e-06, 'epoch': 0.4} {'loss': 2.2161, 'grad_norm': 1.5098133087158203, 'learning_rate': 3.4301581535183604e-06, 'epoch': 0.4} {'loss': 2.3822, 'grad_norm': 1.553486704826355, 'learning_rate': 3.4297549246736395e-06, 'epoch': 0.4} {'loss': 2.0605, 'grad_norm': 1.484671950340271, 'learning_rate': 3.4293516677570465e-06, 'epoch': 0.4} {'loss': 2.1675, 'grad_norm': 1.3867870569229126, 'learning_rate': 3.4289483827807576e-06, 'epoch': 0.4} {'loss': 2.1363, 'grad_norm': 1.152915596961975, 'learning_rate': 3.4285450697569465e-06, 'epoch': 0.4} {'loss': 2.317, 'grad_norm': 1.4852628707885742, 'learning_rate': 3.4281417286977925e-06, 'epoch': 0.4} {'loss': 2.105, 'grad_norm': 1.347629427909851, 'learning_rate': 3.4277383596154733e-06, 'epoch': 0.4} {'loss': 2.0554, 'grad_norm': 1.7537912130355835, 'learning_rate': 3.427334962522168e-06, 'epoch': 0.4} {'loss': 2.1169, 'grad_norm': 1.1652344465255737, 'learning_rate': 3.426931537430055e-06, 'epoch': 0.4} {'loss': 2.274, 'grad_norm': 1.3884693384170532, 'learning_rate': 3.426528084351316e-06, 'epoch': 0.4} {'loss': 2.3763, 'grad_norm': 1.4728822708129883, 'learning_rate': 3.4261246032981316e-06, 'epoch': 0.4} {'loss': 2.3619, 'grad_norm': 1.677062749862671, 'learning_rate': 3.4257210942826834e-06, 'epoch': 0.4} {'loss': 1.7408, 'grad_norm': 3.6332273483276367, 'learning_rate': 3.425317557317157e-06, 'epoch': 0.4} {'loss': 2.0613, 'grad_norm': 1.4751925468444824, 'learning_rate': 3.424913992413734e-06, 'epoch': 0.4} {'loss': 2.2094, 'grad_norm': 1.5289349555969238, 'learning_rate': 3.4245103995846007e-06, 'epoch': 0.4} {'loss': 2.1362, 'grad_norm': 1.27696692943573, 'learning_rate': 3.424106778841941e-06, 'epoch': 0.4} {'loss': 2.1734, 'grad_norm': 1.4952375888824463, 'learning_rate': 3.4237031301979423e-06, 'epoch': 0.4} {'loss': 2.5475, 'grad_norm': 1.5706937313079834, 'learning_rate': 3.4232994536647916e-06, 'epoch': 0.4} {'loss': 2.3701, 'grad_norm': 1.3397984504699707, 'learning_rate': 3.422895749254677e-06, 'epoch': 0.4} {'loss': 2.2498, 'grad_norm': 1.4047380685806274, 'learning_rate': 3.422492016979788e-06, 'epoch': 0.4} {'loss': 1.7256, 'grad_norm': 1.2038965225219727, 'learning_rate': 3.4220882568523138e-06, 'epoch': 0.4} {'loss': 2.096, 'grad_norm': 1.409570336341858, 'learning_rate': 3.4216844688844453e-06, 'epoch': 0.4} {'loss': 2.2333, 'grad_norm': 2.046546220779419, 'learning_rate': 3.421280653088374e-06, 'epoch': 0.4} {'loss': 2.1674, 'grad_norm': 1.4572309255599976, 'learning_rate': 3.420876809476292e-06, 'epoch': 0.4} {'loss': 2.296, 'grad_norm': 2.4748358726501465, 'learning_rate': 3.420472938060392e-06, 'epoch': 0.4} {'loss': 2.4913, 'grad_norm': 1.4636505842208862, 'learning_rate': 3.42006903885287e-06, 'epoch': 0.4} {'loss': 2.151, 'grad_norm': 1.2301338911056519, 'learning_rate': 3.4196651118659186e-06, 'epoch': 0.4} {'loss': 2.2372, 'grad_norm': 1.458539366722107, 'learning_rate': 3.4192611571117334e-06, 'epoch': 0.4} {'loss': 2.2278, 'grad_norm': 1.2747623920440674, 'learning_rate': 3.418857174602512e-06, 'epoch': 0.4} {'loss': 2.4647, 'grad_norm': 1.5987961292266846, 'learning_rate': 3.4184531643504526e-06, 'epoch': 0.4} {'loss': 2.0855, 'grad_norm': 1.1756842136383057, 'learning_rate': 3.418049126367752e-06, 'epoch': 0.4} {'loss': 2.2232, 'grad_norm': 1.3360310792922974, 'learning_rate': 3.417645060666609e-06, 'epoch': 0.4} {'loss': 2.0577, 'grad_norm': 1.211004614830017, 'learning_rate': 3.4172409672592244e-06, 'epoch': 0.4} {'loss': 2.0818, 'grad_norm': 1.227432370185852, 'learning_rate': 3.4168368461577977e-06, 'epoch': 0.4} {'loss': 2.0604, 'grad_norm': 1.5853517055511475, 'learning_rate': 3.4164326973745325e-06, 'epoch': 0.4} {'loss': 2.3429, 'grad_norm': 1.4175564050674438, 'learning_rate': 3.416028520921629e-06, 'epoch': 0.4} {'loss': 2.3601, 'grad_norm': 1.5144730806350708, 'learning_rate': 3.4156243168112916e-06, 'epoch': 0.4} {'loss': 2.4009, 'grad_norm': 1.4915977716445923, 'learning_rate': 3.4152200850557244e-06, 'epoch': 0.4} {'loss': 2.4007, 'grad_norm': 1.5717787742614746, 'learning_rate': 3.4148158256671316e-06, 'epoch': 0.4} {'loss': 2.1811, 'grad_norm': 1.5570484399795532, 'learning_rate': 3.4144115386577185e-06, 'epoch': 0.4} {'loss': 2.0619, 'grad_norm': 1.4607923030853271, 'learning_rate': 3.414007224039693e-06, 'epoch': 0.4} {'loss': 2.5495, 'grad_norm': 1.3961716890335083, 'learning_rate': 3.413602881825262e-06, 'epoch': 0.4} {'loss': 2.0894, 'grad_norm': 1.533799409866333, 'learning_rate': 3.4131985120266336e-06, 'epoch': 0.4} {'loss': 2.4487, 'grad_norm': 1.5276317596435547, 'learning_rate': 3.4127941146560175e-06, 'epoch': 0.4} {'loss': 2.1612, 'grad_norm': 1.4449228048324585, 'learning_rate': 3.412389689725621e-06, 'epoch': 0.4} {'loss': 2.3363, 'grad_norm': 1.5516074895858765, 'learning_rate': 3.4119852372476574e-06, 'epoch': 0.4} {'loss': 2.6522, 'grad_norm': 1.56174898147583, 'learning_rate': 3.411580757234338e-06, 'epoch': 0.4} {'loss': 2.26, 'grad_norm': 1.8166316747665405, 'learning_rate': 3.4111762496978753e-06, 'epoch': 0.4} {'loss': 2.1689, 'grad_norm': 1.4163415431976318, 'learning_rate': 3.4107717146504803e-06, 'epoch': 0.4} {'loss': 1.9962, 'grad_norm': 1.4427788257598877, 'learning_rate': 3.4103671521043696e-06, 'epoch': 0.4} {'loss': 2.422, 'grad_norm': 1.3007259368896484, 'learning_rate': 3.4099625620717563e-06, 'epoch': 0.4} {'loss': 2.3569, 'grad_norm': 1.2962175607681274, 'learning_rate': 3.409557944564858e-06, 'epoch': 0.4} {'loss': 2.354, 'grad_norm': 1.464599847793579, 'learning_rate': 3.4091532995958894e-06, 'epoch': 0.4} {'loss': 2.2893, 'grad_norm': 1.4053866863250732, 'learning_rate': 3.408748627177069e-06, 'epoch': 0.4} {'loss': 1.7354, 'grad_norm': 1.105279803276062, 'learning_rate': 3.4083439273206137e-06, 'epoch': 0.4} {'loss': 2.2226, 'grad_norm': 1.471537470817566, 'learning_rate': 3.4079392000387436e-06, 'epoch': 0.4} {'loss': 2.1306, 'grad_norm': 1.4939988851547241, 'learning_rate': 3.407534445343679e-06, 'epoch': 0.4} {'loss': 2.2524, 'grad_norm': 1.616015076637268, 'learning_rate': 3.407129663247639e-06, 'epoch': 0.4} {'loss': 2.382, 'grad_norm': 1.290217399597168, 'learning_rate': 3.406724853762846e-06, 'epoch': 0.4} {'loss': 2.406, 'grad_norm': 1.5881755352020264, 'learning_rate': 3.4063200169015227e-06, 'epoch': 0.4} {'loss': 1.936, 'grad_norm': 1.1372253894805908, 'learning_rate': 3.4059151526758914e-06, 'epoch': 0.4} {'loss': 2.2963, 'grad_norm': 1.8968067169189453, 'learning_rate': 3.4055102610981767e-06, 'epoch': 0.4} {'loss': 2.3009, 'grad_norm': 1.5871440172195435, 'learning_rate': 3.405105342180603e-06, 'epoch': 0.4} {'loss': 2.4279, 'grad_norm': 1.1983741521835327, 'learning_rate': 3.404700395935396e-06, 'epoch': 0.4} {'loss': 2.4014, 'grad_norm': 1.5429797172546387, 'learning_rate': 3.404295422374782e-06, 'epoch': 0.4} {'loss': 2.1768, 'grad_norm': 1.3577243089675903, 'learning_rate': 3.4038904215109896e-06, 'epoch': 0.4} {'loss': 2.1774, 'grad_norm': 1.332977056503296, 'learning_rate': 3.4034853933562446e-06, 'epoch': 0.4} {'loss': 2.2646, 'grad_norm': 1.4717929363250732, 'learning_rate': 3.4030803379227774e-06, 'epoch': 0.4} {'loss': 2.3591, 'grad_norm': 1.477283239364624, 'learning_rate': 3.4026752552228177e-06, 'epoch': 0.4} {'loss': 2.2853, 'grad_norm': 1.546702265739441, 'learning_rate': 3.402270145268596e-06, 'epoch': 0.4} {'loss': 2.1788, 'grad_norm': 1.509535551071167, 'learning_rate': 3.401865008072343e-06, 'epoch': 0.4} {'loss': 2.1981, 'grad_norm': 1.5168423652648926, 'learning_rate': 3.401459843646292e-06, 'epoch': 0.4} {'loss': 1.8678, 'grad_norm': 1.4292051792144775, 'learning_rate': 3.401054652002675e-06, 'epoch': 0.4} {'loss': 2.2016, 'grad_norm': 1.4719046354293823, 'learning_rate': 3.4006494331537252e-06, 'epoch': 0.4} {'loss': 2.2358, 'grad_norm': 1.6790062189102173, 'learning_rate': 3.4002441871116804e-06, 'epoch': 0.4} {'loss': 2.1205, 'grad_norm': 1.405478835105896, 'learning_rate': 3.399838913888773e-06, 'epoch': 0.4} {'loss': 2.0567, 'grad_norm': 1.6698098182678223, 'learning_rate': 3.3994336134972412e-06, 'epoch': 0.4} {'loss': 2.2226, 'grad_norm': 1.4686812162399292, 'learning_rate': 3.3990282859493206e-06, 'epoch': 0.4} {'loss': 2.5223, 'grad_norm': 1.5111911296844482, 'learning_rate': 3.39862293125725e-06, 'epoch': 0.4} {'loss': 2.2462, 'grad_norm': 4.578327655792236, 'learning_rate': 3.398217549433268e-06, 'epoch': 0.4} {'loss': 2.3701, 'grad_norm': 1.5742160081863403, 'learning_rate': 3.3978121404896146e-06, 'epoch': 0.4} {'loss': 2.4602, 'grad_norm': 1.4247606992721558, 'learning_rate': 3.39740670443853e-06, 'epoch': 0.4} {'loss': 2.1743, 'grad_norm': 1.529578447341919, 'learning_rate': 3.3970012412922556e-06, 'epoch': 0.4} {'loss': 1.6569, 'grad_norm': 1.650627613067627, 'learning_rate': 3.396595751063032e-06, 'epoch': 0.4} {'loss': 2.1663, 'grad_norm': 1.386601209640503, 'learning_rate': 3.396190233763104e-06, 'epoch': 0.4} {'loss': 2.154, 'grad_norm': 1.3780403137207031, 'learning_rate': 3.395784689404714e-06, 'epoch': 0.4} {'loss': 2.3669, 'grad_norm': 1.818891167640686, 'learning_rate': 3.3953791180001084e-06, 'epoch': 0.4} {'loss': 2.3535, 'grad_norm': 1.827765703201294, 'learning_rate': 3.3949735195615306e-06, 'epoch': 0.4} {'loss': 2.1786, 'grad_norm': 1.3586678504943848, 'learning_rate': 3.394567894101227e-06, 'epoch': 0.4} {'loss': 2.0661, 'grad_norm': 1.4847569465637207, 'learning_rate': 3.3941622416314446e-06, 'epoch': 0.4} {'loss': 2.1146, 'grad_norm': 1.4962503910064697, 'learning_rate': 3.3937565621644313e-06, 'epoch': 0.4} {'loss': 2.5062, 'grad_norm': 1.504928708076477, 'learning_rate': 3.3933508557124374e-06, 'epoch': 0.4} {'loss': 2.0391, 'grad_norm': 2.125558853149414, 'learning_rate': 3.3929451222877093e-06, 'epoch': 0.4} {'loss': 2.2809, 'grad_norm': 1.6432536840438843, 'learning_rate': 3.392539361902499e-06, 'epoch': 0.4} {'loss': 1.9944, 'grad_norm': 1.2858083248138428, 'learning_rate': 3.392133574569057e-06, 'epoch': 0.4} {'loss': 2.485, 'grad_norm': 1.3511453866958618, 'learning_rate': 3.3917277602996345e-06, 'epoch': 0.4} {'loss': 2.083, 'grad_norm': 1.3478076457977295, 'learning_rate': 3.3913219191064865e-06, 'epoch': 0.4} {'loss': 2.3533, 'grad_norm': 1.4356874227523804, 'learning_rate': 3.3909160510018646e-06, 'epoch': 0.4} {'loss': 2.1983, 'grad_norm': 1.6104116439819336, 'learning_rate': 3.390510155998023e-06, 'epoch': 0.4} {'loss': 1.9892, 'grad_norm': 1.0795238018035889, 'learning_rate': 3.3901042341072177e-06, 'epoch': 0.4} {'loss': 2.2433, 'grad_norm': 1.231153130531311, 'learning_rate': 3.3896982853417036e-06, 'epoch': 0.4} {'loss': 2.425, 'grad_norm': 1.5930166244506836, 'learning_rate': 3.389292309713738e-06, 'epoch': 0.4} {'loss': 2.2685, 'grad_norm': 1.5709879398345947, 'learning_rate': 3.3888863072355783e-06, 'epoch': 0.4} {'loss': 2.5411, 'grad_norm': 1.2763164043426514, 'learning_rate': 3.3884802779194832e-06, 'epoch': 0.4} {'loss': 1.3069, 'grad_norm': 2.128333330154419, 'learning_rate': 3.388074221777712e-06, 'epoch': 0.4} {'loss': 2.4523, 'grad_norm': 1.97826087474823, 'learning_rate': 3.3876681388225236e-06, 'epoch': 0.4} {'loss': 2.2728, 'grad_norm': 1.7515946626663208, 'learning_rate': 3.3872620290661782e-06, 'epoch': 0.4} {'loss': 2.2886, 'grad_norm': 1.4875638484954834, 'learning_rate': 3.38685589252094e-06, 'epoch': 0.4} {'loss': 2.306, 'grad_norm': 1.4930124282836914, 'learning_rate': 3.3864497291990694e-06, 'epoch': 0.4} {'loss': 2.2947, 'grad_norm': 1.3744115829467773, 'learning_rate': 3.386043539112831e-06, 'epoch': 0.4} {'loss': 2.3288, 'grad_norm': 2.2550251483917236, 'learning_rate': 3.385637322274487e-06, 'epoch': 0.4} {'loss': 2.338, 'grad_norm': 1.306441307067871, 'learning_rate': 3.385231078696304e-06, 'epoch': 0.4} {'loss': 2.2098, 'grad_norm': 2.4246315956115723, 'learning_rate': 3.384824808390545e-06, 'epoch': 0.4} {'loss': 2.1542, 'grad_norm': 1.5084997415542603, 'learning_rate': 3.38441851136948e-06, 'epoch': 0.4} {'loss': 2.3378, 'grad_norm': 1.4134807586669922, 'learning_rate': 3.3840121876453734e-06, 'epoch': 0.4} {'loss': 2.3679, 'grad_norm': 1.4803353548049927, 'learning_rate': 3.3836058372304946e-06, 'epoch': 0.4} {'loss': 2.1995, 'grad_norm': 1.522688627243042, 'learning_rate': 3.383199460137112e-06, 'epoch': 0.4} {'loss': 2.1904, 'grad_norm': 1.442228078842163, 'learning_rate': 3.3827930563774953e-06, 'epoch': 0.4} {'loss': 2.2515, 'grad_norm': 1.3704488277435303, 'learning_rate': 3.3823866259639147e-06, 'epoch': 0.4} {'loss': 2.2476, 'grad_norm': 1.6657888889312744, 'learning_rate': 3.3819801689086423e-06, 'epoch': 0.4} {'loss': 2.3177, 'grad_norm': 1.3897005319595337, 'learning_rate': 3.3815736852239493e-06, 'epoch': 0.4} {'loss': 2.0496, 'grad_norm': 1.48407781124115, 'learning_rate': 3.3811671749221085e-06, 'epoch': 0.4} {'loss': 2.1636, 'grad_norm': 1.4731385707855225, 'learning_rate': 3.3807606380153944e-06, 'epoch': 0.4} {'loss': 2.0581, 'grad_norm': 1.4066170454025269, 'learning_rate': 3.3803540745160814e-06, 'epoch': 0.4} {'loss': 2.0066, 'grad_norm': 1.328715205192566, 'learning_rate': 3.379947484436444e-06, 'epoch': 0.4} {'loss': 1.6995, 'grad_norm': 1.4667611122131348, 'learning_rate': 3.3795408677887585e-06, 'epoch': 0.4} {'loss': 2.2674, 'grad_norm': 1.391870379447937, 'learning_rate': 3.379134224585302e-06, 'epoch': 0.4} {'loss': 2.17, 'grad_norm': 1.5465041399002075, 'learning_rate': 3.3787275548383523e-06, 'epoch': 0.4} {'loss': 2.1799, 'grad_norm': 3.9669153690338135, 'learning_rate': 3.3783208585601878e-06, 'epoch': 0.4} {'loss': 2.4418, 'grad_norm': 1.6726735830307007, 'learning_rate': 3.3779141357630873e-06, 'epoch': 0.4} {'loss': 2.3445, 'grad_norm': 1.379836082458496, 'learning_rate': 3.3775073864593317e-06, 'epoch': 0.4} {'loss': 1.9567, 'grad_norm': 1.3272500038146973, 'learning_rate': 3.3771006106612012e-06, 'epoch': 0.4} {'loss': 2.224, 'grad_norm': 1.461116075515747, 'learning_rate': 3.3766938083809787e-06, 'epoch': 0.4} {'loss': 2.2339, 'grad_norm': 1.4799610376358032, 'learning_rate': 3.3762869796309443e-06, 'epoch': 0.4} {'loss': 2.081, 'grad_norm': 1.823141098022461, 'learning_rate': 3.375880124423383e-06, 'epoch': 0.4} {'loss': 2.3284, 'grad_norm': 1.5919840335845947, 'learning_rate': 3.3754732427705796e-06, 'epoch': 0.4} {'loss': 2.2281, 'grad_norm': 3.5296430587768555, 'learning_rate': 3.3750663346848174e-06, 'epoch': 0.41} {'loss': 2.2486, 'grad_norm': 1.6460238695144653, 'learning_rate': 3.3746594001783823e-06, 'epoch': 0.41} {'loss': 2.25, 'grad_norm': 1.3393707275390625, 'learning_rate': 3.374252439263562e-06, 'epoch': 0.41} {'loss': 2.4204, 'grad_norm': 1.4936153888702393, 'learning_rate': 3.373845451952642e-06, 'epoch': 0.41} {'loss': 2.3366, 'grad_norm': 1.5342942476272583, 'learning_rate': 3.3734384382579114e-06, 'epoch': 0.41} {'loss': 2.412, 'grad_norm': 1.2577030658721924, 'learning_rate': 3.3730313981916597e-06, 'epoch': 0.41} {'loss': 2.4456, 'grad_norm': 1.5333271026611328, 'learning_rate': 3.3726243317661756e-06, 'epoch': 0.41} {'loss': 2.3234, 'grad_norm': 1.4399313926696777, 'learning_rate': 3.372217238993749e-06, 'epoch': 0.41} {'loss': 2.0245, 'grad_norm': 1.4879390001296997, 'learning_rate': 3.3718101198866733e-06, 'epoch': 0.41} {'loss': 2.1341, 'grad_norm': 1.3000102043151855, 'learning_rate': 3.371402974457238e-06, 'epoch': 0.41} {'loss': 2.2741, 'grad_norm': 1.5306812524795532, 'learning_rate': 3.3709958027177374e-06, 'epoch': 0.41} {'loss': 2.2515, 'grad_norm': 1.4936784505844116, 'learning_rate': 3.3705886046804653e-06, 'epoch': 0.41} {'loss': 2.2651, 'grad_norm': 1.37185800075531, 'learning_rate': 3.3701813803577153e-06, 'epoch': 0.41} {'loss': 2.3734, 'grad_norm': 1.6048569679260254, 'learning_rate': 3.369774129761784e-06, 'epoch': 0.41} {'loss': 2.236, 'grad_norm': 1.4744781255722046, 'learning_rate': 3.369366852904966e-06, 'epoch': 0.41} {'loss': 2.2058, 'grad_norm': 2.2808406352996826, 'learning_rate': 3.3689595497995576e-06, 'epoch': 0.41} {'loss': 1.5444, 'grad_norm': 2.0545501708984375, 'learning_rate': 3.368552220457858e-06, 'epoch': 0.41} {'loss': 2.3523, 'grad_norm': 2.65175199508667, 'learning_rate': 3.368144864892166e-06, 'epoch': 0.41} {'loss': 2.6231, 'grad_norm': 1.4936425685882568, 'learning_rate': 3.367737483114779e-06, 'epoch': 0.41} {'loss': 2.4131, 'grad_norm': 1.5421500205993652, 'learning_rate': 3.3673300751379976e-06, 'epoch': 0.41} {'loss': 2.2847, 'grad_norm': 1.409574270248413, 'learning_rate': 3.366922640974123e-06, 'epoch': 0.41} {'loss': 2.237, 'grad_norm': 1.5558013916015625, 'learning_rate': 3.3665151806354563e-06, 'epoch': 0.41} {'loss': 2.3032, 'grad_norm': 1.345863938331604, 'learning_rate': 3.3661076941343e-06, 'epoch': 0.41} {'loss': 2.1733, 'grad_norm': 1.4900178909301758, 'learning_rate': 3.365700181482958e-06, 'epoch': 0.41} {'loss': 2.2481, 'grad_norm': 1.6071497201919556, 'learning_rate': 3.3652926426937327e-06, 'epoch': 0.41} {'loss': 1.4653, 'grad_norm': 1.5230313539505005, 'learning_rate': 3.36488507777893e-06, 'epoch': 0.41} {'loss': 2.1149, 'grad_norm': 1.5364099740982056, 'learning_rate': 3.364477486750855e-06, 'epoch': 0.41} {'loss': 2.0467, 'grad_norm': 1.730255126953125, 'learning_rate': 3.3640698696218145e-06, 'epoch': 0.41} {'loss': 2.5828, 'grad_norm': 1.4820847511291504, 'learning_rate': 3.363662226404115e-06, 'epoch': 0.41} {'loss': 2.2528, 'grad_norm': 1.4426065683364868, 'learning_rate': 3.3632545571100637e-06, 'epoch': 0.41} {'loss': 2.1995, 'grad_norm': 1.2756426334381104, 'learning_rate': 3.3628468617519716e-06, 'epoch': 0.41} {'loss': 2.213, 'grad_norm': 1.5102970600128174, 'learning_rate': 3.3624391403421457e-06, 'epoch': 0.41} {'loss': 2.416, 'grad_norm': 1.8728218078613281, 'learning_rate': 3.3620313928928974e-06, 'epoch': 0.41} {'loss': 2.1636, 'grad_norm': 1.3752219676971436, 'learning_rate': 3.361623619416537e-06, 'epoch': 0.41} {'loss': 2.3236, 'grad_norm': 1.741518497467041, 'learning_rate': 3.3612158199253776e-06, 'epoch': 0.41} {'loss': 1.9596, 'grad_norm': 1.4976341724395752, 'learning_rate': 3.3608079944317306e-06, 'epoch': 0.41} {'loss': 2.2726, 'grad_norm': 1.6879020929336548, 'learning_rate': 3.36040014294791e-06, 'epoch': 0.41} {'loss': 2.2602, 'grad_norm': 1.4302918910980225, 'learning_rate': 3.3599922654862298e-06, 'epoch': 0.41} {'loss': 2.2247, 'grad_norm': 1.1676193475723267, 'learning_rate': 3.359584362059004e-06, 'epoch': 0.41} {'loss': 2.3396, 'grad_norm': 1.8063963651657104, 'learning_rate': 3.359176432678551e-06, 'epoch': 0.41} {'loss': 2.332, 'grad_norm': 1.8815983533859253, 'learning_rate': 3.3587684773571843e-06, 'epoch': 0.41} {'loss': 2.0059, 'grad_norm': 1.3747330904006958, 'learning_rate': 3.3583604961072227e-06, 'epoch': 0.41} {'loss': 2.3789, 'grad_norm': 1.6225625276565552, 'learning_rate': 3.357952488940984e-06, 'epoch': 0.41} {'loss': 2.4795, 'grad_norm': 1.3701133728027344, 'learning_rate': 3.357544455870787e-06, 'epoch': 0.41} {'loss': 1.8975, 'grad_norm': 1.9506821632385254, 'learning_rate': 3.3571363969089522e-06, 'epoch': 0.41} {'loss': 2.2944, 'grad_norm': 1.4759584665298462, 'learning_rate': 3.3567283120677984e-06, 'epoch': 0.41} {'loss': 2.0849, 'grad_norm': 1.2033581733703613, 'learning_rate': 3.356320201359648e-06, 'epoch': 0.41} {'loss': 2.1415, 'grad_norm': 1.4414206743240356, 'learning_rate': 3.3559120647968226e-06, 'epoch': 0.41} {'loss': 2.5205, 'grad_norm': 1.4615751504898071, 'learning_rate': 3.3555039023916454e-06, 'epoch': 0.41} {'loss': 2.4952, 'grad_norm': 1.431201457977295, 'learning_rate': 3.3550957141564387e-06, 'epoch': 0.41} {'loss': 2.2898, 'grad_norm': 1.5177161693572998, 'learning_rate': 3.354687500103529e-06, 'epoch': 0.41} {'loss': 2.0673, 'grad_norm': 1.3599438667297363, 'learning_rate': 3.3542792602452397e-06, 'epoch': 0.41} {'loss': 2.2432, 'grad_norm': 1.3038997650146484, 'learning_rate': 3.3538709945938974e-06, 'epoch': 0.41} {'loss': 2.5368, 'grad_norm': 1.5227564573287964, 'learning_rate': 3.353462703161828e-06, 'epoch': 0.41} {'loss': 2.2436, 'grad_norm': 1.3575537204742432, 'learning_rate': 3.353054385961359e-06, 'epoch': 0.41} {'loss': 2.1551, 'grad_norm': 1.6602410078048706, 'learning_rate': 3.3526460430048198e-06, 'epoch': 0.41} {'loss': 2.1708, 'grad_norm': 1.9108518362045288, 'learning_rate': 3.3522376743045383e-06, 'epoch': 0.41} {'loss': 2.1241, 'grad_norm': 1.7338933944702148, 'learning_rate': 3.3518292798728453e-06, 'epoch': 0.41} {'loss': 2.3068, 'grad_norm': 1.503735065460205, 'learning_rate': 3.3514208597220704e-06, 'epoch': 0.41} {'loss': 2.3482, 'grad_norm': 1.5750504732131958, 'learning_rate': 3.351012413864545e-06, 'epoch': 0.41} {'loss': 2.2778, 'grad_norm': 1.4124572277069092, 'learning_rate': 3.350603942312601e-06, 'epoch': 0.41} {'loss': 2.2266, 'grad_norm': 1.5788168907165527, 'learning_rate': 3.350195445078573e-06, 'epoch': 0.41} {'loss': 2.2024, 'grad_norm': 21.42499542236328, 'learning_rate': 3.3497869221747923e-06, 'epoch': 0.41} {'loss': 2.268, 'grad_norm': 1.6068240404129028, 'learning_rate': 3.3493783736135956e-06, 'epoch': 0.41} {'loss': 2.3287, 'grad_norm': 1.790477991104126, 'learning_rate': 3.348969799407316e-06, 'epoch': 0.41} {'loss': 2.4743, 'grad_norm': 1.7950087785720825, 'learning_rate': 3.348561199568291e-06, 'epoch': 0.41} {'loss': 2.212, 'grad_norm': 1.197148323059082, 'learning_rate': 3.348152574108856e-06, 'epoch': 0.41} {'loss': 2.2847, 'grad_norm': 4.587645530700684, 'learning_rate': 3.34774392304135e-06, 'epoch': 0.41} {'loss': 2.1171, 'grad_norm': 1.5636261701583862, 'learning_rate': 3.3473352463781107e-06, 'epoch': 0.41} {'loss': 2.2712, 'grad_norm': 1.6445213556289673, 'learning_rate': 3.3469265441314767e-06, 'epoch': 0.41} {'loss': 2.4348, 'grad_norm': 1.5757290124893188, 'learning_rate': 3.346517816313789e-06, 'epoch': 0.41} {'loss': 2.2598, 'grad_norm': 4.324021339416504, 'learning_rate': 3.3461090629373865e-06, 'epoch': 0.41} {'loss': 2.442, 'grad_norm': 1.5825327634811401, 'learning_rate': 3.3457002840146124e-06, 'epoch': 0.41} {'loss': 2.3365, 'grad_norm': 1.608406901359558, 'learning_rate': 3.3452914795578073e-06, 'epoch': 0.41} {'loss': 2.4942, 'grad_norm': 1.5684659481048584, 'learning_rate': 3.3448826495793163e-06, 'epoch': 0.41} {'loss': 2.2078, 'grad_norm': 1.5089131593704224, 'learning_rate': 3.3444737940914808e-06, 'epoch': 0.41} {'loss': 2.213, 'grad_norm': 1.660137414932251, 'learning_rate': 3.344064913106646e-06, 'epoch': 0.41} {'loss': 2.2405, 'grad_norm': 1.410142183303833, 'learning_rate': 3.343656006637157e-06, 'epoch': 0.41} {'loss': 2.2594, 'grad_norm': 7.652499675750732, 'learning_rate': 3.3432470746953606e-06, 'epoch': 0.41} {'loss': 2.3777, 'grad_norm': 1.4337314367294312, 'learning_rate': 3.342838117293603e-06, 'epoch': 0.41} {'loss': 2.1999, 'grad_norm': 1.6034066677093506, 'learning_rate': 3.3424291344442323e-06, 'epoch': 0.41} {'loss': 2.2189, 'grad_norm': 1.5601093769073486, 'learning_rate': 3.3420201261595966e-06, 'epoch': 0.41} {'loss': 2.3696, 'grad_norm': 1.513320803642273, 'learning_rate': 3.341611092452044e-06, 'epoch': 0.41} {'loss': 2.5343, 'grad_norm': 1.5924516916275024, 'learning_rate': 3.3412020333339257e-06, 'epoch': 0.41} {'loss': 2.3526, 'grad_norm': 1.4033737182617188, 'learning_rate': 3.340792948817591e-06, 'epoch': 0.41} {'loss': 2.1724, 'grad_norm': 6.051878452301025, 'learning_rate': 3.340383838915393e-06, 'epoch': 0.41} {'loss': 2.2591, 'grad_norm': 1.3296301364898682, 'learning_rate': 3.3399747036396823e-06, 'epoch': 0.41} {'loss': 2.4193, 'grad_norm': 1.4115715026855469, 'learning_rate': 3.339565543002813e-06, 'epoch': 0.41} {'loss': 2.2571, 'grad_norm': 1.5323166847229004, 'learning_rate': 3.3391563570171377e-06, 'epoch': 0.41} {'loss': 2.2571, 'grad_norm': 1.2917309999465942, 'learning_rate': 3.3387471456950114e-06, 'epoch': 0.41} {'loss': 2.1974, 'grad_norm': 1.4500638246536255, 'learning_rate': 3.33833790904879e-06, 'epoch': 0.41} {'loss': 2.2067, 'grad_norm': 1.7297306060791016, 'learning_rate': 3.3379286470908283e-06, 'epoch': 0.41} {'loss': 2.2848, 'grad_norm': 1.4964649677276611, 'learning_rate': 3.3375193598334845e-06, 'epoch': 0.41} {'loss': 2.0639, 'grad_norm': 1.371924877166748, 'learning_rate': 3.337110047289114e-06, 'epoch': 0.41} {'loss': 2.0946, 'grad_norm': 1.6524094343185425, 'learning_rate': 3.336700709470076e-06, 'epoch': 0.41} {'loss': 1.9839, 'grad_norm': 1.3813105821609497, 'learning_rate': 3.3362913463887304e-06, 'epoch': 0.41} {'loss': 2.419, 'grad_norm': 2.5401880741119385, 'learning_rate': 3.335881958057437e-06, 'epoch': 0.41} {'loss': 2.2673, 'grad_norm': 1.513715386390686, 'learning_rate': 3.335472544488555e-06, 'epoch': 0.41} {'loss': 2.0995, 'grad_norm': 1.659090280532837, 'learning_rate': 3.335063105694447e-06, 'epoch': 0.41} {'loss': 2.1828, 'grad_norm': 1.4371672868728638, 'learning_rate': 3.3346536416874743e-06, 'epoch': 0.41} {'loss': 2.3104, 'grad_norm': 1.3145729303359985, 'learning_rate': 3.3342441524799994e-06, 'epoch': 0.41} {'loss': 2.0501, 'grad_norm': 1.3534489870071411, 'learning_rate': 3.3338346380843876e-06, 'epoch': 0.41} {'loss': 2.3761, 'grad_norm': 1.5098953247070312, 'learning_rate': 3.3334250985130016e-06, 'epoch': 0.41} {'loss': 2.3035, 'grad_norm': 1.4107753038406372, 'learning_rate': 3.3330155337782077e-06, 'epoch': 0.41} {'loss': 2.1937, 'grad_norm': 1.3889501094818115, 'learning_rate': 3.332605943892371e-06, 'epoch': 0.41} {'loss': 2.1378, 'grad_norm': 1.4140701293945312, 'learning_rate': 3.3321963288678575e-06, 'epoch': 0.41} {'loss': 2.3295, 'grad_norm': 1.585524082183838, 'learning_rate': 3.331786688717037e-06, 'epoch': 0.41} {'loss': 2.1335, 'grad_norm': 1.439028024673462, 'learning_rate': 3.331377023452275e-06, 'epoch': 0.41} {'loss': 2.5123, 'grad_norm': 1.8102279901504517, 'learning_rate': 3.330967333085942e-06, 'epoch': 0.41} {'loss': 2.2753, 'grad_norm': 1.5894087553024292, 'learning_rate': 3.330557617630407e-06, 'epoch': 0.41} {'loss': 2.0705, 'grad_norm': 1.4370474815368652, 'learning_rate': 3.330147877098041e-06, 'epoch': 0.41} {'loss': 2.2054, 'grad_norm': 1.595379114151001, 'learning_rate': 3.329738111501215e-06, 'epoch': 0.41} {'loss': 2.3801, 'grad_norm': 1.5062137842178345, 'learning_rate': 3.3293283208523013e-06, 'epoch': 0.41} {'loss': 2.2148, 'grad_norm': 1.554824709892273, 'learning_rate': 3.328918505163672e-06, 'epoch': 0.41} {'loss': 2.0226, 'grad_norm': 1.4676251411437988, 'learning_rate': 3.3285086644477006e-06, 'epoch': 0.41} {'loss': 2.0365, 'grad_norm': 1.5175234079360962, 'learning_rate': 3.3280987987167614e-06, 'epoch': 0.41} {'loss': 2.058, 'grad_norm': 1.5501763820648193, 'learning_rate': 3.327688907983229e-06, 'epoch': 0.41} {'loss': 1.7755, 'grad_norm': 1.4869688749313354, 'learning_rate': 3.32727899225948e-06, 'epoch': 0.41} {'loss': 2.2693, 'grad_norm': 1.2625278234481812, 'learning_rate': 3.3268690515578906e-06, 'epoch': 0.41} {'loss': 2.281, 'grad_norm': 1.309733510017395, 'learning_rate': 3.3264590858908385e-06, 'epoch': 0.41} {'loss': 2.1583, 'grad_norm': 1.8899695873260498, 'learning_rate': 3.3260490952707e-06, 'epoch': 0.41} {'loss': 2.2088, 'grad_norm': 1.524415135383606, 'learning_rate': 3.325639079709856e-06, 'epoch': 0.41} {'loss': 2.2391, 'grad_norm': 1.2210280895233154, 'learning_rate': 3.325229039220684e-06, 'epoch': 0.41} {'loss': 2.3732, 'grad_norm': 1.4491066932678223, 'learning_rate': 3.3248189738155665e-06, 'epoch': 0.41} {'loss': 2.1939, 'grad_norm': 1.5008517503738403, 'learning_rate': 3.3244088835068828e-06, 'epoch': 0.41} {'loss': 2.3287, 'grad_norm': 2.0484981536865234, 'learning_rate': 3.3239987683070148e-06, 'epoch': 0.41} {'loss': 1.8208, 'grad_norm': 1.4082878828048706, 'learning_rate': 3.3235886282283453e-06, 'epoch': 0.41} {'loss': 2.2845, 'grad_norm': 1.5031461715698242, 'learning_rate': 3.3231784632832577e-06, 'epoch': 0.41} {'loss': 2.2127, 'grad_norm': 1.425111174583435, 'learning_rate': 3.322768273484136e-06, 'epoch': 0.41} {'loss': 2.252, 'grad_norm': 1.3848754167556763, 'learning_rate': 3.3223580588433647e-06, 'epoch': 0.41} {'loss': 2.1153, 'grad_norm': 1.5462273359298706, 'learning_rate': 3.321947819373329e-06, 'epoch': 0.41} {'loss': 2.4652, 'grad_norm': 1.656982660293579, 'learning_rate': 3.3215375550864167e-06, 'epoch': 0.41} {'loss': 2.3127, 'grad_norm': 3.2872684001922607, 'learning_rate': 3.3211272659950134e-06, 'epoch': 0.41} {'loss': 2.537, 'grad_norm': 1.6049373149871826, 'learning_rate': 3.3207169521115067e-06, 'epoch': 0.41} {'loss': 2.28, 'grad_norm': 2.4169623851776123, 'learning_rate': 3.3203066134482858e-06, 'epoch': 0.41} {'loss': 2.2933, 'grad_norm': 1.7265690565109253, 'learning_rate': 3.31989625001774e-06, 'epoch': 0.41} {'loss': 2.2507, 'grad_norm': 1.3791300058364868, 'learning_rate': 3.3194858618322594e-06, 'epoch': 0.41} {'loss': 2.3248, 'grad_norm': 1.504041314125061, 'learning_rate': 3.3190754489042343e-06, 'epoch': 0.41} {'loss': 2.1004, 'grad_norm': 1.3633394241333008, 'learning_rate': 3.318665011246056e-06, 'epoch': 0.41} {'loss': 2.2754, 'grad_norm': 1.4642304182052612, 'learning_rate': 3.3182545488701166e-06, 'epoch': 0.41} {'loss': 2.3427, 'grad_norm': 1.3593698740005493, 'learning_rate': 3.3178440617888107e-06, 'epoch': 0.41} {'loss': 2.1643, 'grad_norm': 1.8055020570755005, 'learning_rate': 3.317433550014531e-06, 'epoch': 0.41} {'loss': 2.1946, 'grad_norm': 1.67972993850708, 'learning_rate': 3.3170230135596716e-06, 'epoch': 0.41} {'loss': 2.0103, 'grad_norm': 1.2972562313079834, 'learning_rate': 3.3166124524366277e-06, 'epoch': 0.41} {'loss': 2.2899, 'grad_norm': 1.4033565521240234, 'learning_rate': 3.316201866657796e-06, 'epoch': 0.41} {'loss': 2.1939, 'grad_norm': 1.3700413703918457, 'learning_rate': 3.3157912562355727e-06, 'epoch': 0.41} {'loss': 2.2149, 'grad_norm': 2.2402901649475098, 'learning_rate': 3.315380621182355e-06, 'epoch': 0.41} {'loss': 2.2979, 'grad_norm': 1.8647050857543945, 'learning_rate': 3.3149699615105426e-06, 'epoch': 0.41} {'loss': 2.2751, 'grad_norm': 3.0614712238311768, 'learning_rate': 3.3145592772325325e-06, 'epoch': 0.41} {'loss': 2.2675, 'grad_norm': 1.5294445753097534, 'learning_rate': 3.3141485683607257e-06, 'epoch': 0.41} {'loss': 2.1819, 'grad_norm': 1.3794969320297241, 'learning_rate': 3.3137378349075216e-06, 'epoch': 0.41} {'loss': 2.2108, 'grad_norm': 1.4785715341567993, 'learning_rate': 3.313327076885322e-06, 'epoch': 0.41} {'loss': 2.4634, 'grad_norm': 1.1518113613128662, 'learning_rate': 3.3129162943065295e-06, 'epoch': 0.41} {'loss': 1.8173, 'grad_norm': 1.3408408164978027, 'learning_rate': 3.312505487183546e-06, 'epoch': 0.41} {'loss': 1.993, 'grad_norm': 2.9200832843780518, 'learning_rate': 3.312094655528775e-06, 'epoch': 0.41} {'loss': 2.4641, 'grad_norm': 1.6003128290176392, 'learning_rate': 3.31168379935462e-06, 'epoch': 0.41} {'loss': 1.9007, 'grad_norm': 1.362621545791626, 'learning_rate': 3.3112729186734867e-06, 'epoch': 0.41} {'loss': 2.3789, 'grad_norm': 2.11230206489563, 'learning_rate': 3.31086201349778e-06, 'epoch': 0.41} {'loss': 2.5287, 'grad_norm': 1.3423364162445068, 'learning_rate': 3.3104510838399086e-06, 'epoch': 0.41} {'loss': 2.2101, 'grad_norm': 1.474397897720337, 'learning_rate': 3.310040129712276e-06, 'epoch': 0.41} {'loss': 2.0639, 'grad_norm': 4.157703876495361, 'learning_rate': 3.3096291511272925e-06, 'epoch': 0.41} {'loss': 2.2064, 'grad_norm': 1.535360336303711, 'learning_rate': 3.309218148097366e-06, 'epoch': 0.41} {'loss': 2.524, 'grad_norm': 1.4798983335494995, 'learning_rate': 3.3088071206349054e-06, 'epoch': 0.41} {'loss': 2.4834, 'grad_norm': 1.5787886381149292, 'learning_rate': 3.308396068752322e-06, 'epoch': 0.41} {'loss': 2.2446, 'grad_norm': 1.4520328044891357, 'learning_rate': 3.307984992462025e-06, 'epoch': 0.41} {'loss': 2.1951, 'grad_norm': 1.4544165134429932, 'learning_rate': 3.307573891776427e-06, 'epoch': 0.41} {'loss': 2.3597, 'grad_norm': 1.497046947479248, 'learning_rate': 3.3071627667079397e-06, 'epoch': 0.41} {'loss': 2.3663, 'grad_norm': 1.3673096895217896, 'learning_rate': 3.3067516172689774e-06, 'epoch': 0.41} {'loss': 2.2649, 'grad_norm': 1.243415355682373, 'learning_rate': 3.3063404434719514e-06, 'epoch': 0.41} {'loss': 2.2449, 'grad_norm': 1.2941721677780151, 'learning_rate': 3.3059292453292786e-06, 'epoch': 0.41} {'loss': 2.2249, 'grad_norm': 1.5604037046432495, 'learning_rate': 3.305518022853373e-06, 'epoch': 0.41} {'loss': 2.1405, 'grad_norm': 1.3808099031448364, 'learning_rate': 3.3051067760566508e-06, 'epoch': 0.41} {'loss': 2.328, 'grad_norm': 1.4102287292480469, 'learning_rate': 3.3046955049515277e-06, 'epoch': 0.41} {'loss': 2.3551, 'grad_norm': 1.4910821914672852, 'learning_rate': 3.304284209550423e-06, 'epoch': 0.41} {'loss': 2.2384, 'grad_norm': 1.461292028427124, 'learning_rate': 3.3038728898657537e-06, 'epoch': 0.41} {'loss': 2.1462, 'grad_norm': 1.4318722486495972, 'learning_rate': 3.3034615459099382e-06, 'epoch': 0.41} {'loss': 2.247, 'grad_norm': 1.4123327732086182, 'learning_rate': 3.303050177695398e-06, 'epoch': 0.41} {'loss': 2.4336, 'grad_norm': 1.4885132312774658, 'learning_rate': 3.3026387852345514e-06, 'epoch': 0.41} {'loss': 2.1397, 'grad_norm': 1.2341228723526, 'learning_rate': 3.3022273685398197e-06, 'epoch': 0.41} {'loss': 2.3826, 'grad_norm': 1.4334890842437744, 'learning_rate': 3.301815927623626e-06, 'epoch': 0.41} {'loss': 2.3447, 'grad_norm': 1.5745042562484741, 'learning_rate': 3.301404462498393e-06, 'epoch': 0.41} {'loss': 2.487, 'grad_norm': 2.0712692737579346, 'learning_rate': 3.300992973176542e-06, 'epoch': 0.41} {'loss': 2.4384, 'grad_norm': 1.6920208930969238, 'learning_rate': 3.300581459670499e-06, 'epoch': 0.41} {'loss': 1.9578, 'grad_norm': 1.6578826904296875, 'learning_rate': 3.300169921992687e-06, 'epoch': 0.41} {'loss': 1.8301, 'grad_norm': 1.1579794883728027, 'learning_rate': 3.2997583601555316e-06, 'epoch': 0.41} {'loss': 2.3299, 'grad_norm': 1.5124093294143677, 'learning_rate': 3.2993467741714614e-06, 'epoch': 0.41} {'loss': 2.2197, 'grad_norm': 1.4099968671798706, 'learning_rate': 3.2989351640529005e-06, 'epoch': 0.42} {'loss': 2.3155, 'grad_norm': 1.5257041454315186, 'learning_rate': 3.2985235298122775e-06, 'epoch': 0.42} {'loss': 2.2488, 'grad_norm': 1.9985848665237427, 'learning_rate': 3.298111871462022e-06, 'epoch': 0.42} {'loss': 2.3404, 'grad_norm': 1.3784886598587036, 'learning_rate': 3.297700189014561e-06, 'epoch': 0.42} {'loss': 2.2711, 'grad_norm': 1.3754932880401611, 'learning_rate': 3.297288482482326e-06, 'epoch': 0.42} {'loss': 2.2985, 'grad_norm': 1.5652151107788086, 'learning_rate': 3.296876751877746e-06, 'epoch': 0.42} {'loss': 2.1501, 'grad_norm': 2.085951566696167, 'learning_rate': 3.2964649972132538e-06, 'epoch': 0.42} {'loss': 2.2645, 'grad_norm': 1.341373085975647, 'learning_rate': 3.2960532185012813e-06, 'epoch': 0.42} {'loss': 2.3246, 'grad_norm': 1.632558822631836, 'learning_rate': 3.2956414157542606e-06, 'epoch': 0.42} {'loss': 2.0647, 'grad_norm': 1.695114016532898, 'learning_rate': 3.2952295889846245e-06, 'epoch': 0.42} {'loss': 2.3843, 'grad_norm': 1.7110008001327515, 'learning_rate': 3.2948177382048087e-06, 'epoch': 0.42} {'loss': 2.0997, 'grad_norm': 1.5528291463851929, 'learning_rate': 3.2944058634272468e-06, 'epoch': 0.42} {'loss': 2.0321, 'grad_norm': 1.5603028535842896, 'learning_rate': 3.2939939646643765e-06, 'epoch': 0.42} {'loss': 2.0535, 'grad_norm': 1.9983553886413574, 'learning_rate': 3.293582041928631e-06, 'epoch': 0.42} {'loss': 2.0906, 'grad_norm': 1.2104387283325195, 'learning_rate': 3.29317009523245e-06, 'epoch': 0.42} {'loss': 2.3921, 'grad_norm': 1.4224672317504883, 'learning_rate': 3.29275812458827e-06, 'epoch': 0.42} {'loss': 2.1674, 'grad_norm': 1.2007229328155518, 'learning_rate': 3.292346130008531e-06, 'epoch': 0.42} {'loss': 2.1386, 'grad_norm': 1.2037780284881592, 'learning_rate': 3.29193411150567e-06, 'epoch': 0.42} {'loss': 2.3652, 'grad_norm': 1.6458520889282227, 'learning_rate': 3.291522069092129e-06, 'epoch': 0.42} {'loss': 2.362, 'grad_norm': 1.6782970428466797, 'learning_rate': 3.291110002780348e-06, 'epoch': 0.42} {'loss': 2.3452, 'grad_norm': 1.1856120824813843, 'learning_rate': 3.290697912582767e-06, 'epoch': 0.42} {'loss': 2.0589, 'grad_norm': 1.649328589439392, 'learning_rate': 3.2902857985118307e-06, 'epoch': 0.42} {'loss': 2.0065, 'grad_norm': 1.5288405418395996, 'learning_rate': 3.28987366057998e-06, 'epoch': 0.42} {'loss': 2.22, 'grad_norm': 1.528908133506775, 'learning_rate': 3.28946149879966e-06, 'epoch': 0.42} {'loss': 2.3366, 'grad_norm': 1.542487382888794, 'learning_rate': 3.2890493131833134e-06, 'epoch': 0.42} {'loss': 2.3052, 'grad_norm': 1.2885318994522095, 'learning_rate': 3.2886371037433864e-06, 'epoch': 0.42} {'loss': 2.3811, 'grad_norm': 1.6253385543823242, 'learning_rate': 3.288224870492324e-06, 'epoch': 0.42} {'loss': 2.1665, 'grad_norm': 1.9480631351470947, 'learning_rate': 3.287812613442573e-06, 'epoch': 0.42} {'loss': 2.3517, 'grad_norm': 1.5220069885253906, 'learning_rate': 3.287400332606581e-06, 'epoch': 0.42} {'loss': 2.2494, 'grad_norm': 1.7980835437774658, 'learning_rate': 3.286988027996796e-06, 'epoch': 0.42} {'loss': 2.2163, 'grad_norm': 1.5568333864212036, 'learning_rate': 3.286575699625666e-06, 'epoch': 0.42} {'loss': 2.4083, 'grad_norm': 1.4396002292633057, 'learning_rate': 3.2861633475056394e-06, 'epoch': 0.42} {'loss': 2.1568, 'grad_norm': 1.6428143978118896, 'learning_rate': 3.2857509716491674e-06, 'epoch': 0.42} {'loss': 2.1578, 'grad_norm': 1.3327813148498535, 'learning_rate': 3.2853385720687014e-06, 'epoch': 0.42} {'loss': 2.1586, 'grad_norm': 1.347579836845398, 'learning_rate': 3.2849261487766924e-06, 'epoch': 0.42} {'loss': 2.55, 'grad_norm': 1.3679218292236328, 'learning_rate': 3.2845137017855922e-06, 'epoch': 0.42} {'loss': 2.4655, 'grad_norm': 1.4560644626617432, 'learning_rate': 3.2841012311078535e-06, 'epoch': 0.42} {'loss': 1.4193, 'grad_norm': 1.4604018926620483, 'learning_rate': 3.28368873675593e-06, 'epoch': 0.42} {'loss': 2.5451, 'grad_norm': 1.4886481761932373, 'learning_rate': 3.2832762187422773e-06, 'epoch': 0.42} {'loss': 2.0915, 'grad_norm': 1.378043293952942, 'learning_rate': 3.2828636770793486e-06, 'epoch': 0.42} {'loss': 2.4767, 'grad_norm': 1.4138685464859009, 'learning_rate': 3.2824511117796008e-06, 'epoch': 0.42} {'loss': 2.3041, 'grad_norm': 1.6628249883651733, 'learning_rate': 3.282038522855491e-06, 'epoch': 0.42} {'loss': 2.4599, 'grad_norm': 1.6029062271118164, 'learning_rate': 3.2816259103194744e-06, 'epoch': 0.42} {'loss': 2.2524, 'grad_norm': 1.327297568321228, 'learning_rate': 3.281213274184011e-06, 'epoch': 0.42} {'loss': 2.3199, 'grad_norm': 1.69856595993042, 'learning_rate': 3.280800614461558e-06, 'epoch': 0.42} {'loss': 2.3444, 'grad_norm': 1.4067317247390747, 'learning_rate': 3.2803879311645746e-06, 'epoch': 0.42} {'loss': 2.3337, 'grad_norm': 1.5898317098617554, 'learning_rate': 3.279975224305523e-06, 'epoch': 0.42} {'loss': 2.3231, 'grad_norm': 1.410117268562317, 'learning_rate': 3.279562493896862e-06, 'epoch': 0.42} {'loss': 2.2541, 'grad_norm': 1.4565143585205078, 'learning_rate': 3.2791497399510526e-06, 'epoch': 0.42} {'loss': 2.2778, 'grad_norm': 1.497341513633728, 'learning_rate': 3.2787369624805587e-06, 'epoch': 0.42} {'loss': 2.2261, 'grad_norm': 1.709040641784668, 'learning_rate': 3.2783241614978422e-06, 'epoch': 0.42} {'loss': 2.3951, 'grad_norm': 1.6227948665618896, 'learning_rate': 3.2779113370153672e-06, 'epoch': 0.42} {'loss': 2.253, 'grad_norm': 1.5859805345535278, 'learning_rate': 3.2774984890455974e-06, 'epoch': 0.42} {'loss': 2.4231, 'grad_norm': 1.8413357734680176, 'learning_rate': 3.2770856176009984e-06, 'epoch': 0.42} {'loss': 2.1314, 'grad_norm': 1.4284173250198364, 'learning_rate': 3.2766727226940353e-06, 'epoch': 0.42} {'loss': 2.3343, 'grad_norm': 2.8858158588409424, 'learning_rate': 3.276259804337175e-06, 'epoch': 0.42} {'loss': 2.3148, 'grad_norm': 1.443858027458191, 'learning_rate': 3.275846862542885e-06, 'epoch': 0.42} {'loss': 2.351, 'grad_norm': 1.266008734703064, 'learning_rate': 3.2754338973236327e-06, 'epoch': 0.42} {'loss': 2.1861, 'grad_norm': 1.4309877157211304, 'learning_rate': 3.275020908691886e-06, 'epoch': 0.42} {'loss': 2.3614, 'grad_norm': 1.5683045387268066, 'learning_rate': 3.274607896660116e-06, 'epoch': 0.42} {'loss': 2.2754, 'grad_norm': 1.391222357749939, 'learning_rate': 3.2741948612407897e-06, 'epoch': 0.42} {'loss': 2.2975, 'grad_norm': 1.4452954530715942, 'learning_rate': 3.2737818024463814e-06, 'epoch': 0.42} {'loss': 2.1436, 'grad_norm': 1.4382071495056152, 'learning_rate': 3.27336872028936e-06, 'epoch': 0.42} {'loss': 2.3021, 'grad_norm': 1.617903709411621, 'learning_rate': 3.2729556147821985e-06, 'epoch': 0.42} {'loss': 2.2873, 'grad_norm': 1.5259101390838623, 'learning_rate': 3.272542485937369e-06, 'epoch': 0.42} {'loss': 2.1139, 'grad_norm': 1.5197595357894897, 'learning_rate': 3.2721293337673453e-06, 'epoch': 0.42} {'loss': 2.2144, 'grad_norm': 1.5092004537582397, 'learning_rate': 3.2717161582846026e-06, 'epoch': 0.42} {'loss': 1.8783, 'grad_norm': 1.5234017372131348, 'learning_rate': 3.2713029595016144e-06, 'epoch': 0.42} {'loss': 1.8838, 'grad_norm': 1.0969997644424438, 'learning_rate': 3.2708897374308575e-06, 'epoch': 0.42} {'loss': 2.298, 'grad_norm': 1.4225842952728271, 'learning_rate': 3.2704764920848076e-06, 'epoch': 0.42} {'loss': 2.4708, 'grad_norm': 1.5698463916778564, 'learning_rate': 3.270063223475941e-06, 'epoch': 0.42} {'loss': 2.2172, 'grad_norm': 1.4315531253814697, 'learning_rate': 3.269649931616737e-06, 'epoch': 0.42} {'loss': 2.2147, 'grad_norm': 2.142765760421753, 'learning_rate': 3.2692366165196727e-06, 'epoch': 0.42} {'loss': 2.3732, 'grad_norm': 1.9436603784561157, 'learning_rate': 3.2688232781972277e-06, 'epoch': 0.42} {'loss': 2.0878, 'grad_norm': 1.2748655080795288, 'learning_rate': 3.268409916661883e-06, 'epoch': 0.42} {'loss': 2.1225, 'grad_norm': 1.4809191226959229, 'learning_rate': 3.2679965319261163e-06, 'epoch': 0.42} {'loss': 2.2128, 'grad_norm': 1.8515655994415283, 'learning_rate': 3.2675831240024107e-06, 'epoch': 0.42} {'loss': 2.0295, 'grad_norm': 1.2729538679122925, 'learning_rate': 3.267169692903249e-06, 'epoch': 0.42} {'loss': 2.1675, 'grad_norm': 1.3161540031433105, 'learning_rate': 3.266756238641112e-06, 'epoch': 0.42} {'loss': 2.363, 'grad_norm': 1.487657070159912, 'learning_rate': 3.266342761228485e-06, 'epoch': 0.42} {'loss': 2.212, 'grad_norm': 1.5200635194778442, 'learning_rate': 3.2659292606778493e-06, 'epoch': 0.42} {'loss': 2.1993, 'grad_norm': 1.5101183652877808, 'learning_rate': 3.2655157370016917e-06, 'epoch': 0.42} {'loss': 2.299, 'grad_norm': 1.3317903280258179, 'learning_rate': 3.265102190212497e-06, 'epoch': 0.42} {'loss': 2.2268, 'grad_norm': 1.3444364070892334, 'learning_rate': 3.2646886203227514e-06, 'epoch': 0.42} {'loss': 2.0611, 'grad_norm': 4.0640082359313965, 'learning_rate': 3.264275027344942e-06, 'epoch': 0.42} {'loss': 2.2295, 'grad_norm': 2.1207520961761475, 'learning_rate': 3.2638614112915556e-06, 'epoch': 0.42} {'loss': 1.5738, 'grad_norm': 1.3426662683486938, 'learning_rate': 3.2634477721750813e-06, 'epoch': 0.42} {'loss': 2.0941, 'grad_norm': 1.4305676221847534, 'learning_rate': 3.263034110008007e-06, 'epoch': 0.42} {'loss': 2.2761, 'grad_norm': 2.2561490535736084, 'learning_rate': 3.262620424802823e-06, 'epoch': 0.42} {'loss': 2.2975, 'grad_norm': 1.4732009172439575, 'learning_rate': 3.2622067165720197e-06, 'epoch': 0.42} {'loss': 2.0626, 'grad_norm': 1.3603531122207642, 'learning_rate': 3.2617929853280877e-06, 'epoch': 0.42} {'loss': 2.4214, 'grad_norm': 1.3362019062042236, 'learning_rate': 3.261379231083519e-06, 'epoch': 0.42} {'loss': 2.3404, 'grad_norm': 1.5428283214569092, 'learning_rate': 3.260965453850806e-06, 'epoch': 0.42} {'loss': 2.1902, 'grad_norm': 1.4473384618759155, 'learning_rate': 3.260551653642441e-06, 'epoch': 0.42} {'loss': 2.2708, 'grad_norm': 1.462601661682129, 'learning_rate': 3.2601378304709187e-06, 'epoch': 0.42} {'loss': 1.6928, 'grad_norm': 1.3779417276382446, 'learning_rate': 3.259723984348733e-06, 'epoch': 0.42} {'loss': 2.1442, 'grad_norm': 1.43612539768219, 'learning_rate': 3.25931011528838e-06, 'epoch': 0.42} {'loss': 2.2084, 'grad_norm': 1.3620563745498657, 'learning_rate': 3.258896223302354e-06, 'epoch': 0.42} {'loss': 2.4341, 'grad_norm': 1.5250532627105713, 'learning_rate': 3.258482308403153e-06, 'epoch': 0.42} {'loss': 2.2749, 'grad_norm': 2.6247522830963135, 'learning_rate': 3.258068370603273e-06, 'epoch': 0.42} {'loss': 2.227, 'grad_norm': 1.4167430400848389, 'learning_rate': 3.257654409915213e-06, 'epoch': 0.42} {'loss': 2.1727, 'grad_norm': 1.2815651893615723, 'learning_rate': 3.257240426351471e-06, 'epoch': 0.42} {'loss': 2.2096, 'grad_norm': 1.3838121891021729, 'learning_rate': 3.256826419924547e-06, 'epoch': 0.42} {'loss': 2.2765, 'grad_norm': 1.2218873500823975, 'learning_rate': 3.2564123906469397e-06, 'epoch': 0.42} {'loss': 2.4157, 'grad_norm': 1.7815532684326172, 'learning_rate': 3.255998338531151e-06, 'epoch': 0.42} {'loss': 2.3282, 'grad_norm': 1.449270248413086, 'learning_rate': 3.255584263589682e-06, 'epoch': 0.42} {'loss': 1.9232, 'grad_norm': 1.115543007850647, 'learning_rate': 3.255170165835034e-06, 'epoch': 0.42} {'loss': 2.3043, 'grad_norm': 1.740797758102417, 'learning_rate': 3.2547560452797113e-06, 'epoch': 0.42} {'loss': 2.3906, 'grad_norm': 1.7855161428451538, 'learning_rate': 3.2543419019362155e-06, 'epoch': 0.42} {'loss': 2.3956, 'grad_norm': 1.693674087524414, 'learning_rate': 3.2539277358170524e-06, 'epoch': 0.42} {'loss': 2.2256, 'grad_norm': 1.2826745510101318, 'learning_rate': 3.253513546934725e-06, 'epoch': 0.42} {'loss': 2.1395, 'grad_norm': 1.374570369720459, 'learning_rate': 3.253099335301741e-06, 'epoch': 0.42} {'loss': 2.3593, 'grad_norm': 1.4869433641433716, 'learning_rate': 3.252685100930605e-06, 'epoch': 0.42} {'loss': 2.354, 'grad_norm': 1.5450023412704468, 'learning_rate': 3.2522708438338247e-06, 'epoch': 0.42} {'loss': 2.1362, 'grad_norm': 1.4715144634246826, 'learning_rate': 3.251856564023907e-06, 'epoch': 0.42} {'loss': 2.3618, 'grad_norm': 1.3273662328720093, 'learning_rate': 3.2514422615133606e-06, 'epoch': 0.42} {'loss': 2.3231, 'grad_norm': 1.654830813407898, 'learning_rate': 3.2510279363146935e-06, 'epoch': 0.42} {'loss': 2.1846, 'grad_norm': 1.4779833555221558, 'learning_rate': 3.2506135884404165e-06, 'epoch': 0.42} {'loss': 1.9854, 'grad_norm': 2.04868483543396, 'learning_rate': 3.2501992179030407e-06, 'epoch': 0.42} {'loss': 2.277, 'grad_norm': 1.6368457078933716, 'learning_rate': 3.2497848247150756e-06, 'epoch': 0.42} {'loss': 2.2009, 'grad_norm': 1.4832419157028198, 'learning_rate': 3.2493704088890322e-06, 'epoch': 0.42} {'loss': 2.311, 'grad_norm': 1.4578932523727417, 'learning_rate': 3.2489559704374246e-06, 'epoch': 0.42} {'loss': 1.9859, 'grad_norm': 1.209839940071106, 'learning_rate': 3.2485415093727644e-06, 'epoch': 0.42} {'loss': 2.2505, 'grad_norm': 1.3903636932373047, 'learning_rate': 3.248127025707567e-06, 'epoch': 0.42} {'loss': 2.2085, 'grad_norm': 1.4310063123703003, 'learning_rate': 3.2477125194543455e-06, 'epoch': 0.42} {'loss': 2.2471, 'grad_norm': 1.6068100929260254, 'learning_rate': 3.247297990625615e-06, 'epoch': 0.42} {'loss': 2.2696, 'grad_norm': 1.6659319400787354, 'learning_rate': 3.246883439233892e-06, 'epoch': 0.42} {'loss': 2.0537, 'grad_norm': 1.5508545637130737, 'learning_rate': 3.2464688652916925e-06, 'epoch': 0.42} {'loss': 2.2793, 'grad_norm': 1.5647097826004028, 'learning_rate': 3.2460542688115336e-06, 'epoch': 0.42} {'loss': 2.2549, 'grad_norm': 1.505354642868042, 'learning_rate': 3.2456396498059333e-06, 'epoch': 0.42} {'loss': 2.3178, 'grad_norm': 1.646005392074585, 'learning_rate': 3.2452250082874097e-06, 'epoch': 0.42} {'loss': 2.2551, 'grad_norm': 1.848036527633667, 'learning_rate': 3.2448103442684833e-06, 'epoch': 0.42} {'loss': 2.4876, 'grad_norm': 1.2453501224517822, 'learning_rate': 3.2443956577616715e-06, 'epoch': 0.42} {'loss': 2.3788, 'grad_norm': 1.494310736656189, 'learning_rate': 3.243980948779497e-06, 'epoch': 0.42} {'loss': 2.5244, 'grad_norm': 1.5477315187454224, 'learning_rate': 3.24356621733448e-06, 'epoch': 0.42} {'loss': 2.0477, 'grad_norm': 1.6888422966003418, 'learning_rate': 3.2431514634391433e-06, 'epoch': 0.42} {'loss': 2.3202, 'grad_norm': 1.505963921546936, 'learning_rate': 3.2427366871060084e-06, 'epoch': 0.42} {'loss': 2.0451, 'grad_norm': 1.9772863388061523, 'learning_rate': 3.2423218883475995e-06, 'epoch': 0.42} {'loss': 2.429, 'grad_norm': 1.5468308925628662, 'learning_rate': 3.2419070671764384e-06, 'epoch': 0.42} {'loss': 2.2608, 'grad_norm': 14.570969581604004, 'learning_rate': 3.2414922236050526e-06, 'epoch': 0.42} {'loss': 2.1449, 'grad_norm': 1.220957636833191, 'learning_rate': 3.2410773576459665e-06, 'epoch': 0.42} {'loss': 2.3518, 'grad_norm': 1.4347996711730957, 'learning_rate': 3.240662469311705e-06, 'epoch': 0.42} {'loss': 2.2215, 'grad_norm': 1.6182658672332764, 'learning_rate': 3.2402475586147954e-06, 'epoch': 0.42} {'loss': 1.8205, 'grad_norm': 1.5469698905944824, 'learning_rate': 3.239832625567765e-06, 'epoch': 0.42} {'loss': 2.2882, 'grad_norm': 1.7662376165390015, 'learning_rate': 3.2394176701831414e-06, 'epoch': 0.42} {'loss': 2.199, 'grad_norm': 1.5604840517044067, 'learning_rate': 3.2390026924734536e-06, 'epoch': 0.42} {'loss': 2.0147, 'grad_norm': 1.6685742139816284, 'learning_rate': 3.238587692451231e-06, 'epoch': 0.42} {'loss': 2.0398, 'grad_norm': 1.3347595930099487, 'learning_rate': 3.238172670129004e-06, 'epoch': 0.42} {'loss': 2.3035, 'grad_norm': 1.6309458017349243, 'learning_rate': 3.237757625519302e-06, 'epoch': 0.42} {'loss': 2.1135, 'grad_norm': 1.3982563018798828, 'learning_rate': 3.2373425586346576e-06, 'epoch': 0.42} {'loss': 1.2593, 'grad_norm': 1.4071725606918335, 'learning_rate': 3.236927469487602e-06, 'epoch': 0.42} {'loss': 2.4353, 'grad_norm': 1.4695463180541992, 'learning_rate': 3.236512358090668e-06, 'epoch': 0.42} {'loss': 2.2788, 'grad_norm': 1.6847201585769653, 'learning_rate': 3.2360972244563897e-06, 'epoch': 0.42} {'loss': 2.0888, 'grad_norm': 1.1999304294586182, 'learning_rate': 3.2356820685973013e-06, 'epoch': 0.42} {'loss': 2.6165, 'grad_norm': 1.598694086074829, 'learning_rate': 3.235266890525936e-06, 'epoch': 0.42} {'loss': 2.2585, 'grad_norm': 1.770013451576233, 'learning_rate': 3.23485169025483e-06, 'epoch': 0.42} {'loss': 2.3142, 'grad_norm': 1.5648910999298096, 'learning_rate': 3.234436467796519e-06, 'epoch': 0.42} {'loss': 2.3901, 'grad_norm': 1.5265071392059326, 'learning_rate': 3.2340212231635403e-06, 'epoch': 0.42} {'loss': 2.4443, 'grad_norm': 1.6010373830795288, 'learning_rate': 3.233605956368432e-06, 'epoch': 0.42} {'loss': 2.2205, 'grad_norm': 1.4509798288345337, 'learning_rate': 3.2331906674237303e-06, 'epoch': 0.42} {'loss': 2.2816, 'grad_norm': 1.3754351139068604, 'learning_rate': 3.2327753563419745e-06, 'epoch': 0.42} {'loss': 2.4327, 'grad_norm': 1.5160404443740845, 'learning_rate': 3.2323600231357045e-06, 'epoch': 0.42} {'loss': 2.3792, 'grad_norm': 2.018413782119751, 'learning_rate': 3.2319446678174603e-06, 'epoch': 0.42} {'loss': 1.9806, 'grad_norm': 13.057031631469727, 'learning_rate': 3.231529290399783e-06, 'epoch': 0.42} {'loss': 2.2819, 'grad_norm': 1.4720447063446045, 'learning_rate': 3.2311138908952127e-06, 'epoch': 0.42} {'loss': 2.4205, 'grad_norm': 1.475183367729187, 'learning_rate': 3.2306984693162924e-06, 'epoch': 0.42} {'loss': 2.4245, 'grad_norm': 1.7435846328735352, 'learning_rate': 3.230283025675565e-06, 'epoch': 0.42} {'loss': 1.7364, 'grad_norm': 1.8998814821243286, 'learning_rate': 3.229867559985573e-06, 'epoch': 0.42} {'loss': 2.2615, 'grad_norm': 1.5368393659591675, 'learning_rate': 3.2294520722588617e-06, 'epoch': 0.42} {'loss': 2.2009, 'grad_norm': 1.66306471824646, 'learning_rate': 3.2290365625079743e-06, 'epoch': 0.42} {'loss': 2.1071, 'grad_norm': 1.5488022565841675, 'learning_rate': 3.2286210307454578e-06, 'epoch': 0.42} {'loss': 2.1968, 'grad_norm': 1.4632186889648438, 'learning_rate': 3.2282054769838574e-06, 'epoch': 0.42} {'loss': 2.714, 'grad_norm': 1.6395875215530396, 'learning_rate': 3.2277899012357195e-06, 'epoch': 0.42} {'loss': 2.1572, 'grad_norm': 2.312563180923462, 'learning_rate': 3.2273743035135924e-06, 'epoch': 0.42} {'loss': 2.2211, 'grad_norm': 1.6313565969467163, 'learning_rate': 3.226958683830023e-06, 'epoch': 0.42} {'loss': 2.3296, 'grad_norm': 1.3234349489212036, 'learning_rate': 3.226543042197561e-06, 'epoch': 0.42} {'loss': 2.1084, 'grad_norm': 1.2776800394058228, 'learning_rate': 3.2261273786287563e-06, 'epoch': 0.42} {'loss': 2.446, 'grad_norm': 1.4412834644317627, 'learning_rate': 3.225711693136156e-06, 'epoch': 0.42} {'loss': 2.3424, 'grad_norm': 1.4672930240631104, 'learning_rate': 3.225295985732314e-06, 'epoch': 0.42} {'loss': 2.5654, 'grad_norm': 1.4091933965682983, 'learning_rate': 3.2248802564297805e-06, 'epoch': 0.42} {'loss': 1.5963, 'grad_norm': 1.3048096895217896, 'learning_rate': 3.2244645052411076e-06, 'epoch': 0.42} {'loss': 1.845, 'grad_norm': 1.6387568712234497, 'learning_rate': 3.2240487321788478e-06, 'epoch': 0.42} {'loss': 2.2718, 'grad_norm': 1.5015496015548706, 'learning_rate': 3.223632937255554e-06, 'epoch': 0.42} {'loss': 2.2188, 'grad_norm': 1.491241455078125, 'learning_rate': 3.2232171204837813e-06, 'epoch': 0.42} {'loss': 2.2987, 'grad_norm': 1.4673899412155151, 'learning_rate': 3.2228012818760834e-06, 'epoch': 0.42} {'loss': 2.3212, 'grad_norm': 1.4714573621749878, 'learning_rate': 3.222385421445016e-06, 'epoch': 0.42} {'loss': 2.3302, 'grad_norm': 1.4303195476531982, 'learning_rate': 3.2219695392031354e-06, 'epoch': 0.42} {'loss': 2.3327, 'grad_norm': 1.594266653060913, 'learning_rate': 3.2215536351629978e-06, 'epoch': 0.43} {'loss': 2.309, 'grad_norm': 1.4561924934387207, 'learning_rate': 3.2211377093371605e-06, 'epoch': 0.43} {'loss': 1.7639, 'grad_norm': 1.4469399452209473, 'learning_rate': 3.2207217617381816e-06, 'epoch': 0.43} {'loss': 2.1646, 'grad_norm': 1.7967528104782104, 'learning_rate': 3.2203057923786196e-06, 'epoch': 0.43} {'loss': 2.1662, 'grad_norm': 1.5870404243469238, 'learning_rate': 3.2198898012710332e-06, 'epoch': 0.43} {'loss': 2.3048, 'grad_norm': 2.0270278453826904, 'learning_rate': 3.2194737884279838e-06, 'epoch': 0.43} {'loss': 2.4056, 'grad_norm': 1.5702199935913086, 'learning_rate': 3.2190577538620315e-06, 'epoch': 0.43} {'loss': 2.4031, 'grad_norm': 1.6694493293762207, 'learning_rate': 3.218641697585736e-06, 'epoch': 0.43} {'loss': 2.4621, 'grad_norm': 1.6185957193374634, 'learning_rate': 3.2182256196116614e-06, 'epoch': 0.43} {'loss': 2.2408, 'grad_norm': 1.3104718923568726, 'learning_rate': 3.2178095199523685e-06, 'epoch': 0.43} {'loss': 1.6082, 'grad_norm': 1.5669573545455933, 'learning_rate': 3.2173933986204214e-06, 'epoch': 0.43} {'loss': 2.2555, 'grad_norm': 1.6291731595993042, 'learning_rate': 3.216977255628384e-06, 'epoch': 0.43} {'loss': 2.2541, 'grad_norm': 2.208658218383789, 'learning_rate': 3.2165610909888203e-06, 'epoch': 0.43} {'loss': 2.4421, 'grad_norm': 1.6828049421310425, 'learning_rate': 3.2161449047142947e-06, 'epoch': 0.43} {'loss': 2.1733, 'grad_norm': 1.5687333345413208, 'learning_rate': 3.2157286968173752e-06, 'epoch': 0.43} {'loss': 2.4444, 'grad_norm': 1.4879565238952637, 'learning_rate': 3.2153124673106273e-06, 'epoch': 0.43} {'loss': 2.3723, 'grad_norm': 2.1739695072174072, 'learning_rate': 3.2148962162066178e-06, 'epoch': 0.43} {'loss': 2.073, 'grad_norm': 1.2147653102874756, 'learning_rate': 3.214479943517914e-06, 'epoch': 0.43} {'loss': 2.2192, 'grad_norm': 2.1297762393951416, 'learning_rate': 3.2140636492570855e-06, 'epoch': 0.43} {'loss': 2.1992, 'grad_norm': 1.8674724102020264, 'learning_rate': 3.2136473334367002e-06, 'epoch': 0.43} {'loss': 2.3467, 'grad_norm': 1.4309717416763306, 'learning_rate': 3.2132309960693286e-06, 'epoch': 0.43} {'loss': 2.0302, 'grad_norm': 1.186553955078125, 'learning_rate': 3.2128146371675406e-06, 'epoch': 0.43} {'loss': 2.2807, 'grad_norm': 3.238542318344116, 'learning_rate': 3.2123982567439083e-06, 'epoch': 0.43} {'loss': 2.3654, 'grad_norm': 1.7200255393981934, 'learning_rate': 3.2119818548110014e-06, 'epoch': 0.43} {'loss': 2.3138, 'grad_norm': 1.668556571006775, 'learning_rate': 3.2115654313813947e-06, 'epoch': 0.43} {'loss': 2.22, 'grad_norm': 1.6898459196090698, 'learning_rate': 3.2111489864676593e-06, 'epoch': 0.43} {'loss': 2.2212, 'grad_norm': 1.4441487789154053, 'learning_rate': 3.210732520082369e-06, 'epoch': 0.43} {'loss': 2.295, 'grad_norm': 1.7992478609085083, 'learning_rate': 3.2103160322380994e-06, 'epoch': 0.43} {'loss': 2.2366, 'grad_norm': 3.8099753856658936, 'learning_rate': 3.2098995229474243e-06, 'epoch': 0.43} {'loss': 2.2688, 'grad_norm': 1.5444141626358032, 'learning_rate': 3.2094829922229192e-06, 'epoch': 0.43} {'loss': 1.4601, 'grad_norm': 1.6627299785614014, 'learning_rate': 3.2090664400771606e-06, 'epoch': 0.43} {'loss': 2.4799, 'grad_norm': 1.5748521089553833, 'learning_rate': 3.208649866522725e-06, 'epoch': 0.43} {'loss': 1.9462, 'grad_norm': 1.4269745349884033, 'learning_rate': 3.208233271572191e-06, 'epoch': 0.43} {'loss': 2.0892, 'grad_norm': 1.6973297595977783, 'learning_rate': 3.2078166552381357e-06, 'epoch': 0.43} {'loss': 2.2103, 'grad_norm': 1.4444034099578857, 'learning_rate': 3.207400017533138e-06, 'epoch': 0.43} {'loss': 2.12, 'grad_norm': 1.4388043880462646, 'learning_rate': 3.206983358469778e-06, 'epoch': 0.43} {'loss': 1.9788, 'grad_norm': 1.2842705249786377, 'learning_rate': 3.206566678060634e-06, 'epoch': 0.43} {'loss': 2.5978, 'grad_norm': 1.4425103664398193, 'learning_rate': 3.20614997631829e-06, 'epoch': 0.43} {'loss': 2.114, 'grad_norm': 3.031583547592163, 'learning_rate': 3.2057332532553244e-06, 'epoch': 0.43} {'loss': 2.215, 'grad_norm': 1.9036043882369995, 'learning_rate': 3.2053165088843204e-06, 'epoch': 0.43} {'loss': 2.2827, 'grad_norm': 1.4143015146255493, 'learning_rate': 3.2048997432178607e-06, 'epoch': 0.43} {'loss': 2.1706, 'grad_norm': 1.1381113529205322, 'learning_rate': 3.204482956268528e-06, 'epoch': 0.43} {'loss': 2.1738, 'grad_norm': 1.4916390180587769, 'learning_rate': 3.2040661480489072e-06, 'epoch': 0.43} {'loss': 2.3459, 'grad_norm': 1.4070395231246948, 'learning_rate': 3.203649318571582e-06, 'epoch': 0.43} {'loss': 2.0688, 'grad_norm': 1.7049872875213623, 'learning_rate': 3.2032324678491385e-06, 'epoch': 0.43} {'loss': 2.285, 'grad_norm': 1.3313552141189575, 'learning_rate': 3.2028155958941614e-06, 'epoch': 0.43} {'loss': 2.1024, 'grad_norm': 1.6493017673492432, 'learning_rate': 3.2023987027192383e-06, 'epoch': 0.43} {'loss': 2.422, 'grad_norm': 1.3663749694824219, 'learning_rate': 3.2019817883369565e-06, 'epoch': 0.43} {'loss': 1.9022, 'grad_norm': 1.2619808912277222, 'learning_rate': 3.2015648527599024e-06, 'epoch': 0.43} {'loss': 2.3715, 'grad_norm': 1.6836705207824707, 'learning_rate': 3.201147896000666e-06, 'epoch': 0.43} {'loss': 2.5257, 'grad_norm': 1.832632303237915, 'learning_rate': 3.2007309180718354e-06, 'epoch': 0.43} {'loss': 2.2253, 'grad_norm': 1.4698035717010498, 'learning_rate': 3.200313918986001e-06, 'epoch': 0.43} {'loss': 2.3533, 'grad_norm': 1.4707525968551636, 'learning_rate': 3.1998968987557516e-06, 'epoch': 0.43} {'loss': 2.2455, 'grad_norm': 1.6735259294509888, 'learning_rate': 3.1994798573936803e-06, 'epoch': 0.43} {'loss': 2.1231, 'grad_norm': 1.4980757236480713, 'learning_rate': 3.1990627949123777e-06, 'epoch': 0.43} {'loss': 2.4233, 'grad_norm': 1.5043152570724487, 'learning_rate': 3.198645711324436e-06, 'epoch': 0.43} {'loss': 2.1688, 'grad_norm': 1.4911528825759888, 'learning_rate': 3.1982286066424486e-06, 'epoch': 0.43} {'loss': 2.3515, 'grad_norm': 1.5213937759399414, 'learning_rate': 3.1978114808790083e-06, 'epoch': 0.43} {'loss': 2.4487, 'grad_norm': 6.6434736251831055, 'learning_rate': 3.1973943340467097e-06, 'epoch': 0.43} {'loss': 2.5707, 'grad_norm': 1.594068169593811, 'learning_rate': 3.196977166158148e-06, 'epoch': 0.43} {'loss': 2.2715, 'grad_norm': 1.7088065147399902, 'learning_rate': 3.1965599772259177e-06, 'epoch': 0.43} {'loss': 2.2576, 'grad_norm': 1.621443748474121, 'learning_rate': 3.1961427672626154e-06, 'epoch': 0.43} {'loss': 2.325, 'grad_norm': 1.5756698846817017, 'learning_rate': 3.195725536280839e-06, 'epoch': 0.43} {'loss': 2.3485, 'grad_norm': 1.4848440885543823, 'learning_rate': 3.1953082842931836e-06, 'epoch': 0.43} {'loss': 2.3878, 'grad_norm': 1.435317873954773, 'learning_rate': 3.1948910113122483e-06, 'epoch': 0.43} {'loss': 2.2217, 'grad_norm': 4.105795860290527, 'learning_rate': 3.1944737173506326e-06, 'epoch': 0.43} {'loss': 2.3052, 'grad_norm': 1.3488889932632446, 'learning_rate': 3.1940564024209344e-06, 'epoch': 0.43} {'loss': 2.1783, 'grad_norm': 1.4940874576568604, 'learning_rate': 3.1936390665357537e-06, 'epoch': 0.43} {'loss': 2.3841, 'grad_norm': 1.4665088653564453, 'learning_rate': 3.1932217097076923e-06, 'epoch': 0.43} {'loss': 2.126, 'grad_norm': 1.5305167436599731, 'learning_rate': 3.1928043319493498e-06, 'epoch': 0.43} {'loss': 2.158, 'grad_norm': 1.5216519832611084, 'learning_rate': 3.1923869332733283e-06, 'epoch': 0.43} {'loss': 2.323, 'grad_norm': 1.3009028434753418, 'learning_rate': 3.1919695136922313e-06, 'epoch': 0.43} {'loss': 2.5036, 'grad_norm': 1.466546893119812, 'learning_rate': 3.1915520732186613e-06, 'epoch': 0.43} {'loss': 2.3576, 'grad_norm': 1.498923897743225, 'learning_rate': 3.1911346118652214e-06, 'epoch': 0.43} {'loss': 2.6337, 'grad_norm': 1.6452248096466064, 'learning_rate': 3.1907171296445163e-06, 'epoch': 0.43} {'loss': 1.9872, 'grad_norm': 1.4706716537475586, 'learning_rate': 3.1902996265691505e-06, 'epoch': 0.43} {'loss': 2.3268, 'grad_norm': 11.947999954223633, 'learning_rate': 3.1898821026517307e-06, 'epoch': 0.43} {'loss': 2.2234, 'grad_norm': 1.314054012298584, 'learning_rate': 3.1894645579048626e-06, 'epoch': 0.43} {'loss': 2.2501, 'grad_norm': 1.4083292484283447, 'learning_rate': 3.1890469923411528e-06, 'epoch': 0.43} {'loss': 2.1918, 'grad_norm': 1.369756817817688, 'learning_rate': 3.1886294059732088e-06, 'epoch': 0.43} {'loss': 1.8147, 'grad_norm': 1.4302895069122314, 'learning_rate': 3.1882117988136387e-06, 'epoch': 0.43} {'loss': 2.2223, 'grad_norm': 1.4577451944351196, 'learning_rate': 3.1877941708750503e-06, 'epoch': 0.43} {'loss': 2.2903, 'grad_norm': 1.8986947536468506, 'learning_rate': 3.187376522170055e-06, 'epoch': 0.43} {'loss': 2.4951, 'grad_norm': 2.042292594909668, 'learning_rate': 3.1869588527112616e-06, 'epoch': 0.43} {'loss': 2.2498, 'grad_norm': 1.350043773651123, 'learning_rate': 3.18654116251128e-06, 'epoch': 0.43} {'loss': 2.3849, 'grad_norm': 1.6261391639709473, 'learning_rate': 3.1861234515827226e-06, 'epoch': 0.43} {'loss': 2.2317, 'grad_norm': 1.575932264328003, 'learning_rate': 3.185705719938201e-06, 'epoch': 0.43} {'loss': 1.9177, 'grad_norm': 1.3975958824157715, 'learning_rate': 3.1852879675903276e-06, 'epoch': 0.43} {'loss': 2.0137, 'grad_norm': 1.4269347190856934, 'learning_rate': 3.1848701945517148e-06, 'epoch': 0.43} {'loss': 2.2294, 'grad_norm': 1.3697351217269897, 'learning_rate': 3.1844524008349774e-06, 'epoch': 0.43} {'loss': 1.5899, 'grad_norm': 1.399917721748352, 'learning_rate': 3.1840345864527296e-06, 'epoch': 0.43} {'loss': 2.2491, 'grad_norm': 1.3451400995254517, 'learning_rate': 3.1836167514175853e-06, 'epoch': 0.43} {'loss': 2.0152, 'grad_norm': 1.4327765703201294, 'learning_rate': 3.1831988957421607e-06, 'epoch': 0.43} {'loss': 2.2569, 'grad_norm': 1.386083960533142, 'learning_rate': 3.1827810194390724e-06, 'epoch': 0.43} {'loss': 2.4062, 'grad_norm': 1.4172297716140747, 'learning_rate': 3.1823631225209376e-06, 'epoch': 0.43} {'loss': 2.1647, 'grad_norm': 1.2792010307312012, 'learning_rate': 3.181945205000373e-06, 'epoch': 0.43} {'loss': 2.1551, 'grad_norm': 1.509142279624939, 'learning_rate': 3.181527266889996e-06, 'epoch': 0.43} {'loss': 2.3228, 'grad_norm': 1.5188751220703125, 'learning_rate': 3.181109308202427e-06, 'epoch': 0.43} {'loss': 2.0341, 'grad_norm': 1.6845483779907227, 'learning_rate': 3.1806913289502835e-06, 'epoch': 0.43} {'loss': 2.4676, 'grad_norm': 1.729885220527649, 'learning_rate': 3.1802733291461873e-06, 'epoch': 0.43} {'loss': 2.0917, 'grad_norm': 1.4221220016479492, 'learning_rate': 3.179855308802758e-06, 'epoch': 0.43} {'loss': 1.9121, 'grad_norm': 1.7407376766204834, 'learning_rate': 3.1794372679326165e-06, 'epoch': 0.43} {'loss': 2.2189, 'grad_norm': 1.5793811082839966, 'learning_rate': 3.1790192065483848e-06, 'epoch': 0.43} {'loss': 2.2607, 'grad_norm': 1.5141501426696777, 'learning_rate': 3.1786011246626858e-06, 'epoch': 0.43} {'loss': 1.9633, 'grad_norm': 1.2994771003723145, 'learning_rate': 3.1781830222881428e-06, 'epoch': 0.43} {'loss': 2.4687, 'grad_norm': 1.6522879600524902, 'learning_rate': 3.1777648994373783e-06, 'epoch': 0.43} {'loss': 2.2261, 'grad_norm': 1.5024014711380005, 'learning_rate': 3.1773467561230174e-06, 'epoch': 0.43} {'loss': 2.2542, 'grad_norm': 1.7797702550888062, 'learning_rate': 3.1769285923576855e-06, 'epoch': 0.43} {'loss': 2.2267, 'grad_norm': 1.5361511707305908, 'learning_rate': 3.176510408154006e-06, 'epoch': 0.43} {'loss': 2.4629, 'grad_norm': 1.4598067998886108, 'learning_rate': 3.176092203524607e-06, 'epoch': 0.43} {'loss': 2.2541, 'grad_norm': 1.435252070426941, 'learning_rate': 3.175673978482115e-06, 'epoch': 0.43} {'loss': 2.0924, 'grad_norm': 1.5211689472198486, 'learning_rate': 3.1752557330391572e-06, 'epoch': 0.43} {'loss': 2.3852, 'grad_norm': 1.5999082326889038, 'learning_rate': 3.1748374672083614e-06, 'epoch': 0.43} {'loss': 2.3892, 'grad_norm': 1.5071624517440796, 'learning_rate': 3.1744191810023565e-06, 'epoch': 0.43} {'loss': 2.2346, 'grad_norm': 1.739762306213379, 'learning_rate': 3.1740008744337707e-06, 'epoch': 0.43} {'loss': 2.4741, 'grad_norm': 1.350911021232605, 'learning_rate': 3.1735825475152356e-06, 'epoch': 0.43} {'loss': 2.3974, 'grad_norm': 1.494175910949707, 'learning_rate': 3.1731642002593802e-06, 'epoch': 0.43} {'loss': 2.3932, 'grad_norm': 1.1515116691589355, 'learning_rate': 3.1727458326788363e-06, 'epoch': 0.43} {'loss': 2.2811, 'grad_norm': 1.5171592235565186, 'learning_rate': 3.172327444786235e-06, 'epoch': 0.43} {'loss': 2.0276, 'grad_norm': 1.3103886842727661, 'learning_rate': 3.1719090365942095e-06, 'epoch': 0.43} {'loss': 2.3667, 'grad_norm': 1.386548399925232, 'learning_rate': 3.1714906081153907e-06, 'epoch': 0.43} {'loss': 2.2647, 'grad_norm': 1.517061471939087, 'learning_rate': 3.171072159362415e-06, 'epoch': 0.43} {'loss': 2.1917, 'grad_norm': 1.529171347618103, 'learning_rate': 3.1706536903479145e-06, 'epoch': 0.43} {'loss': 2.1401, 'grad_norm': 1.81204354763031, 'learning_rate': 3.170235201084525e-06, 'epoch': 0.43} {'loss': 2.3555, 'grad_norm': 1.5169239044189453, 'learning_rate': 3.1698166915848803e-06, 'epoch': 0.43} {'loss': 2.5015, 'grad_norm': 5.320855617523193, 'learning_rate': 3.169398161861618e-06, 'epoch': 0.43} {'loss': 2.216, 'grad_norm': 1.3677281141281128, 'learning_rate': 3.168979611927374e-06, 'epoch': 0.43} 2024-12-15 16:15:48 - WARNING - NaN or Inf found in input tensor. {'loss': 2.3939, 'grad_norm': nan, 'learning_rate': 3.168979611927374e-06, 'epoch': 0.43} {'loss': 2.2553, 'grad_norm': 1.5220837593078613, 'learning_rate': 3.168561041794786e-06, 'epoch': 0.43} {'loss': 2.2729, 'grad_norm': 2.643423080444336, 'learning_rate': 3.168142451476491e-06, 'epoch': 0.43} {'loss': 2.1935, 'grad_norm': 1.608709692955017, 'learning_rate': 3.1677238409851275e-06, 'epoch': 0.43} {'loss': 2.5221, 'grad_norm': 1.6616311073303223, 'learning_rate': 3.1673052103333356e-06, 'epoch': 0.43} {'loss': 2.3642, 'grad_norm': 1.3503551483154297, 'learning_rate': 3.166886559533753e-06, 'epoch': 0.43} {'loss': 2.3, 'grad_norm': 1.468050241470337, 'learning_rate': 3.166467888599021e-06, 'epoch': 0.43} {'loss': 2.4092, 'grad_norm': 2.0955734252929688, 'learning_rate': 3.166049197541781e-06, 'epoch': 0.43} {'loss': 2.3789, 'grad_norm': 2.0736489295959473, 'learning_rate': 3.1656304863746732e-06, 'epoch': 0.43} {'loss': 2.4718, 'grad_norm': 1.6692017316818237, 'learning_rate': 3.165211755110341e-06, 'epoch': 0.43} {'loss': 2.0613, 'grad_norm': 1.5809335708618164, 'learning_rate': 3.164793003761426e-06, 'epoch': 0.43} {'loss': 2.3367, 'grad_norm': 1.4521249532699585, 'learning_rate': 3.1643742323405715e-06, 'epoch': 0.43} {'loss': 2.2778, 'grad_norm': 1.6124294996261597, 'learning_rate': 3.1639554408604227e-06, 'epoch': 0.43} {'loss': 2.315, 'grad_norm': 1.4774208068847656, 'learning_rate': 3.163536629333622e-06, 'epoch': 0.43} {'loss': 2.0677, 'grad_norm': 1.2863355875015259, 'learning_rate': 3.1631177977728167e-06, 'epoch': 0.43} {'loss': 2.2243, 'grad_norm': 1.4312041997909546, 'learning_rate': 3.1626989461906506e-06, 'epoch': 0.43} {'loss': 2.2944, 'grad_norm': 1.246522307395935, 'learning_rate': 3.1622800745997706e-06, 'epoch': 0.43} {'loss': 2.2726, 'grad_norm': 1.9669450521469116, 'learning_rate': 3.1618611830128233e-06, 'epoch': 0.43} {'loss': 2.4171, 'grad_norm': 2.2055838108062744, 'learning_rate': 3.1614422714424575e-06, 'epoch': 0.43} {'loss': 2.0701, 'grad_norm': 1.502489447593689, 'learning_rate': 3.1610233399013197e-06, 'epoch': 0.43} {'loss': 2.239, 'grad_norm': 1.6288349628448486, 'learning_rate': 3.16060438840206e-06, 'epoch': 0.43} {'loss': 2.4971, 'grad_norm': 1.597580909729004, 'learning_rate': 3.1601854169573267e-06, 'epoch': 0.43} {'loss': 2.3954, 'grad_norm': 1.6797171831130981, 'learning_rate': 3.1597664255797694e-06, 'epoch': 0.43} {'loss': 2.1815, 'grad_norm': 1.3544557094573975, 'learning_rate': 3.1593474142820398e-06, 'epoch': 0.43} {'loss': 2.2685, 'grad_norm': 1.5037949085235596, 'learning_rate': 3.158928383076788e-06, 'epoch': 0.43} {'loss': 2.3395, 'grad_norm': 1.5078909397125244, 'learning_rate': 3.1585093319766667e-06, 'epoch': 0.43} {'loss': 2.1566, 'grad_norm': 1.4763667583465576, 'learning_rate': 3.1580902609943283e-06, 'epoch': 0.43} {'loss': 2.2202, 'grad_norm': 1.6447101831436157, 'learning_rate': 3.1576711701424236e-06, 'epoch': 0.43} {'loss': 2.3252, 'grad_norm': 1.4241979122161865, 'learning_rate': 3.1572520594336077e-06, 'epoch': 0.43} {'loss': 2.5236, 'grad_norm': 1.454370379447937, 'learning_rate': 3.1568329288805357e-06, 'epoch': 0.43} {'loss': 2.4759, 'grad_norm': 1.8107396364212036, 'learning_rate': 3.1564137784958605e-06, 'epoch': 0.43} {'loss': 2.2265, 'grad_norm': 1.4618521928787231, 'learning_rate': 3.155994608292238e-06, 'epoch': 0.43} {'loss': 2.0686, 'grad_norm': 1.4625614881515503, 'learning_rate': 3.1555754182823244e-06, 'epoch': 0.43} {'loss': 2.2795, 'grad_norm': 1.5175803899765015, 'learning_rate': 3.1551562084787763e-06, 'epoch': 0.43} {'loss': 2.1742, 'grad_norm': 1.345065712928772, 'learning_rate': 3.15473697889425e-06, 'epoch': 0.43} {'loss': 2.3493, 'grad_norm': 2.5773701667785645, 'learning_rate': 3.154317729541404e-06, 'epoch': 0.43} {'loss': 2.1545, 'grad_norm': 1.4570146799087524, 'learning_rate': 3.153898460432896e-06, 'epoch': 0.43} {'loss': 2.332, 'grad_norm': 1.5041435956954956, 'learning_rate': 3.1534791715813855e-06, 'epoch': 0.43} {'loss': 1.7667, 'grad_norm': 1.3628169298171997, 'learning_rate': 3.1530598629995317e-06, 'epoch': 0.43} {'loss': 2.1514, 'grad_norm': 1.6008864641189575, 'learning_rate': 3.1526405346999944e-06, 'epoch': 0.43} {'loss': 1.9267, 'grad_norm': 1.260610580444336, 'learning_rate': 3.152221186695435e-06, 'epoch': 0.43} {'loss': 2.1639, 'grad_norm': 1.7011919021606445, 'learning_rate': 3.1518018189985143e-06, 'epoch': 0.43} {'loss': 2.295, 'grad_norm': 1.5462454557418823, 'learning_rate': 3.1513824316218936e-06, 'epoch': 0.43} {'loss': 2.3366, 'grad_norm': 1.3211286067962646, 'learning_rate': 3.1509630245782373e-06, 'epoch': 0.43} {'loss': 2.3539, 'grad_norm': 1.3216708898544312, 'learning_rate': 3.1505435978802055e-06, 'epoch': 0.43} {'loss': 2.4397, 'grad_norm': 1.608099102973938, 'learning_rate': 3.1501241515404644e-06, 'epoch': 0.43} {'loss': 2.1291, 'grad_norm': 1.4908567667007446, 'learning_rate': 3.1497046855716774e-06, 'epoch': 0.43} {'loss': 2.1671, 'grad_norm': 1.3830418586730957, 'learning_rate': 3.1492851999865086e-06, 'epoch': 0.43} {'loss': 2.3351, 'grad_norm': 1.9300270080566406, 'learning_rate': 3.1488656947976254e-06, 'epoch': 0.43} {'loss': 2.2713, 'grad_norm': 1.5431162118911743, 'learning_rate': 3.1484461700176917e-06, 'epoch': 0.43} {'loss': 2.3222, 'grad_norm': 1.7396215200424194, 'learning_rate': 3.1480266256593746e-06, 'epoch': 0.43} {'loss': 2.1556, 'grad_norm': 1.5062544345855713, 'learning_rate': 3.1476070617353417e-06, 'epoch': 0.43} {'loss': 2.3548, 'grad_norm': 1.6098475456237793, 'learning_rate': 3.147187478258262e-06, 'epoch': 0.43} {'loss': 2.2661, 'grad_norm': 1.5512802600860596, 'learning_rate': 3.1467678752408014e-06, 'epoch': 0.43} {'loss': 2.1776, 'grad_norm': 1.2750555276870728, 'learning_rate': 3.14634825269563e-06, 'epoch': 0.43} {'loss': 2.2483, 'grad_norm': 1.4480499029159546, 'learning_rate': 3.145928610635418e-06, 'epoch': 0.43} {'loss': 2.2934, 'grad_norm': 1.4347401857376099, 'learning_rate': 3.145508949072834e-06, 'epoch': 0.43} {'loss': 2.2066, 'grad_norm': 1.3863723278045654, 'learning_rate': 3.1450892680205513e-06, 'epoch': 0.43} {'loss': 2.0564, 'grad_norm': 2.47845196723938, 'learning_rate': 3.144669567491239e-06, 'epoch': 0.43} {'loss': 2.2403, 'grad_norm': 1.4054067134857178, 'learning_rate': 3.1442498474975696e-06, 'epoch': 0.44} {'loss': 2.3803, 'grad_norm': 1.6642202138900757, 'learning_rate': 3.143830108052216e-06, 'epoch': 0.44} {'loss': 1.9629, 'grad_norm': 1.278454303741455, 'learning_rate': 3.14341034916785e-06, 'epoch': 0.44} {'loss': 2.2399, 'grad_norm': 1.4403215646743774, 'learning_rate': 3.1429905708571475e-06, 'epoch': 0.44} {'loss': 2.1202, 'grad_norm': 1.8239011764526367, 'learning_rate': 3.1425707731327813e-06, 'epoch': 0.44} {'loss': 2.2645, 'grad_norm': 1.6787456274032593, 'learning_rate': 3.1421509560074265e-06, 'epoch': 0.44} {'loss': 2.0362, 'grad_norm': 1.646278977394104, 'learning_rate': 3.141731119493759e-06, 'epoch': 0.44} {'loss': 2.1989, 'grad_norm': 1.567460060119629, 'learning_rate': 3.1413112636044535e-06, 'epoch': 0.44} {'loss': 2.3242, 'grad_norm': 1.5351523160934448, 'learning_rate': 3.1408913883521874e-06, 'epoch': 0.44} {'loss': 1.5869, 'grad_norm': 1.2965872287750244, 'learning_rate': 3.1404714937496382e-06, 'epoch': 0.44} {'loss': 2.4989, 'grad_norm': 1.3965492248535156, 'learning_rate': 3.140051579809484e-06, 'epoch': 0.44} {'loss': 2.3443, 'grad_norm': 1.5008741617202759, 'learning_rate': 3.1396316465444027e-06, 'epoch': 0.44} {'loss': 2.2139, 'grad_norm': 1.6376490592956543, 'learning_rate': 3.1392116939670727e-06, 'epoch': 0.44} {'loss': 2.3848, 'grad_norm': 2.0533387660980225, 'learning_rate': 3.1387917220901744e-06, 'epoch': 0.44} {'loss': 2.2626, 'grad_norm': 2.3343279361724854, 'learning_rate': 3.138371730926386e-06, 'epoch': 0.44} {'loss': 2.3251, 'grad_norm': 1.4971846342086792, 'learning_rate': 3.137951720488391e-06, 'epoch': 0.44} {'loss': 2.3519, 'grad_norm': 1.5860618352890015, 'learning_rate': 3.1375316907888697e-06, 'epoch': 0.44} {'loss': 2.0373, 'grad_norm': 1.4059075117111206, 'learning_rate': 3.1371116418405034e-06, 'epoch': 0.44} {'loss': 2.3117, 'grad_norm': 1.4690818786621094, 'learning_rate': 3.1366915736559743e-06, 'epoch': 0.44} {'loss': 2.4472, 'grad_norm': 1.5833725929260254, 'learning_rate': 3.1362714862479664e-06, 'epoch': 0.44} {'loss': 2.4208, 'grad_norm': 1.43063485622406, 'learning_rate': 3.1358513796291628e-06, 'epoch': 0.44} {'loss': 1.9499, 'grad_norm': 1.1802074909210205, 'learning_rate': 3.1354312538122473e-06, 'epoch': 0.44} {'loss': 1.9931, 'grad_norm': 1.7703646421432495, 'learning_rate': 3.1350111088099055e-06, 'epoch': 0.44} {'loss': 2.2516, 'grad_norm': 1.1617642641067505, 'learning_rate': 3.134590944634822e-06, 'epoch': 0.44} {'loss': 2.0382, 'grad_norm': 1.6314432621002197, 'learning_rate': 3.134170761299683e-06, 'epoch': 0.44} {'loss': 2.0633, 'grad_norm': 1.4624756574630737, 'learning_rate': 3.133750558817175e-06, 'epoch': 0.44} {'loss': 2.1656, 'grad_norm': 1.4284498691558838, 'learning_rate': 3.1333303371999853e-06, 'epoch': 0.44} {'loss': 2.3533, 'grad_norm': 1.480573296546936, 'learning_rate': 3.132910096460801e-06, 'epoch': 0.44} {'loss': 2.2829, 'grad_norm': 1.7662222385406494, 'learning_rate': 3.1324898366123113e-06, 'epoch': 0.44} {'loss': 2.231, 'grad_norm': 1.3800550699234009, 'learning_rate': 3.132069557667204e-06, 'epoch': 0.44} {'loss': 1.9991, 'grad_norm': 1.5631026029586792, 'learning_rate': 3.131649259638168e-06, 'epoch': 0.44} {'loss': 2.3624, 'grad_norm': 1.7115808725357056, 'learning_rate': 3.131228942537895e-06, 'epoch': 0.44} {'loss': 2.2342, 'grad_norm': 1.4468218088150024, 'learning_rate': 3.130808606379074e-06, 'epoch': 0.44} {'loss': 1.9133, 'grad_norm': 1.5920908451080322, 'learning_rate': 3.130388251174398e-06, 'epoch': 0.44} {'loss': 2.3474, 'grad_norm': 1.3319932222366333, 'learning_rate': 3.129967876936557e-06, 'epoch': 0.44} {'loss': 2.3461, 'grad_norm': 1.5074255466461182, 'learning_rate': 3.1295474836782437e-06, 'epoch': 0.44} {'loss': 2.2175, 'grad_norm': 1.222482681274414, 'learning_rate': 3.1291270714121496e-06, 'epoch': 0.44} {'loss': 2.3266, 'grad_norm': 1.6612634658813477, 'learning_rate': 3.1287066401509715e-06, 'epoch': 0.44} {'loss': 2.2376, 'grad_norm': 1.5026041269302368, 'learning_rate': 3.1282861899074e-06, 'epoch': 0.44} {'loss': 2.2188, 'grad_norm': 1.8113747835159302, 'learning_rate': 3.1278657206941315e-06, 'epoch': 0.44} {'loss': 2.2495, 'grad_norm': 1.6892218589782715, 'learning_rate': 3.1274452325238603e-06, 'epoch': 0.44} {'loss': 2.2401, 'grad_norm': 1.2566713094711304, 'learning_rate': 3.127024725409282e-06, 'epoch': 0.44} {'loss': 2.3404, 'grad_norm': 1.5468930006027222, 'learning_rate': 3.126604199363094e-06, 'epoch': 0.44} {'loss': 2.3083, 'grad_norm': 1.6254000663757324, 'learning_rate': 3.126183654397993e-06, 'epoch': 0.44} {'loss': 2.1933, 'grad_norm': 1.5898528099060059, 'learning_rate': 3.1257630905266744e-06, 'epoch': 0.44} {'loss': 2.2312, 'grad_norm': 1.3524144887924194, 'learning_rate': 3.125342507761839e-06, 'epoch': 0.44} {'loss': 2.2563, 'grad_norm': 1.4741265773773193, 'learning_rate': 3.1249219061161833e-06, 'epoch': 0.44} {'loss': 2.0761, 'grad_norm': 1.7285051345825195, 'learning_rate': 3.1245012856024067e-06, 'epoch': 0.44} {'loss': 2.3635, 'grad_norm': 1.4238667488098145, 'learning_rate': 3.1240806462332095e-06, 'epoch': 0.44} {'loss': 2.0593, 'grad_norm': 1.7835544347763062, 'learning_rate': 3.1236599880212927e-06, 'epoch': 0.44} {'loss': 2.4023, 'grad_norm': 2.772679090499878, 'learning_rate': 3.1232393109793557e-06, 'epoch': 0.44} {'loss': 2.3574, 'grad_norm': 1.3941822052001953, 'learning_rate': 3.1228186151201002e-06, 'epoch': 0.44} {'loss': 2.0416, 'grad_norm': 1.5843664407730103, 'learning_rate': 3.122397900456229e-06, 'epoch': 0.44} {'loss': 2.226, 'grad_norm': 1.649236798286438, 'learning_rate': 3.1219771670004424e-06, 'epoch': 0.44} {'loss': 2.4362, 'grad_norm': 1.515203833580017, 'learning_rate': 3.1215564147654463e-06, 'epoch': 0.44} {'loss': 2.0972, 'grad_norm': 1.2670848369598389, 'learning_rate': 3.121135643763944e-06, 'epoch': 0.44} {'loss': 2.3723, 'grad_norm': 1.3961238861083984, 'learning_rate': 3.120714854008638e-06, 'epoch': 0.44} {'loss': 2.5309, 'grad_norm': 1.5744242668151855, 'learning_rate': 3.1202940455122338e-06, 'epoch': 0.44} {'loss': 1.2818, 'grad_norm': 2.784168004989624, 'learning_rate': 3.1198732182874377e-06, 'epoch': 0.44} {'loss': 2.3037, 'grad_norm': 1.720723271369934, 'learning_rate': 3.1194523723469544e-06, 'epoch': 0.44} {'loss': 2.2377, 'grad_norm': 1.2177618741989136, 'learning_rate': 3.119031507703491e-06, 'epoch': 0.44} {'loss': 2.3897, 'grad_norm': 1.4818427562713623, 'learning_rate': 3.118610624369755e-06, 'epoch': 0.44} {'loss': 2.2499, 'grad_norm': 1.4474354982376099, 'learning_rate': 3.1181897223584536e-06, 'epoch': 0.44} {'loss': 2.0793, 'grad_norm': 1.7727051973342896, 'learning_rate': 3.117768801682294e-06, 'epoch': 0.44} {'loss': 1.8723, 'grad_norm': 1.4510897397994995, 'learning_rate': 3.1173478623539865e-06, 'epoch': 0.44} {'loss': 2.2021, 'grad_norm': 1.7089896202087402, 'learning_rate': 3.1169269043862398e-06, 'epoch': 0.44} {'loss': 2.4983, 'grad_norm': 1.617608666419983, 'learning_rate': 3.116505927791764e-06, 'epoch': 0.44} {'loss': 2.2967, 'grad_norm': 1.6654052734375, 'learning_rate': 3.11608493258327e-06, 'epoch': 0.44} {'loss': 2.1484, 'grad_norm': 1.2543256282806396, 'learning_rate': 3.1156639187734676e-06, 'epoch': 0.44} {'loss': 2.4599, 'grad_norm': 1.460953712463379, 'learning_rate': 3.1152428863750685e-06, 'epoch': 0.44} {'loss': 2.4074, 'grad_norm': 1.8255698680877686, 'learning_rate': 3.1148218354007854e-06, 'epoch': 0.44} {'loss': 2.526, 'grad_norm': 1.685549020767212, 'learning_rate': 3.1144007658633315e-06, 'epoch': 0.44} {'loss': 1.9304, 'grad_norm': 1.4316269159317017, 'learning_rate': 3.113979677775419e-06, 'epoch': 0.44} {'loss': 2.173, 'grad_norm': 1.190027117729187, 'learning_rate': 3.1135585711497625e-06, 'epoch': 0.44} {'loss': 2.1919, 'grad_norm': 1.6234550476074219, 'learning_rate': 3.113137445999076e-06, 'epoch': 0.44} {'loss': 2.3384, 'grad_norm': 2.176079511642456, 'learning_rate': 3.1127163023360742e-06, 'epoch': 0.44} {'loss': 2.1702, 'grad_norm': 1.5399919748306274, 'learning_rate': 3.112295140173472e-06, 'epoch': 0.44} {'loss': 1.8594, 'grad_norm': 1.4991408586502075, 'learning_rate': 3.1118739595239876e-06, 'epoch': 0.44} {'loss': 2.2471, 'grad_norm': 1.6419779062271118, 'learning_rate': 3.1114527604003357e-06, 'epoch': 0.44} {'loss': 2.3301, 'grad_norm': 1.5755397081375122, 'learning_rate': 3.1110315428152343e-06, 'epoch': 0.44} {'loss': 2.0927, 'grad_norm': 1.213074803352356, 'learning_rate': 3.110610306781401e-06, 'epoch': 0.44} {'loss': 2.4114, 'grad_norm': 1.6937772035598755, 'learning_rate': 3.110189052311554e-06, 'epoch': 0.44} {'loss': 2.2254, 'grad_norm': 2.1828291416168213, 'learning_rate': 3.109767779418412e-06, 'epoch': 0.44} {'loss': 1.9683, 'grad_norm': 1.5207009315490723, 'learning_rate': 3.109346488114694e-06, 'epoch': 0.44} {'loss': 2.2185, 'grad_norm': 1.5282800197601318, 'learning_rate': 3.108925178413121e-06, 'epoch': 0.44} {'loss': 1.9903, 'grad_norm': 1.6110286712646484, 'learning_rate': 3.108503850326413e-06, 'epoch': 0.44} {'loss': 2.132, 'grad_norm': 1.481516718864441, 'learning_rate': 3.1080825038672907e-06, 'epoch': 0.44} {'loss': 2.2092, 'grad_norm': 1.3939735889434814, 'learning_rate': 3.107661139048476e-06, 'epoch': 0.44} {'loss': 2.0993, 'grad_norm': 1.3236570358276367, 'learning_rate': 3.1072397558826917e-06, 'epoch': 0.44} {'loss': 2.2557, 'grad_norm': 1.4255019426345825, 'learning_rate': 3.106818354382659e-06, 'epoch': 0.44} {'loss': 2.242, 'grad_norm': 1.408014178276062, 'learning_rate': 3.1063969345611035e-06, 'epoch': 0.44} {'loss': 2.7263, 'grad_norm': 1.807202696800232, 'learning_rate': 3.1059754964307472e-06, 'epoch': 0.44} {'loss': 2.2654, 'grad_norm': 1.6142090559005737, 'learning_rate': 3.1055540400043136e-06, 'epoch': 0.44} {'loss': 2.196, 'grad_norm': 1.8548439741134644, 'learning_rate': 3.10513256529453e-06, 'epoch': 0.44} {'loss': 2.3218, 'grad_norm': 1.5082253217697144, 'learning_rate': 3.1047110723141205e-06, 'epoch': 0.44} {'loss': 2.0221, 'grad_norm': 1.5474853515625, 'learning_rate': 3.104289561075812e-06, 'epoch': 0.44} {'loss': 2.2238, 'grad_norm': 1.13668954372406, 'learning_rate': 3.1038680315923304e-06, 'epoch': 0.44} {'loss': 2.212, 'grad_norm': 1.66643226146698, 'learning_rate': 3.103446483876403e-06, 'epoch': 0.44} {'loss': 1.9839, 'grad_norm': 2.5605428218841553, 'learning_rate': 3.103024917940757e-06, 'epoch': 0.44} {'loss': 2.5901, 'grad_norm': 1.487849473953247, 'learning_rate': 3.102603333798122e-06, 'epoch': 0.44} {'loss': 2.298, 'grad_norm': 1.513083815574646, 'learning_rate': 3.102181731461225e-06, 'epoch': 0.44} {'loss': 2.1099, 'grad_norm': 1.324217438697815, 'learning_rate': 3.101760110942797e-06, 'epoch': 0.44} {'loss': 2.4378, 'grad_norm': 1.588037133216858, 'learning_rate': 3.101338472255567e-06, 'epoch': 0.44} {'loss': 2.1952, 'grad_norm': 1.5031795501708984, 'learning_rate': 3.1009168154122653e-06, 'epoch': 0.44} {'loss': 2.106, 'grad_norm': 1.1891772747039795, 'learning_rate': 3.1004951404256234e-06, 'epoch': 0.44} {'loss': 1.3742, 'grad_norm': 1.560293436050415, 'learning_rate': 3.1000734473083726e-06, 'epoch': 0.44} {'loss': 2.2655, 'grad_norm': 1.2879817485809326, 'learning_rate': 3.0996517360732446e-06, 'epoch': 0.44} {'loss': 2.2067, 'grad_norm': 1.6570684909820557, 'learning_rate': 3.0992300067329733e-06, 'epoch': 0.44} {'loss': 2.3532, 'grad_norm': 1.518264889717102, 'learning_rate': 3.0988082593002913e-06, 'epoch': 0.44} {'loss': 2.2927, 'grad_norm': 1.4387354850769043, 'learning_rate': 3.0983864937879302e-06, 'epoch': 0.44} {'loss': 2.1638, 'grad_norm': 1.6947021484375, 'learning_rate': 3.0979647102086275e-06, 'epoch': 0.44} {'loss': 2.3416, 'grad_norm': 4.488561630249023, 'learning_rate': 3.097542908575116e-06, 'epoch': 0.44} {'loss': 1.9877, 'grad_norm': 1.3499075174331665, 'learning_rate': 3.0971210889001324e-06, 'epoch': 0.44} {'loss': 2.0616, 'grad_norm': 1.5126768350601196, 'learning_rate': 3.0966992511964116e-06, 'epoch': 0.44} {'loss': 2.2459, 'grad_norm': 1.5287882089614868, 'learning_rate': 3.09627739547669e-06, 'epoch': 0.44} {'loss': 2.2457, 'grad_norm': 1.5800319910049438, 'learning_rate': 3.0958555217537045e-06, 'epoch': 0.44} {'loss': 2.2346, 'grad_norm': 1.558396816253662, 'learning_rate': 3.0954336300401937e-06, 'epoch': 0.44} {'loss': 2.3448, 'grad_norm': 1.383270263671875, 'learning_rate': 3.0950117203488956e-06, 'epoch': 0.44} {'loss': 2.3377, 'grad_norm': 1.4690966606140137, 'learning_rate': 3.094589792692547e-06, 'epoch': 0.44} {'loss': 2.0412, 'grad_norm': 1.6433228254318237, 'learning_rate': 3.0941678470838888e-06, 'epoch': 0.44} {'loss': 2.2157, 'grad_norm': 2.8719236850738525, 'learning_rate': 3.0937458835356605e-06, 'epoch': 0.44} {'loss': 2.0918, 'grad_norm': 1.7792938947677612, 'learning_rate': 3.0933239020606016e-06, 'epoch': 0.44} {'loss': 2.297, 'grad_norm': 1.5176101922988892, 'learning_rate': 3.0929019026714536e-06, 'epoch': 0.44} {'loss': 2.3403, 'grad_norm': 1.650693655014038, 'learning_rate': 3.0924798853809575e-06, 'epoch': 0.44} {'loss': 2.4215, 'grad_norm': 6.125771522521973, 'learning_rate': 3.092057850201855e-06, 'epoch': 0.44} {'loss': 2.1856, 'grad_norm': 1.7382993698120117, 'learning_rate': 3.091635797146889e-06, 'epoch': 0.44} {'loss': 2.3139, 'grad_norm': 1.4512192010879517, 'learning_rate': 3.0912137262288024e-06, 'epoch': 0.44} {'loss': 2.4269, 'grad_norm': 1.848416805267334, 'learning_rate': 3.090791637460338e-06, 'epoch': 0.44} {'loss': 2.307, 'grad_norm': 1.493782877922058, 'learning_rate': 3.0903695308542407e-06, 'epoch': 0.44} {'loss': 2.1927, 'grad_norm': 1.5734100341796875, 'learning_rate': 3.089947406423255e-06, 'epoch': 0.44} {'loss': 2.3309, 'grad_norm': 10.580697059631348, 'learning_rate': 3.0895252641801253e-06, 'epoch': 0.44} {'loss': 1.9363, 'grad_norm': 1.2737406492233276, 'learning_rate': 3.0891031041375967e-06, 'epoch': 0.44} {'loss': 2.3056, 'grad_norm': 1.6707308292388916, 'learning_rate': 3.088680926308417e-06, 'epoch': 0.44} {'loss': 2.3989, 'grad_norm': 1.506313443183899, 'learning_rate': 3.088258730705333e-06, 'epoch': 0.44} {'loss': 2.203, 'grad_norm': 1.5361547470092773, 'learning_rate': 3.0878365173410905e-06, 'epoch': 0.44} {'loss': 1.3172, 'grad_norm': 1.5956224203109741, 'learning_rate': 3.0874142862284382e-06, 'epoch': 0.44} {'loss': 2.2466, 'grad_norm': 1.7355424165725708, 'learning_rate': 3.0869920373801243e-06, 'epoch': 0.44} {'loss': 1.9851, 'grad_norm': 1.4972761869430542, 'learning_rate': 3.0865697708088966e-06, 'epoch': 0.44} {'loss': 2.2216, 'grad_norm': 1.4504144191741943, 'learning_rate': 3.086147486527506e-06, 'epoch': 0.44} {'loss': 2.18, 'grad_norm': 1.382952332496643, 'learning_rate': 3.0857251845487023e-06, 'epoch': 0.44} {'loss': 2.3876, 'grad_norm': 1.6413203477859497, 'learning_rate': 3.085302864885235e-06, 'epoch': 0.44} {'loss': 2.2107, 'grad_norm': 1.427801251411438, 'learning_rate': 3.084880527549856e-06, 'epoch': 0.44} {'loss': 2.259, 'grad_norm': 1.4216923713684082, 'learning_rate': 3.0844581725553162e-06, 'epoch': 0.44} {'loss': 2.3866, 'grad_norm': 1.5792412757873535, 'learning_rate': 3.084035799914368e-06, 'epoch': 0.44} {'loss': 2.1847, 'grad_norm': 1.2935481071472168, 'learning_rate': 3.0836134096397642e-06, 'epoch': 0.44} {'loss': 2.2906, 'grad_norm': 1.4485241174697876, 'learning_rate': 3.0831910017442568e-06, 'epoch': 0.44} {'loss': 2.2389, 'grad_norm': 1.4937679767608643, 'learning_rate': 3.0827685762406013e-06, 'epoch': 0.44} {'loss': 2.408, 'grad_norm': 1.6575536727905273, 'learning_rate': 3.0823461331415507e-06, 'epoch': 0.44} {'loss': 2.2719, 'grad_norm': 1.5308891534805298, 'learning_rate': 3.0819236724598593e-06, 'epoch': 0.44} {'loss': 2.2977, 'grad_norm': 1.6676307916641235, 'learning_rate': 3.0815011942082832e-06, 'epoch': 0.44} {'loss': 2.4725, 'grad_norm': 1.7521926164627075, 'learning_rate': 3.081078698399579e-06, 'epoch': 0.44} {'loss': 2.2243, 'grad_norm': 1.4197114706039429, 'learning_rate': 3.0806561850465006e-06, 'epoch': 0.44} {'loss': 2.2353, 'grad_norm': 2.563281774520874, 'learning_rate': 3.080233654161808e-06, 'epoch': 0.44} {'loss': 2.4221, 'grad_norm': 1.2640773057937622, 'learning_rate': 3.079811105758255e-06, 'epoch': 0.44} {'loss': 2.1391, 'grad_norm': 1.3549326658248901, 'learning_rate': 3.079388539848602e-06, 'epoch': 0.44} {'loss': 2.2257, 'grad_norm': 1.514380931854248, 'learning_rate': 3.0789659564456065e-06, 'epoch': 0.44} 2024-12-15 17:32:00 - WARNING - NaN or Inf found in input tensor. {'loss': 2.1802, 'grad_norm': nan, 'learning_rate': 3.0789659564456065e-06, 'epoch': 0.44} {'loss': 2.1655, 'grad_norm': 1.6377195119857788, 'learning_rate': 3.0785433555620285e-06, 'epoch': 0.44} {'loss': 2.3602, 'grad_norm': 1.4744887351989746, 'learning_rate': 3.0781207372106266e-06, 'epoch': 0.44} {'loss': 2.2435, 'grad_norm': 1.4504430294036865, 'learning_rate': 3.07769810140416e-06, 'epoch': 0.44} {'loss': 1.9925, 'grad_norm': 1.4906703233718872, 'learning_rate': 3.077275448155391e-06, 'epoch': 0.44} {'loss': 2.3366, 'grad_norm': 1.4686421155929565, 'learning_rate': 3.076852777477079e-06, 'epoch': 0.44} {'loss': 2.2395, 'grad_norm': 1.4906855821609497, 'learning_rate': 3.076430089381988e-06, 'epoch': 0.44} {'loss': 2.3485, 'grad_norm': 1.5335112810134888, 'learning_rate': 3.076007383882877e-06, 'epoch': 0.44} {'loss': 2.3781, 'grad_norm': 2.6739532947540283, 'learning_rate': 3.075584660992511e-06, 'epoch': 0.44} {'loss': 2.2345, 'grad_norm': 1.4965986013412476, 'learning_rate': 3.075161920723652e-06, 'epoch': 0.44} {'loss': 2.1944, 'grad_norm': 1.4792897701263428, 'learning_rate': 3.0747391630890645e-06, 'epoch': 0.44} {'loss': 2.2655, 'grad_norm': 2.3615171909332275, 'learning_rate': 3.074316388101512e-06, 'epoch': 0.44} {'loss': 2.2675, 'grad_norm': 1.48591947555542, 'learning_rate': 3.073893595773759e-06, 'epoch': 0.44} {'loss': 2.3064, 'grad_norm': 1.4812761545181274, 'learning_rate': 3.073470786118572e-06, 'epoch': 0.44} {'loss': 2.4668, 'grad_norm': 1.895809531211853, 'learning_rate': 3.073047959148716e-06, 'epoch': 0.44} {'loss': 2.3322, 'grad_norm': 1.5534019470214844, 'learning_rate': 3.072625114876958e-06, 'epoch': 0.44} {'loss': 2.3632, 'grad_norm': 1.3481273651123047, 'learning_rate': 3.072202253316063e-06, 'epoch': 0.44} {'loss': 2.1744, 'grad_norm': 1.531535029411316, 'learning_rate': 3.0717793744788005e-06, 'epoch': 0.44} {'loss': 2.4201, 'grad_norm': 1.3982070684432983, 'learning_rate': 3.0713564783779374e-06, 'epoch': 0.44} {'loss': 2.668, 'grad_norm': 2.411639928817749, 'learning_rate': 3.070933565026243e-06, 'epoch': 0.44} {'loss': 2.2405, 'grad_norm': 1.345180869102478, 'learning_rate': 3.0705106344364844e-06, 'epoch': 0.44} {'loss': 2.2398, 'grad_norm': 1.6579338312149048, 'learning_rate': 3.0700876866214326e-06, 'epoch': 0.44} {'loss': 2.4042, 'grad_norm': 1.5954296588897705, 'learning_rate': 3.069664721593856e-06, 'epoch': 0.44} {'loss': 2.1765, 'grad_norm': 1.6287651062011719, 'learning_rate': 3.0692417393665273e-06, 'epoch': 0.44} {'loss': 2.2431, 'grad_norm': 1.4368798732757568, 'learning_rate': 3.068818739952216e-06, 'epoch': 0.44} {'loss': 2.1899, 'grad_norm': 1.4785022735595703, 'learning_rate': 3.0683957233636935e-06, 'epoch': 0.44} {'loss': 2.2127, 'grad_norm': 1.3623108863830566, 'learning_rate': 3.0679726896137326e-06, 'epoch': 0.44} {'loss': 2.2567, 'grad_norm': 1.5241988897323608, 'learning_rate': 3.0675496387151056e-06, 'epoch': 0.44} {'loss': 2.1745, 'grad_norm': 1.4753203392028809, 'learning_rate': 3.0671265706805853e-06, 'epoch': 0.44} {'loss': 2.3754, 'grad_norm': 1.4884871244430542, 'learning_rate': 3.066703485522946e-06, 'epoch': 0.44} {'loss': 2.0384, 'grad_norm': 1.4054796695709229, 'learning_rate': 3.066280383254961e-06, 'epoch': 0.45} {'loss': 2.1675, 'grad_norm': 1.393243432044983, 'learning_rate': 3.065857263889405e-06, 'epoch': 0.45} {'loss': 2.1456, 'grad_norm': 1.6074496507644653, 'learning_rate': 3.0654341274390537e-06, 'epoch': 0.45} {'loss': 2.1281, 'grad_norm': 1.4409321546554565, 'learning_rate': 3.065010973916682e-06, 'epoch': 0.45} {'loss': 2.3932, 'grad_norm': 1.3262722492218018, 'learning_rate': 3.0645878033350674e-06, 'epoch': 0.45} {'loss': 2.4955, 'grad_norm': 1.6073384284973145, 'learning_rate': 3.0641646157069853e-06, 'epoch': 0.45} {'loss': 2.3725, 'grad_norm': 1.4306575059890747, 'learning_rate': 3.0637414110452133e-06, 'epoch': 0.45} {'loss': 2.064, 'grad_norm': 1.609908938407898, 'learning_rate': 3.06331818936253e-06, 'epoch': 0.45} {'loss': 1.9926, 'grad_norm': 1.4838604927062988, 'learning_rate': 3.062894950671711e-06, 'epoch': 0.45} {'loss': 2.5147, 'grad_norm': 1.68695867061615, 'learning_rate': 3.062471694985538e-06, 'epoch': 0.45} {'loss': 2.5396, 'grad_norm': 1.5027607679367065, 'learning_rate': 3.062048422316789e-06, 'epoch': 0.45} {'loss': 2.0674, 'grad_norm': 1.3888792991638184, 'learning_rate': 3.0616251326782444e-06, 'epoch': 0.45} {'loss': 2.1237, 'grad_norm': 1.5818082094192505, 'learning_rate': 3.061201826082683e-06, 'epoch': 0.45} {'loss': 2.2148, 'grad_norm': 1.7295055389404297, 'learning_rate': 3.0607785025428864e-06, 'epoch': 0.45} {'loss': 2.3378, 'grad_norm': 1.4651027917861938, 'learning_rate': 3.0603551620716367e-06, 'epoch': 0.45} {'loss': 2.5233, 'grad_norm': 1.4915000200271606, 'learning_rate': 3.0599318046817144e-06, 'epoch': 0.45} {'loss': 2.3003, 'grad_norm': 2.272883415222168, 'learning_rate': 3.0595084303859035e-06, 'epoch': 0.45} {'loss': 2.1015, 'grad_norm': 1.7647143602371216, 'learning_rate': 3.0590850391969852e-06, 'epoch': 0.45} {'loss': 2.3407, 'grad_norm': 1.5829981565475464, 'learning_rate': 3.058661631127744e-06, 'epoch': 0.45} {'loss': 1.7852, 'grad_norm': 1.1261963844299316, 'learning_rate': 3.058238206190963e-06, 'epoch': 0.45} {'loss': 2.1921, 'grad_norm': 1.497343897819519, 'learning_rate': 3.057814764399426e-06, 'epoch': 0.45} {'loss': 2.1725, 'grad_norm': 3.772108316421509, 'learning_rate': 3.0573913057659192e-06, 'epoch': 0.45} {'loss': 2.1884, 'grad_norm': 1.1935025453567505, 'learning_rate': 3.056967830303228e-06, 'epoch': 0.45} {'loss': 2.0309, 'grad_norm': 1.5357714891433716, 'learning_rate': 3.056544338024137e-06, 'epoch': 0.45} {'loss': 2.5322, 'grad_norm': 1.6772332191467285, 'learning_rate': 3.0561208289414348e-06, 'epoch': 0.45} {'loss': 2.4001, 'grad_norm': 1.532554268836975, 'learning_rate': 3.0556973030679057e-06, 'epoch': 0.45} {'loss': 2.3761, 'grad_norm': 1.464996576309204, 'learning_rate': 3.0552737604163378e-06, 'epoch': 0.45} {'loss': 2.3794, 'grad_norm': 1.6790658235549927, 'learning_rate': 3.054850200999521e-06, 'epoch': 0.45} {'loss': 2.2081, 'grad_norm': 1.5258294343948364, 'learning_rate': 3.0544266248302413e-06, 'epoch': 0.45} {'loss': 2.5136, 'grad_norm': 1.5874114036560059, 'learning_rate': 3.0540030319212893e-06, 'epoch': 0.45} {'loss': 2.257, 'grad_norm': 1.613317847251892, 'learning_rate': 3.053579422285453e-06, 'epoch': 0.45} {'loss': 2.0894, 'grad_norm': 1.2938765287399292, 'learning_rate': 3.053155795935523e-06, 'epoch': 0.45} {'loss': 2.1368, 'grad_norm': 1.749281883239746, 'learning_rate': 3.0527321528842903e-06, 'epoch': 0.45} {'loss': 1.934, 'grad_norm': 3.324453592300415, 'learning_rate': 3.0523084931445455e-06, 'epoch': 0.45} {'loss': 1.997, 'grad_norm': 1.2827945947647095, 'learning_rate': 3.0518848167290797e-06, 'epoch': 0.45} {'loss': 2.2073, 'grad_norm': 1.374488353729248, 'learning_rate': 3.0514611236506852e-06, 'epoch': 0.45} {'loss': 2.1684, 'grad_norm': 1.491152048110962, 'learning_rate': 3.0510374139221544e-06, 'epoch': 0.45} {'loss': 2.4527, 'grad_norm': 1.5504097938537598, 'learning_rate': 3.05061368755628e-06, 'epoch': 0.45} {'loss': 1.5796, 'grad_norm': 2.132828712463379, 'learning_rate': 3.0501899445658565e-06, 'epoch': 0.45} {'loss': 2.2633, 'grad_norm': 1.471354365348816, 'learning_rate': 3.0497661849636763e-06, 'epoch': 0.45} {'loss': 2.1841, 'grad_norm': 1.654012680053711, 'learning_rate': 3.049342408762535e-06, 'epoch': 0.45} {'loss': 2.2614, 'grad_norm': 1.5079448223114014, 'learning_rate': 3.048918615975227e-06, 'epoch': 0.45} {'loss': 2.2009, 'grad_norm': 1.3787786960601807, 'learning_rate': 3.0484948066145488e-06, 'epoch': 0.45} {'loss': 1.945, 'grad_norm': 1.2477898597717285, 'learning_rate': 3.0480709806932946e-06, 'epoch': 0.45} {'loss': 2.1678, 'grad_norm': 1.5061390399932861, 'learning_rate': 3.047647138224262e-06, 'epoch': 0.45} {'loss': 2.2645, 'grad_norm': 1.5806396007537842, 'learning_rate': 3.047223279220248e-06, 'epoch': 0.45} {'loss': 2.3839, 'grad_norm': 1.6012747287750244, 'learning_rate': 3.0467994036940514e-06, 'epoch': 0.45} {'loss': 2.1082, 'grad_norm': 1.52213716506958, 'learning_rate': 3.0463755116584664e-06, 'epoch': 0.45} {'loss': 2.3441, 'grad_norm': 1.4776591062545776, 'learning_rate': 3.0459516031262948e-06, 'epoch': 0.45} {'loss': 2.3234, 'grad_norm': 1.4764235019683838, 'learning_rate': 3.0455276781103342e-06, 'epoch': 0.45} {'loss': 2.4767, 'grad_norm': 1.6458574533462524, 'learning_rate': 3.0451037366233848e-06, 'epoch': 0.45} {'loss': 2.2755, 'grad_norm': 1.470445990562439, 'learning_rate': 3.0446797786782468e-06, 'epoch': 0.45} {'loss': 2.1678, 'grad_norm': 1.5310581922531128, 'learning_rate': 3.044255804287719e-06, 'epoch': 0.45} {'loss': 2.4914, 'grad_norm': 1.6813807487487793, 'learning_rate': 3.043831813464604e-06, 'epoch': 0.45} {'loss': 2.3088, 'grad_norm': 3.0713131427764893, 'learning_rate': 3.043407806221702e-06, 'epoch': 0.45} {'loss': 2.2534, 'grad_norm': 1.46730637550354, 'learning_rate': 3.042983782571816e-06, 'epoch': 0.45} {'loss': 1.8821, 'grad_norm': 1.3291233777999878, 'learning_rate': 3.0425597425277483e-06, 'epoch': 0.45} {'loss': 2.111, 'grad_norm': 1.6874921321868896, 'learning_rate': 3.0421356861023014e-06, 'epoch': 0.45} {'loss': 2.2811, 'grad_norm': 1.367336630821228, 'learning_rate': 3.041711613308279e-06, 'epoch': 0.45} {'loss': 2.409, 'grad_norm': 1.4838038682937622, 'learning_rate': 3.041287524158485e-06, 'epoch': 0.45} {'loss': 2.1504, 'grad_norm': 1.3762383460998535, 'learning_rate': 3.040863418665723e-06, 'epoch': 0.45} {'loss': 2.0329, 'grad_norm': 1.6596686840057373, 'learning_rate': 3.0404392968428e-06, 'epoch': 0.45} {'loss': 2.4341, 'grad_norm': 1.5268166065216064, 'learning_rate': 3.040015158702519e-06, 'epoch': 0.45} {'loss': 2.3794, 'grad_norm': 1.5599701404571533, 'learning_rate': 3.039591004257688e-06, 'epoch': 0.45} {'loss': 2.2394, 'grad_norm': 1.5318559408187866, 'learning_rate': 3.0391668335211115e-06, 'epoch': 0.45} {'loss': 2.0829, 'grad_norm': 1.2533109188079834, 'learning_rate': 3.0387426465055975e-06, 'epoch': 0.45} {'loss': 2.087, 'grad_norm': 1.1616547107696533, 'learning_rate': 3.0383184432239533e-06, 'epoch': 0.45} {'loss': 2.2361, 'grad_norm': 1.4279353618621826, 'learning_rate': 3.037894223688987e-06, 'epoch': 0.45} {'loss': 2.1986, 'grad_norm': 1.5710012912750244, 'learning_rate': 3.037469987913506e-06, 'epoch': 0.45} {'loss': 2.1426, 'grad_norm': 1.4687856435775757, 'learning_rate': 3.0370457359103206e-06, 'epoch': 0.45} {'loss': 2.3267, 'grad_norm': 15.368971824645996, 'learning_rate': 3.0366214676922384e-06, 'epoch': 0.45} {'loss': 2.3099, 'grad_norm': 1.4098690748214722, 'learning_rate': 3.0361971832720707e-06, 'epoch': 0.45} {'loss': 2.2911, 'grad_norm': 2.3673200607299805, 'learning_rate': 3.035772882662627e-06, 'epoch': 0.45} {'loss': 2.3213, 'grad_norm': 1.2059561014175415, 'learning_rate': 3.035348565876719e-06, 'epoch': 0.45} {'loss': 2.5921, 'grad_norm': 1.4826250076293945, 'learning_rate': 3.0349242329271565e-06, 'epoch': 0.45} {'loss': 2.2156, 'grad_norm': 1.9130384922027588, 'learning_rate': 3.0344998838267525e-06, 'epoch': 0.45} {'loss': 2.1921, 'grad_norm': 1.495926022529602, 'learning_rate': 3.034075518588319e-06, 'epoch': 0.45} {'loss': 2.4442, 'grad_norm': 1.9312334060668945, 'learning_rate': 3.0336511372246687e-06, 'epoch': 0.45} {'loss': 2.3377, 'grad_norm': 1.3913463354110718, 'learning_rate': 3.0332267397486146e-06, 'epoch': 0.45} {'loss': 2.5002, 'grad_norm': 1.6376678943634033, 'learning_rate': 3.032802326172971e-06, 'epoch': 0.45} {'loss': 1.3384, 'grad_norm': 1.5088374614715576, 'learning_rate': 3.0323778965105515e-06, 'epoch': 0.45} {'loss': 2.366, 'grad_norm': 1.500156044960022, 'learning_rate': 3.031953450774171e-06, 'epoch': 0.45} {'loss': 2.2237, 'grad_norm': 1.5189099311828613, 'learning_rate': 3.031528988976645e-06, 'epoch': 0.45} {'loss': 2.2638, 'grad_norm': 1.5585887432098389, 'learning_rate': 3.0311045111307887e-06, 'epoch': 0.45} {'loss': 2.093, 'grad_norm': 1.7162344455718994, 'learning_rate': 3.030680017249419e-06, 'epoch': 0.45} {'loss': 2.3684, 'grad_norm': 4.107916831970215, 'learning_rate': 3.0302555073453515e-06, 'epoch': 0.45} {'loss': 2.0755, 'grad_norm': 1.2709906101226807, 'learning_rate': 3.0298309814314043e-06, 'epoch': 0.45} {'loss': 2.3498, 'grad_norm': 2.6721363067626953, 'learning_rate': 3.029406439520394e-06, 'epoch': 0.45} {'loss': 2.403, 'grad_norm': 1.5264629125595093, 'learning_rate': 3.02898188162514e-06, 'epoch': 0.45} {'loss': 2.1511, 'grad_norm': 1.4518808126449585, 'learning_rate': 3.0285573077584595e-06, 'epoch': 0.45} {'loss': 1.9915, 'grad_norm': 1.4041424989700317, 'learning_rate': 3.0281327179331727e-06, 'epoch': 0.45} {'loss': 2.2578, 'grad_norm': 3.619110345840454, 'learning_rate': 3.027708112162099e-06, 'epoch': 0.45} {'loss': 2.4731, 'grad_norm': 1.5727635622024536, 'learning_rate': 3.027283490458058e-06, 'epoch': 0.45} {'loss': 2.0926, 'grad_norm': 1.8106545209884644, 'learning_rate': 3.026858852833869e-06, 'epoch': 0.45} {'loss': 2.2191, 'grad_norm': 1.4549144506454468, 'learning_rate': 3.0264341993023548e-06, 'epoch': 0.45} {'loss': 2.4125, 'grad_norm': 1.72709321975708, 'learning_rate': 3.0260095298763374e-06, 'epoch': 0.45} {'loss': 2.4015, 'grad_norm': 1.6845989227294922, 'learning_rate': 3.025584844568637e-06, 'epoch': 0.45} {'loss': 1.9455, 'grad_norm': 1.3616329431533813, 'learning_rate': 3.025160143392077e-06, 'epoch': 0.45} {'loss': 2.2006, 'grad_norm': 1.5099834203720093, 'learning_rate': 3.0247354263594795e-06, 'epoch': 0.45} {'loss': 2.388, 'grad_norm': 1.424399733543396, 'learning_rate': 3.0243106934836687e-06, 'epoch': 0.45} {'loss': 2.3365, 'grad_norm': 1.6219607591629028, 'learning_rate': 3.023885944777468e-06, 'epoch': 0.45} {'loss': 2.2057, 'grad_norm': 1.2697198390960693, 'learning_rate': 3.023461180253702e-06, 'epoch': 0.45} {'loss': 2.4524, 'grad_norm': 1.580161452293396, 'learning_rate': 3.0230363999251956e-06, 'epoch': 0.45} {'loss': 2.0529, 'grad_norm': 1.4261723756790161, 'learning_rate': 3.0226116038047736e-06, 'epoch': 0.45} {'loss': 2.16, 'grad_norm': 1.65313720703125, 'learning_rate': 3.0221867919052623e-06, 'epoch': 0.45} {'loss': 2.2236, 'grad_norm': 1.5621830224990845, 'learning_rate': 3.0217619642394872e-06, 'epoch': 0.45} {'loss': 2.4128, 'grad_norm': 1.4613940715789795, 'learning_rate': 3.0213371208202758e-06, 'epoch': 0.45} {'loss': 2.0888, 'grad_norm': 1.373001217842102, 'learning_rate': 3.0209122616604554e-06, 'epoch': 0.45} {'loss': 2.2537, 'grad_norm': 1.541587233543396, 'learning_rate': 3.0204873867728535e-06, 'epoch': 0.45} {'loss': 2.1618, 'grad_norm': 1.1452425718307495, 'learning_rate': 3.0200624961702973e-06, 'epoch': 0.45} {'loss': 2.5287, 'grad_norm': 1.2700392007827759, 'learning_rate': 3.019637589865616e-06, 'epoch': 0.45} {'loss': 2.2773, 'grad_norm': 2.276151418685913, 'learning_rate': 3.0192126678716394e-06, 'epoch': 0.45} {'loss': 2.6724, 'grad_norm': 1.7869900465011597, 'learning_rate': 3.018787730201197e-06, 'epoch': 0.45} {'loss': 2.0515, 'grad_norm': 1.6125644445419312, 'learning_rate': 3.018362776867118e-06, 'epoch': 0.45} {'loss': 2.2518, 'grad_norm': 1.419479489326477, 'learning_rate': 3.0179378078822335e-06, 'epoch': 0.45} {'loss': 2.5887, 'grad_norm': 1.7026028633117676, 'learning_rate': 3.0175128232593733e-06, 'epoch': 0.45} {'loss': 2.3004, 'grad_norm': 1.7513402700424194, 'learning_rate': 3.0170878230113704e-06, 'epoch': 0.45} {'loss': 2.3711, 'grad_norm': 1.5148708820343018, 'learning_rate': 3.0166628071510566e-06, 'epoch': 0.45} {'loss': 2.2139, 'grad_norm': 1.5965909957885742, 'learning_rate': 3.0162377756912644e-06, 'epoch': 0.45} {'loss': 1.8648, 'grad_norm': 1.2514725923538208, 'learning_rate': 3.0158127286448246e-06, 'epoch': 0.45} {'loss': 2.3274, 'grad_norm': 1.648686408996582, 'learning_rate': 3.0153876660245736e-06, 'epoch': 0.45} {'loss': 2.2335, 'grad_norm': 1.6019989252090454, 'learning_rate': 3.0149625878433427e-06, 'epoch': 0.45} {'loss': 2.6745, 'grad_norm': 1.273440957069397, 'learning_rate': 3.014537494113968e-06, 'epoch': 0.45} {'loss': 2.2905, 'grad_norm': 2.335068464279175, 'learning_rate': 3.0141123848492828e-06, 'epoch': 0.45} {'loss': 2.2254, 'grad_norm': 1.6905550956726074, 'learning_rate': 3.0136872600621227e-06, 'epoch': 0.45} {'loss': 2.0929, 'grad_norm': 1.4539273977279663, 'learning_rate': 3.0132621197653243e-06, 'epoch': 0.45} {'loss': 2.1649, 'grad_norm': 1.6236536502838135, 'learning_rate': 3.012836963971723e-06, 'epoch': 0.45} {'loss': 1.2364, 'grad_norm': 1.2660270929336548, 'learning_rate': 3.0124117926941555e-06, 'epoch': 0.45} {'loss': 2.2925, 'grad_norm': 2.2493247985839844, 'learning_rate': 3.0119866059454596e-06, 'epoch': 0.45} {'loss': 2.5132, 'grad_norm': 1.9846365451812744, 'learning_rate': 3.0115614037384712e-06, 'epoch': 0.45} {'loss': 2.451, 'grad_norm': 1.7736921310424805, 'learning_rate': 3.0111361860860306e-06, 'epoch': 0.45} {'loss': 2.4631, 'grad_norm': 1.1813709735870361, 'learning_rate': 3.010710953000974e-06, 'epoch': 0.45} {'loss': 2.3617, 'grad_norm': 1.7993085384368896, 'learning_rate': 3.0102857044961415e-06, 'epoch': 0.45} {'loss': 2.386, 'grad_norm': 1.5055296421051025, 'learning_rate': 3.009860440584373e-06, 'epoch': 0.45} {'loss': 2.1476, 'grad_norm': 1.4176268577575684, 'learning_rate': 3.0094351612785073e-06, 'epoch': 0.45} {'loss': 2.256, 'grad_norm': 1.594693660736084, 'learning_rate': 3.009009866591386e-06, 'epoch': 0.45} {'loss': 1.9326, 'grad_norm': 1.270418643951416, 'learning_rate': 3.008584556535849e-06, 'epoch': 0.45} {'loss': 2.1613, 'grad_norm': 1.724379539489746, 'learning_rate': 3.0081592311247378e-06, 'epoch': 0.45} {'loss': 2.1769, 'grad_norm': 1.8563522100448608, 'learning_rate': 3.007733890370893e-06, 'epoch': 0.45} {'loss': 2.1736, 'grad_norm': 1.1668548583984375, 'learning_rate': 3.0073085342871592e-06, 'epoch': 0.45} {'loss': 1.9235, 'grad_norm': 1.3384054899215698, 'learning_rate': 3.006883162886378e-06, 'epoch': 0.45} {'loss': 2.3726, 'grad_norm': 1.6458275318145752, 'learning_rate': 3.0064577761813918e-06, 'epoch': 0.45} {'loss': 2.3856, 'grad_norm': 1.6826012134552002, 'learning_rate': 3.006032374185045e-06, 'epoch': 0.45} {'loss': 2.3857, 'grad_norm': 1.4322094917297363, 'learning_rate': 3.005606956910182e-06, 'epoch': 0.45} {'loss': 2.1697, 'grad_norm': 1.5496189594268799, 'learning_rate': 3.005181524369646e-06, 'epoch': 0.45} {'loss': 2.3134, 'grad_norm': 1.4682562351226807, 'learning_rate': 3.004756076576283e-06, 'epoch': 0.45} {'loss': 2.2165, 'grad_norm': 4.379953861236572, 'learning_rate': 3.0043306135429385e-06, 'epoch': 0.45} {'loss': 2.7127, 'grad_norm': 1.689222812652588, 'learning_rate': 3.003905135282458e-06, 'epoch': 0.45} {'loss': 2.2294, 'grad_norm': 1.7560914754867554, 'learning_rate': 3.0034796418076873e-06, 'epoch': 0.45} {'loss': 2.2987, 'grad_norm': 1.2820957899093628, 'learning_rate': 3.0030541331314744e-06, 'epoch': 0.45} {'loss': 2.0561, 'grad_norm': 1.5750411748886108, 'learning_rate': 3.002628609266666e-06, 'epoch': 0.45} {'loss': 2.1988, 'grad_norm': 1.54265558719635, 'learning_rate': 3.0022030702261105e-06, 'epoch': 0.45} {'loss': 1.9803, 'grad_norm': 1.257224440574646, 'learning_rate': 3.001777516022655e-06, 'epoch': 0.45} {'loss': 2.1825, 'grad_norm': 1.606240153312683, 'learning_rate': 3.0013519466691494e-06, 'epoch': 0.45} {'loss': 2.3032, 'grad_norm': 1.8263992071151733, 'learning_rate': 3.000926362178441e-06, 'epoch': 0.45} {'loss': 2.3816, 'grad_norm': 1.6938695907592773, 'learning_rate': 3.000500762563381e-06, 'epoch': 0.45} {'loss': 2.1767, 'grad_norm': 1.8769086599349976, 'learning_rate': 3.000075147836819e-06, 'epoch': 0.45} {'loss': 2.3889, 'grad_norm': 1.5968912839889526, 'learning_rate': 2.999649518011606e-06, 'epoch': 0.45} {'loss': 2.4211, 'grad_norm': 1.4536869525909424, 'learning_rate': 2.999223873100591e-06, 'epoch': 0.45} {'loss': 2.4117, 'grad_norm': 1.8839291334152222, 'learning_rate': 2.9987982131166277e-06, 'epoch': 0.45} {'loss': 2.2021, 'grad_norm': 1.4150179624557495, 'learning_rate': 2.9983725380725667e-06, 'epoch': 0.45} {'loss': 2.2295, 'grad_norm': 1.3256953954696655, 'learning_rate': 2.9979468479812605e-06, 'epoch': 0.45} {'loss': 2.4334, 'grad_norm': 1.4684526920318604, 'learning_rate': 2.9975211428555616e-06, 'epoch': 0.45} {'loss': 2.2956, 'grad_norm': 1.6525191068649292, 'learning_rate': 2.9970954227083243e-06, 'epoch': 0.45} {'loss': 2.0874, 'grad_norm': 1.5435229539871216, 'learning_rate': 2.9966696875524013e-06, 'epoch': 0.45} {'loss': 2.2319, 'grad_norm': 1.4367908239364624, 'learning_rate': 2.996243937400647e-06, 'epoch': 0.45} {'loss': 2.3163, 'grad_norm': 1.4570984840393066, 'learning_rate': 2.995818172265916e-06, 'epoch': 0.45} {'loss': 2.1066, 'grad_norm': 1.8435587882995605, 'learning_rate': 2.995392392161063e-06, 'epoch': 0.45} {'loss': 2.2742, 'grad_norm': 1.5223029851913452, 'learning_rate': 2.994966597098944e-06, 'epoch': 0.45} {'loss': 1.9397, 'grad_norm': 1.3966004848480225, 'learning_rate': 2.9945407870924144e-06, 'epoch': 0.45} {'loss': 2.1454, 'grad_norm': 1.3498709201812744, 'learning_rate': 2.994114962154331e-06, 'epoch': 0.45} {'loss': 1.9917, 'grad_norm': 1.2302484512329102, 'learning_rate': 2.99368912229755e-06, 'epoch': 0.45} {'loss': 2.269, 'grad_norm': 1.4776437282562256, 'learning_rate': 2.9932632675349293e-06, 'epoch': 0.45} {'loss': 2.1754, 'grad_norm': 1.8276113271713257, 'learning_rate': 2.992837397879327e-06, 'epoch': 0.45} {'loss': 2.2366, 'grad_norm': 1.7410334348678589, 'learning_rate': 2.992411513343601e-06, 'epoch': 0.45} {'loss': 2.1833, 'grad_norm': 7.015322685241699, 'learning_rate': 2.9919856139406095e-06, 'epoch': 0.45} {'loss': 2.5238, 'grad_norm': 1.6317375898361206, 'learning_rate': 2.991559699683211e-06, 'epoch': 0.45} {'loss': 2.2142, 'grad_norm': 1.4562642574310303, 'learning_rate': 2.9911337705842663e-06, 'epoch': 0.45} {'loss': 2.227, 'grad_norm': 1.4991774559020996, 'learning_rate': 2.9907078266566354e-06, 'epoch': 0.45} {'loss': 1.9053, 'grad_norm': 1.1926480531692505, 'learning_rate': 2.9902818679131777e-06, 'epoch': 0.45} {'loss': 2.1115, 'grad_norm': 1.8449056148529053, 'learning_rate': 2.989855894366755e-06, 'epoch': 0.45} {'loss': 2.0652, 'grad_norm': 1.6305173635482788, 'learning_rate': 2.989429906030228e-06, 'epoch': 0.45} {'loss': 2.4027, 'grad_norm': 2.176271438598633, 'learning_rate': 2.989003902916459e-06, 'epoch': 0.45} {'loss': 2.4766, 'grad_norm': 1.9448421001434326, 'learning_rate': 2.988577885038309e-06, 'epoch': 0.45} {'loss': 2.1715, 'grad_norm': 1.7932624816894531, 'learning_rate': 2.9881518524086424e-06, 'epoch': 0.45} {'loss': 2.3573, 'grad_norm': 10.770556449890137, 'learning_rate': 2.9877258050403214e-06, 'epoch': 0.45} {'loss': 2.3591, 'grad_norm': 1.63186776638031, 'learning_rate': 2.9872997429462094e-06, 'epoch': 0.45} {'loss': 2.3434, 'grad_norm': 1.1950782537460327, 'learning_rate': 2.98687366613917e-06, 'epoch': 0.46} {'loss': 2.545, 'grad_norm': 1.3373425006866455, 'learning_rate': 2.9864475746320686e-06, 'epoch': 0.46} {'loss': 2.2799, 'grad_norm': 1.394322395324707, 'learning_rate': 2.98602146843777e-06, 'epoch': 0.46} {'loss': 2.0951, 'grad_norm': 1.4521267414093018, 'learning_rate': 2.9855953475691392e-06, 'epoch': 0.46} {'loss': 2.3616, 'grad_norm': 1.4906973838806152, 'learning_rate': 2.985169212039042e-06, 'epoch': 0.46} {'loss': 1.5049, 'grad_norm': 1.6045711040496826, 'learning_rate': 2.984743061860345e-06, 'epoch': 0.46} {'loss': 2.2572, 'grad_norm': 1.4417780637741089, 'learning_rate': 2.984316897045914e-06, 'epoch': 0.46} {'loss': 2.3871, 'grad_norm': 1.7175252437591553, 'learning_rate': 2.983890717608616e-06, 'epoch': 0.46} {'loss': 2.188, 'grad_norm': 1.256291151046753, 'learning_rate': 2.9834645235613203e-06, 'epoch': 0.46} {'loss': 2.1571, 'grad_norm': 1.4453824758529663, 'learning_rate': 2.9830383149168928e-06, 'epoch': 0.46} {'loss': 1.9187, 'grad_norm': 1.9120060205459595, 'learning_rate': 2.9826120916882032e-06, 'epoch': 0.46} {'loss': 2.2685, 'grad_norm': 12.029306411743164, 'learning_rate': 2.9821858538881202e-06, 'epoch': 0.46} {'loss': 2.3132, 'grad_norm': 1.6247375011444092, 'learning_rate': 2.9817596015295123e-06, 'epoch': 0.46} {'loss': 2.3177, 'grad_norm': 1.4291731119155884, 'learning_rate': 2.98133333462525e-06, 'epoch': 0.46} {'loss': 2.0905, 'grad_norm': 1.3954130411148071, 'learning_rate': 2.9809070531882033e-06, 'epoch': 0.46} {'loss': 2.4053, 'grad_norm': 1.6046708822250366, 'learning_rate': 2.9804807572312426e-06, 'epoch': 0.46} {'loss': 2.3909, 'grad_norm': 1.531225323677063, 'learning_rate': 2.9800544467672393e-06, 'epoch': 0.46} {'loss': 2.3359, 'grad_norm': 1.5712811946868896, 'learning_rate': 2.979628121809065e-06, 'epoch': 0.46} {'loss': 2.3643, 'grad_norm': 1.5735650062561035, 'learning_rate': 2.9792017823695907e-06, 'epoch': 0.46} {'loss': 2.3336, 'grad_norm': 1.3569775819778442, 'learning_rate': 2.9787754284616897e-06, 'epoch': 0.46} {'loss': 1.9689, 'grad_norm': 1.2899388074874878, 'learning_rate': 2.9783490600982347e-06, 'epoch': 0.46} {'loss': 2.1694, 'grad_norm': 1.206030011177063, 'learning_rate': 2.9779226772920988e-06, 'epoch': 0.46} {'loss': 2.2774, 'grad_norm': 1.4632991552352905, 'learning_rate': 2.9774962800561557e-06, 'epoch': 0.46} {'loss': 2.3012, 'grad_norm': 1.6464836597442627, 'learning_rate': 2.977069868403279e-06, 'epoch': 0.46} {'loss': 2.2888, 'grad_norm': 1.7580739259719849, 'learning_rate': 2.976643442346344e-06, 'epoch': 0.46} {'loss': 2.4795, 'grad_norm': 1.3476372957229614, 'learning_rate': 2.9762170018982252e-06, 'epoch': 0.46} {'loss': 2.4154, 'grad_norm': 1.4373703002929688, 'learning_rate': 2.9757905470717984e-06, 'epoch': 0.46} {'loss': 2.2297, 'grad_norm': 1.5947518348693848, 'learning_rate': 2.9753640778799397e-06, 'epoch': 0.46} {'loss': 2.1611, 'grad_norm': 1.3559566736221313, 'learning_rate': 2.9749375943355245e-06, 'epoch': 0.46} {'loss': 2.2645, 'grad_norm': 1.8397332429885864, 'learning_rate': 2.974511096451429e-06, 'epoch': 0.46} {'loss': 1.6931, 'grad_norm': 1.4102994203567505, 'learning_rate': 2.9740845842405324e-06, 'epoch': 0.46} {'loss': 2.1984, 'grad_norm': 1.553154706954956, 'learning_rate': 2.973658057715711e-06, 'epoch': 0.46} {'loss': 1.742, 'grad_norm': 1.5377551317214966, 'learning_rate': 2.9732315168898434e-06, 'epoch': 0.46} {'loss': 2.1434, 'grad_norm': 1.5819438695907593, 'learning_rate': 2.972804961775807e-06, 'epoch': 0.46} {'loss': 2.292, 'grad_norm': 1.6798235177993774, 'learning_rate': 2.9723783923864817e-06, 'epoch': 0.46} {'loss': 2.0562, 'grad_norm': 1.621486783027649, 'learning_rate': 2.9719518087347466e-06, 'epoch': 0.46} {'loss': 2.2396, 'grad_norm': 1.8811949491500854, 'learning_rate': 2.971525210833481e-06, 'epoch': 0.46} {'loss': 2.2998, 'grad_norm': 1.7225056886672974, 'learning_rate': 2.971098598695565e-06, 'epoch': 0.46} {'loss': 2.2689, 'grad_norm': 1.5601576566696167, 'learning_rate': 2.9706719723338794e-06, 'epoch': 0.46} {'loss': 2.3883, 'grad_norm': 1.9287315607070923, 'learning_rate': 2.970245331761306e-06, 'epoch': 0.46} {'loss': 2.2285, 'grad_norm': 2.0466485023498535, 'learning_rate': 2.9698186769907256e-06, 'epoch': 0.46} {'loss': 2.1667, 'grad_norm': 1.4725170135498047, 'learning_rate': 2.96939200803502e-06, 'epoch': 0.46} {'loss': 2.1919, 'grad_norm': 1.5707913637161255, 'learning_rate': 2.9689653249070718e-06, 'epoch': 0.46} {'loss': 2.3481, 'grad_norm': 2.3382134437561035, 'learning_rate': 2.968538627619763e-06, 'epoch': 0.46} {'loss': 2.1253, 'grad_norm': 1.4404429197311401, 'learning_rate': 2.968111916185978e-06, 'epoch': 0.46} {'loss': 2.4885, 'grad_norm': 1.9075185060501099, 'learning_rate': 2.9676851906186e-06, 'epoch': 0.46} {'loss': 2.2658, 'grad_norm': 1.8546538352966309, 'learning_rate': 2.9672584509305112e-06, 'epoch': 0.46} {'loss': 2.2342, 'grad_norm': 1.3345239162445068, 'learning_rate': 2.966831697134599e-06, 'epoch': 0.46} {'loss': 2.3791, 'grad_norm': 1.530107855796814, 'learning_rate': 2.9664049292437465e-06, 'epoch': 0.46} {'loss': 2.3136, 'grad_norm': 1.5487178564071655, 'learning_rate': 2.9659781472708397e-06, 'epoch': 0.46} {'loss': 1.3992, 'grad_norm': 1.5166698694229126, 'learning_rate': 2.9655513512287644e-06, 'epoch': 0.46} {'loss': 2.6105, 'grad_norm': 1.5956025123596191, 'learning_rate': 2.965124541130405e-06, 'epoch': 0.46} {'loss': 2.0284, 'grad_norm': 1.2321346998214722, 'learning_rate': 2.9646977169886504e-06, 'epoch': 0.46} {'loss': 2.257, 'grad_norm': 1.803460717201233, 'learning_rate': 2.9642708788163866e-06, 'epoch': 0.46} {'loss': 2.3683, 'grad_norm': 1.379502534866333, 'learning_rate': 2.9638440266265013e-06, 'epoch': 0.46} {'loss': 2.4166, 'grad_norm': 1.459061622619629, 'learning_rate': 2.9634171604318816e-06, 'epoch': 0.46} {'loss': 2.2485, 'grad_norm': 1.634279727935791, 'learning_rate': 2.962990280245417e-06, 'epoch': 0.46} {'loss': 1.7802, 'grad_norm': 1.5042693614959717, 'learning_rate': 2.9625633860799952e-06, 'epoch': 0.46} {'loss': 2.5708, 'grad_norm': 1.5282906293869019, 'learning_rate': 2.962136477948505e-06, 'epoch': 0.46} {'loss': 2.3098, 'grad_norm': 1.4006789922714233, 'learning_rate': 2.9617095558638376e-06, 'epoch': 0.46} {'loss': 1.487, 'grad_norm': 1.3141058683395386, 'learning_rate': 2.961282619838881e-06, 'epoch': 0.46} {'loss': 2.4214, 'grad_norm': 1.4388060569763184, 'learning_rate': 2.960855669886527e-06, 'epoch': 0.46} {'loss': 2.0097, 'grad_norm': 1.1679131984710693, 'learning_rate': 2.9604287060196658e-06, 'epoch': 0.46} {'loss': 2.2814, 'grad_norm': 1.5676844120025635, 'learning_rate': 2.9600017282511884e-06, 'epoch': 0.46} {'loss': 2.0938, 'grad_norm': 1.4812867641448975, 'learning_rate': 2.9595747365939868e-06, 'epoch': 0.46} {'loss': 2.1318, 'grad_norm': 1.4551677703857422, 'learning_rate': 2.9591477310609535e-06, 'epoch': 0.46} {'loss': 2.0913, 'grad_norm': 1.5939582586288452, 'learning_rate': 2.95872071166498e-06, 'epoch': 0.46} {'loss': 2.3077, 'grad_norm': 1.651092290878296, 'learning_rate': 2.958293678418961e-06, 'epoch': 0.46} {'loss': 2.3416, 'grad_norm': 1.4225586652755737, 'learning_rate': 2.9578666313357866e-06, 'epoch': 0.46} {'loss': 1.9287, 'grad_norm': 1.5088672637939453, 'learning_rate': 2.957439570428353e-06, 'epoch': 0.46} {'loss': 2.1222, 'grad_norm': 1.6284856796264648, 'learning_rate': 2.9570124957095543e-06, 'epoch': 0.46} {'loss': 2.2327, 'grad_norm': 2.3220691680908203, 'learning_rate': 2.9565854071922844e-06, 'epoch': 0.46} {'loss': 2.3095, 'grad_norm': 1.8562283515930176, 'learning_rate': 2.956158304889438e-06, 'epoch': 0.46} {'loss': 2.2761, 'grad_norm': 1.5497322082519531, 'learning_rate': 2.955731188813912e-06, 'epoch': 0.46} {'loss': 2.2406, 'grad_norm': 1.8241865634918213, 'learning_rate': 2.9553040589785996e-06, 'epoch': 0.46} {'loss': 2.1873, 'grad_norm': 1.5430917739868164, 'learning_rate': 2.9548769153963992e-06, 'epoch': 0.46} {'loss': 2.1043, 'grad_norm': 1.4275166988372803, 'learning_rate': 2.954449758080207e-06, 'epoch': 0.46} {'loss': 2.1244, 'grad_norm': 1.185896635055542, 'learning_rate': 2.9540225870429203e-06, 'epoch': 0.46} {'loss': 2.4319, 'grad_norm': 1.4922709465026855, 'learning_rate': 2.9535954022974356e-06, 'epoch': 0.46} {'loss': 2.1703, 'grad_norm': 1.3636101484298706, 'learning_rate': 2.9531682038566518e-06, 'epoch': 0.46} {'loss': 2.1038, 'grad_norm': 1.2504459619522095, 'learning_rate': 2.952740991733466e-06, 'epoch': 0.46} {'loss': 2.2456, 'grad_norm': 1.730621576309204, 'learning_rate': 2.952313765940778e-06, 'epoch': 0.46} {'loss': 1.3683, 'grad_norm': 1.3464761972427368, 'learning_rate': 2.951886526491487e-06, 'epoch': 0.46} {'loss': 2.0833, 'grad_norm': 1.1516870260238647, 'learning_rate': 2.9514592733984913e-06, 'epoch': 0.46} {'loss': 2.317, 'grad_norm': 1.4696297645568848, 'learning_rate': 2.9510320066746923e-06, 'epoch': 0.46} {'loss': 1.5934, 'grad_norm': 1.2848308086395264, 'learning_rate': 2.9506047263329896e-06, 'epoch': 0.46} {'loss': 2.2631, 'grad_norm': 1.293823003768921, 'learning_rate': 2.9501774323862843e-06, 'epoch': 0.46} {'loss': 2.1655, 'grad_norm': 1.4550652503967285, 'learning_rate': 2.9497501248474777e-06, 'epoch': 0.46} {'loss': 2.4671, 'grad_norm': 1.6155637502670288, 'learning_rate': 2.9493228037294704e-06, 'epoch': 0.46} {'loss': 2.2247, 'grad_norm': 1.4410358667373657, 'learning_rate': 2.948895469045166e-06, 'epoch': 0.46} {'loss': 2.2182, 'grad_norm': 2.0347273349761963, 'learning_rate': 2.948468120807465e-06, 'epoch': 0.46} {'loss': 2.2845, 'grad_norm': 1.4325189590454102, 'learning_rate': 2.9480407590292715e-06, 'epoch': 0.46} {'loss': 2.0368, 'grad_norm': 1.379155158996582, 'learning_rate': 2.947613383723489e-06, 'epoch': 0.46} {'loss': 2.3072, 'grad_norm': 1.6581634283065796, 'learning_rate': 2.9471859949030203e-06, 'epoch': 0.46} {'loss': 2.2391, 'grad_norm': 1.3969151973724365, 'learning_rate': 2.9467585925807694e-06, 'epoch': 0.46} {'loss': 2.0673, 'grad_norm': 2.3076860904693604, 'learning_rate': 2.9463311767696417e-06, 'epoch': 0.46} {'loss': 2.3045, 'grad_norm': 1.572458028793335, 'learning_rate': 2.9459037474825413e-06, 'epoch': 0.46} {'loss': 2.0533, 'grad_norm': 1.3093385696411133, 'learning_rate': 2.945476304732373e-06, 'epoch': 0.46} {'loss': 2.1801, 'grad_norm': 1.6649353504180908, 'learning_rate': 2.945048848532045e-06, 'epoch': 0.46} {'loss': 2.2153, 'grad_norm': 1.5760871171951294, 'learning_rate': 2.94462137889446e-06, 'epoch': 0.46} {'loss': 2.1486, 'grad_norm': 1.373711109161377, 'learning_rate': 2.9441938958325268e-06, 'epoch': 0.46} {'loss': 2.1426, 'grad_norm': 1.5877070426940918, 'learning_rate': 2.9437663993591507e-06, 'epoch': 0.46} {'loss': 2.2806, 'grad_norm': 1.3515058755874634, 'learning_rate': 2.9433388894872407e-06, 'epoch': 0.46} {'loss': 2.5324, 'grad_norm': 1.5057801008224487, 'learning_rate': 2.9429113662297032e-06, 'epoch': 0.46} {'loss': 2.2196, 'grad_norm': 1.3781347274780273, 'learning_rate': 2.9424838295994464e-06, 'epoch': 0.46} {'loss': 2.155, 'grad_norm': 1.4883724451065063, 'learning_rate': 2.9420562796093797e-06, 'epoch': 0.46} {'loss': 2.2897, 'grad_norm': 1.2386267185211182, 'learning_rate': 2.941628716272411e-06, 'epoch': 0.46} {'loss': 2.4764, 'grad_norm': 1.4904791116714478, 'learning_rate': 2.9412011396014513e-06, 'epoch': 0.46} {'loss': 2.2607, 'grad_norm': 1.4377118349075317, 'learning_rate': 2.9407735496094075e-06, 'epoch': 0.46} {'loss': 2.0865, 'grad_norm': 1.3032056093215942, 'learning_rate': 2.940345946309192e-06, 'epoch': 0.46} {'loss': 2.3798, 'grad_norm': 1.522532343864441, 'learning_rate': 2.9399183297137145e-06, 'epoch': 0.46} {'loss': 2.3291, 'grad_norm': 1.4652634859085083, 'learning_rate': 2.939490699835887e-06, 'epoch': 0.46} {'loss': 2.1847, 'grad_norm': 1.6100796461105347, 'learning_rate': 2.9390630566886193e-06, 'epoch': 0.46} {'loss': 2.2256, 'grad_norm': 1.753370761871338, 'learning_rate': 2.9386354002848235e-06, 'epoch': 0.46} {'loss': 2.0785, 'grad_norm': 1.5946520566940308, 'learning_rate': 2.9382077306374113e-06, 'epoch': 0.46} {'loss': 2.1683, 'grad_norm': 1.5514724254608154, 'learning_rate': 2.937780047759298e-06, 'epoch': 0.46} {'loss': 2.1543, 'grad_norm': 1.5482949018478394, 'learning_rate': 2.937352351663393e-06, 'epoch': 0.46} {'loss': 2.4103, 'grad_norm': 1.443645715713501, 'learning_rate': 2.9369246423626106e-06, 'epoch': 0.46} {'loss': 2.1707, 'grad_norm': 1.5088039636611938, 'learning_rate': 2.9364969198698657e-06, 'epoch': 0.46} {'loss': 2.3823, 'grad_norm': 1.4190442562103271, 'learning_rate': 2.9360691841980716e-06, 'epoch': 0.46} {'loss': 2.3038, 'grad_norm': 1.3274551630020142, 'learning_rate': 2.935641435360143e-06, 'epoch': 0.46} {'loss': 2.1934, 'grad_norm': 1.3520207405090332, 'learning_rate': 2.935213673368995e-06, 'epoch': 0.46} {'loss': 2.2718, 'grad_norm': 1.4037753343582153, 'learning_rate': 2.934785898237542e-06, 'epoch': 0.46} {'loss': 2.3357, 'grad_norm': 1.4440394639968872, 'learning_rate': 2.934358109978701e-06, 'epoch': 0.46} {'loss': 2.465, 'grad_norm': 1.549751877784729, 'learning_rate': 2.9339303086053874e-06, 'epoch': 0.46} {'loss': 2.2389, 'grad_norm': 1.5106244087219238, 'learning_rate': 2.933502494130518e-06, 'epoch': 0.46} {'loss': 2.4564, 'grad_norm': 1.5870270729064941, 'learning_rate': 2.933074666567009e-06, 'epoch': 0.46} {'loss': 2.4158, 'grad_norm': 1.3741997480392456, 'learning_rate': 2.9326468259277785e-06, 'epoch': 0.46} {'loss': 2.3828, 'grad_norm': 1.366355299949646, 'learning_rate': 2.932218972225744e-06, 'epoch': 0.46} {'loss': 2.0448, 'grad_norm': 1.3372726440429688, 'learning_rate': 2.9317911054738233e-06, 'epoch': 0.46} {'loss': 2.2436, 'grad_norm': 1.5391608476638794, 'learning_rate': 2.9313632256849345e-06, 'epoch': 0.46} {'loss': 2.0812, 'grad_norm': 6.101585388183594, 'learning_rate': 2.930935332871998e-06, 'epoch': 0.46} {'loss': 2.2393, 'grad_norm': 1.460872769355774, 'learning_rate': 2.9305074270479316e-06, 'epoch': 0.46} {'loss': 2.2091, 'grad_norm': 1.494729995727539, 'learning_rate': 2.9300795082256563e-06, 'epoch': 0.46} {'loss': 2.3955, 'grad_norm': 1.878673791885376, 'learning_rate': 2.9296515764180906e-06, 'epoch': 0.46} {'loss': 2.5529, 'grad_norm': 2.029452323913574, 'learning_rate': 2.9292236316381556e-06, 'epoch': 0.46} {'loss': 2.1422, 'grad_norm': 1.150478482246399, 'learning_rate': 2.9287956738987724e-06, 'epoch': 0.46} {'loss': 2.4561, 'grad_norm': 1.4028666019439697, 'learning_rate': 2.928367703212861e-06, 'epoch': 0.46} {'loss': 2.4867, 'grad_norm': 1.6906061172485352, 'learning_rate': 2.9279397195933455e-06, 'epoch': 0.46} {'loss': 1.4013, 'grad_norm': 1.3437143564224243, 'learning_rate': 2.9275117230531456e-06, 'epoch': 0.46} {'loss': 2.3245, 'grad_norm': 1.4869227409362793, 'learning_rate': 2.927083713605185e-06, 'epoch': 0.46} {'loss': 1.7254, 'grad_norm': 1.497109055519104, 'learning_rate': 2.926655691262386e-06, 'epoch': 0.46} {'loss': 2.338, 'grad_norm': 1.449254035949707, 'learning_rate': 2.9262276560376718e-06, 'epoch': 0.46} {'loss': 2.2274, 'grad_norm': 1.7465767860412598, 'learning_rate': 2.925799607943966e-06, 'epoch': 0.46} {'loss': 2.425, 'grad_norm': 1.452717661857605, 'learning_rate': 2.9253715469941925e-06, 'epoch': 0.46} {'loss': 2.4143, 'grad_norm': 1.5312227010726929, 'learning_rate': 2.9249434732012756e-06, 'epoch': 0.46} {'loss': 2.1353, 'grad_norm': 2.1188220977783203, 'learning_rate': 2.9245153865781405e-06, 'epoch': 0.46} {'loss': 1.5826, 'grad_norm': 2.0828983783721924, 'learning_rate': 2.9240872871377113e-06, 'epoch': 0.46} {'loss': 2.3103, 'grad_norm': 1.6123303174972534, 'learning_rate': 2.9236591748929146e-06, 'epoch': 0.46} {'loss': 2.2044, 'grad_norm': 1.686381459236145, 'learning_rate': 2.9232310498566753e-06, 'epoch': 0.46} {'loss': 2.0441, 'grad_norm': 1.6949212551116943, 'learning_rate': 2.9228029120419203e-06, 'epoch': 0.46} {'loss': 2.1772, 'grad_norm': 1.3553091287612915, 'learning_rate': 2.922374761461577e-06, 'epoch': 0.46} {'loss': 1.8162, 'grad_norm': 1.3776499032974243, 'learning_rate': 2.9219465981285717e-06, 'epoch': 0.46} {'loss': 2.2447, 'grad_norm': 1.6897424459457397, 'learning_rate': 2.92151842205583e-06, 'epoch': 0.46} {'loss': 2.0532, 'grad_norm': 1.9304746389389038, 'learning_rate': 2.921090233256283e-06, 'epoch': 0.46} {'loss': 2.1848, 'grad_norm': 1.3839534521102905, 'learning_rate': 2.9206620317428575e-06, 'epoch': 0.46} {'loss': 2.3252, 'grad_norm': 1.5131298303604126, 'learning_rate': 2.920233817528482e-06, 'epoch': 0.46} {'loss': 2.2893, 'grad_norm': 1.5242598056793213, 'learning_rate': 2.9198055906260845e-06, 'epoch': 0.46} {'loss': 2.5412, 'grad_norm': 1.6620253324508667, 'learning_rate': 2.9193773510485956e-06, 'epoch': 0.46} {'loss': 2.3532, 'grad_norm': 1.5967803001403809, 'learning_rate': 2.9189490988089446e-06, 'epoch': 0.46} {'loss': 2.3611, 'grad_norm': 1.5300050973892212, 'learning_rate': 2.9185208339200626e-06, 'epoch': 0.46} {'loss': 2.3246, 'grad_norm': 1.5453264713287354, 'learning_rate': 2.9180925563948785e-06, 'epoch': 0.46} {'loss': 2.3386, 'grad_norm': 1.261572003364563, 'learning_rate': 2.9176642662463246e-06, 'epoch': 0.46} {'loss': 2.2925, 'grad_norm': 1.558885097503662, 'learning_rate': 2.917235963487331e-06, 'epoch': 0.46} {'loss': 1.9772, 'grad_norm': 2.4942638874053955, 'learning_rate': 2.91680764813083e-06, 'epoch': 0.46} {'loss': 2.1999, 'grad_norm': 2.209242343902588, 'learning_rate': 2.9163793201897533e-06, 'epoch': 0.46} {'loss': 2.1857, 'grad_norm': 1.5592516660690308, 'learning_rate': 2.9159509796770337e-06, 'epoch': 0.46} {'loss': 2.2871, 'grad_norm': 1.420048713684082, 'learning_rate': 2.9155226266056036e-06, 'epoch': 0.46} {'loss': 2.1078, 'grad_norm': 1.483932614326477, 'learning_rate': 2.915094260988397e-06, 'epoch': 0.46} {'loss': 2.2628, 'grad_norm': 3.7491140365600586, 'learning_rate': 2.914665882838346e-06, 'epoch': 0.46} {'loss': 2.119, 'grad_norm': 1.4560986757278442, 'learning_rate': 2.914237492168385e-06, 'epoch': 0.46} {'loss': 2.2389, 'grad_norm': 1.6182823181152344, 'learning_rate': 2.9138090889914494e-06, 'epoch': 0.46} {'loss': 2.1869, 'grad_norm': 1.5108447074890137, 'learning_rate': 2.913380673320473e-06, 'epoch': 0.46} {'loss': 2.3399, 'grad_norm': 1.5729776620864868, 'learning_rate': 2.9129522451683908e-06, 'epoch': 0.46} {'loss': 2.1891, 'grad_norm': 1.3003201484680176, 'learning_rate': 2.912523804548138e-06, 'epoch': 0.46} {'loss': 1.9747, 'grad_norm': 1.9030699729919434, 'learning_rate': 2.9120953514726514e-06, 'epoch': 0.46} {'loss': 2.1264, 'grad_norm': 1.6089155673980713, 'learning_rate': 2.9116668859548654e-06, 'epoch': 0.46} {'loss': 2.3704, 'grad_norm': 1.6051081418991089, 'learning_rate': 2.9112384080077188e-06, 'epoch': 0.46} {'loss': 2.368, 'grad_norm': 1.540601372718811, 'learning_rate': 2.9108099176441474e-06, 'epoch': 0.46} {'loss': 2.0505, 'grad_norm': 1.5638774633407593, 'learning_rate': 2.910381414877088e-06, 'epoch': 0.46} {'loss': 2.2401, 'grad_norm': 1.3605488538742065, 'learning_rate': 2.909952899719479e-06, 'epoch': 0.46} {'loss': 2.3059, 'grad_norm': 1.3443291187286377, 'learning_rate': 2.909524372184258e-06, 'epoch': 0.46} {'loss': 2.4014, 'grad_norm': 1.6558818817138672, 'learning_rate': 2.909095832284364e-06, 'epoch': 0.46} {'loss': 2.3106, 'grad_norm': 1.3967549800872803, 'learning_rate': 2.908667280032736e-06, 'epoch': 0.46} {'loss': 2.2405, 'grad_norm': 1.4061247110366821, 'learning_rate': 2.9082387154423125e-06, 'epoch': 0.46} {'loss': 2.2668, 'grad_norm': 1.536965012550354, 'learning_rate': 2.9078101385260325e-06, 'epoch': 0.46} {'loss': 2.1449, 'grad_norm': 1.2946280241012573, 'learning_rate': 2.907381549296838e-06, 'epoch': 0.47} {'loss': 2.0355, 'grad_norm': 1.3246421813964844, 'learning_rate': 2.9069529477676668e-06, 'epoch': 0.47} {'loss': 2.1433, 'grad_norm': 1.7573357820510864, 'learning_rate': 2.9065243339514608e-06, 'epoch': 0.47} {'loss': 2.2811, 'grad_norm': 1.416779637336731, 'learning_rate': 2.9060957078611612e-06, 'epoch': 0.47} {'loss': 2.4216, 'grad_norm': 1.5243133306503296, 'learning_rate': 2.9056670695097095e-06, 'epoch': 0.47} {'loss': 2.4551, 'grad_norm': 1.7805235385894775, 'learning_rate': 2.9052384189100475e-06, 'epoch': 0.47} {'loss': 2.1842, 'grad_norm': 1.3638023138046265, 'learning_rate': 2.904809756075116e-06, 'epoch': 0.47} {'loss': 2.3362, 'grad_norm': 1.462346076965332, 'learning_rate': 2.9043810810178584e-06, 'epoch': 0.47} {'loss': 2.1448, 'grad_norm': 2.0286059379577637, 'learning_rate': 2.9039523937512188e-06, 'epoch': 0.47} {'loss': 2.3505, 'grad_norm': 1.6750671863555908, 'learning_rate': 2.903523694288139e-06, 'epoch': 0.47} {'loss': 2.2469, 'grad_norm': 1.516391396522522, 'learning_rate': 2.9030949826415627e-06, 'epoch': 0.47} {'loss': 2.2545, 'grad_norm': 1.520341396331787, 'learning_rate': 2.902666258824434e-06, 'epoch': 0.47} {'loss': 2.2257, 'grad_norm': 1.3803044557571411, 'learning_rate': 2.9022375228496976e-06, 'epoch': 0.47} {'loss': 2.0515, 'grad_norm': 1.2606937885284424, 'learning_rate': 2.901808774730299e-06, 'epoch': 0.47} {'loss': 1.9049, 'grad_norm': 1.1595121622085571, 'learning_rate': 2.901380014479181e-06, 'epoch': 0.47} {'loss': 2.1073, 'grad_norm': 1.517127513885498, 'learning_rate': 2.9009512421092908e-06, 'epoch': 0.47} {'loss': 1.7129, 'grad_norm': 1.1169227361679077, 'learning_rate': 2.900522457633574e-06, 'epoch': 0.47} {'loss': 2.1957, 'grad_norm': 1.3964556455612183, 'learning_rate': 2.9000936610649765e-06, 'epoch': 0.47} {'loss': 2.2726, 'grad_norm': 1.5305267572402954, 'learning_rate': 2.899664852416445e-06, 'epoch': 0.47} {'loss': 1.212, 'grad_norm': 1.6547919511795044, 'learning_rate': 2.899236031700926e-06, 'epoch': 0.47} {'loss': 2.2753, 'grad_norm': 1.6392898559570312, 'learning_rate': 2.8988071989313675e-06, 'epoch': 0.47} {'loss': 2.1064, 'grad_norm': 2.154069662094116, 'learning_rate': 2.898378354120717e-06, 'epoch': 0.47} {'loss': 2.4604, 'grad_norm': 1.7749816179275513, 'learning_rate': 2.8979494972819227e-06, 'epoch': 0.47} {'loss': 2.3814, 'grad_norm': 1.6755925416946411, 'learning_rate': 2.8975206284279317e-06, 'epoch': 0.47} {'loss': 2.3479, 'grad_norm': 1.415834665298462, 'learning_rate': 2.8970917475716934e-06, 'epoch': 0.47} {'loss': 2.1391, 'grad_norm': 1.5434625148773193, 'learning_rate': 2.8966628547261583e-06, 'epoch': 0.47} {'loss': 2.3123, 'grad_norm': 2.2316274642944336, 'learning_rate': 2.8962339499042743e-06, 'epoch': 0.47} {'loss': 2.1213, 'grad_norm': 1.645414113998413, 'learning_rate': 2.895805033118992e-06, 'epoch': 0.47} {'loss': 2.121, 'grad_norm': 1.5352023839950562, 'learning_rate': 2.89537610438326e-06, 'epoch': 0.47} {'loss': 1.6984, 'grad_norm': 1.1556278467178345, 'learning_rate': 2.8949471637100306e-06, 'epoch': 0.47} {'loss': 2.356, 'grad_norm': 1.551558017730713, 'learning_rate': 2.894518211112254e-06, 'epoch': 0.47} {'loss': 2.3746, 'grad_norm': 1.4236552715301514, 'learning_rate': 2.8940892466028826e-06, 'epoch': 0.47} {'loss': 2.194, 'grad_norm': 1.5360392332077026, 'learning_rate': 2.8936602701948663e-06, 'epoch': 0.47} {'loss': 2.3297, 'grad_norm': 1.6751341819763184, 'learning_rate': 2.8932312819011575e-06, 'epoch': 0.47} {'loss': 2.4849, 'grad_norm': 1.5664892196655273, 'learning_rate': 2.8928022817347094e-06, 'epoch': 0.47} {'loss': 2.1359, 'grad_norm': 1.1969434022903442, 'learning_rate': 2.892373269708474e-06, 'epoch': 0.47} {'loss': 2.1877, 'grad_norm': 1.4725085496902466, 'learning_rate': 2.8919442458354045e-06, 'epoch': 0.47} {'loss': 2.087, 'grad_norm': 1.634915828704834, 'learning_rate': 2.8915152101284543e-06, 'epoch': 0.47} {'loss': 2.2858, 'grad_norm': 1.660628080368042, 'learning_rate': 2.8910861626005774e-06, 'epoch': 0.47} {'loss': 2.2454, 'grad_norm': 1.5098588466644287, 'learning_rate': 2.890657103264728e-06, 'epoch': 0.47} {'loss': 2.2685, 'grad_norm': 1.5933469533920288, 'learning_rate': 2.89022803213386e-06, 'epoch': 0.47} {'loss': 2.3441, 'grad_norm': 1.6651493310928345, 'learning_rate': 2.8897989492209284e-06, 'epoch': 0.47} {'loss': 2.3582, 'grad_norm': 1.4059581756591797, 'learning_rate': 2.8893698545388887e-06, 'epoch': 0.47} {'loss': 2.0689, 'grad_norm': 1.2797795534133911, 'learning_rate': 2.8889407481006965e-06, 'epoch': 0.47} {'loss': 2.2923, 'grad_norm': 1.2863273620605469, 'learning_rate': 2.888511629919308e-06, 'epoch': 0.47} {'loss': 1.8891, 'grad_norm': 1.692063570022583, 'learning_rate': 2.8880825000076783e-06, 'epoch': 0.47} {'loss': 2.1646, 'grad_norm': 1.4936134815216064, 'learning_rate': 2.8876533583787647e-06, 'epoch': 0.47} {'loss': 2.1789, 'grad_norm': 1.4489961862564087, 'learning_rate': 2.887224205045524e-06, 'epoch': 0.47} {'loss': 2.2339, 'grad_norm': 1.4647313356399536, 'learning_rate': 2.8867950400209144e-06, 'epoch': 0.47} {'loss': 1.9685, 'grad_norm': 1.127768635749817, 'learning_rate': 2.886365863317893e-06, 'epoch': 0.47} {'loss': 2.1387, 'grad_norm': 1.3859171867370605, 'learning_rate': 2.8859366749494177e-06, 'epoch': 0.47} {'loss': 2.1398, 'grad_norm': 1.4734423160552979, 'learning_rate': 2.8855074749284467e-06, 'epoch': 0.47} {'loss': 2.2954, 'grad_norm': 1.656827449798584, 'learning_rate': 2.885078263267938e-06, 'epoch': 0.47} {'loss': 2.1781, 'grad_norm': 1.44058358669281, 'learning_rate': 2.8846490399808536e-06, 'epoch': 0.47} {'loss': 2.2205, 'grad_norm': 1.692589521408081, 'learning_rate': 2.8842198050801497e-06, 'epoch': 0.47} {'loss': 2.2834, 'grad_norm': 2.3053834438323975, 'learning_rate': 2.8837905585787874e-06, 'epoch': 0.47} {'loss': 2.3003, 'grad_norm': 1.628146767616272, 'learning_rate': 2.883361300489727e-06, 'epoch': 0.47} {'loss': 2.2552, 'grad_norm': 1.5001779794692993, 'learning_rate': 2.882932030825929e-06, 'epoch': 0.47} {'loss': 2.2523, 'grad_norm': 1.6262531280517578, 'learning_rate': 2.8825027496003537e-06, 'epoch': 0.47} {'loss': 2.3113, 'grad_norm': 1.4689451456069946, 'learning_rate': 2.8820734568259628e-06, 'epoch': 0.47} {'loss': 2.0873, 'grad_norm': 1.3572964668273926, 'learning_rate': 2.881644152515718e-06, 'epoch': 0.47} {'loss': 1.5788, 'grad_norm': 1.5128618478775024, 'learning_rate': 2.8812148366825803e-06, 'epoch': 0.47} {'loss': 2.281, 'grad_norm': 1.389311671257019, 'learning_rate': 2.8807855093395127e-06, 'epoch': 0.47} {'loss': 1.6758, 'grad_norm': 1.5825908184051514, 'learning_rate': 2.8803561704994776e-06, 'epoch': 0.47} {'loss': 2.2887, 'grad_norm': 1.2260459661483765, 'learning_rate': 2.8799268201754384e-06, 'epoch': 0.47} {'loss': 2.468, 'grad_norm': 1.5919737815856934, 'learning_rate': 2.879497458380357e-06, 'epoch': 0.47} {'loss': 2.3252, 'grad_norm': 1.8838616609573364, 'learning_rate': 2.8790680851271984e-06, 'epoch': 0.47} {'loss': 2.0288, 'grad_norm': 1.3054375648498535, 'learning_rate': 2.878638700428926e-06, 'epoch': 0.47} {'loss': 2.2287, 'grad_norm': 1.4662950038909912, 'learning_rate': 2.878209304298504e-06, 'epoch': 0.47} {'loss': 2.4388, 'grad_norm': 1.4993001222610474, 'learning_rate': 2.8777798967488967e-06, 'epoch': 0.47} {'loss': 2.382, 'grad_norm': 1.526002287864685, 'learning_rate': 2.8773504777930706e-06, 'epoch': 0.47} {'loss': 2.1872, 'grad_norm': 1.4430526494979858, 'learning_rate': 2.8769210474439894e-06, 'epoch': 0.47} {'loss': 2.2212, 'grad_norm': 1.9911226034164429, 'learning_rate': 2.8764916057146204e-06, 'epoch': 0.47} {'loss': 2.1391, 'grad_norm': 2.3215792179107666, 'learning_rate': 2.8760621526179277e-06, 'epoch': 0.47} {'loss': 2.4166, 'grad_norm': 1.6616603136062622, 'learning_rate': 2.8756326881668782e-06, 'epoch': 0.47} {'loss': 2.2508, 'grad_norm': 1.2166460752487183, 'learning_rate': 2.8752032123744405e-06, 'epoch': 0.47} {'loss': 2.1736, 'grad_norm': 1.222510576248169, 'learning_rate': 2.8747737252535795e-06, 'epoch': 0.47} {'loss': 2.6517, 'grad_norm': 1.7752948999404907, 'learning_rate': 2.8743442268172634e-06, 'epoch': 0.47} {'loss': 2.1872, 'grad_norm': 2.3726463317871094, 'learning_rate': 2.87391471707846e-06, 'epoch': 0.47} {'loss': 2.0554, 'grad_norm': 1.544026494026184, 'learning_rate': 2.873485196050137e-06, 'epoch': 0.47} {'loss': 2.2431, 'grad_norm': 3.7983357906341553, 'learning_rate': 2.8730556637452635e-06, 'epoch': 0.47} {'loss': 2.1298, 'grad_norm': 1.818713665008545, 'learning_rate': 2.8726261201768072e-06, 'epoch': 0.47} {'loss': 2.1774, 'grad_norm': 1.3660212755203247, 'learning_rate': 2.872196565357739e-06, 'epoch': 0.47} {'loss': 2.351, 'grad_norm': 1.5622730255126953, 'learning_rate': 2.871766999301026e-06, 'epoch': 0.47} {'loss': 1.5987, 'grad_norm': 1.5049030780792236, 'learning_rate': 2.8713374220196405e-06, 'epoch': 0.47} {'loss': 2.1389, 'grad_norm': 1.532483458518982, 'learning_rate': 2.87090783352655e-06, 'epoch': 0.47} {'loss': 2.1874, 'grad_norm': 1.3773518800735474, 'learning_rate': 2.870478233834727e-06, 'epoch': 0.47} {'loss': 2.3467, 'grad_norm': 1.5514678955078125, 'learning_rate': 2.8700486229571418e-06, 'epoch': 0.47} {'loss': 2.2698, 'grad_norm': 1.7093992233276367, 'learning_rate': 2.869619000906765e-06, 'epoch': 0.47} {'loss': 2.4887, 'grad_norm': 1.608385682106018, 'learning_rate': 2.8691893676965686e-06, 'epoch': 0.47} {'loss': 2.2742, 'grad_norm': 2.152785539627075, 'learning_rate': 2.8687597233395248e-06, 'epoch': 0.47} {'loss': 2.2145, 'grad_norm': 1.5938125848770142, 'learning_rate': 2.868330067848604e-06, 'epoch': 0.47} {'loss': 2.4331, 'grad_norm': 1.486371397972107, 'learning_rate': 2.86790040123678e-06, 'epoch': 0.47} {'loss': 2.189, 'grad_norm': 1.4976825714111328, 'learning_rate': 2.8674707235170267e-06, 'epoch': 0.47} {'loss': 1.6894, 'grad_norm': 1.5330055952072144, 'learning_rate': 2.8670410347023155e-06, 'epoch': 0.47} {'loss': 2.3833, 'grad_norm': 1.5683008432388306, 'learning_rate': 2.8666113348056203e-06, 'epoch': 0.47} {'loss': 1.8356, 'grad_norm': 2.0393154621124268, 'learning_rate': 2.866181623839915e-06, 'epoch': 0.47} {'loss': 2.5069, 'grad_norm': 1.4300284385681152, 'learning_rate': 2.865751901818174e-06, 'epoch': 0.47} {'loss': 2.5863, 'grad_norm': 1.562686800956726, 'learning_rate': 2.8653221687533717e-06, 'epoch': 0.47} {'loss': 2.3767, 'grad_norm': 1.5223720073699951, 'learning_rate': 2.8648924246584825e-06, 'epoch': 0.47} {'loss': 2.1819, 'grad_norm': 1.5432535409927368, 'learning_rate': 2.8644626695464822e-06, 'epoch': 0.47} {'loss': 2.2208, 'grad_norm': 1.576320767402649, 'learning_rate': 2.864032903430346e-06, 'epoch': 0.47} {'loss': 2.4089, 'grad_norm': 2.0509603023529053, 'learning_rate': 2.86360312632305e-06, 'epoch': 0.47} {'loss': 1.6282, 'grad_norm': 1.4318910837173462, 'learning_rate': 2.86317333823757e-06, 'epoch': 0.47} {'loss': 2.6642, 'grad_norm': 1.5750792026519775, 'learning_rate': 2.8627435391868824e-06, 'epoch': 0.47} {'loss': 2.3348, 'grad_norm': 1.5801860094070435, 'learning_rate': 2.8623137291839644e-06, 'epoch': 0.47} {'loss': 2.3444, 'grad_norm': 1.3092886209487915, 'learning_rate': 2.8618839082417933e-06, 'epoch': 0.47} {'loss': 2.155, 'grad_norm': 1.4167194366455078, 'learning_rate': 2.8614540763733458e-06, 'epoch': 0.47} {'loss': 2.3044, 'grad_norm': 1.647464394569397, 'learning_rate': 2.8610242335916e-06, 'epoch': 0.47} {'loss': 2.558, 'grad_norm': 1.601934552192688, 'learning_rate': 2.860594379909534e-06, 'epoch': 0.47} {'loss': 2.3468, 'grad_norm': 2.133376121520996, 'learning_rate': 2.860164515340128e-06, 'epoch': 0.47} {'loss': 2.2438, 'grad_norm': 1.3909473419189453, 'learning_rate': 2.859734639896358e-06, 'epoch': 0.47} {'loss': 2.4177, 'grad_norm': 1.5002249479293823, 'learning_rate': 2.859304753591205e-06, 'epoch': 0.47} {'loss': 2.3114, 'grad_norm': 1.458820104598999, 'learning_rate': 2.8588748564376476e-06, 'epoch': 0.47} {'loss': 2.0717, 'grad_norm': 1.4542187452316284, 'learning_rate': 2.8584449484486653e-06, 'epoch': 0.47} {'loss': 2.4181, 'grad_norm': 1.7220187187194824, 'learning_rate': 2.85801502963724e-06, 'epoch': 0.47} {'loss': 2.3089, 'grad_norm': 1.6844394207000732, 'learning_rate': 2.85758510001635e-06, 'epoch': 0.47} {'loss': 2.1646, 'grad_norm': 1.2064539194107056, 'learning_rate': 2.8571551595989777e-06, 'epoch': 0.47} {'loss': 2.3079, 'grad_norm': 1.494829535484314, 'learning_rate': 2.856725208398103e-06, 'epoch': 0.47} {'loss': 2.3701, 'grad_norm': 1.7061448097229004, 'learning_rate': 2.8562952464267072e-06, 'epoch': 0.47} {'loss': 2.4156, 'grad_norm': 1.464516282081604, 'learning_rate': 2.8558652736977736e-06, 'epoch': 0.47} {'loss': 2.1213, 'grad_norm': 1.6697046756744385, 'learning_rate': 2.8554352902242834e-06, 'epoch': 0.47} {'loss': 2.1573, 'grad_norm': 1.671735405921936, 'learning_rate': 2.8550052960192183e-06, 'epoch': 0.47} {'loss': 2.2746, 'grad_norm': 1.565163493156433, 'learning_rate': 2.8545752910955614e-06, 'epoch': 0.47} {'loss': 2.1723, 'grad_norm': 1.35075843334198, 'learning_rate': 2.8541452754662962e-06, 'epoch': 0.47} {'loss': 2.261, 'grad_norm': 1.8176615238189697, 'learning_rate': 2.853715249144406e-06, 'epoch': 0.47} {'loss': 2.0495, 'grad_norm': 1.4380602836608887, 'learning_rate': 2.8532852121428737e-06, 'epoch': 0.47} {'loss': 2.0143, 'grad_norm': 1.5254578590393066, 'learning_rate': 2.8528551644746843e-06, 'epoch': 0.47} {'loss': 2.2213, 'grad_norm': 1.4941892623901367, 'learning_rate': 2.8524251061528223e-06, 'epoch': 0.47} {'loss': 2.2483, 'grad_norm': 1.7161790132522583, 'learning_rate': 2.851995037190271e-06, 'epoch': 0.47} {'loss': 2.3127, 'grad_norm': 1.5198132991790771, 'learning_rate': 2.851564957600016e-06, 'epoch': 0.47} {'loss': 2.3982, 'grad_norm': 1.6025968790054321, 'learning_rate': 2.8511348673950427e-06, 'epoch': 0.47} {'loss': 2.113, 'grad_norm': 1.6611047983169556, 'learning_rate': 2.850704766588337e-06, 'epoch': 0.47} {'loss': 2.3078, 'grad_norm': 1.607743740081787, 'learning_rate': 2.8502746551928856e-06, 'epoch': 0.47} {'loss': 2.4356, 'grad_norm': 1.559463381767273, 'learning_rate': 2.8498445332216722e-06, 'epoch': 0.47} {'loss': 2.3213, 'grad_norm': 1.5264345407485962, 'learning_rate': 2.8494144006876856e-06, 'epoch': 0.47} {'loss': 2.4327, 'grad_norm': 1.5662035942077637, 'learning_rate': 2.8489842576039113e-06, 'epoch': 0.47} {'loss': 2.3605, 'grad_norm': 1.472456455230713, 'learning_rate': 2.8485541039833385e-06, 'epoch': 0.47} {'loss': 2.0377, 'grad_norm': 1.22515869140625, 'learning_rate': 2.8481239398389527e-06, 'epoch': 0.47} {'loss': 2.2572, 'grad_norm': 1.3950101137161255, 'learning_rate': 2.847693765183742e-06, 'epoch': 0.47} {'loss': 2.1446, 'grad_norm': 1.3040159940719604, 'learning_rate': 2.847263580030696e-06, 'epoch': 0.47} {'loss': 2.3409, 'grad_norm': 2.098146438598633, 'learning_rate': 2.846833384392801e-06, 'epoch': 0.47} {'loss': 2.4382, 'grad_norm': 1.4579347372055054, 'learning_rate': 2.8464031782830478e-06, 'epoch': 0.47} {'loss': 2.2078, 'grad_norm': 2.1598060131073, 'learning_rate': 2.8459729617144244e-06, 'epoch': 0.47} {'loss': 2.2029, 'grad_norm': 2.032485008239746, 'learning_rate': 2.845542734699921e-06, 'epoch': 0.47} {'loss': 2.2021, 'grad_norm': 1.6484804153442383, 'learning_rate': 2.8451124972525264e-06, 'epoch': 0.47} {'loss': 2.2136, 'grad_norm': 1.6102609634399414, 'learning_rate': 2.844682249385232e-06, 'epoch': 0.47} {'loss': 2.1781, 'grad_norm': 1.5924869775772095, 'learning_rate': 2.844251991111026e-06, 'epoch': 0.47} {'loss': 2.2758, 'grad_norm': 1.608641266822815, 'learning_rate': 2.843821722442901e-06, 'epoch': 0.47} {'loss': 2.2648, 'grad_norm': 1.6108611822128296, 'learning_rate': 2.8433914433938476e-06, 'epoch': 0.47} {'loss': 2.1406, 'grad_norm': 1.3044204711914062, 'learning_rate': 2.842961153976857e-06, 'epoch': 0.47} {'loss': 2.2268, 'grad_norm': 1.4838858842849731, 'learning_rate': 2.8425308542049208e-06, 'epoch': 0.47} {'loss': 2.1793, 'grad_norm': 1.7163608074188232, 'learning_rate': 2.8421005440910303e-06, 'epoch': 0.47} {'loss': 2.0739, 'grad_norm': 1.5169044733047485, 'learning_rate': 2.8416702236481788e-06, 'epoch': 0.47} {'loss': 2.4448, 'grad_norm': 1.6210829019546509, 'learning_rate': 2.841239892889358e-06, 'epoch': 0.47} {'loss': 2.2195, 'grad_norm': 1.5922006368637085, 'learning_rate': 2.8408095518275618e-06, 'epoch': 0.47} {'loss': 2.2338, 'grad_norm': 1.3026093244552612, 'learning_rate': 2.8403792004757825e-06, 'epoch': 0.47} {'loss': 2.087, 'grad_norm': 1.286510944366455, 'learning_rate': 2.8399488388470135e-06, 'epoch': 0.47} {'loss': 2.181, 'grad_norm': 1.403841495513916, 'learning_rate': 2.83951846695425e-06, 'epoch': 0.47} {'loss': 2.3694, 'grad_norm': 1.445796012878418, 'learning_rate': 2.839088084810484e-06, 'epoch': 0.47} {'loss': 2.4497, 'grad_norm': 1.5195858478546143, 'learning_rate': 2.838657692428711e-06, 'epoch': 0.47} {'loss': 2.4275, 'grad_norm': 1.400526523590088, 'learning_rate': 2.8382272898219265e-06, 'epoch': 0.47} {'loss': 2.1807, 'grad_norm': 33.00614547729492, 'learning_rate': 2.837796877003124e-06, 'epoch': 0.47} {'loss': 1.8329, 'grad_norm': 1.5564216375350952, 'learning_rate': 2.8373664539853004e-06, 'epoch': 0.47} {'loss': 2.6715, 'grad_norm': 1.605162501335144, 'learning_rate': 2.83693602078145e-06, 'epoch': 0.47} {'loss': 2.1328, 'grad_norm': 1.3806949853897095, 'learning_rate': 2.8365055774045697e-06, 'epoch': 0.47} {'loss': 2.3286, 'grad_norm': 1.6662801504135132, 'learning_rate': 2.8360751238676556e-06, 'epoch': 0.47} {'loss': 2.2439, 'grad_norm': 2.146822690963745, 'learning_rate': 2.835644660183704e-06, 'epoch': 0.47} {'loss': 2.1889, 'grad_norm': 2.253026008605957, 'learning_rate': 2.8352141863657124e-06, 'epoch': 0.47} {'loss': 2.2292, 'grad_norm': 1.3843916654586792, 'learning_rate': 2.8347837024266762e-06, 'epoch': 0.47} {'loss': 1.9881, 'grad_norm': 1.6961302757263184, 'learning_rate': 2.834353208379595e-06, 'epoch': 0.47} {'loss': 2.3941, 'grad_norm': 1.6997240781784058, 'learning_rate': 2.833922704237466e-06, 'epoch': 0.47} {'loss': 2.519, 'grad_norm': 1.6909266710281372, 'learning_rate': 2.8334921900132873e-06, 'epoch': 0.47} {'loss': 2.334, 'grad_norm': 1.4950566291809082, 'learning_rate': 2.833061665720057e-06, 'epoch': 0.47} {'loss': 2.1653, 'grad_norm': 1.4293179512023926, 'learning_rate': 2.832631131370774e-06, 'epoch': 0.47} {'loss': 1.8489, 'grad_norm': 1.2603390216827393, 'learning_rate': 2.8322005869784365e-06, 'epoch': 0.47} {'loss': 2.3249, 'grad_norm': 1.5083627700805664, 'learning_rate': 2.831770032556045e-06, 'epoch': 0.47} {'loss': 1.5205, 'grad_norm': 1.635743498802185, 'learning_rate': 2.8313394681165995e-06, 'epoch': 0.47} {'loss': 2.0163, 'grad_norm': 1.2488460540771484, 'learning_rate': 2.830908893673099e-06, 'epoch': 0.47} {'loss': 2.3248, 'grad_norm': 1.2960431575775146, 'learning_rate': 2.8304783092385434e-06, 'epoch': 0.47} {'loss': 2.291, 'grad_norm': 1.870769739151001, 'learning_rate': 2.8300477148259343e-06, 'epoch': 0.47} {'loss': 2.3267, 'grad_norm': 1.5541409254074097, 'learning_rate': 2.829617110448271e-06, 'epoch': 0.47} {'loss': 1.9472, 'grad_norm': 1.4272797107696533, 'learning_rate': 2.8291864961185568e-06, 'epoch': 0.47} {'loss': 2.3179, 'grad_norm': 2.2618398666381836, 'learning_rate': 2.828755871849791e-06, 'epoch': 0.47} {'loss': 1.9578, 'grad_norm': 1.2882750034332275, 'learning_rate': 2.8283252376549768e-06, 'epoch': 0.47} {'loss': 2.266, 'grad_norm': 1.452199935913086, 'learning_rate': 2.827894593547116e-06, 'epoch': 0.47} {'loss': 1.7196, 'grad_norm': 1.9915714263916016, 'learning_rate': 2.82746393953921e-06, 'epoch': 0.47} {'loss': 2.3119, 'grad_norm': 1.2976012229919434, 'learning_rate': 2.8270332756442625e-06, 'epoch': 0.48} {'loss': 2.25, 'grad_norm': 1.3560115098953247, 'learning_rate': 2.826602601875276e-06, 'epoch': 0.48} {'loss': 2.4648, 'grad_norm': 1.514209270477295, 'learning_rate': 2.826171918245254e-06, 'epoch': 0.48} {'loss': 1.7753, 'grad_norm': 1.2063382863998413, 'learning_rate': 2.8257412247672e-06, 'epoch': 0.48} {'loss': 2.3329, 'grad_norm': 1.6160645484924316, 'learning_rate': 2.825310521454117e-06, 'epoch': 0.48} {'loss': 2.1917, 'grad_norm': 1.3871656656265259, 'learning_rate': 2.8248798083190094e-06, 'epoch': 0.48} {'loss': 1.6683, 'grad_norm': 1.5894215106964111, 'learning_rate': 2.8244490853748825e-06, 'epoch': 0.48} {'loss': 2.1639, 'grad_norm': 1.6411014795303345, 'learning_rate': 2.8240183526347407e-06, 'epoch': 0.48} {'loss': 2.1797, 'grad_norm': 1.426587700843811, 'learning_rate': 2.823587610111589e-06, 'epoch': 0.48} {'loss': 2.1611, 'grad_norm': 1.52129065990448, 'learning_rate': 2.823156857818432e-06, 'epoch': 0.48} {'loss': 2.0479, 'grad_norm': 1.6154028177261353, 'learning_rate': 2.8227260957682762e-06, 'epoch': 0.48} {'loss': 2.369, 'grad_norm': 1.5890657901763916, 'learning_rate': 2.822295323974126e-06, 'epoch': 0.48} {'loss': 2.3142, 'grad_norm': 1.6348934173583984, 'learning_rate': 2.8218645424489905e-06, 'epoch': 0.48} {'loss': 2.1842, 'grad_norm': 1.297574520111084, 'learning_rate': 2.821433751205873e-06, 'epoch': 0.48} {'loss': 2.369, 'grad_norm': 1.5140312910079956, 'learning_rate': 2.8210029502577823e-06, 'epoch': 0.48} {'loss': 2.4282, 'grad_norm': 1.846339225769043, 'learning_rate': 2.820572139617725e-06, 'epoch': 0.48} {'loss': 2.0705, 'grad_norm': 1.489786148071289, 'learning_rate': 2.8201413192987074e-06, 'epoch': 0.48} {'loss': 2.2154, 'grad_norm': 3.9669110774993896, 'learning_rate': 2.819710489313739e-06, 'epoch': 0.48} {'loss': 1.5037, 'grad_norm': 1.6892238855361938, 'learning_rate': 2.8192796496758264e-06, 'epoch': 0.48} {'loss': 2.2819, 'grad_norm': 1.5178956985473633, 'learning_rate': 2.8188488003979784e-06, 'epoch': 0.48} {'loss': 2.3852, 'grad_norm': 1.601321816444397, 'learning_rate': 2.8184179414932033e-06, 'epoch': 0.48} {'loss': 1.9122, 'grad_norm': 1.4785367250442505, 'learning_rate': 2.8179870729745098e-06, 'epoch': 0.48} {'loss': 2.2577, 'grad_norm': 1.303305745124817, 'learning_rate': 2.8175561948549074e-06, 'epoch': 0.48} {'loss': 2.1967, 'grad_norm': 1.3841509819030762, 'learning_rate': 2.8171253071474054e-06, 'epoch': 0.48} {'loss': 2.3016, 'grad_norm': 1.918471336364746, 'learning_rate': 2.8166944098650133e-06, 'epoch': 0.48} {'loss': 2.2267, 'grad_norm': 1.6406028270721436, 'learning_rate': 2.816263503020742e-06, 'epoch': 0.48} {'loss': 2.3316, 'grad_norm': 1.772044062614441, 'learning_rate': 2.8158325866276e-06, 'epoch': 0.48} {'loss': 2.3971, 'grad_norm': 1.4125466346740723, 'learning_rate': 2.815401660698599e-06, 'epoch': 0.48} {'loss': 2.2637, 'grad_norm': 1.2635571956634521, 'learning_rate': 2.814970725246749e-06, 'epoch': 0.48} {'loss': 2.1588, 'grad_norm': 1.617551326751709, 'learning_rate': 2.8145397802850632e-06, 'epoch': 0.48} {'loss': 2.2265, 'grad_norm': 1.658085823059082, 'learning_rate': 2.814108825826551e-06, 'epoch': 0.48} {'loss': 2.3369, 'grad_norm': 1.3719912767410278, 'learning_rate': 2.8136778618842244e-06, 'epoch': 0.48} {'loss': 2.4061, 'grad_norm': 2.5332133769989014, 'learning_rate': 2.8132468884710954e-06, 'epoch': 0.48} {'loss': 2.2528, 'grad_norm': 1.7036287784576416, 'learning_rate': 2.8128159056001775e-06, 'epoch': 0.48} {'loss': 2.4191, 'grad_norm': 1.4502954483032227, 'learning_rate': 2.812384913284482e-06, 'epoch': 0.48} {'loss': 2.2027, 'grad_norm': 1.5565773248672485, 'learning_rate': 2.811953911537022e-06, 'epoch': 0.48} {'loss': 2.3236, 'grad_norm': 1.5994676351547241, 'learning_rate': 2.8115229003708113e-06, 'epoch': 0.48} {'loss': 2.1088, 'grad_norm': 1.189470648765564, 'learning_rate': 2.8110918797988617e-06, 'epoch': 0.48} {'loss': 2.2733, 'grad_norm': 1.2351588010787964, 'learning_rate': 2.8106608498341888e-06, 'epoch': 0.48} {'loss': 2.2875, 'grad_norm': 1.5159430503845215, 'learning_rate': 2.810229810489805e-06, 'epoch': 0.48} {'loss': 2.1413, 'grad_norm': 1.6399673223495483, 'learning_rate': 2.809798761778726e-06, 'epoch': 0.48} {'loss': 2.2006, 'grad_norm': 1.6026382446289062, 'learning_rate': 2.8093677037139653e-06, 'epoch': 0.48} {'loss': 2.125, 'grad_norm': 2.167872905731201, 'learning_rate': 2.8089366363085383e-06, 'epoch': 0.48} {'loss': 2.2351, 'grad_norm': 1.7616389989852905, 'learning_rate': 2.808505559575461e-06, 'epoch': 0.48} {'loss': 2.2256, 'grad_norm': 1.4975261688232422, 'learning_rate': 2.808074473527746e-06, 'epoch': 0.48} {'loss': 2.4562, 'grad_norm': 1.5858818292617798, 'learning_rate': 2.8076433781784114e-06, 'epoch': 0.48} {'loss': 1.9964, 'grad_norm': 1.3994598388671875, 'learning_rate': 2.807212273540472e-06, 'epoch': 0.48} {'loss': 2.2198, 'grad_norm': 1.4704415798187256, 'learning_rate': 2.8067811596269457e-06, 'epoch': 0.48} {'loss': 1.9395, 'grad_norm': 1.3326730728149414, 'learning_rate': 2.8063500364508472e-06, 'epoch': 0.48} {'loss': 2.2836, 'grad_norm': 1.6807875633239746, 'learning_rate': 2.805918904025194e-06, 'epoch': 0.48} {'loss': 1.9255, 'grad_norm': 1.4377540349960327, 'learning_rate': 2.8054877623630023e-06, 'epoch': 0.48} {'loss': 2.2973, 'grad_norm': 1.6070091724395752, 'learning_rate': 2.8050566114772915e-06, 'epoch': 0.48} {'loss': 2.3132, 'grad_norm': 1.3569538593292236, 'learning_rate': 2.804625451381077e-06, 'epoch': 0.48} {'loss': 2.3249, 'grad_norm': 1.5673879384994507, 'learning_rate': 2.8041942820873786e-06, 'epoch': 0.48} {'loss': 2.296, 'grad_norm': 3.996368646621704, 'learning_rate': 2.8037631036092126e-06, 'epoch': 0.48} {'loss': 2.5054, 'grad_norm': 1.7302461862564087, 'learning_rate': 2.803331915959599e-06, 'epoch': 0.48} {'loss': 2.3738, 'grad_norm': 1.5297995805740356, 'learning_rate': 2.8029007191515563e-06, 'epoch': 0.48} {'loss': 2.4166, 'grad_norm': 1.488141417503357, 'learning_rate': 2.802469513198103e-06, 'epoch': 0.48} {'loss': 2.3495, 'grad_norm': 5.598122596740723, 'learning_rate': 2.8020382981122584e-06, 'epoch': 0.48} {'loss': 2.0326, 'grad_norm': 1.3804762363433838, 'learning_rate': 2.801607073907043e-06, 'epoch': 0.48} {'loss': 2.128, 'grad_norm': 1.224878191947937, 'learning_rate': 2.801175840595476e-06, 'epoch': 0.48} {'loss': 2.32, 'grad_norm': 2.6265907287597656, 'learning_rate': 2.800744598190577e-06, 'epoch': 0.48} {'loss': 1.4934, 'grad_norm': 1.4148718118667603, 'learning_rate': 2.8003133467053667e-06, 'epoch': 0.48} {'loss': 2.1831, 'grad_norm': 1.46062433719635, 'learning_rate': 2.799882086152866e-06, 'epoch': 0.48} {'loss': 2.3151, 'grad_norm': 1.5437538623809814, 'learning_rate': 2.799450816546096e-06, 'epoch': 0.48} {'loss': 2.3402, 'grad_norm': 1.6745342016220093, 'learning_rate': 2.7990195378980784e-06, 'epoch': 0.48} {'loss': 2.3494, 'grad_norm': 1.5794379711151123, 'learning_rate': 2.798588250221834e-06, 'epoch': 0.48} {'loss': 2.3256, 'grad_norm': 1.5488311052322388, 'learning_rate': 2.798156953530383e-06, 'epoch': 0.48} {'loss': 2.3846, 'grad_norm': 1.4549928903579712, 'learning_rate': 2.7977256478367503e-06, 'epoch': 0.48} {'loss': 2.2652, 'grad_norm': 1.6181161403656006, 'learning_rate': 2.7972943331539575e-06, 'epoch': 0.48} {'loss': 2.363, 'grad_norm': 1.553434133529663, 'learning_rate': 2.796863009495026e-06, 'epoch': 0.48} {'loss': 2.269, 'grad_norm': 1.4348256587982178, 'learning_rate': 2.7964316768729794e-06, 'epoch': 0.48} {'loss': 2.2336, 'grad_norm': 1.578824758529663, 'learning_rate': 2.7960003353008407e-06, 'epoch': 0.48} {'loss': 2.2372, 'grad_norm': 1.518700122833252, 'learning_rate': 2.795568984791633e-06, 'epoch': 0.48} {'loss': 2.3806, 'grad_norm': 1.5398374795913696, 'learning_rate': 2.795137625358381e-06, 'epoch': 0.48} {'loss': 1.5394, 'grad_norm': 1.2304531335830688, 'learning_rate': 2.7947062570141076e-06, 'epoch': 0.48} {'loss': 2.3855, 'grad_norm': 1.4782686233520508, 'learning_rate': 2.7942748797718373e-06, 'epoch': 0.48} {'loss': 2.2208, 'grad_norm': 1.6692990064620972, 'learning_rate': 2.7938434936445946e-06, 'epoch': 0.48} {'loss': 2.2429, 'grad_norm': 1.7755703926086426, 'learning_rate': 2.793412098645404e-06, 'epoch': 0.48} {'loss': 2.1458, 'grad_norm': 1.4642422199249268, 'learning_rate': 2.792980694787291e-06, 'epoch': 0.48} {'loss': 2.328, 'grad_norm': 1.579666018486023, 'learning_rate': 2.7925492820832805e-06, 'epoch': 0.48} {'loss': 1.7937, 'grad_norm': 1.3535549640655518, 'learning_rate': 2.7921178605463984e-06, 'epoch': 0.48} {'loss': 2.3351, 'grad_norm': 1.5165374279022217, 'learning_rate': 2.7916864301896706e-06, 'epoch': 0.48} {'loss': 2.3595, 'grad_norm': 1.60256826877594, 'learning_rate': 2.791254991026122e-06, 'epoch': 0.48} {'loss': 1.9477, 'grad_norm': 1.3840500116348267, 'learning_rate': 2.7908235430687803e-06, 'epoch': 0.48} {'loss': 2.4322, 'grad_norm': 1.5251604318618774, 'learning_rate': 2.790392086330671e-06, 'epoch': 0.48} {'loss': 2.2214, 'grad_norm': 1.3965842723846436, 'learning_rate': 2.789960620824822e-06, 'epoch': 0.48} {'loss': 2.3437, 'grad_norm': 1.5188148021697998, 'learning_rate': 2.789529146564261e-06, 'epoch': 0.48} {'loss': 2.2805, 'grad_norm': 1.463356375694275, 'learning_rate': 2.7890976635620133e-06, 'epoch': 0.48} {'loss': 2.2104, 'grad_norm': 1.457000970840454, 'learning_rate': 2.7886661718311078e-06, 'epoch': 0.48} {'loss': 2.314, 'grad_norm': 1.5414018630981445, 'learning_rate': 2.788234671384572e-06, 'epoch': 0.48} {'loss': 2.1895, 'grad_norm': 1.5408220291137695, 'learning_rate': 2.787803162235435e-06, 'epoch': 0.48} {'loss': 2.2703, 'grad_norm': 1.1234506368637085, 'learning_rate': 2.7873716443967246e-06, 'epoch': 0.48} {'loss': 2.2334, 'grad_norm': 1.1135640144348145, 'learning_rate': 2.786940117881469e-06, 'epoch': 0.48} {'loss': 2.2228, 'grad_norm': 14.829164505004883, 'learning_rate': 2.7865085827026985e-06, 'epoch': 0.48} {'loss': 2.16, 'grad_norm': 1.7137683629989624, 'learning_rate': 2.786077038873441e-06, 'epoch': 0.48} {'loss': 2.2918, 'grad_norm': 1.6388914585113525, 'learning_rate': 2.7856454864067267e-06, 'epoch': 0.48} {'loss': 2.0918, 'grad_norm': 1.6464343070983887, 'learning_rate': 2.785213925315586e-06, 'epoch': 0.48} {'loss': 2.3577, 'grad_norm': 1.4921010732650757, 'learning_rate': 2.784782355613047e-06, 'epoch': 0.48} {'loss': 2.32, 'grad_norm': 2.1390810012817383, 'learning_rate': 2.784350777312142e-06, 'epoch': 0.48} {'loss': 2.2353, 'grad_norm': 1.6033371686935425, 'learning_rate': 2.7839191904259e-06, 'epoch': 0.48} {'loss': 2.0859, 'grad_norm': 1.5695960521697998, 'learning_rate': 2.783487594967353e-06, 'epoch': 0.48} {'loss': 2.4245, 'grad_norm': 1.5054091215133667, 'learning_rate': 2.7830559909495315e-06, 'epoch': 0.48} {'loss': 2.2756, 'grad_norm': 1.7826502323150635, 'learning_rate': 2.782624378385467e-06, 'epoch': 0.48} {'loss': 2.1906, 'grad_norm': 1.5057251453399658, 'learning_rate': 2.782192757288191e-06, 'epoch': 0.48} {'loss': 2.1953, 'grad_norm': 1.7478843927383423, 'learning_rate': 2.7817611276707352e-06, 'epoch': 0.48} {'loss': 2.217, 'grad_norm': 1.6383897066116333, 'learning_rate': 2.7813294895461314e-06, 'epoch': 0.48} {'loss': 2.2528, 'grad_norm': 1.5980000495910645, 'learning_rate': 2.7808978429274125e-06, 'epoch': 0.48} {'loss': 2.3063, 'grad_norm': 1.6045914888381958, 'learning_rate': 2.7804661878276106e-06, 'epoch': 0.48} {'loss': 2.322, 'grad_norm': 1.508978009223938, 'learning_rate': 2.78003452425976e-06, 'epoch': 0.48} {'loss': 2.258, 'grad_norm': 1.5248689651489258, 'learning_rate': 2.7796028522368916e-06, 'epoch': 0.48} {'loss': 2.0386, 'grad_norm': 1.218807339668274, 'learning_rate': 2.7791711717720406e-06, 'epoch': 0.48} {'loss': 2.3499, 'grad_norm': 1.689613938331604, 'learning_rate': 2.7787394828782394e-06, 'epoch': 0.48} {'loss': 2.3181, 'grad_norm': 1.6863222122192383, 'learning_rate': 2.778307785568523e-06, 'epoch': 0.48} {'loss': 2.1693, 'grad_norm': 1.5043702125549316, 'learning_rate': 2.7778760798559245e-06, 'epoch': 0.48} {'loss': 2.2921, 'grad_norm': 1.499253511428833, 'learning_rate': 2.7774443657534788e-06, 'epoch': 0.48} {'loss': 2.3062, 'grad_norm': 1.3414020538330078, 'learning_rate': 2.7770126432742206e-06, 'epoch': 0.48} {'loss': 2.0059, 'grad_norm': 1.4700849056243896, 'learning_rate': 2.7765809124311843e-06, 'epoch': 0.48} {'loss': 2.6381, 'grad_norm': 2.5273256301879883, 'learning_rate': 2.776149173237406e-06, 'epoch': 0.48} {'loss': 2.1828, 'grad_norm': 1.3304486274719238, 'learning_rate': 2.7757174257059198e-06, 'epoch': 0.48} {'loss': 2.47, 'grad_norm': 1.5221681594848633, 'learning_rate': 2.775285669849762e-06, 'epoch': 0.48} {'loss': 2.1993, 'grad_norm': 1.5196255445480347, 'learning_rate': 2.774853905681969e-06, 'epoch': 0.48} {'loss': 2.2728, 'grad_norm': 1.5688096284866333, 'learning_rate': 2.7744221332155773e-06, 'epoch': 0.48} {'loss': 2.2782, 'grad_norm': 1.510208249092102, 'learning_rate': 2.7739903524636207e-06, 'epoch': 0.48} {'loss': 2.6029, 'grad_norm': 2.2671821117401123, 'learning_rate': 2.773558563439139e-06, 'epoch': 0.48} {'loss': 2.4644, 'grad_norm': 1.389789342880249, 'learning_rate': 2.7731267661551676e-06, 'epoch': 0.48} {'loss': 2.3696, 'grad_norm': 1.5788774490356445, 'learning_rate': 2.772694960624744e-06, 'epoch': 0.48} {'loss': 2.3809, 'grad_norm': 1.607273817062378, 'learning_rate': 2.7722631468609053e-06, 'epoch': 0.48} {'loss': 2.267, 'grad_norm': 1.5881706476211548, 'learning_rate': 2.771831324876689e-06, 'epoch': 0.48} {'loss': 2.3928, 'grad_norm': 1.4951869249343872, 'learning_rate': 2.7713994946851327e-06, 'epoch': 0.48} {'loss': 2.2687, 'grad_norm': 1.4855356216430664, 'learning_rate': 2.770967656299276e-06, 'epoch': 0.48} {'loss': 2.045, 'grad_norm': 1.4998747110366821, 'learning_rate': 2.770535809732157e-06, 'epoch': 0.48} {'loss': 2.2392, 'grad_norm': 1.4095348119735718, 'learning_rate': 2.770103954996813e-06, 'epoch': 0.48} {'loss': 2.3007, 'grad_norm': 1.4756535291671753, 'learning_rate': 2.769672092106283e-06, 'epoch': 0.48} {'loss': 2.5102, 'grad_norm': 1.4501311779022217, 'learning_rate': 2.7692402210736082e-06, 'epoch': 0.48} {'loss': 2.1616, 'grad_norm': 1.5690712928771973, 'learning_rate': 2.7688083419118256e-06, 'epoch': 0.48} {'loss': 2.2846, 'grad_norm': 1.5623574256896973, 'learning_rate': 2.7683764546339758e-06, 'epoch': 0.48} {'loss': 2.337, 'grad_norm': 1.5768859386444092, 'learning_rate': 2.767944559253099e-06, 'epoch': 0.48} {'loss': 2.299, 'grad_norm': 1.405672311782837, 'learning_rate': 2.767512655782235e-06, 'epoch': 0.48} {'loss': 2.4042, 'grad_norm': 1.607465386390686, 'learning_rate': 2.7670807442344238e-06, 'epoch': 0.48} {'loss': 2.2359, 'grad_norm': 1.3457920551300049, 'learning_rate': 2.766648824622707e-06, 'epoch': 0.48} {'loss': 2.2017, 'grad_norm': 1.4138245582580566, 'learning_rate': 2.7662168969601243e-06, 'epoch': 0.48} {'loss': 2.2829, 'grad_norm': 1.444812297821045, 'learning_rate': 2.7657849612597175e-06, 'epoch': 0.48} {'loss': 2.1371, 'grad_norm': 29.67660140991211, 'learning_rate': 2.7653530175345277e-06, 'epoch': 0.48} {'loss': 2.1247, 'grad_norm': 1.6261683702468872, 'learning_rate': 2.7649210657975968e-06, 'epoch': 0.48} {'loss': 2.3816, 'grad_norm': 1.6914910078048706, 'learning_rate': 2.7644891060619656e-06, 'epoch': 0.48} {'loss': 2.1692, 'grad_norm': 1.8096294403076172, 'learning_rate': 2.764057138340677e-06, 'epoch': 0.48} {'loss': 1.8544, 'grad_norm': 3.984257698059082, 'learning_rate': 2.7636251626467737e-06, 'epoch': 0.48} {'loss': 1.8292, 'grad_norm': 1.3397808074951172, 'learning_rate': 2.7631931789932974e-06, 'epoch': 0.48} {'loss': 2.342, 'grad_norm': 1.5114164352416992, 'learning_rate': 2.7627611873932918e-06, 'epoch': 0.48} {'loss': 2.2525, 'grad_norm': 1.4545506238937378, 'learning_rate': 2.7623291878597985e-06, 'epoch': 0.48} {'loss': 1.6677, 'grad_norm': 1.206678032875061, 'learning_rate': 2.7618971804058615e-06, 'epoch': 0.48} {'loss': 2.2751, 'grad_norm': 1.5255200862884521, 'learning_rate': 2.7614651650445246e-06, 'epoch': 0.48} {'loss': 2.1468, 'grad_norm': 1.8004666566848755, 'learning_rate': 2.7610331417888326e-06, 'epoch': 0.48} {'loss': 2.4146, 'grad_norm': 1.453015923500061, 'learning_rate': 2.7606011106518265e-06, 'epoch': 0.48} {'loss': 2.3258, 'grad_norm': 1.559418797492981, 'learning_rate': 2.760169071646553e-06, 'epoch': 0.48} {'loss': 1.9731, 'grad_norm': 1.4192191362380981, 'learning_rate': 2.7597370247860555e-06, 'epoch': 0.48} {'loss': 1.6949, 'grad_norm': 1.3098634481430054, 'learning_rate': 2.759304970083379e-06, 'epoch': 0.48} {'loss': 2.2813, 'grad_norm': 1.5987271070480347, 'learning_rate': 2.7588729075515684e-06, 'epoch': 0.48} {'loss': 2.2464, 'grad_norm': 1.6089681386947632, 'learning_rate': 2.7584408372036686e-06, 'epoch': 0.48} {'loss': 2.1611, 'grad_norm': 4.821911811828613, 'learning_rate': 2.7580087590527255e-06, 'epoch': 0.48} {'loss': 2.4109, 'grad_norm': 1.6386127471923828, 'learning_rate': 2.7575766731117847e-06, 'epoch': 0.48} {'loss': 2.256, 'grad_norm': 1.7992515563964844, 'learning_rate': 2.7571445793938918e-06, 'epoch': 0.48} {'loss': 2.3658, 'grad_norm': 1.4227594137191772, 'learning_rate': 2.7567124779120923e-06, 'epoch': 0.48} {'loss': 2.2811, 'grad_norm': 1.4255247116088867, 'learning_rate': 2.7562803686794336e-06, 'epoch': 0.48} {'loss': 2.3236, 'grad_norm': 1.4857426881790161, 'learning_rate': 2.7558482517089617e-06, 'epoch': 0.48} {'loss': 2.1652, 'grad_norm': 1.496901035308838, 'learning_rate': 2.7554161270137245e-06, 'epoch': 0.48} {'loss': 2.2708, 'grad_norm': 2.024207353591919, 'learning_rate': 2.7549839946067674e-06, 'epoch': 0.48} {'loss': 2.2049, 'grad_norm': 1.6691854000091553, 'learning_rate': 2.754551854501138e-06, 'epoch': 0.48} {'loss': 2.2865, 'grad_norm': 1.5731093883514404, 'learning_rate': 2.7541197067098845e-06, 'epoch': 0.48} {'loss': 2.3933, 'grad_norm': 2.002371072769165, 'learning_rate': 2.7536875512460544e-06, 'epoch': 0.48} {'loss': 2.0371, 'grad_norm': 2.111229658126831, 'learning_rate': 2.753255388122696e-06, 'epoch': 0.48} {'loss': 2.4084, 'grad_norm': 1.5404088497161865, 'learning_rate': 2.752823217352856e-06, 'epoch': 0.48} {'loss': 2.1953, 'grad_norm': 1.4556753635406494, 'learning_rate': 2.752391038949585e-06, 'epoch': 0.48} {'loss': 2.2056, 'grad_norm': 1.3977620601654053, 'learning_rate': 2.7519588529259293e-06, 'epoch': 0.48} {'loss': 2.1023, 'grad_norm': 1.5625306367874146, 'learning_rate': 2.7515266592949408e-06, 'epoch': 0.48} {'loss': 2.3734, 'grad_norm': 1.7019789218902588, 'learning_rate': 2.7510944580696657e-06, 'epoch': 0.48} {'loss': 2.4475, 'grad_norm': 1.6218317747116089, 'learning_rate': 2.7506622492631553e-06, 'epoch': 0.48} {'loss': 2.2026, 'grad_norm': 2.478410005569458, 'learning_rate': 2.750230032888458e-06, 'epoch': 0.48} {'loss': 2.2378, 'grad_norm': 1.5342580080032349, 'learning_rate': 2.7497978089586236e-06, 'epoch': 0.48} {'loss': 2.1397, 'grad_norm': 1.3621281385421753, 'learning_rate': 2.749365577486703e-06, 'epoch': 0.48} {'loss': 2.4274, 'grad_norm': 1.7174782752990723, 'learning_rate': 2.748933338485746e-06, 'epoch': 0.48} {'loss': 2.3072, 'grad_norm': 1.5859864950180054, 'learning_rate': 2.748501091968803e-06, 'epoch': 0.48} {'loss': 2.2135, 'grad_norm': 4.69979190826416, 'learning_rate': 2.748068837948925e-06, 'epoch': 0.48} {'loss': 2.393, 'grad_norm': 1.4628430604934692, 'learning_rate': 2.7476365764391627e-06, 'epoch': 0.48} {'loss': 2.3211, 'grad_norm': 1.5995533466339111, 'learning_rate': 2.7472043074525674e-06, 'epoch': 0.48} {'loss': 2.2994, 'grad_norm': 1.3286219835281372, 'learning_rate': 2.7467720310021904e-06, 'epoch': 0.49} {'loss': 2.0337, 'grad_norm': 1.663124918937683, 'learning_rate': 2.7463397471010834e-06, 'epoch': 0.49} {'loss': 2.2435, 'grad_norm': 1.466835856437683, 'learning_rate': 2.745907455762299e-06, 'epoch': 0.49} {'loss': 2.1577, 'grad_norm': 1.3988091945648193, 'learning_rate': 2.7454751569988876e-06, 'epoch': 0.49} {'loss': 2.1263, 'grad_norm': 1.1710726022720337, 'learning_rate': 2.7450428508239024e-06, 'epoch': 0.49} {'loss': 2.165, 'grad_norm': 1.6160788536071777, 'learning_rate': 2.744610537250395e-06, 'epoch': 0.49} {'loss': 1.4018, 'grad_norm': 1.625352144241333, 'learning_rate': 2.74417821629142e-06, 'epoch': 0.49} {'loss': 2.5094, 'grad_norm': 1.6725915670394897, 'learning_rate': 2.74374588796003e-06, 'epoch': 0.49} {'loss': 2.2316, 'grad_norm': 1.6625337600708008, 'learning_rate': 2.7433135522692774e-06, 'epoch': 0.49} {'loss': 2.1172, 'grad_norm': 1.4455866813659668, 'learning_rate': 2.742881209232215e-06, 'epoch': 0.49} {'loss': 2.217, 'grad_norm': 1.7053568363189697, 'learning_rate': 2.742448858861898e-06, 'epoch': 0.49} {'loss': 2.414, 'grad_norm': 1.5962988138198853, 'learning_rate': 2.742016501171379e-06, 'epoch': 0.49} {'loss': 2.1674, 'grad_norm': 1.477253794670105, 'learning_rate': 2.7415841361737127e-06, 'epoch': 0.49} {'loss': 2.1908, 'grad_norm': 1.1854312419891357, 'learning_rate': 2.741151763881953e-06, 'epoch': 0.49} {'loss': 2.4942, 'grad_norm': 1.5955545902252197, 'learning_rate': 2.740719384309155e-06, 'epoch': 0.49} {'loss': 2.2484, 'grad_norm': 2.1162283420562744, 'learning_rate': 2.7402869974683732e-06, 'epoch': 0.49} {'loss': 2.1949, 'grad_norm': 1.4689736366271973, 'learning_rate': 2.7398546033726627e-06, 'epoch': 0.49} {'loss': 2.2199, 'grad_norm': 1.7181146144866943, 'learning_rate': 2.7394222020350776e-06, 'epoch': 0.49} {'loss': 1.7889, 'grad_norm': 1.7094826698303223, 'learning_rate': 2.738989793468675e-06, 'epoch': 0.49} {'loss': 2.2053, 'grad_norm': 1.5525280237197876, 'learning_rate': 2.7385573776865086e-06, 'epoch': 0.49} {'loss': 2.0344, 'grad_norm': 1.5426701307296753, 'learning_rate': 2.738124954701637e-06, 'epoch': 0.49} {'loss': 2.2654, 'grad_norm': 1.6070570945739746, 'learning_rate': 2.7376925245271125e-06, 'epoch': 0.49} {'loss': 2.2696, 'grad_norm': 1.4222930669784546, 'learning_rate': 2.7372600871759946e-06, 'epoch': 0.49} {'loss': 2.2963, 'grad_norm': 2.448643445968628, 'learning_rate': 2.7368276426613382e-06, 'epoch': 0.49} {'loss': 2.445, 'grad_norm': 2.547900676727295, 'learning_rate': 2.7363951909962004e-06, 'epoch': 0.49} {'loss': 1.3117, 'grad_norm': 1.5344934463500977, 'learning_rate': 2.735962732193638e-06, 'epoch': 0.49} {'loss': 2.0335, 'grad_norm': 1.5250906944274902, 'learning_rate': 2.735530266266709e-06, 'epoch': 0.49} {'loss': 2.0765, 'grad_norm': 1.3329155445098877, 'learning_rate': 2.7350977932284683e-06, 'epoch': 0.49} {'loss': 1.9923, 'grad_norm': 1.584048867225647, 'learning_rate': 2.734665313091976e-06, 'epoch': 0.49} {'loss': 2.4094, 'grad_norm': 1.6812756061553955, 'learning_rate': 2.7342328258702895e-06, 'epoch': 0.49} {'loss': 2.2063, 'grad_norm': 1.4697275161743164, 'learning_rate': 2.7338003315764657e-06, 'epoch': 0.49} {'loss': 1.9976, 'grad_norm': 1.451852560043335, 'learning_rate': 2.7333678302235633e-06, 'epoch': 0.49} {'loss': 2.2268, 'grad_norm': 1.7532079219818115, 'learning_rate': 2.7329353218246406e-06, 'epoch': 0.49} {'loss': 1.0603, 'grad_norm': 1.7579280138015747, 'learning_rate': 2.732502806392757e-06, 'epoch': 0.49} {'loss': 2.3277, 'grad_norm': 1.597919225692749, 'learning_rate': 2.73207028394097e-06, 'epoch': 0.49} {'loss': 2.4279, 'grad_norm': 2.3047313690185547, 'learning_rate': 2.7316377544823397e-06, 'epoch': 0.49} {'loss': 2.1659, 'grad_norm': 1.3574410676956177, 'learning_rate': 2.7312052180299255e-06, 'epoch': 0.49} {'loss': 2.3555, 'grad_norm': 1.6300498247146606, 'learning_rate': 2.7307726745967855e-06, 'epoch': 0.49} {'loss': 1.9596, 'grad_norm': 1.5106104612350464, 'learning_rate': 2.7303401241959808e-06, 'epoch': 0.49} {'loss': 2.0656, 'grad_norm': 1.5785129070281982, 'learning_rate': 2.7299075668405705e-06, 'epoch': 0.49} {'loss': 2.5199, 'grad_norm': 1.371991515159607, 'learning_rate': 2.729475002543615e-06, 'epoch': 0.49} {'loss': 1.4357, 'grad_norm': 1.3164485692977905, 'learning_rate': 2.729042431318175e-06, 'epoch': 0.49} {'loss': 2.0732, 'grad_norm': 1.61985445022583, 'learning_rate': 2.7286098531773108e-06, 'epoch': 0.49} {'loss': 2.189, 'grad_norm': 1.3886834383010864, 'learning_rate': 2.7281772681340825e-06, 'epoch': 0.49} {'loss': 2.2001, 'grad_norm': 1.2886035442352295, 'learning_rate': 2.7277446762015507e-06, 'epoch': 0.49} {'loss': 2.1963, 'grad_norm': 1.6329926252365112, 'learning_rate': 2.7273120773927787e-06, 'epoch': 0.49} {'loss': 2.3599, 'grad_norm': 1.6188676357269287, 'learning_rate': 2.726879471720826e-06, 'epoch': 0.49} {'loss': 2.3332, 'grad_norm': 1.4992201328277588, 'learning_rate': 2.7264468591987547e-06, 'epoch': 0.49} {'loss': 2.0989, 'grad_norm': 1.145732045173645, 'learning_rate': 2.726014239839626e-06, 'epoch': 0.49} {'loss': 2.441, 'grad_norm': 1.593786597251892, 'learning_rate': 2.725581613656503e-06, 'epoch': 0.49} {'loss': 2.3633, 'grad_norm': 1.510446548461914, 'learning_rate': 2.7251489806624464e-06, 'epoch': 0.49} {'loss': 2.1, 'grad_norm': 1.3848161697387695, 'learning_rate': 2.7247163408705207e-06, 'epoch': 0.49} {'loss': 2.3375, 'grad_norm': 1.844834566116333, 'learning_rate': 2.724283694293787e-06, 'epoch': 0.49} {'loss': 2.3484, 'grad_norm': 1.544724941253662, 'learning_rate': 2.723851040945307e-06, 'epoch': 0.49} {'loss': 2.2897, 'grad_norm': 1.618008017539978, 'learning_rate': 2.7234183808381465e-06, 'epoch': 0.49} {'loss': 2.1992, 'grad_norm': 1.4622361660003662, 'learning_rate': 2.7229857139853667e-06, 'epoch': 0.49} {'loss': 2.2466, 'grad_norm': 1.5573172569274902, 'learning_rate': 2.7225530404000315e-06, 'epoch': 0.49} {'loss': 2.2952, 'grad_norm': 1.3403315544128418, 'learning_rate': 2.7221203600952047e-06, 'epoch': 0.49} {'loss': 2.3296, 'grad_norm': 1.4099754095077515, 'learning_rate': 2.7216876730839496e-06, 'epoch': 0.49} {'loss': 2.4887, 'grad_norm': 1.9543249607086182, 'learning_rate': 2.7212549793793314e-06, 'epoch': 0.49} {'loss': 2.2317, 'grad_norm': 1.461338758468628, 'learning_rate': 2.720822278994413e-06, 'epoch': 0.49} {'loss': 2.3278, 'grad_norm': 1.5632555484771729, 'learning_rate': 2.720389571942259e-06, 'epoch': 0.49} {'loss': 2.2475, 'grad_norm': 1.4802947044372559, 'learning_rate': 2.7199568582359353e-06, 'epoch': 0.49} {'loss': 2.3433, 'grad_norm': 1.21487295627594, 'learning_rate': 2.719524137888505e-06, 'epoch': 0.49} {'loss': 2.1629, 'grad_norm': 1.3538087606430054, 'learning_rate': 2.719091410913035e-06, 'epoch': 0.49} {'loss': 2.4024, 'grad_norm': 1.3067601919174194, 'learning_rate': 2.7186586773225885e-06, 'epoch': 0.49} {'loss': 2.3548, 'grad_norm': 1.7064461708068848, 'learning_rate': 2.718225937130231e-06, 'epoch': 0.49} {'loss': 2.2386, 'grad_norm': 1.386432409286499, 'learning_rate': 2.7177931903490302e-06, 'epoch': 0.49} {'loss': 2.3093, 'grad_norm': 1.6739431619644165, 'learning_rate': 2.71736043699205e-06, 'epoch': 0.49} {'loss': 1.4548, 'grad_norm': 1.6766189336776733, 'learning_rate': 2.7169276770723583e-06, 'epoch': 0.49} {'loss': 2.3274, 'grad_norm': 1.227871060371399, 'learning_rate': 2.71649491060302e-06, 'epoch': 0.49} {'loss': 2.107, 'grad_norm': 1.6201472282409668, 'learning_rate': 2.716062137597101e-06, 'epoch': 0.49} {'loss': 1.9569, 'grad_norm': 1.1380677223205566, 'learning_rate': 2.715629358067668e-06, 'epoch': 0.49} {'loss': 2.1758, 'grad_norm': 1.4030513763427734, 'learning_rate': 2.7151965720277896e-06, 'epoch': 0.49} {'loss': 2.2968, 'grad_norm': 1.6671311855316162, 'learning_rate': 2.7147637794905314e-06, 'epoch': 0.49} {'loss': 2.2659, 'grad_norm': 1.3747804164886475, 'learning_rate': 2.71433098046896e-06, 'epoch': 0.49} {'loss': 2.2335, 'grad_norm': 1.6506941318511963, 'learning_rate': 2.713898174976144e-06, 'epoch': 0.49} {'loss': 2.5644, 'grad_norm': 1.731046438217163, 'learning_rate': 2.7134653630251507e-06, 'epoch': 0.49} {'loss': 2.0528, 'grad_norm': 1.6567022800445557, 'learning_rate': 2.7130325446290478e-06, 'epoch': 0.49} {'loss': 2.1695, 'grad_norm': 1.5768059492111206, 'learning_rate': 2.712599719800903e-06, 'epoch': 0.49} {'loss': 2.1099, 'grad_norm': 5.442168712615967, 'learning_rate': 2.712166888553785e-06, 'epoch': 0.49} {'loss': 2.4411, 'grad_norm': 1.5135952234268188, 'learning_rate': 2.711734050900762e-06, 'epoch': 0.49} {'loss': 2.3784, 'grad_norm': 1.5388524532318115, 'learning_rate': 2.711301206854903e-06, 'epoch': 0.49} {'loss': 2.5638, 'grad_norm': 1.6463637351989746, 'learning_rate': 2.7108683564292748e-06, 'epoch': 0.49} {'loss': 2.1773, 'grad_norm': 1.363834261894226, 'learning_rate': 2.7104354996369485e-06, 'epoch': 0.49} {'loss': 2.2144, 'grad_norm': 1.7313225269317627, 'learning_rate': 2.7100026364909925e-06, 'epoch': 0.49} {'loss': 2.3345, 'grad_norm': 1.8723465204238892, 'learning_rate': 2.709569767004477e-06, 'epoch': 0.49} {'loss': 2.3272, 'grad_norm': 1.553295612335205, 'learning_rate': 2.70913689119047e-06, 'epoch': 0.49} {'loss': 2.3893, 'grad_norm': 1.6897462606430054, 'learning_rate': 2.708704009062042e-06, 'epoch': 0.49} {'loss': 2.3921, 'grad_norm': 1.6052806377410889, 'learning_rate': 2.708271120632262e-06, 'epoch': 0.49} {'loss': 2.2585, 'grad_norm': 1.5988221168518066, 'learning_rate': 2.7078382259142016e-06, 'epoch': 0.49} {'loss': 2.1875, 'grad_norm': 1.4534022808074951, 'learning_rate': 2.707405324920931e-06, 'epoch': 0.49} {'loss': 2.2221, 'grad_norm': 3.7328360080718994, 'learning_rate': 2.706972417665519e-06, 'epoch': 0.49} {'loss': 2.4679, 'grad_norm': 1.7136904001235962, 'learning_rate': 2.7065395041610383e-06, 'epoch': 0.49} {'loss': 2.1881, 'grad_norm': 1.6412007808685303, 'learning_rate': 2.7061065844205586e-06, 'epoch': 0.49} {'loss': 2.067, 'grad_norm': 1.6069873571395874, 'learning_rate': 2.7056736584571506e-06, 'epoch': 0.49} {'loss': 2.4129, 'grad_norm': 1.6538954973220825, 'learning_rate': 2.7052407262838866e-06, 'epoch': 0.49} {'loss': 2.3484, 'grad_norm': 1.816689133644104, 'learning_rate': 2.7048077879138375e-06, 'epoch': 0.49} {'loss': 2.4113, 'grad_norm': 1.6590938568115234, 'learning_rate': 2.7043748433600748e-06, 'epoch': 0.49} {'loss': 2.2077, 'grad_norm': 1.6081421375274658, 'learning_rate': 2.7039418926356703e-06, 'epoch': 0.49} {'loss': 2.3405, 'grad_norm': 1.5239319801330566, 'learning_rate': 2.7035089357536958e-06, 'epoch': 0.49} {'loss': 2.3003, 'grad_norm': 1.6159523725509644, 'learning_rate': 2.7030759727272245e-06, 'epoch': 0.49} {'loss': 2.3197, 'grad_norm': 1.6769232749938965, 'learning_rate': 2.7026430035693273e-06, 'epoch': 0.49} {'loss': 2.1786, 'grad_norm': 2.1692943572998047, 'learning_rate': 2.702210028293078e-06, 'epoch': 0.49} {'loss': 2.0939, 'grad_norm': 1.4223120212554932, 'learning_rate': 2.701777046911549e-06, 'epoch': 0.49} {'loss': 2.3415, 'grad_norm': 1.6400643587112427, 'learning_rate': 2.701344059437812e-06, 'epoch': 0.49} {'loss': 2.3018, 'grad_norm': 3.0558621883392334, 'learning_rate': 2.7009110658849415e-06, 'epoch': 0.49} {'loss': 2.5183, 'grad_norm': 1.5213627815246582, 'learning_rate': 2.7004780662660104e-06, 'epoch': 0.49} {'loss': 2.3968, 'grad_norm': 2.090266466140747, 'learning_rate': 2.7000450605940924e-06, 'epoch': 0.49} {'loss': 1.8968, 'grad_norm': 1.4736955165863037, 'learning_rate': 2.6996120488822602e-06, 'epoch': 0.49} {'loss': 2.1433, 'grad_norm': 1.5239720344543457, 'learning_rate': 2.699179031143589e-06, 'epoch': 0.49} {'loss': 2.4249, 'grad_norm': 1.4817049503326416, 'learning_rate': 2.6987460073911516e-06, 'epoch': 0.49} {'loss': 2.4017, 'grad_norm': 1.5078792572021484, 'learning_rate': 2.6983129776380217e-06, 'epoch': 0.49} {'loss': 2.5346, 'grad_norm': 1.4571313858032227, 'learning_rate': 2.697879941897276e-06, 'epoch': 0.49} {'loss': 2.389, 'grad_norm': 1.616053581237793, 'learning_rate': 2.697446900181987e-06, 'epoch': 0.49} {'loss': 2.3012, 'grad_norm': 2.026289224624634, 'learning_rate': 2.69701385250523e-06, 'epoch': 0.49} {'loss': 1.3164, 'grad_norm': 1.9737440347671509, 'learning_rate': 2.6965807988800805e-06, 'epoch': 0.49} {'loss': 2.2185, 'grad_norm': 1.7062712907791138, 'learning_rate': 2.696147739319613e-06, 'epoch': 0.49} {'loss': 2.1502, 'grad_norm': 1.5037875175476074, 'learning_rate': 2.695714673836902e-06, 'epoch': 0.49} {'loss': 2.1954, 'grad_norm': 1.5991556644439697, 'learning_rate': 2.6952816024450246e-06, 'epoch': 0.49} {'loss': 2.496, 'grad_norm': 1.803530216217041, 'learning_rate': 2.6948485251570553e-06, 'epoch': 0.49} {'loss': 2.2274, 'grad_norm': 1.6792042255401611, 'learning_rate': 2.694415441986071e-06, 'epoch': 0.49} {'loss': 1.8714, 'grad_norm': 1.4707893133163452, 'learning_rate': 2.6939823529451455e-06, 'epoch': 0.49} {'loss': 2.409, 'grad_norm': 1.6090956926345825, 'learning_rate': 2.693549258047357e-06, 'epoch': 0.49} {'loss': 2.3412, 'grad_norm': 1.8623753786087036, 'learning_rate': 2.693116157305781e-06, 'epoch': 0.49} {'loss': 2.6004, 'grad_norm': 1.7044168710708618, 'learning_rate': 2.6926830507334943e-06, 'epoch': 0.49} {'loss': 2.0356, 'grad_norm': 1.4472486972808838, 'learning_rate': 2.6922499383435743e-06, 'epoch': 0.49} {'loss': 2.2958, 'grad_norm': 1.6207995414733887, 'learning_rate': 2.691816820149096e-06, 'epoch': 0.49} {'loss': 2.0466, 'grad_norm': 1.6419016122817993, 'learning_rate': 2.6913836961631368e-06, 'epoch': 0.49} {'loss': 2.2189, 'grad_norm': 1.5072258710861206, 'learning_rate': 2.6909505663987757e-06, 'epoch': 0.49} {'loss': 2.2355, 'grad_norm': 2.0649914741516113, 'learning_rate': 2.690517430869089e-06, 'epoch': 0.49} {'loss': 2.2772, 'grad_norm': 1.536091685295105, 'learning_rate': 2.690084289587154e-06, 'epoch': 0.49} {'loss': 2.2502, 'grad_norm': 1.7106235027313232, 'learning_rate': 2.6896511425660483e-06, 'epoch': 0.49} {'loss': 2.0655, 'grad_norm': 1.7535786628723145, 'learning_rate': 2.6892179898188504e-06, 'epoch': 0.49} {'loss': 1.7163, 'grad_norm': 1.5067572593688965, 'learning_rate': 2.6887848313586373e-06, 'epoch': 0.49} {'loss': 2.3295, 'grad_norm': 1.811293601989746, 'learning_rate': 2.6883516671984895e-06, 'epoch': 0.49} {'loss': 2.3064, 'grad_norm': 1.3210101127624512, 'learning_rate': 2.6879184973514833e-06, 'epoch': 0.49} {'loss': 2.1531, 'grad_norm': 1.7063063383102417, 'learning_rate': 2.6874853218306985e-06, 'epoch': 0.49} {'loss': 2.2447, 'grad_norm': 1.6465473175048828, 'learning_rate': 2.6870521406492127e-06, 'epoch': 0.49} {'loss': 2.1531, 'grad_norm': 1.9008513689041138, 'learning_rate': 2.686618953820106e-06, 'epoch': 0.49} {'loss': 2.1813, 'grad_norm': 1.4297319650650024, 'learning_rate': 2.686185761356456e-06, 'epoch': 0.49} {'loss': 2.2345, 'grad_norm': 1.5347731113433838, 'learning_rate': 2.685752563271344e-06, 'epoch': 0.49} {'loss': 2.3288, 'grad_norm': 1.2003395557403564, 'learning_rate': 2.6853193595778484e-06, 'epoch': 0.49} {'loss': 1.6755, 'grad_norm': 1.4716925621032715, 'learning_rate': 2.684886150289049e-06, 'epoch': 0.49} {'loss': 2.4739, 'grad_norm': 1.56732177734375, 'learning_rate': 2.6844529354180255e-06, 'epoch': 0.49} {'loss': 2.3828, 'grad_norm': 1.690914273262024, 'learning_rate': 2.684019714977857e-06, 'epoch': 0.49} {'loss': 2.4127, 'grad_norm': 1.4978433847427368, 'learning_rate': 2.6835864889816245e-06, 'epoch': 0.49} {'loss': 2.4474, 'grad_norm': 1.5619347095489502, 'learning_rate': 2.6831532574424084e-06, 'epoch': 0.49} {'loss': 2.4285, 'grad_norm': 2.1275243759155273, 'learning_rate': 2.68272002037329e-06, 'epoch': 0.49} {'loss': 2.1967, 'grad_norm': 1.4582114219665527, 'learning_rate': 2.682286777787348e-06, 'epoch': 0.49} {'loss': 1.9971, 'grad_norm': 1.4533578157424927, 'learning_rate': 2.6818535296976638e-06, 'epoch': 0.49} {'loss': 2.3457, 'grad_norm': 1.2893530130386353, 'learning_rate': 2.6814202761173184e-06, 'epoch': 0.49} {'loss': 2.2263, 'grad_norm': 1.6546639204025269, 'learning_rate': 2.6809870170593944e-06, 'epoch': 0.49} {'loss': 2.3337, 'grad_norm': 2.1782190799713135, 'learning_rate': 2.680553752536971e-06, 'epoch': 0.49} {'loss': 2.3253, 'grad_norm': 1.386637568473816, 'learning_rate': 2.680120482563131e-06, 'epoch': 0.49} {'loss': 2.2504, 'grad_norm': 1.650132417678833, 'learning_rate': 2.679687207150955e-06, 'epoch': 0.49} {'loss': 1.9278, 'grad_norm': 1.2144780158996582, 'learning_rate': 2.6792539263135253e-06, 'epoch': 0.49} {'loss': 2.1254, 'grad_norm': 1.3294143676757812, 'learning_rate': 2.6788206400639243e-06, 'epoch': 0.49} {'loss': 2.1053, 'grad_norm': 1.4440969228744507, 'learning_rate': 2.6783873484152332e-06, 'epoch': 0.49} {'loss': 2.3297, 'grad_norm': 1.5957558155059814, 'learning_rate': 2.6779540513805354e-06, 'epoch': 0.49} {'loss': 2.2298, 'grad_norm': 1.4901102781295776, 'learning_rate': 2.6775207489729123e-06, 'epoch': 0.49} {'loss': 2.3704, 'grad_norm': 1.4887256622314453, 'learning_rate': 2.6770874412054472e-06, 'epoch': 0.49} {'loss': 2.4133, 'grad_norm': 1.4285328388214111, 'learning_rate': 2.676654128091222e-06, 'epoch': 0.49} {'loss': 2.0478, 'grad_norm': 1.3463314771652222, 'learning_rate': 2.67622080964332e-06, 'epoch': 0.49} {'loss': 2.2851, 'grad_norm': 2.5579488277435303, 'learning_rate': 2.675787485874825e-06, 'epoch': 0.49} {'loss': 1.9359, 'grad_norm': 1.5274778604507446, 'learning_rate': 2.6753541567988194e-06, 'epoch': 0.49} {'loss': 2.2595, 'grad_norm': 1.687256932258606, 'learning_rate': 2.6749208224283873e-06, 'epoch': 0.49} {'loss': 2.2597, 'grad_norm': 1.4733461141586304, 'learning_rate': 2.6744874827766116e-06, 'epoch': 0.49} {'loss': 2.3853, 'grad_norm': 1.4140058755874634, 'learning_rate': 2.674054137856576e-06, 'epoch': 0.49} {'loss': 2.1346, 'grad_norm': 1.4855026006698608, 'learning_rate': 2.6736207876813646e-06, 'epoch': 0.49} {'loss': 2.3103, 'grad_norm': 1.496519923210144, 'learning_rate': 2.6731874322640628e-06, 'epoch': 0.49} {'loss': 2.2911, 'grad_norm': 1.7072017192840576, 'learning_rate': 2.6727540716177517e-06, 'epoch': 0.49} {'loss': 2.3401, 'grad_norm': 1.592624306678772, 'learning_rate': 2.6723207057555185e-06, 'epoch': 0.49} {'loss': 1.9712, 'grad_norm': 1.476975440979004, 'learning_rate': 2.671887334690447e-06, 'epoch': 0.49} {'loss': 2.0328, 'grad_norm': 2.0052835941314697, 'learning_rate': 2.6714539584356204e-06, 'epoch': 0.49} {'loss': 1.854, 'grad_norm': 1.3355295658111572, 'learning_rate': 2.6710205770041254e-06, 'epoch': 0.49} {'loss': 2.1859, 'grad_norm': 1.2718628644943237, 'learning_rate': 2.670587190409046e-06, 'epoch': 0.49} {'loss': 2.1222, 'grad_norm': 1.926589012145996, 'learning_rate': 2.6701537986634675e-06, 'epoch': 0.49} {'loss': 1.7602, 'grad_norm': 1.1267212629318237, 'learning_rate': 2.669720401780475e-06, 'epoch': 0.49} {'loss': 2.1572, 'grad_norm': 1.6535011529922485, 'learning_rate': 2.6692869997731547e-06, 'epoch': 0.49} {'loss': 2.2927, 'grad_norm': 1.5858726501464844, 'learning_rate': 2.6688535926545915e-06, 'epoch': 0.49} {'loss': 2.2651, 'grad_norm': 1.6230530738830566, 'learning_rate': 2.6684201804378716e-06, 'epoch': 0.49} {'loss': 2.3995, 'grad_norm': 1.6020499467849731, 'learning_rate': 2.6679867631360806e-06, 'epoch': 0.49} {'loss': 2.2902, 'grad_norm': 1.6170706748962402, 'learning_rate': 2.6675533407623058e-06, 'epoch': 0.49} {'loss': 2.2474, 'grad_norm': 1.5128365755081177, 'learning_rate': 2.6671199133296305e-06, 'epoch': 0.49} {'loss': 2.3881, 'grad_norm': 1.5529385805130005, 'learning_rate': 2.6666864808511435e-06, 'epoch': 0.49} {'loss': 2.1172, 'grad_norm': 1.6686440706253052, 'learning_rate': 2.6662530433399306e-06, 'epoch': 0.5} {'loss': 2.4529, 'grad_norm': 1.7143278121948242, 'learning_rate': 2.665819600809079e-06, 'epoch': 0.5} {'loss': 2.168, 'grad_norm': 1.3620227575302124, 'learning_rate': 2.6653861532716752e-06, 'epoch': 0.5} {'loss': 2.1649, 'grad_norm': 1.5119584798812866, 'learning_rate': 2.664952700740806e-06, 'epoch': 0.5} 2024-12-15 23:13:53 - WARNING - NaN or Inf found in input tensor. {'loss': 2.2063, 'grad_norm': nan, 'learning_rate': 2.664952700740806e-06, 'epoch': 0.5} {'loss': 2.3918, 'grad_norm': 1.4864317178726196, 'learning_rate': 2.6645192432295575e-06, 'epoch': 0.5} {'loss': 1.9528, 'grad_norm': 1.4728572368621826, 'learning_rate': 2.664085780751019e-06, 'epoch': 0.5} {'loss': 1.9344, 'grad_norm': 1.48419189453125, 'learning_rate': 2.663652313318278e-06, 'epoch': 0.5} {'loss': 2.2995, 'grad_norm': 1.9512670040130615, 'learning_rate': 2.66321884094442e-06, 'epoch': 0.5} {'loss': 2.2928, 'grad_norm': 1.588759183883667, 'learning_rate': 2.662785363642534e-06, 'epoch': 0.5} {'loss': 2.4037, 'grad_norm': 1.7768653631210327, 'learning_rate': 2.6623518814257073e-06, 'epoch': 0.5} {'loss': 2.2319, 'grad_norm': 1.7050732374191284, 'learning_rate': 2.661918394307028e-06, 'epoch': 0.5} {'loss': 2.2974, 'grad_norm': 1.6108057498931885, 'learning_rate': 2.6614849022995857e-06, 'epoch': 0.5} {'loss': 2.2277, 'grad_norm': 1.8353748321533203, 'learning_rate': 2.661051405416467e-06, 'epoch': 0.5} {'loss': 2.4554, 'grad_norm': 1.5699474811553955, 'learning_rate': 2.6606179036707614e-06, 'epoch': 0.5} {'loss': 2.2325, 'grad_norm': 1.2580887079238892, 'learning_rate': 2.660184397075557e-06, 'epoch': 0.5} {'loss': 2.1656, 'grad_norm': 1.8054271936416626, 'learning_rate': 2.6597508856439424e-06, 'epoch': 0.5} {'loss': 1.9765, 'grad_norm': 1.5650728940963745, 'learning_rate': 2.6593173693890074e-06, 'epoch': 0.5} {'loss': 2.1868, 'grad_norm': 1.4243245124816895, 'learning_rate': 2.65888384832384e-06, 'epoch': 0.5} {'loss': 2.3483, 'grad_norm': 1.5118536949157715, 'learning_rate': 2.65845032246153e-06, 'epoch': 0.5} {'loss': 2.1472, 'grad_norm': 1.6177427768707275, 'learning_rate': 2.6580167918151665e-06, 'epoch': 0.5} {'loss': 2.4248, 'grad_norm': 1.566419005393982, 'learning_rate': 2.6575832563978395e-06, 'epoch': 0.5} {'loss': 2.0985, 'grad_norm': 1.2978357076644897, 'learning_rate': 2.6571497162226365e-06, 'epoch': 0.5} {'loss': 2.1223, 'grad_norm': 1.6484462022781372, 'learning_rate': 2.6567161713026506e-06, 'epoch': 0.5} {'loss': 2.2468, 'grad_norm': 1.6576454639434814, 'learning_rate': 2.6562826216509696e-06, 'epoch': 0.5} {'loss': 2.1429, 'grad_norm': 1.781693935394287, 'learning_rate': 2.6558490672806854e-06, 'epoch': 0.5} {'loss': 2.0628, 'grad_norm': 1.4604313373565674, 'learning_rate': 2.6554155082048854e-06, 'epoch': 0.5} {'loss': 1.8715, 'grad_norm': 1.3581655025482178, 'learning_rate': 2.654981944436662e-06, 'epoch': 0.5} {'loss': 2.2995, 'grad_norm': 1.5426658391952515, 'learning_rate': 2.6545483759891037e-06, 'epoch': 0.5} {'loss': 2.3047, 'grad_norm': 1.7887117862701416, 'learning_rate': 2.6541148028753046e-06, 'epoch': 0.5} {'loss': 2.3091, 'grad_norm': 1.687641978263855, 'learning_rate': 2.6536812251083525e-06, 'epoch': 0.5} {'loss': 2.4412, 'grad_norm': 1.6305876970291138, 'learning_rate': 2.653247642701339e-06, 'epoch': 0.5} {'loss': 2.2905, 'grad_norm': 1.575639009475708, 'learning_rate': 2.6528140556673558e-06, 'epoch': 0.5} {'loss': 2.0476, 'grad_norm': 1.4382482767105103, 'learning_rate': 2.6523804640194937e-06, 'epoch': 0.5} {'loss': 2.1305, 'grad_norm': 1.415600299835205, 'learning_rate': 2.651946867770844e-06, 'epoch': 0.5} {'loss': 2.0486, 'grad_norm': 1.5099796056747437, 'learning_rate': 2.651513266934498e-06, 'epoch': 0.5} {'loss': 2.2786, 'grad_norm': 1.4680988788604736, 'learning_rate': 2.6510796615235474e-06, 'epoch': 0.5} {'loss': 2.2984, 'grad_norm': 1.4176087379455566, 'learning_rate': 2.650646051551084e-06, 'epoch': 0.5} {'loss': 2.1603, 'grad_norm': 1.5463110208511353, 'learning_rate': 2.6502124370301994e-06, 'epoch': 0.5} {'loss': 2.3629, 'grad_norm': 1.6988277435302734, 'learning_rate': 2.649778817973987e-06, 'epoch': 0.5} {'loss': 2.2753, 'grad_norm': 1.437639594078064, 'learning_rate': 2.6493451943955373e-06, 'epoch': 0.5} {'loss': 2.4084, 'grad_norm': 1.5123748779296875, 'learning_rate': 2.648911566307943e-06, 'epoch': 0.5} {'loss': 2.379, 'grad_norm': 1.8173130750656128, 'learning_rate': 2.648477933724297e-06, 'epoch': 0.5} {'loss': 2.2444, 'grad_norm': 1.338335633277893, 'learning_rate': 2.648044296657692e-06, 'epoch': 0.5} {'loss': 2.3715, 'grad_norm': 1.765030860900879, 'learning_rate': 2.647610655121219e-06, 'epoch': 0.5} {'loss': 2.1446, 'grad_norm': 1.4405921697616577, 'learning_rate': 2.6471770091279725e-06, 'epoch': 0.5} {'loss': 2.3446, 'grad_norm': 1.5691782236099243, 'learning_rate': 2.646743358691046e-06, 'epoch': 0.5} {'loss': 2.2462, 'grad_norm': 1.4336931705474854, 'learning_rate': 2.6463097038235313e-06, 'epoch': 0.5} {'loss': 2.2098, 'grad_norm': 1.4622300863265991, 'learning_rate': 2.645876044538522e-06, 'epoch': 0.5} {'loss': 2.2744, 'grad_norm': 1.6325781345367432, 'learning_rate': 2.6454423808491113e-06, 'epoch': 0.5} {'loss': 2.2969, 'grad_norm': 1.5795032978057861, 'learning_rate': 2.6450087127683926e-06, 'epoch': 0.5} {'loss': 2.3, 'grad_norm': 1.4038335084915161, 'learning_rate': 2.6445750403094607e-06, 'epoch': 0.5} {'loss': 2.1185, 'grad_norm': 1.9932184219360352, 'learning_rate': 2.644141363485408e-06, 'epoch': 0.5} {'loss': 2.4745, 'grad_norm': 2.3069956302642822, 'learning_rate': 2.6437076823093296e-06, 'epoch': 0.5} {'loss': 2.2111, 'grad_norm': 1.5081312656402588, 'learning_rate': 2.6432739967943177e-06, 'epoch': 0.5} {'loss': 2.2264, 'grad_norm': 3.48547625541687, 'learning_rate': 2.642840306953469e-06, 'epoch': 0.5} {'loss': 2.3665, 'grad_norm': 1.5419590473175049, 'learning_rate': 2.642406612799875e-06, 'epoch': 0.5} {'loss': 2.3357, 'grad_norm': 1.4918646812438965, 'learning_rate': 2.6419729143466322e-06, 'epoch': 0.5} {'loss': 2.1732, 'grad_norm': 1.5226820707321167, 'learning_rate': 2.6415392116068344e-06, 'epoch': 0.5} {'loss': 2.3623, 'grad_norm': 1.6888201236724854, 'learning_rate': 2.641105504593577e-06, 'epoch': 0.5} {'loss': 2.1003, 'grad_norm': 1.7468839883804321, 'learning_rate': 2.640671793319954e-06, 'epoch': 0.5} {'loss': 2.1981, 'grad_norm': 1.6799430847167969, 'learning_rate': 2.64023807779906e-06, 'epoch': 0.5} {'loss': 2.329, 'grad_norm': 1.5961467027664185, 'learning_rate': 2.6398043580439907e-06, 'epoch': 0.5} {'loss': 2.2293, 'grad_norm': 1.5417066812515259, 'learning_rate': 2.6393706340678415e-06, 'epoch': 0.5} {'loss': 2.5078, 'grad_norm': 2.0722239017486572, 'learning_rate': 2.6389369058837076e-06, 'epoch': 0.5} {'loss': 2.2021, 'grad_norm': 1.7002400159835815, 'learning_rate': 2.638503173504684e-06, 'epoch': 0.5} {'loss': 2.2846, 'grad_norm': 1.686484456062317, 'learning_rate': 2.638069436943867e-06, 'epoch': 0.5} {'loss': 2.2234, 'grad_norm': 1.580237865447998, 'learning_rate': 2.637635696214351e-06, 'epoch': 0.5} {'loss': 2.1903, 'grad_norm': 1.306093454360962, 'learning_rate': 2.637201951329233e-06, 'epoch': 0.5} {'loss': 2.1959, 'grad_norm': 1.5610854625701904, 'learning_rate': 2.6367682023016093e-06, 'epoch': 0.5} {'loss': 2.2346, 'grad_norm': 2.079503059387207, 'learning_rate': 2.6363344491445754e-06, 'epoch': 0.5} {'loss': 2.1353, 'grad_norm': 1.8659729957580566, 'learning_rate': 2.6359006918712273e-06, 'epoch': 0.5} {'loss': 2.1689, 'grad_norm': 2.5973072052001953, 'learning_rate': 2.635466930494661e-06, 'epoch': 0.5} {'loss': 1.8083, 'grad_norm': 1.5783244371414185, 'learning_rate': 2.635033165027974e-06, 'epoch': 0.5} {'loss': 2.2644, 'grad_norm': 1.5894012451171875, 'learning_rate': 2.634599395484262e-06, 'epoch': 0.5} {'loss': 2.2648, 'grad_norm': 1.7999049425125122, 'learning_rate': 2.634165621876622e-06, 'epoch': 0.5} {'loss': 2.2256, 'grad_norm': 1.6926331520080566, 'learning_rate': 2.633731844218151e-06, 'epoch': 0.5} {'loss': 2.3104, 'grad_norm': 1.6586172580718994, 'learning_rate': 2.6332980625219457e-06, 'epoch': 0.5} {'loss': 2.3723, 'grad_norm': 1.7066971063613892, 'learning_rate': 2.6328642768011033e-06, 'epoch': 0.5} {'loss': 2.1615, 'grad_norm': 1.4443484544754028, 'learning_rate': 2.6324304870687208e-06, 'epoch': 0.5} {'loss': 1.7456, 'grad_norm': 1.389529824256897, 'learning_rate': 2.631996693337896e-06, 'epoch': 0.5} {'loss': 1.8024, 'grad_norm': 1.5105700492858887, 'learning_rate': 2.6315628956217253e-06, 'epoch': 0.5} {'loss': 2.2155, 'grad_norm': 1.512529730796814, 'learning_rate': 2.6311290939333084e-06, 'epoch': 0.5} {'loss': 2.5712, 'grad_norm': 1.6697055101394653, 'learning_rate': 2.63069528828574e-06, 'epoch': 0.5} {'loss': 2.4064, 'grad_norm': 1.534751296043396, 'learning_rate': 2.6302614786921206e-06, 'epoch': 0.5} {'loss': 2.3474, 'grad_norm': 1.5884662866592407, 'learning_rate': 2.629827665165546e-06, 'epoch': 0.5} {'loss': 2.3112, 'grad_norm': 2.2350728511810303, 'learning_rate': 2.6293938477191157e-06, 'epoch': 0.5} {'loss': 2.281, 'grad_norm': 1.7637885808944702, 'learning_rate': 2.6289600263659278e-06, 'epoch': 0.5} {'loss': 2.2397, 'grad_norm': 1.401785135269165, 'learning_rate': 2.6285262011190793e-06, 'epoch': 0.5} {'loss': 2.1139, 'grad_norm': 1.2865015268325806, 'learning_rate': 2.6280923719916696e-06, 'epoch': 0.5} {'loss': 2.4542, 'grad_norm': 1.5077418088912964, 'learning_rate': 2.6276585389967964e-06, 'epoch': 0.5} {'loss': 2.0926, 'grad_norm': 1.5955067873001099, 'learning_rate': 2.62722470214756e-06, 'epoch': 0.5} {'loss': 1.9878, 'grad_norm': 1.262532114982605, 'learning_rate': 2.6267908614570575e-06, 'epoch': 0.5} {'loss': 2.3244, 'grad_norm': 1.7104852199554443, 'learning_rate': 2.626357016938388e-06, 'epoch': 0.5} {'loss': 2.2671, 'grad_norm': 1.5729069709777832, 'learning_rate': 2.625923168604651e-06, 'epoch': 0.5} {'loss': 2.1155, 'grad_norm': 1.2886667251586914, 'learning_rate': 2.6254893164689453e-06, 'epoch': 0.5} {'loss': 2.4687, 'grad_norm': 1.491030216217041, 'learning_rate': 2.62505546054437e-06, 'epoch': 0.5} {'loss': 2.474, 'grad_norm': 1.698343276977539, 'learning_rate': 2.6246216008440245e-06, 'epoch': 0.5} {'loss': 2.4763, 'grad_norm': 1.6345332860946655, 'learning_rate': 2.6241877373810082e-06, 'epoch': 0.5} {'loss': 2.0485, 'grad_norm': 1.7429673671722412, 'learning_rate': 2.623753870168421e-06, 'epoch': 0.5} {'loss': 1.92, 'grad_norm': 1.7975529432296753, 'learning_rate': 2.623319999219362e-06, 'epoch': 0.5} {'loss': 2.2807, 'grad_norm': 1.2865033149719238, 'learning_rate': 2.6228861245469313e-06, 'epoch': 0.5} {'loss': 2.0721, 'grad_norm': 1.3098294734954834, 'learning_rate': 2.6224522461642288e-06, 'epoch': 0.5} {'loss': 2.3881, 'grad_norm': 1.4888266324996948, 'learning_rate': 2.6220183640843536e-06, 'epoch': 0.5} {'loss': 2.2865, 'grad_norm': 1.620855450630188, 'learning_rate': 2.6215844783204083e-06, 'epoch': 0.5} {'loss': 2.1822, 'grad_norm': 1.6032512187957764, 'learning_rate': 2.62115058888549e-06, 'epoch': 0.5} {'loss': 2.25, 'grad_norm': 1.7138921022415161, 'learning_rate': 2.6207166957927e-06, 'epoch': 0.5} {'loss': 2.3563, 'grad_norm': 1.4407072067260742, 'learning_rate': 2.62028279905514e-06, 'epoch': 0.5} {'loss': 2.0582, 'grad_norm': 1.2342724800109863, 'learning_rate': 2.6198488986859095e-06, 'epoch': 0.5} {'loss': 2.4373, 'grad_norm': 1.4230976104736328, 'learning_rate': 2.6194149946981096e-06, 'epoch': 0.5} {'loss': 2.1594, 'grad_norm': 1.1044255495071411, 'learning_rate': 2.6189810871048406e-06, 'epoch': 0.5} {'loss': 2.345, 'grad_norm': 1.6123310327529907, 'learning_rate': 2.6185471759192033e-06, 'epoch': 0.5} {'loss': 2.4886, 'grad_norm': 1.689627766609192, 'learning_rate': 2.618113261154298e-06, 'epoch': 0.5} {'loss': 2.2299, 'grad_norm': 1.4243237972259521, 'learning_rate': 2.617679342823229e-06, 'epoch': 0.5} {'loss': 2.3311, 'grad_norm': 1.5934579372406006, 'learning_rate': 2.6172454209390937e-06, 'epoch': 0.5} {'loss': 2.2324, 'grad_norm': 1.5327214002609253, 'learning_rate': 2.6168114955149947e-06, 'epoch': 0.5} {'loss': 2.2287, 'grad_norm': 1.4858577251434326, 'learning_rate': 2.6163775665640344e-06, 'epoch': 0.5} {'loss': 2.287, 'grad_norm': 1.8768996000289917, 'learning_rate': 2.6159436340993132e-06, 'epoch': 0.5} {'loss': 2.2099, 'grad_norm': 1.4463534355163574, 'learning_rate': 2.6155096981339333e-06, 'epoch': 0.5} {'loss': 2.4124, 'grad_norm': 1.4638453722000122, 'learning_rate': 2.615075758680996e-06, 'epoch': 0.5} {'loss': 2.4085, 'grad_norm': 1.4665781259536743, 'learning_rate': 2.614641815753603e-06, 'epoch': 0.5} {'loss': 2.3419, 'grad_norm': 1.7976751327514648, 'learning_rate': 2.614207869364857e-06, 'epoch': 0.5} {'loss': 2.3122, 'grad_norm': 1.6300972700119019, 'learning_rate': 2.61377391952786e-06, 'epoch': 0.5} {'loss': 2.3084, 'grad_norm': 1.5531550645828247, 'learning_rate': 2.6133399662557124e-06, 'epoch': 0.5} {'loss': 2.0687, 'grad_norm': 1.3532021045684814, 'learning_rate': 2.612906009561519e-06, 'epoch': 0.5} {'loss': 2.0973, 'grad_norm': 1.425213098526001, 'learning_rate': 2.6124720494583805e-06, 'epoch': 0.5} {'loss': 1.9336, 'grad_norm': 1.1199367046356201, 'learning_rate': 2.6120380859594e-06, 'epoch': 0.5} {'loss': 2.3328, 'grad_norm': 1.7510643005371094, 'learning_rate': 2.6116041190776796e-06, 'epoch': 0.5} {'loss': 2.4687, 'grad_norm': 1.6097170114517212, 'learning_rate': 2.6111701488263224e-06, 'epoch': 0.5} {'loss': 2.2843, 'grad_norm': 1.7225233316421509, 'learning_rate': 2.6107361752184306e-06, 'epoch': 0.5} {'loss': 2.3391, 'grad_norm': 2.722534418106079, 'learning_rate': 2.610302198267107e-06, 'epoch': 0.5} {'loss': 1.8834, 'grad_norm': 1.578925371170044, 'learning_rate': 2.6098682179854568e-06, 'epoch': 0.5} {'loss': 2.2096, 'grad_norm': 1.6461807489395142, 'learning_rate': 2.60943423438658e-06, 'epoch': 0.5} {'loss': 2.335, 'grad_norm': 1.802487850189209, 'learning_rate': 2.6090002474835814e-06, 'epoch': 0.5} {'loss': 2.295, 'grad_norm': 1.6711472272872925, 'learning_rate': 2.6085662572895635e-06, 'epoch': 0.5} {'loss': 2.1156, 'grad_norm': 1.9528995752334595, 'learning_rate': 2.608132263817631e-06, 'epoch': 0.5} {'loss': 2.6136, 'grad_norm': 1.4589587450027466, 'learning_rate': 2.6076982670808855e-06, 'epoch': 0.5} {'loss': 2.2079, 'grad_norm': 1.1623284816741943, 'learning_rate': 2.6072642670924313e-06, 'epoch': 0.5} {'loss': 2.2268, 'grad_norm': 1.6035655736923218, 'learning_rate': 2.6068302638653733e-06, 'epoch': 0.5} {'loss': 2.3968, 'grad_norm': 1.5371960401535034, 'learning_rate': 2.6063962574128134e-06, 'epoch': 0.5} {'loss': 2.3325, 'grad_norm': 1.5626661777496338, 'learning_rate': 2.6059622477478565e-06, 'epoch': 0.5} {'loss': 2.0495, 'grad_norm': 1.6579841375350952, 'learning_rate': 2.6055282348836066e-06, 'epoch': 0.5} {'loss': 2.1449, 'grad_norm': 1.217958927154541, 'learning_rate': 2.605094218833167e-06, 'epoch': 0.5} {'loss': 2.3172, 'grad_norm': 1.4526989459991455, 'learning_rate': 2.604660199609642e-06, 'epoch': 0.5} {'loss': 2.3136, 'grad_norm': 1.6100527048110962, 'learning_rate': 2.6042261772261374e-06, 'epoch': 0.5} {'loss': 2.134, 'grad_norm': 1.474117398262024, 'learning_rate': 2.603792151695755e-06, 'epoch': 0.5} {'loss': 2.2692, 'grad_norm': 2.913107395172119, 'learning_rate': 2.603358123031601e-06, 'epoch': 0.5} {'loss': 2.0886, 'grad_norm': 1.6982510089874268, 'learning_rate': 2.6029240912467796e-06, 'epoch': 0.5} {'loss': 2.6704, 'grad_norm': 1.5845898389816284, 'learning_rate': 2.602490056354395e-06, 'epoch': 0.5} {'loss': 2.1252, 'grad_norm': 1.3999850749969482, 'learning_rate': 2.6020560183675525e-06, 'epoch': 0.5} {'loss': 2.259, 'grad_norm': 1.651443362236023, 'learning_rate': 2.601621977299357e-06, 'epoch': 0.5} {'loss': 2.2526, 'grad_norm': 1.664521336555481, 'learning_rate': 2.6011879331629115e-06, 'epoch': 0.5} {'loss': 2.3481, 'grad_norm': 1.6495311260223389, 'learning_rate': 2.6007538859713232e-06, 'epoch': 0.5} {'loss': 2.0702, 'grad_norm': 1.4169909954071045, 'learning_rate': 2.600319835737697e-06, 'epoch': 0.5} {'loss': 2.0256, 'grad_norm': 1.5524128675460815, 'learning_rate': 2.5998857824751374e-06, 'epoch': 0.5} {'loss': 2.3193, 'grad_norm': 1.7552313804626465, 'learning_rate': 2.5994517261967495e-06, 'epoch': 0.5} {'loss': 1.9561, 'grad_norm': 1.4797323942184448, 'learning_rate': 2.5990176669156387e-06, 'epoch': 0.5} {'loss': 2.3202, 'grad_norm': 1.4735983610153198, 'learning_rate': 2.5985836046449116e-06, 'epoch': 0.5} {'loss': 2.2881, 'grad_norm': 1.565852403640747, 'learning_rate': 2.5981495393976718e-06, 'epoch': 0.5} {'loss': 2.3288, 'grad_norm': 1.5347890853881836, 'learning_rate': 2.5977154711870266e-06, 'epoch': 0.5} {'loss': 2.3425, 'grad_norm': 1.6477727890014648, 'learning_rate': 2.597281400026081e-06, 'epoch': 0.5} {'loss': 1.9909, 'grad_norm': 1.3589400053024292, 'learning_rate': 2.596847325927941e-06, 'epoch': 0.5} {'loss': 2.7348, 'grad_norm': 1.4890276193618774, 'learning_rate': 2.596413248905712e-06, 'epoch': 0.5} {'loss': 2.1097, 'grad_norm': 1.5172982215881348, 'learning_rate': 2.5959791689725006e-06, 'epoch': 0.5} {'loss': 2.2491, 'grad_norm': 1.8276323080062866, 'learning_rate': 2.595545086141413e-06, 'epoch': 0.5} {'loss': 2.4613, 'grad_norm': 1.7309107780456543, 'learning_rate': 2.595111000425555e-06, 'epoch': 0.5} {'loss': 2.1212, 'grad_norm': 1.6014606952667236, 'learning_rate': 2.594676911838033e-06, 'epoch': 0.5} {'loss': 2.2076, 'grad_norm': 1.6282418966293335, 'learning_rate': 2.594242820391953e-06, 'epoch': 0.5} {'loss': 2.0424, 'grad_norm': 1.4968764781951904, 'learning_rate': 2.593808726100421e-06, 'epoch': 0.5} {'loss': 2.257, 'grad_norm': 1.4420112371444702, 'learning_rate': 2.593374628976544e-06, 'epoch': 0.5} {'loss': 2.3053, 'grad_norm': 1.4719082117080688, 'learning_rate': 2.5929405290334304e-06, 'epoch': 0.5} {'loss': 1.4178, 'grad_norm': 1.7280449867248535, 'learning_rate': 2.592506426284184e-06, 'epoch': 0.5} {'loss': 2.2993, 'grad_norm': 1.608132004737854, 'learning_rate': 2.5920723207419137e-06, 'epoch': 0.5} {'loss': 2.266, 'grad_norm': 1.6596757173538208, 'learning_rate': 2.5916382124197243e-06, 'epoch': 0.5} {'loss': 2.3793, 'grad_norm': 1.5012609958648682, 'learning_rate': 2.591204101330724e-06, 'epoch': 0.5} {'loss': 2.3522, 'grad_norm': 2.601703643798828, 'learning_rate': 2.5907699874880205e-06, 'epoch': 0.5} {'loss': 2.055, 'grad_norm': 1.8509043455123901, 'learning_rate': 2.5903358709047196e-06, 'epoch': 0.5} {'loss': 2.3729, 'grad_norm': 1.7408945560455322, 'learning_rate': 2.5899017515939286e-06, 'epoch': 0.5} {'loss': 2.0667, 'grad_norm': 1.9090639352798462, 'learning_rate': 2.5894676295687552e-06, 'epoch': 0.5} {'loss': 2.2061, 'grad_norm': 1.5563626289367676, 'learning_rate': 2.589033504842307e-06, 'epoch': 0.5} {'loss': 2.0387, 'grad_norm': 1.3424087762832642, 'learning_rate': 2.588599377427691e-06, 'epoch': 0.5} {'loss': 2.445, 'grad_norm': 1.6319630146026611, 'learning_rate': 2.5881652473380143e-06, 'epoch': 0.5} {'loss': 2.1557, 'grad_norm': 1.3911845684051514, 'learning_rate': 2.5877311145863855e-06, 'epoch': 0.5} {'loss': 2.3086, 'grad_norm': 10.802081108093262, 'learning_rate': 2.5872969791859114e-06, 'epoch': 0.5} {'loss': 2.3437, 'grad_norm': 1.5060126781463623, 'learning_rate': 2.586862841149701e-06, 'epoch': 0.5} {'loss': 2.1262, 'grad_norm': 1.4075313806533813, 'learning_rate': 2.58642870049086e-06, 'epoch': 0.5} {'loss': 2.2647, 'grad_norm': 1.454740047454834, 'learning_rate': 2.585994557222498e-06, 'epoch': 0.5} {'loss': 2.172, 'grad_norm': 1.542368769645691, 'learning_rate': 2.5855604113577227e-06, 'epoch': 0.51} {'loss': 1.7734, 'grad_norm': 1.4417036771774292, 'learning_rate': 2.5851262629096425e-06, 'epoch': 0.51} {'loss': 2.3349, 'grad_norm': 1.405246376991272, 'learning_rate': 2.5846921118913644e-06, 'epoch': 0.51} {'loss': 2.3826, 'grad_norm': 1.4091581106185913, 'learning_rate': 2.5842579583159964e-06, 'epoch': 0.51} {'loss': 2.4949, 'grad_norm': 2.431933879852295, 'learning_rate': 2.5838238021966483e-06, 'epoch': 0.51} {'loss': 2.0723, 'grad_norm': 1.5329569578170776, 'learning_rate': 2.5833896435464285e-06, 'epoch': 0.51} {'loss': 2.2233, 'grad_norm': 1.5452736616134644, 'learning_rate': 2.5829554823784443e-06, 'epoch': 0.51} {'loss': 2.232, 'grad_norm': 1.5487651824951172, 'learning_rate': 2.5825213187058045e-06, 'epoch': 0.51} {'loss': 2.2111, 'grad_norm': 1.7064512968063354, 'learning_rate': 2.582087152541618e-06, 'epoch': 0.51} {'loss': 2.0555, 'grad_norm': 1.3615854978561401, 'learning_rate': 2.581652983898993e-06, 'epoch': 0.51} {'loss': 2.2484, 'grad_norm': 1.3554266691207886, 'learning_rate': 2.5812188127910394e-06, 'epoch': 0.51} {'loss': 2.3988, 'grad_norm': 1.6895246505737305, 'learning_rate': 2.5807846392308645e-06, 'epoch': 0.51} {'loss': 2.2399, 'grad_norm': 1.5537031888961792, 'learning_rate': 2.580350463231578e-06, 'epoch': 0.51} {'loss': 2.0789, 'grad_norm': 1.815228819847107, 'learning_rate': 2.5799162848062892e-06, 'epoch': 0.51} {'loss': 2.3622, 'grad_norm': 2.3890814781188965, 'learning_rate': 2.5794821039681066e-06, 'epoch': 0.51} {'loss': 2.1288, 'grad_norm': 1.3941744565963745, 'learning_rate': 2.5790479207301394e-06, 'epoch': 0.51} {'loss': 2.2975, 'grad_norm': 1.711916208267212, 'learning_rate': 2.578613735105497e-06, 'epoch': 0.51} {'loss': 2.3745, 'grad_norm': 1.9849133491516113, 'learning_rate': 2.5781795471072883e-06, 'epoch': 0.51} {'loss': 1.7764, 'grad_norm': 1.2631137371063232, 'learning_rate': 2.577745356748623e-06, 'epoch': 0.51} {'loss': 1.8179, 'grad_norm': 1.3256394863128662, 'learning_rate': 2.5773111640426114e-06, 'epoch': 0.51} {'loss': 2.1078, 'grad_norm': 1.7008658647537231, 'learning_rate': 2.5768769690023603e-06, 'epoch': 0.51} {'loss': 2.0189, 'grad_norm': 1.4502544403076172, 'learning_rate': 2.576442771640982e-06, 'epoch': 0.51} {'loss': 2.228, 'grad_norm': 1.5658434629440308, 'learning_rate': 2.5760085719715843e-06, 'epoch': 0.51} {'loss': 2.0867, 'grad_norm': 1.4472483396530151, 'learning_rate': 2.575574370007278e-06, 'epoch': 0.51} {'loss': 2.2714, 'grad_norm': 1.9228260517120361, 'learning_rate': 2.575140165761173e-06, 'epoch': 0.51} {'loss': 2.3182, 'grad_norm': 1.641157865524292, 'learning_rate': 2.574705959246378e-06, 'epoch': 0.51} {'loss': 2.3313, 'grad_norm': 1.6303422451019287, 'learning_rate': 2.5742717504760027e-06, 'epoch': 0.51} {'loss': 2.2863, 'grad_norm': 1.5266828536987305, 'learning_rate': 2.5738375394631595e-06, 'epoch': 0.51} {'loss': 2.3116, 'grad_norm': 1.4662190675735474, 'learning_rate': 2.5734033262209564e-06, 'epoch': 0.51} {'loss': 2.473, 'grad_norm': 1.6350542306900024, 'learning_rate': 2.572969110762503e-06, 'epoch': 0.51} {'loss': 2.4461, 'grad_norm': 1.4716527462005615, 'learning_rate': 2.572534893100911e-06, 'epoch': 0.51} {'loss': 1.8656, 'grad_norm': 1.5017297267913818, 'learning_rate': 2.57210067324929e-06, 'epoch': 0.51} {'loss': 2.2699, 'grad_norm': 1.7272151708602905, 'learning_rate': 2.57166645122075e-06, 'epoch': 0.51} {'loss': 2.4994, 'grad_norm': 1.4392763376235962, 'learning_rate': 2.5712322270284016e-06, 'epoch': 0.51} {'loss': 2.1779, 'grad_norm': 1.3279788494110107, 'learning_rate': 2.570798000685356e-06, 'epoch': 0.51} {'loss': 2.3758, 'grad_norm': 1.7304906845092773, 'learning_rate': 2.5703637722047226e-06, 'epoch': 0.51} {'loss': 2.4404, 'grad_norm': 1.623830795288086, 'learning_rate': 2.569929541599612e-06, 'epoch': 0.51} {'loss': 2.386, 'grad_norm': 1.8032795190811157, 'learning_rate': 2.5694953088831352e-06, 'epoch': 0.51} {'loss': 2.0072, 'grad_norm': 1.212575912475586, 'learning_rate': 2.569061074068403e-06, 'epoch': 0.51} {'loss': 2.3726, 'grad_norm': 1.542898416519165, 'learning_rate': 2.568626837168526e-06, 'epoch': 0.51} {'loss': 2.2663, 'grad_norm': 1.4899331331253052, 'learning_rate': 2.568192598196615e-06, 'epoch': 0.51} {'loss': 2.4415, 'grad_norm': 1.3249403238296509, 'learning_rate': 2.5677583571657815e-06, 'epoch': 0.51} {'loss': 2.2273, 'grad_norm': 1.4623125791549683, 'learning_rate': 2.5673241140891354e-06, 'epoch': 0.51} {'loss': 2.459, 'grad_norm': 2.1498472690582275, 'learning_rate': 2.566889868979787e-06, 'epoch': 0.51} {'loss': 2.2688, 'grad_norm': 1.4772511720657349, 'learning_rate': 2.5664556218508494e-06, 'epoch': 0.51} {'loss': 1.6172, 'grad_norm': 1.3467870950698853, 'learning_rate': 2.5660213727154338e-06, 'epoch': 0.51} {'loss': 2.3039, 'grad_norm': 1.7252204418182373, 'learning_rate': 2.5655871215866498e-06, 'epoch': 0.51} {'loss': 2.2094, 'grad_norm': 1.6843510866165161, 'learning_rate': 2.5651528684776086e-06, 'epoch': 0.51} {'loss': 1.6657, 'grad_norm': 1.627050757408142, 'learning_rate': 2.5647186134014223e-06, 'epoch': 0.51} {'loss': 2.3497, 'grad_norm': 1.6009646654129028, 'learning_rate': 2.5642843563712018e-06, 'epoch': 0.51} {'loss': 2.3457, 'grad_norm': 1.5823663473129272, 'learning_rate': 2.5638500974000594e-06, 'epoch': 0.51} {'loss': 1.8672, 'grad_norm': 1.151563048362732, 'learning_rate': 2.5634158365011057e-06, 'epoch': 0.51} {'loss': 2.1454, 'grad_norm': 1.7289451360702515, 'learning_rate': 2.5629815736874526e-06, 'epoch': 0.51} {'loss': 2.4562, 'grad_norm': 1.565757155418396, 'learning_rate': 2.562547308972212e-06, 'epoch': 0.51} {'loss': 2.3665, 'grad_norm': 1.5268651247024536, 'learning_rate': 2.562113042368494e-06, 'epoch': 0.51} {'loss': 2.3854, 'grad_norm': 1.791067361831665, 'learning_rate': 2.561678773889413e-06, 'epoch': 0.51} {'loss': 2.253, 'grad_norm': 1.4726518392562866, 'learning_rate': 2.561244503548078e-06, 'epoch': 0.51} {'loss': 2.3068, 'grad_norm': 1.7609559297561646, 'learning_rate': 2.5608102313576026e-06, 'epoch': 0.51} {'loss': 2.1197, 'grad_norm': 1.1377410888671875, 'learning_rate': 2.560375957331099e-06, 'epoch': 0.51} {'loss': 2.4691, 'grad_norm': 1.6886955499649048, 'learning_rate': 2.559941681481677e-06, 'epoch': 0.51} {'loss': 1.9899, 'grad_norm': 1.4149153232574463, 'learning_rate': 2.55950740382245e-06, 'epoch': 0.51} {'loss': 2.2556, 'grad_norm': 1.6024386882781982, 'learning_rate': 2.55907312436653e-06, 'epoch': 0.51} {'loss': 2.1937, 'grad_norm': 1.603256344795227, 'learning_rate': 2.55863884312703e-06, 'epoch': 0.51} {'loss': 2.5248, 'grad_norm': 1.5117782354354858, 'learning_rate': 2.5582045601170607e-06, 'epoch': 0.51} {'loss': 2.2885, 'grad_norm': 1.657288908958435, 'learning_rate': 2.5577702753497346e-06, 'epoch': 0.51} {'loss': 2.3271, 'grad_norm': 1.3567848205566406, 'learning_rate': 2.557335988838164e-06, 'epoch': 0.51} {'loss': 1.1133, 'grad_norm': 1.5797635316848755, 'learning_rate': 2.5569017005954606e-06, 'epoch': 0.51} {'loss': 2.1882, 'grad_norm': 1.3255115747451782, 'learning_rate': 2.5564674106347387e-06, 'epoch': 0.51} {'loss': 2.3075, 'grad_norm': 1.659878134727478, 'learning_rate': 2.556033118969109e-06, 'epoch': 0.51} {'loss': 2.3147, 'grad_norm': 1.5313823223114014, 'learning_rate': 2.555598825611685e-06, 'epoch': 0.51} {'loss': 2.4467, 'grad_norm': 1.7321680784225464, 'learning_rate': 2.555164530575578e-06, 'epoch': 0.51} {'loss': 1.8434, 'grad_norm': 1.2987053394317627, 'learning_rate': 2.5547302338739014e-06, 'epoch': 0.51} {'loss': 1.8048, 'grad_norm': 1.2799197435379028, 'learning_rate': 2.5542959355197682e-06, 'epoch': 0.51} {'loss': 2.2967, 'grad_norm': 1.805335521697998, 'learning_rate': 2.55386163552629e-06, 'epoch': 0.51} {'loss': 2.4095, 'grad_norm': 1.6726912260055542, 'learning_rate': 2.55342733390658e-06, 'epoch': 0.51} {'loss': 2.1239, 'grad_norm': 2.057925224304199, 'learning_rate': 2.5529930306737515e-06, 'epoch': 0.51} {'loss': 2.4986, 'grad_norm': 1.5278518199920654, 'learning_rate': 2.552558725840917e-06, 'epoch': 0.51} {'loss': 1.4623, 'grad_norm': 1.5034375190734863, 'learning_rate': 2.5521244194211887e-06, 'epoch': 0.51} {'loss': 2.3225, 'grad_norm': 1.7262731790542603, 'learning_rate': 2.5516901114276804e-06, 'epoch': 0.51} {'loss': 2.3233, 'grad_norm': 1.485005259513855, 'learning_rate': 2.5512558018735045e-06, 'epoch': 0.51} {'loss': 2.1888, 'grad_norm': 1.6057273149490356, 'learning_rate': 2.5508214907717745e-06, 'epoch': 0.51} {'loss': 2.4984, 'grad_norm': 1.5371129512786865, 'learning_rate': 2.5503871781356032e-06, 'epoch': 0.51} {'loss': 2.2899, 'grad_norm': 1.5448060035705566, 'learning_rate': 2.5499528639781028e-06, 'epoch': 0.51} {'loss': 2.2505, 'grad_norm': 3.773012399673462, 'learning_rate': 2.5495185483123873e-06, 'epoch': 0.51} {'loss': 2.174, 'grad_norm': 1.8801054954528809, 'learning_rate': 2.5490842311515706e-06, 'epoch': 0.51} {'loss': 2.2561, 'grad_norm': 1.6884026527404785, 'learning_rate': 2.548649912508766e-06, 'epoch': 0.51} {'loss': 2.2494, 'grad_norm': 1.2083035707473755, 'learning_rate': 2.5482155923970846e-06, 'epoch': 0.51} {'loss': 2.5407, 'grad_norm': 1.477763295173645, 'learning_rate': 2.5477812708296417e-06, 'epoch': 0.51} {'loss': 2.2704, 'grad_norm': 1.5377873182296753, 'learning_rate': 2.5473469478195496e-06, 'epoch': 0.51} {'loss': 2.1226, 'grad_norm': 1.3925145864486694, 'learning_rate': 2.546912623379923e-06, 'epoch': 0.51} {'loss': 2.2223, 'grad_norm': 1.3373255729675293, 'learning_rate': 2.5464782975238742e-06, 'epoch': 0.51} {'loss': 2.3434, 'grad_norm': 1.7015550136566162, 'learning_rate': 2.5460439702645173e-06, 'epoch': 0.51} {'loss': 2.2585, 'grad_norm': 1.5901564359664917, 'learning_rate': 2.545609641614965e-06, 'epoch': 0.51} {'loss': 1.9678, 'grad_norm': 1.5013775825500488, 'learning_rate': 2.5451753115883323e-06, 'epoch': 0.51} {'loss': 2.2897, 'grad_norm': 1.5309944152832031, 'learning_rate': 2.5447409801977313e-06, 'epoch': 0.51} {'loss': 2.1395, 'grad_norm': 1.6582218408584595, 'learning_rate': 2.5443066474562768e-06, 'epoch': 0.51} {'loss': 2.2553, 'grad_norm': 1.5725189447402954, 'learning_rate': 2.543872313377082e-06, 'epoch': 0.51} {'loss': 2.4199, 'grad_norm': 1.5769237279891968, 'learning_rate': 2.5434379779732604e-06, 'epoch': 0.51} {'loss': 2.1073, 'grad_norm': 1.7797818183898926, 'learning_rate': 2.5430036412579275e-06, 'epoch': 0.51} {'loss': 1.95, 'grad_norm': 1.6143420934677124, 'learning_rate': 2.5425693032441934e-06, 'epoch': 0.51} {'loss': 2.0791, 'grad_norm': 1.5795440673828125, 'learning_rate': 2.5421349639451758e-06, 'epoch': 0.51} {'loss': 2.2518, 'grad_norm': 1.3700891733169556, 'learning_rate': 2.5417006233739866e-06, 'epoch': 0.51} {'loss': 2.3087, 'grad_norm': 1.4906792640686035, 'learning_rate': 2.5412662815437406e-06, 'epoch': 0.51} {'loss': 2.4155, 'grad_norm': 1.7680227756500244, 'learning_rate': 2.5408319384675524e-06, 'epoch': 0.51} {'loss': 2.3116, 'grad_norm': 1.4928674697875977, 'learning_rate': 2.540397594158534e-06, 'epoch': 0.51} {'loss': 1.4275, 'grad_norm': 1.3741556406021118, 'learning_rate': 2.5399632486298e-06, 'epoch': 0.51} {'loss': 2.2569, 'grad_norm': 1.8492858409881592, 'learning_rate': 2.5395289018944652e-06, 'epoch': 0.51} {'loss': 2.3411, 'grad_norm': 2.0046145915985107, 'learning_rate': 2.5390945539656447e-06, 'epoch': 0.51} {'loss': 2.1966, 'grad_norm': 1.5931086540222168, 'learning_rate': 2.5386602048564507e-06, 'epoch': 0.51} {'loss': 2.1346, 'grad_norm': 1.4627892971038818, 'learning_rate': 2.5382258545799983e-06, 'epoch': 0.51} {'loss': 2.1656, 'grad_norm': 1.8850005865097046, 'learning_rate': 2.5377915031494016e-06, 'epoch': 0.51} {'loss': 2.1279, 'grad_norm': 1.5171480178833008, 'learning_rate': 2.537357150577775e-06, 'epoch': 0.51} {'loss': 2.4185, 'grad_norm': 1.5702807903289795, 'learning_rate': 2.5369227968782325e-06, 'epoch': 0.51} {'loss': 2.0288, 'grad_norm': 1.1952322721481323, 'learning_rate': 2.5364884420638887e-06, 'epoch': 0.51} {'loss': 2.32, 'grad_norm': 1.3326495885849, 'learning_rate': 2.536054086147858e-06, 'epoch': 0.51} {'loss': 2.4468, 'grad_norm': 1.6189101934432983, 'learning_rate': 2.5356197291432542e-06, 'epoch': 0.51} {'loss': 2.3076, 'grad_norm': 1.8788411617279053, 'learning_rate': 2.5351853710631928e-06, 'epoch': 0.51} {'loss': 2.5343, 'grad_norm': 1.7133491039276123, 'learning_rate': 2.534751011920788e-06, 'epoch': 0.51} {'loss': 2.2623, 'grad_norm': 1.4381481409072876, 'learning_rate': 2.534316651729154e-06, 'epoch': 0.51} {'loss': 2.1995, 'grad_norm': 1.5206329822540283, 'learning_rate': 2.533882290501405e-06, 'epoch': 0.51} {'loss': 2.2513, 'grad_norm': 3.2986814975738525, 'learning_rate': 2.533447928250657e-06, 'epoch': 0.51} {'loss': 1.9098, 'grad_norm': 1.7371692657470703, 'learning_rate': 2.5330135649900216e-06, 'epoch': 0.51} {'loss': 2.2625, 'grad_norm': 1.5207747220993042, 'learning_rate': 2.5325792007326166e-06, 'epoch': 0.51} {'loss': 2.3443, 'grad_norm': 1.7023423910140991, 'learning_rate': 2.5321448354915556e-06, 'epoch': 0.51} {'loss': 2.2273, 'grad_norm': 2.4953463077545166, 'learning_rate': 2.531710469279953e-06, 'epoch': 0.51} {'loss': 2.3161, 'grad_norm': 1.5633251667022705, 'learning_rate': 2.5312761021109238e-06, 'epoch': 0.51} {'loss': 2.3806, 'grad_norm': 1.581200361251831, 'learning_rate': 2.530841733997582e-06, 'epoch': 0.51} {'loss': 2.3432, 'grad_norm': 1.5788437128067017, 'learning_rate': 2.530407364953043e-06, 'epoch': 0.51} {'loss': 2.1009, 'grad_norm': 1.524128794670105, 'learning_rate': 2.5299729949904216e-06, 'epoch': 0.51} {'loss': 2.2431, 'grad_norm': 1.5115550756454468, 'learning_rate': 2.529538624122833e-06, 'epoch': 0.51} {'loss': 2.2635, 'grad_norm': 1.4476664066314697, 'learning_rate': 2.5291042523633918e-06, 'epoch': 0.51} {'loss': 2.2085, 'grad_norm': 1.5971295833587646, 'learning_rate': 2.5286698797252124e-06, 'epoch': 0.51} {'loss': 2.461, 'grad_norm': 1.872375249862671, 'learning_rate': 2.52823550622141e-06, 'epoch': 0.51} {'loss': 2.3947, 'grad_norm': 1.6290335655212402, 'learning_rate': 2.5278011318651e-06, 'epoch': 0.51} {'loss': 2.1562, 'grad_norm': 1.622754454612732, 'learning_rate': 2.527366756669396e-06, 'epoch': 0.51} {'loss': 2.2255, 'grad_norm': 1.702386736869812, 'learning_rate': 2.5269323806474144e-06, 'epoch': 0.51} {'loss': 2.2809, 'grad_norm': 1.4793012142181396, 'learning_rate': 2.52649800381227e-06, 'epoch': 0.51} {'loss': 2.401, 'grad_norm': 1.3450281620025635, 'learning_rate': 2.5260636261770776e-06, 'epoch': 0.51} {'loss': 2.3198, 'grad_norm': 1.2541580200195312, 'learning_rate': 2.525629247754952e-06, 'epoch': 0.51} {'loss': 2.2171, 'grad_norm': 1.566861867904663, 'learning_rate': 2.5251948685590083e-06, 'epoch': 0.51} {'loss': 2.1123, 'grad_norm': 1.6227333545684814, 'learning_rate': 2.5247604886023626e-06, 'epoch': 0.51} {'loss': 2.5189, 'grad_norm': 2.6618330478668213, 'learning_rate': 2.5243261078981286e-06, 'epoch': 0.51} {'loss': 2.3192, 'grad_norm': 1.6128482818603516, 'learning_rate': 2.523891726459423e-06, 'epoch': 0.51} {'loss': 2.4574, 'grad_norm': 6.024653911590576, 'learning_rate': 2.523457344299359e-06, 'epoch': 0.51} {'loss': 2.4953, 'grad_norm': 1.5417386293411255, 'learning_rate': 2.523022961431053e-06, 'epoch': 0.51} {'loss': 2.4055, 'grad_norm': 3.5255517959594727, 'learning_rate': 2.5225885778676207e-06, 'epoch': 0.51} {'loss': 2.1653, 'grad_norm': 1.5199623107910156, 'learning_rate': 2.5221541936221765e-06, 'epoch': 0.51} {'loss': 2.2954, 'grad_norm': 1.600111484527588, 'learning_rate': 2.5217198087078364e-06, 'epoch': 0.51} {'loss': 2.3096, 'grad_norm': 1.5912209749221802, 'learning_rate': 2.521285423137715e-06, 'epoch': 0.51} {'loss': 1.8502, 'grad_norm': 1.4835960865020752, 'learning_rate': 2.520851036924928e-06, 'epoch': 0.51} {'loss': 2.1177, 'grad_norm': 1.592501163482666, 'learning_rate': 2.520416650082589e-06, 'epoch': 0.51} {'loss': 2.1997, 'grad_norm': 1.5598506927490234, 'learning_rate': 2.5199822626238167e-06, 'epoch': 0.51} {'loss': 2.1743, 'grad_norm': 1.4307540655136108, 'learning_rate': 2.5195478745617243e-06, 'epoch': 0.51} {'loss': 2.2759, 'grad_norm': 2.029982566833496, 'learning_rate': 2.519113485909427e-06, 'epoch': 0.51} {'loss': 2.4713, 'grad_norm': 2.45451283454895, 'learning_rate': 2.5186790966800414e-06, 'epoch': 0.51} {'loss': 1.9459, 'grad_norm': 1.5989588499069214, 'learning_rate': 2.518244706886681e-06, 'epoch': 0.51} {'loss': 2.3738, 'grad_norm': 1.3568593263626099, 'learning_rate': 2.517810316542463e-06, 'epoch': 0.51} {'loss': 2.2811, 'grad_norm': 1.653891682624817, 'learning_rate': 2.5173759256605028e-06, 'epoch': 0.51} {'loss': 2.1252, 'grad_norm': 1.616196632385254, 'learning_rate': 2.516941534253915e-06, 'epoch': 0.51} {'loss': 2.15, 'grad_norm': 1.328762173652649, 'learning_rate': 2.5165071423358158e-06, 'epoch': 0.51} {'loss': 2.0877, 'grad_norm': 1.4799013137817383, 'learning_rate': 2.51607274991932e-06, 'epoch': 0.51} {'loss': 2.35, 'grad_norm': 2.1118979454040527, 'learning_rate': 2.515638357017543e-06, 'epoch': 0.51} {'loss': 2.0953, 'grad_norm': 1.4561400413513184, 'learning_rate': 2.5152039636436008e-06, 'epoch': 0.51} {'loss': 2.5074, 'grad_norm': 1.6208657026290894, 'learning_rate': 2.5147695698106093e-06, 'epoch': 0.51} {'loss': 2.0941, 'grad_norm': 1.4914045333862305, 'learning_rate': 2.5143351755316847e-06, 'epoch': 0.51} {'loss': 2.2674, 'grad_norm': 1.4601587057113647, 'learning_rate': 2.5139007808199402e-06, 'epoch': 0.51} {'loss': 2.2624, 'grad_norm': 1.3922638893127441, 'learning_rate': 2.5134663856884926e-06, 'epoch': 0.51} {'loss': 2.4411, 'grad_norm': 1.6004934310913086, 'learning_rate': 2.5130319901504573e-06, 'epoch': 0.51} {'loss': 1.699, 'grad_norm': 1.3655898571014404, 'learning_rate': 2.5125975942189507e-06, 'epoch': 0.51} {'loss': 2.067, 'grad_norm': 1.7025952339172363, 'learning_rate': 2.512163197907089e-06, 'epoch': 0.51} {'loss': 2.3284, 'grad_norm': 1.553683876991272, 'learning_rate': 2.5117288012279855e-06, 'epoch': 0.51} {'loss': 2.325, 'grad_norm': 1.4016145467758179, 'learning_rate': 2.5112944041947566e-06, 'epoch': 0.51} {'loss': 2.0361, 'grad_norm': 1.4820910692214966, 'learning_rate': 2.5108600068205195e-06, 'epoch': 0.51} {'loss': 2.1892, 'grad_norm': 1.5624785423278809, 'learning_rate': 2.5104256091183883e-06, 'epoch': 0.51} {'loss': 2.1366, 'grad_norm': 1.2946652173995972, 'learning_rate': 2.509991211101479e-06, 'epoch': 0.51} {'loss': 2.1995, 'grad_norm': 1.941336989402771, 'learning_rate': 2.509556812782907e-06, 'epoch': 0.51} {'loss': 2.3221, 'grad_norm': 1.2235581874847412, 'learning_rate': 2.509122414175789e-06, 'epoch': 0.51} {'loss': 2.3056, 'grad_norm': 1.4589020013809204, 'learning_rate': 2.5086880152932403e-06, 'epoch': 0.51} {'loss': 2.2127, 'grad_norm': 1.599081039428711, 'learning_rate': 2.508253616148376e-06, 'epoch': 0.51} {'loss': 2.4998, 'grad_norm': 1.6361404657363892, 'learning_rate': 2.5078192167543127e-06, 'epoch': 0.51} {'loss': 2.322, 'grad_norm': 1.4749610424041748, 'learning_rate': 2.507384817124165e-06, 'epoch': 0.51} {'loss': 2.3737, 'grad_norm': 1.5237866640090942, 'learning_rate': 2.5069504172710496e-06, 'epoch': 0.51} {'loss': 2.436, 'grad_norm': 1.6884499788284302, 'learning_rate': 2.506516017208082e-06, 'epoch': 0.51} {'loss': 1.7687, 'grad_norm': 1.476137399673462, 'learning_rate': 2.506081616948377e-06, 'epoch': 0.51} {'loss': 2.0841, 'grad_norm': 1.4475433826446533, 'learning_rate': 2.5056472165050514e-06, 'epoch': 0.51} {'loss': 2.3692, 'grad_norm': 1.768786907196045, 'learning_rate': 2.5052128158912216e-06, 'epoch': 0.51} {'loss': 2.183, 'grad_norm': 1.3260886669158936, 'learning_rate': 2.504778415120002e-06, 'epoch': 0.52} {'loss': 2.336, 'grad_norm': 2.1755878925323486, 'learning_rate': 2.504344014204509e-06, 'epoch': 0.52} {'loss': 2.3285, 'grad_norm': 1.6680762767791748, 'learning_rate': 2.5039096131578585e-06, 'epoch': 0.52} {'loss': 2.2569, 'grad_norm': 1.7270575761795044, 'learning_rate': 2.503475211993164e-06, 'epoch': 0.52} {'loss': 2.5888, 'grad_norm': 1.384505033493042, 'learning_rate': 2.503040810723545e-06, 'epoch': 0.52} {'loss': 2.3808, 'grad_norm': 1.7739157676696777, 'learning_rate': 2.5026064093621157e-06, 'epoch': 0.52} {'loss': 2.3503, 'grad_norm': 1.6307008266448975, 'learning_rate': 2.5021720079219913e-06, 'epoch': 0.52} {'loss': 2.4389, 'grad_norm': 1.9977308511734009, 'learning_rate': 2.501737606416288e-06, 'epoch': 0.52} {'loss': 2.3321, 'grad_norm': 1.501369595527649, 'learning_rate': 2.501303204858121e-06, 'epoch': 0.52} {'loss': 2.4591, 'grad_norm': 1.5063793659210205, 'learning_rate': 2.500868803260607e-06, 'epoch': 0.52} {'loss': 2.4172, 'grad_norm': 1.5581926107406616, 'learning_rate': 2.5004344016368616e-06, 'epoch': 0.52} {'loss': 2.2424, 'grad_norm': 1.5553542375564575, 'learning_rate': 2.5e-06, 'epoch': 0.52} {'loss': 2.2986, 'grad_norm': 2.923837423324585, 'learning_rate': 2.499565598363139e-06, 'epoch': 0.52} {'loss': 2.3345, 'grad_norm': 4.4027838706970215, 'learning_rate': 2.4991311967393937e-06, 'epoch': 0.52} {'loss': 2.2918, 'grad_norm': 1.8025678396224976, 'learning_rate': 2.4986967951418795e-06, 'epoch': 0.52} {'loss': 2.4222, 'grad_norm': 1.4770300388336182, 'learning_rate': 2.4982623935837126e-06, 'epoch': 0.52} {'loss': 2.4631, 'grad_norm': 1.4561740159988403, 'learning_rate': 2.49782799207801e-06, 'epoch': 0.52} {'loss': 2.2644, 'grad_norm': 1.3746614456176758, 'learning_rate': 2.4973935906378855e-06, 'epoch': 0.52} {'loss': 2.4652, 'grad_norm': 1.653701901435852, 'learning_rate': 2.4969591892764555e-06, 'epoch': 0.52} {'loss': 2.1872, 'grad_norm': 1.688780665397644, 'learning_rate': 2.4965247880068363e-06, 'epoch': 0.52} {'loss': 2.4221, 'grad_norm': 1.6097456216812134, 'learning_rate': 2.496090386842143e-06, 'epoch': 0.52} {'loss': 2.2124, 'grad_norm': 1.6143680810928345, 'learning_rate': 2.4956559857954914e-06, 'epoch': 0.52} {'loss': 2.3923, 'grad_norm': 1.3323038816452026, 'learning_rate': 2.4952215848799984e-06, 'epoch': 0.52} {'loss': 2.1916, 'grad_norm': 1.9085757732391357, 'learning_rate': 2.494787184108779e-06, 'epoch': 0.52} {'loss': 2.4853, 'grad_norm': 1.1856188774108887, 'learning_rate': 2.494352783494948e-06, 'epoch': 0.52} {'loss': 2.3095, 'grad_norm': 1.6108092069625854, 'learning_rate': 2.4939183830516235e-06, 'epoch': 0.52} {'loss': 2.2434, 'grad_norm': 1.609169602394104, 'learning_rate': 2.493483982791919e-06, 'epoch': 0.52} {'loss': 2.2729, 'grad_norm': 1.417149543762207, 'learning_rate': 2.4930495827289512e-06, 'epoch': 0.52} {'loss': 2.2747, 'grad_norm': 1.7957649230957031, 'learning_rate': 2.4926151828758358e-06, 'epoch': 0.52} {'loss': 2.222, 'grad_norm': 3.403876543045044, 'learning_rate': 2.492180783245688e-06, 'epoch': 0.52} {'loss': 2.1075, 'grad_norm': 1.5992838144302368, 'learning_rate': 2.4917463838516247e-06, 'epoch': 0.52} {'loss': 2.0427, 'grad_norm': 1.2243341207504272, 'learning_rate': 2.4913119847067605e-06, 'epoch': 0.52} {'loss': 2.2263, 'grad_norm': 1.6887693405151367, 'learning_rate': 2.4908775858242105e-06, 'epoch': 0.52} {'loss': 2.0115, 'grad_norm': 1.2971817255020142, 'learning_rate': 2.4904431872170924e-06, 'epoch': 0.52} {'loss': 2.1475, 'grad_norm': 1.4999419450759888, 'learning_rate': 2.4900087888985224e-06, 'epoch': 0.52} {'loss': 2.5304, 'grad_norm': 1.9111789464950562, 'learning_rate': 2.489574390881613e-06, 'epoch': 0.52} {'loss': 2.3749, 'grad_norm': 1.4756755828857422, 'learning_rate': 2.4891399931794813e-06, 'epoch': 0.52} {'loss': 2.2673, 'grad_norm': 1.600265622138977, 'learning_rate': 2.488705595805244e-06, 'epoch': 0.52} {'loss': 2.3906, 'grad_norm': 1.4647659063339233, 'learning_rate': 2.4882711987720154e-06, 'epoch': 0.52} {'loss': 2.2881, 'grad_norm': 1.6222003698349, 'learning_rate': 2.487836802092912e-06, 'epoch': 0.52} {'loss': 2.3568, 'grad_norm': 1.4544073343276978, 'learning_rate': 2.4874024057810493e-06, 'epoch': 0.52} {'loss': 2.1056, 'grad_norm': 2.775313138961792, 'learning_rate': 2.4869680098495427e-06, 'epoch': 0.52} {'loss': 1.8313, 'grad_norm': 1.3598438501358032, 'learning_rate': 2.4865336143115086e-06, 'epoch': 0.52} {'loss': 2.0876, 'grad_norm': 1.635754108428955, 'learning_rate': 2.486099219180061e-06, 'epoch': 0.52} {'loss': 2.3465, 'grad_norm': 1.369410514831543, 'learning_rate': 2.485664824468317e-06, 'epoch': 0.52} {'loss': 2.3621, 'grad_norm': 1.551515817642212, 'learning_rate': 2.485230430189391e-06, 'epoch': 0.52} {'loss': 2.03, 'grad_norm': 1.5911792516708374, 'learning_rate': 2.4847960363563996e-06, 'epoch': 0.52} {'loss': 2.4821, 'grad_norm': 1.5923548936843872, 'learning_rate': 2.4843616429824577e-06, 'epoch': 0.52} {'loss': 2.1691, 'grad_norm': 1.5245214700698853, 'learning_rate': 2.483927250080681e-06, 'epoch': 0.52} {'loss': 2.2847, 'grad_norm': 1.6270971298217773, 'learning_rate': 2.4834928576641846e-06, 'epoch': 0.52} {'loss': 2.3794, 'grad_norm': 1.6680573225021362, 'learning_rate': 2.4830584657460852e-06, 'epoch': 0.52} {'loss': 2.2994, 'grad_norm': 1.6640452146530151, 'learning_rate': 2.4826240743394985e-06, 'epoch': 0.52} {'loss': 2.1743, 'grad_norm': 1.576786756515503, 'learning_rate': 2.482189683457538e-06, 'epoch': 0.52} {'loss': 2.4447, 'grad_norm': 1.9678094387054443, 'learning_rate': 2.4817552931133195e-06, 'epoch': 0.52} {'loss': 2.1492, 'grad_norm': 1.5628901720046997, 'learning_rate': 2.48132090331996e-06, 'epoch': 0.52} {'loss': 2.2523, 'grad_norm': 1.6818790435791016, 'learning_rate': 2.4808865140905735e-06, 'epoch': 0.52} {'loss': 2.1409, 'grad_norm': 1.558101773262024, 'learning_rate': 2.4804521254382765e-06, 'epoch': 0.52} {'loss': 2.6076, 'grad_norm': 1.3217257261276245, 'learning_rate': 2.4800177373761837e-06, 'epoch': 0.52} {'loss': 2.4338, 'grad_norm': 1.4312920570373535, 'learning_rate': 2.479583349917411e-06, 'epoch': 0.52} {'loss': 2.4287, 'grad_norm': 1.84848153591156, 'learning_rate': 2.479148963075073e-06, 'epoch': 0.52} {'loss': 2.3746, 'grad_norm': 1.546366810798645, 'learning_rate': 2.478714576862286e-06, 'epoch': 0.52} {'loss': 2.0261, 'grad_norm': 1.5893722772598267, 'learning_rate': 2.4782801912921644e-06, 'epoch': 0.52} {'loss': 1.5283, 'grad_norm': 1.5034621953964233, 'learning_rate': 2.477845806377824e-06, 'epoch': 0.52} {'loss': 2.4137, 'grad_norm': 1.5757497549057007, 'learning_rate': 2.47741142213238e-06, 'epoch': 0.52} {'loss': 2.2991, 'grad_norm': 1.4522570371627808, 'learning_rate': 2.4769770385689475e-06, 'epoch': 0.52} {'loss': 2.4281, 'grad_norm': 1.9090070724487305, 'learning_rate': 2.4765426557006413e-06, 'epoch': 0.52} {'loss': 2.065, 'grad_norm': 1.4936554431915283, 'learning_rate': 2.476108273540578e-06, 'epoch': 0.52} {'loss': 2.2239, 'grad_norm': 3.593622922897339, 'learning_rate': 2.475673892101872e-06, 'epoch': 0.52} {'loss': 2.0853, 'grad_norm': 1.4530092477798462, 'learning_rate': 2.475239511397638e-06, 'epoch': 0.52} {'loss': 1.871, 'grad_norm': 1.2249287366867065, 'learning_rate': 2.474805131440992e-06, 'epoch': 0.52} {'loss': 1.9737, 'grad_norm': 1.5036066770553589, 'learning_rate': 2.474370752245049e-06, 'epoch': 0.52} {'loss': 2.3048, 'grad_norm': 1.5948525667190552, 'learning_rate': 2.4739363738229233e-06, 'epoch': 0.52} {'loss': 2.3035, 'grad_norm': 1.5109959840774536, 'learning_rate': 2.4735019961877306e-06, 'epoch': 0.52} {'loss': 2.3481, 'grad_norm': 1.6494393348693848, 'learning_rate': 2.473067619352586e-06, 'epoch': 0.52} {'loss': 2.2453, 'grad_norm': 1.9646680355072021, 'learning_rate': 2.472633243330605e-06, 'epoch': 0.52} {'loss': 2.4735, 'grad_norm': 1.5722788572311401, 'learning_rate': 2.4721988681349014e-06, 'epoch': 0.52} {'loss': 2.2712, 'grad_norm': 1.652121663093567, 'learning_rate': 2.4717644937785906e-06, 'epoch': 0.52} {'loss': 2.1986, 'grad_norm': 1.6201772689819336, 'learning_rate': 2.4713301202747876e-06, 'epoch': 0.52} {'loss': 2.4725, 'grad_norm': 1.821562647819519, 'learning_rate': 2.4708957476366095e-06, 'epoch': 0.52} {'loss': 2.1025, 'grad_norm': 2.1833207607269287, 'learning_rate': 2.470461375877168e-06, 'epoch': 0.52} {'loss': 2.1792, 'grad_norm': 1.4056572914123535, 'learning_rate': 2.470027005009579e-06, 'epoch': 0.52} {'loss': 2.0338, 'grad_norm': 1.2415049076080322, 'learning_rate': 2.469592635046958e-06, 'epoch': 0.52} {'loss': 2.2814, 'grad_norm': 1.5852965116500854, 'learning_rate': 2.4691582660024187e-06, 'epoch': 0.52} {'loss': 2.4214, 'grad_norm': 1.5123838186264038, 'learning_rate': 2.468723897889077e-06, 'epoch': 0.52} {'loss': 2.2912, 'grad_norm': 1.535053014755249, 'learning_rate': 2.4682895307200475e-06, 'epoch': 0.52} {'loss': 2.2759, 'grad_norm': 1.5153706073760986, 'learning_rate': 2.4678551645084448e-06, 'epoch': 0.52} {'loss': 2.4759, 'grad_norm': 1.605078935623169, 'learning_rate': 2.4674207992673834e-06, 'epoch': 0.52} {'loss': 1.8762, 'grad_norm': 1.2608284950256348, 'learning_rate': 2.4669864350099788e-06, 'epoch': 0.52} {'loss': 2.5124, 'grad_norm': 1.6317566633224487, 'learning_rate': 2.4665520717493443e-06, 'epoch': 0.52} {'loss': 2.3143, 'grad_norm': 1.7608729600906372, 'learning_rate': 2.4661177094985955e-06, 'epoch': 0.52} {'loss': 2.4913, 'grad_norm': 2.0697593688964844, 'learning_rate': 2.4656833482708465e-06, 'epoch': 0.52} {'loss': 2.0531, 'grad_norm': 1.184171199798584, 'learning_rate': 2.4652489880792128e-06, 'epoch': 0.52} {'loss': 2.1194, 'grad_norm': 1.4613450765609741, 'learning_rate': 2.4648146289368077e-06, 'epoch': 0.52} {'loss': 2.3156, 'grad_norm': 1.3956979513168335, 'learning_rate': 2.464380270856746e-06, 'epoch': 0.52} {'loss': 2.3121, 'grad_norm': 1.658992886543274, 'learning_rate': 2.4639459138521425e-06, 'epoch': 0.52} {'loss': 2.2989, 'grad_norm': 1.434004783630371, 'learning_rate': 2.4635115579361125e-06, 'epoch': 0.52} {'loss': 2.2332, 'grad_norm': 1.6551181077957153, 'learning_rate': 2.463077203121769e-06, 'epoch': 0.52} {'loss': 2.2475, 'grad_norm': 1.331092357635498, 'learning_rate': 2.4626428494222267e-06, 'epoch': 0.52} {'loss': 2.2966, 'grad_norm': 1.643966555595398, 'learning_rate': 2.462208496850599e-06, 'epoch': 0.52} {'loss': 2.1973, 'grad_norm': 1.561035394668579, 'learning_rate': 2.4617741454200026e-06, 'epoch': 0.52} {'loss': 1.4885, 'grad_norm': 3.4552266597747803, 'learning_rate': 2.46133979514355e-06, 'epoch': 0.52} {'loss': 2.2642, 'grad_norm': 1.6493990421295166, 'learning_rate': 2.460905446034356e-06, 'epoch': 0.52} {'loss': 2.1881, 'grad_norm': 1.5534117221832275, 'learning_rate': 2.4604710981055348e-06, 'epoch': 0.52} {'loss': 2.2386, 'grad_norm': 1.6329491138458252, 'learning_rate': 2.4600367513702e-06, 'epoch': 0.52} {'loss': 2.2179, 'grad_norm': 1.6095008850097656, 'learning_rate': 2.4596024058414674e-06, 'epoch': 0.52} {'loss': 2.1922, 'grad_norm': 1.7537890672683716, 'learning_rate': 2.4591680615324493e-06, 'epoch': 0.52} {'loss': 2.3094, 'grad_norm': 1.9739524126052856, 'learning_rate': 2.4587337184562598e-06, 'epoch': 0.52} {'loss': 2.4409, 'grad_norm': 1.511179804801941, 'learning_rate': 2.4582993766260138e-06, 'epoch': 0.52} {'loss': 2.2865, 'grad_norm': 1.5623152256011963, 'learning_rate': 2.457865036054825e-06, 'epoch': 0.52} {'loss': 2.1871, 'grad_norm': 1.6876882314682007, 'learning_rate': 2.457430696755807e-06, 'epoch': 0.52} {'loss': 2.181, 'grad_norm': 1.5745306015014648, 'learning_rate': 2.4569963587420738e-06, 'epoch': 0.52} {'loss': 2.4284, 'grad_norm': 1.4491225481033325, 'learning_rate': 2.4565620220267396e-06, 'epoch': 0.52} {'loss': 2.4016, 'grad_norm': 1.3392448425292969, 'learning_rate': 2.4561276866229185e-06, 'epoch': 0.52} {'loss': 2.1647, 'grad_norm': 1.2452610731124878, 'learning_rate': 2.4556933525437245e-06, 'epoch': 0.52} {'loss': 2.2871, 'grad_norm': 1.4346636533737183, 'learning_rate': 2.45525901980227e-06, 'epoch': 0.52} {'loss': 2.2843, 'grad_norm': 1.585094928741455, 'learning_rate': 2.4548246884116686e-06, 'epoch': 0.52} {'loss': 1.9305, 'grad_norm': 1.4704527854919434, 'learning_rate': 2.4543903583850355e-06, 'epoch': 0.52} {'loss': 2.268, 'grad_norm': 1.8618366718292236, 'learning_rate': 2.4539560297354836e-06, 'epoch': 0.52} {'loss': 2.2612, 'grad_norm': 1.4819940328598022, 'learning_rate': 2.453521702476126e-06, 'epoch': 0.52} {'loss': 2.1968, 'grad_norm': 1.4518449306488037, 'learning_rate': 2.4530873766200775e-06, 'epoch': 0.52} {'loss': 1.9411, 'grad_norm': 1.5152201652526855, 'learning_rate': 2.452653052180451e-06, 'epoch': 0.52} {'loss': 2.1689, 'grad_norm': 1.5661042928695679, 'learning_rate': 2.4522187291703587e-06, 'epoch': 0.52} {'loss': 2.1509, 'grad_norm': 1.4090567827224731, 'learning_rate': 2.451784407602916e-06, 'epoch': 0.52} {'loss': 2.4101, 'grad_norm': 1.5194065570831299, 'learning_rate': 2.4513500874912353e-06, 'epoch': 0.52} {'loss': 2.1304, 'grad_norm': 1.5935362577438354, 'learning_rate': 2.45091576884843e-06, 'epoch': 0.52} {'loss': 2.2078, 'grad_norm': 1.7381033897399902, 'learning_rate': 2.450481451687613e-06, 'epoch': 0.52} {'loss': 2.1791, 'grad_norm': 1.5339064598083496, 'learning_rate': 2.450047136021898e-06, 'epoch': 0.52} {'loss': 2.2028, 'grad_norm': 1.322548270225525, 'learning_rate': 2.4496128218643976e-06, 'epoch': 0.52} {'loss': 2.4733, 'grad_norm': 1.6987981796264648, 'learning_rate': 2.449178509228226e-06, 'epoch': 0.52} {'loss': 2.1016, 'grad_norm': 1.5402007102966309, 'learning_rate': 2.4487441981264955e-06, 'epoch': 0.52} {'loss': 2.2541, 'grad_norm': 1.499603271484375, 'learning_rate': 2.44830988857232e-06, 'epoch': 0.52} {'loss': 1.429, 'grad_norm': 1.5691012144088745, 'learning_rate': 2.447875580578812e-06, 'epoch': 0.52} {'loss': 2.2587, 'grad_norm': 1.2811968326568604, 'learning_rate': 2.447441274159084e-06, 'epoch': 0.52} {'loss': 2.2805, 'grad_norm': 1.4356921911239624, 'learning_rate': 2.447006969326249e-06, 'epoch': 0.52} {'loss': 2.3365, 'grad_norm': 1.6899813413619995, 'learning_rate': 2.4465726660934203e-06, 'epoch': 0.52} {'loss': 2.4161, 'grad_norm': 1.8181899785995483, 'learning_rate': 2.4461383644737104e-06, 'epoch': 0.52} {'loss': 2.2765, 'grad_norm': 1.648056983947754, 'learning_rate': 2.4457040644802326e-06, 'epoch': 0.52} {'loss': 2.1291, 'grad_norm': 1.5701541900634766, 'learning_rate': 2.445269766126099e-06, 'epoch': 0.52} {'loss': 2.1515, 'grad_norm': 1.684285283088684, 'learning_rate': 2.4448354694244225e-06, 'epoch': 0.52} {'loss': 2.3229, 'grad_norm': 1.756799578666687, 'learning_rate': 2.444401174388315e-06, 'epoch': 0.52} {'loss': 2.182, 'grad_norm': 1.489188313484192, 'learning_rate': 2.443966881030892e-06, 'epoch': 0.52} {'loss': 2.1012, 'grad_norm': 1.885585904121399, 'learning_rate': 2.443532589365262e-06, 'epoch': 0.52} {'loss': 2.4894, 'grad_norm': 1.7143566608428955, 'learning_rate': 2.4430982994045402e-06, 'epoch': 0.52} {'loss': 2.116, 'grad_norm': 1.2306407690048218, 'learning_rate': 2.442664011161837e-06, 'epoch': 0.52} {'loss': 2.1899, 'grad_norm': 2.4058837890625, 'learning_rate': 2.4422297246502663e-06, 'epoch': 0.52} {'loss': 1.9331, 'grad_norm': 1.7514617443084717, 'learning_rate': 2.44179543988294e-06, 'epoch': 0.52} {'loss': 2.1875, 'grad_norm': 1.6922224760055542, 'learning_rate': 2.4413611568729705e-06, 'epoch': 0.52} {'loss': 2.2671, 'grad_norm': 1.6257402896881104, 'learning_rate': 2.4409268756334697e-06, 'epoch': 0.52} {'loss': 2.2666, 'grad_norm': 1.7832056283950806, 'learning_rate': 2.4404925961775504e-06, 'epoch': 0.52} {'loss': 2.4787, 'grad_norm': 1.3588719367980957, 'learning_rate': 2.440058318518324e-06, 'epoch': 0.52} {'loss': 2.1002, 'grad_norm': 1.7460546493530273, 'learning_rate': 2.439624042668902e-06, 'epoch': 0.52} {'loss': 2.3529, 'grad_norm': 1.2867724895477295, 'learning_rate': 2.439189768642398e-06, 'epoch': 0.52} {'loss': 2.1881, 'grad_norm': 1.4527522325515747, 'learning_rate': 2.4387554964519223e-06, 'epoch': 0.52} {'loss': 2.2694, 'grad_norm': 1.621613621711731, 'learning_rate': 2.438321226110588e-06, 'epoch': 0.52} {'loss': 1.9252, 'grad_norm': 1.5440576076507568, 'learning_rate': 2.4378869576315063e-06, 'epoch': 0.52} {'loss': 2.2908, 'grad_norm': 1.8236671686172485, 'learning_rate': 2.437452691027789e-06, 'epoch': 0.52} {'loss': 2.2331, 'grad_norm': 1.6313265562057495, 'learning_rate': 2.4370184263125474e-06, 'epoch': 0.52} {'loss': 2.2945, 'grad_norm': 1.5128180980682373, 'learning_rate': 2.4365841634988956e-06, 'epoch': 0.52} {'loss': 2.355, 'grad_norm': 1.6240179538726807, 'learning_rate': 2.436149902599942e-06, 'epoch': 0.52} {'loss': 2.2915, 'grad_norm': 1.6296993494033813, 'learning_rate': 2.4357156436287995e-06, 'epoch': 0.52} {'loss': 2.2247, 'grad_norm': 1.5697522163391113, 'learning_rate': 2.4352813865985785e-06, 'epoch': 0.52} {'loss': 2.2499, 'grad_norm': 1.5460034608840942, 'learning_rate': 2.4348471315223923e-06, 'epoch': 0.52} {'loss': 1.7818, 'grad_norm': 1.3447622060775757, 'learning_rate': 2.4344128784133515e-06, 'epoch': 0.52} {'loss': 2.0192, 'grad_norm': 1.6427818536758423, 'learning_rate': 2.433978627284567e-06, 'epoch': 0.52} {'loss': 2.187, 'grad_norm': 1.7930079698562622, 'learning_rate': 2.43354437814915e-06, 'epoch': 0.52} {'loss': 2.0356, 'grad_norm': 1.3613404035568237, 'learning_rate': 2.433110131020213e-06, 'epoch': 0.52} {'loss': 2.2305, 'grad_norm': 1.729349970817566, 'learning_rate': 2.432675885910866e-06, 'epoch': 0.52} {'loss': 2.5277, 'grad_norm': 1.523099422454834, 'learning_rate': 2.4322416428342197e-06, 'epoch': 0.52} {'loss': 2.04, 'grad_norm': 1.5763788223266602, 'learning_rate': 2.4318074018033856e-06, 'epoch': 0.52} {'loss': 2.2231, 'grad_norm': 1.5635384321212769, 'learning_rate': 2.4313731628314746e-06, 'epoch': 0.52} {'loss': 2.0496, 'grad_norm': 1.5492242574691772, 'learning_rate': 2.4309389259315973e-06, 'epoch': 0.52} {'loss': 2.3737, 'grad_norm': 4.780927658081055, 'learning_rate': 2.430504691116865e-06, 'epoch': 0.52} {'loss': 1.8717, 'grad_norm': 1.7463847398757935, 'learning_rate': 2.4300704584003883e-06, 'epoch': 0.52} {'loss': 2.2483, 'grad_norm': 1.5545408725738525, 'learning_rate': 2.4296362277952778e-06, 'epoch': 0.52} {'loss': 2.4052, 'grad_norm': 1.5446425676345825, 'learning_rate': 2.4292019993146445e-06, 'epoch': 0.52} {'loss': 2.2867, 'grad_norm': 1.613356590270996, 'learning_rate': 2.4287677729715992e-06, 'epoch': 0.52} {'loss': 2.1947, 'grad_norm': 1.5137661695480347, 'learning_rate': 2.428333548779251e-06, 'epoch': 0.52} {'loss': 2.1384, 'grad_norm': 1.547343134880066, 'learning_rate': 2.4278993267507104e-06, 'epoch': 0.52} {'loss': 2.2906, 'grad_norm': 1.6261996030807495, 'learning_rate': 2.4274651068990894e-06, 'epoch': 0.52} {'loss': 2.233, 'grad_norm': 1.5851014852523804, 'learning_rate': 2.4270308892374974e-06, 'epoch': 0.52} {'loss': 2.3982, 'grad_norm': 1.5763484239578247, 'learning_rate': 2.426596673779045e-06, 'epoch': 0.52} {'loss': 2.2261, 'grad_norm': 1.673654317855835, 'learning_rate': 2.426162460536841e-06, 'epoch': 0.52} {'loss': 2.3889, 'grad_norm': 1.475342869758606, 'learning_rate': 2.4257282495239972e-06, 'epoch': 0.52} {'loss': 2.2526, 'grad_norm': 1.7657757997512817, 'learning_rate': 2.425294040753623e-06, 'epoch': 0.52} {'loss': 2.2056, 'grad_norm': 1.5121018886566162, 'learning_rate': 2.424859834238828e-06, 'epoch': 0.52} {'loss': 2.3934, 'grad_norm': 1.5009384155273438, 'learning_rate': 2.4244256299927228e-06, 'epoch': 0.52} {'loss': 2.2347, 'grad_norm': 1.6311734914779663, 'learning_rate': 2.4239914280284165e-06, 'epoch': 0.53} {'loss': 2.0414, 'grad_norm': 1.4427019357681274, 'learning_rate': 2.4235572283590194e-06, 'epoch': 0.53} {'loss': 2.2259, 'grad_norm': 1.584061861038208, 'learning_rate': 2.4231230309976405e-06, 'epoch': 0.53} {'loss': 2.4714, 'grad_norm': 1.521130919456482, 'learning_rate': 2.42268883595739e-06, 'epoch': 0.53} {'loss': 2.16, 'grad_norm': 1.4948731660842896, 'learning_rate': 2.422254643251377e-06, 'epoch': 0.53} {'loss': 2.5826, 'grad_norm': 1.6798971891403198, 'learning_rate': 2.4218204528927116e-06, 'epoch': 0.53} {'loss': 2.3323, 'grad_norm': 13.613481521606445, 'learning_rate': 2.4213862648945044e-06, 'epoch': 0.53} {'loss': 2.2212, 'grad_norm': 1.6202540397644043, 'learning_rate': 2.4209520792698614e-06, 'epoch': 0.53} {'loss': 2.2416, 'grad_norm': 1.5739237070083618, 'learning_rate': 2.4205178960318942e-06, 'epoch': 0.53} {'loss': 2.1916, 'grad_norm': 1.492950201034546, 'learning_rate': 2.4200837151937116e-06, 'epoch': 0.53} {'loss': 2.4257, 'grad_norm': 1.7529628276824951, 'learning_rate': 2.4196495367684226e-06, 'epoch': 0.53} {'loss': 2.2001, 'grad_norm': 1.5241831541061401, 'learning_rate': 2.4192153607691363e-06, 'epoch': 0.53} {'loss': 2.1287, 'grad_norm': 1.4280928373336792, 'learning_rate': 2.418781187208962e-06, 'epoch': 0.53} {'loss': 2.3798, 'grad_norm': 1.7071176767349243, 'learning_rate': 2.4183470161010075e-06, 'epoch': 0.53} {'loss': 2.2386, 'grad_norm': 1.7373212575912476, 'learning_rate': 2.4179128474583828e-06, 'epoch': 0.53} {'loss': 2.1983, 'grad_norm': 1.5686688423156738, 'learning_rate': 2.4174786812941968e-06, 'epoch': 0.53} {'loss': 2.2235, 'grad_norm': 1.5391547679901123, 'learning_rate': 2.4170445176215574e-06, 'epoch': 0.53} {'loss': 1.9004, 'grad_norm': 1.4957104921340942, 'learning_rate': 2.4166103564535728e-06, 'epoch': 0.53} {'loss': 1.8303, 'grad_norm': 1.3903528451919556, 'learning_rate': 2.4161761978033525e-06, 'epoch': 0.53} {'loss': 2.445, 'grad_norm': 1.7903767824172974, 'learning_rate': 2.415742041684004e-06, 'epoch': 0.53} {'loss': 2.2311, 'grad_norm': 1.4098598957061768, 'learning_rate': 2.415307888108637e-06, 'epoch': 0.53} {'loss': 2.206, 'grad_norm': 1.8885935544967651, 'learning_rate': 2.4148737370903584e-06, 'epoch': 0.53} {'loss': 2.29, 'grad_norm': 1.5358929634094238, 'learning_rate': 2.4144395886422777e-06, 'epoch': 0.53} {'loss': 2.1573, 'grad_norm': 1.8806475400924683, 'learning_rate': 2.4140054427775023e-06, 'epoch': 0.53} {'loss': 2.2898, 'grad_norm': 1.8045859336853027, 'learning_rate': 2.4135712995091407e-06, 'epoch': 0.53} {'loss': 2.3124, 'grad_norm': 2.085477828979492, 'learning_rate': 2.4131371588503e-06, 'epoch': 0.53} {'loss': 2.5721, 'grad_norm': 1.6184645891189575, 'learning_rate': 2.412703020814089e-06, 'epoch': 0.53} {'loss': 2.1714, 'grad_norm': 1.5723474025726318, 'learning_rate': 2.4122688854136154e-06, 'epoch': 0.53} {'loss': 2.506, 'grad_norm': 1.8893853425979614, 'learning_rate': 2.411834752661986e-06, 'epoch': 0.53} {'loss': 2.2731, 'grad_norm': 1.6397137641906738, 'learning_rate': 2.41140062257231e-06, 'epoch': 0.53} {'loss': 2.2121, 'grad_norm': 1.840777039527893, 'learning_rate': 2.410966495157694e-06, 'epoch': 0.53} {'loss': 2.3608, 'grad_norm': 1.702829122543335, 'learning_rate': 2.4105323704312456e-06, 'epoch': 0.53} {'loss': 2.4142, 'grad_norm': 1.7482885122299194, 'learning_rate': 2.410098248406072e-06, 'epoch': 0.53} {'loss': 2.0551, 'grad_norm': 1.7688953876495361, 'learning_rate': 2.409664129095282e-06, 'epoch': 0.53} {'loss': 2.1994, 'grad_norm': 1.9494273662567139, 'learning_rate': 2.409230012511981e-06, 'epoch': 0.53} {'loss': 2.4726, 'grad_norm': 1.4894942045211792, 'learning_rate': 2.408795898669277e-06, 'epoch': 0.53} {'loss': 2.3514, 'grad_norm': 1.6455023288726807, 'learning_rate': 2.4083617875802765e-06, 'epoch': 0.53} {'loss': 2.3635, 'grad_norm': 1.5976306200027466, 'learning_rate': 2.4079276792580875e-06, 'epoch': 0.53} {'loss': 2.2159, 'grad_norm': 1.6638463735580444, 'learning_rate': 2.4074935737158162e-06, 'epoch': 0.53} {'loss': 1.7305, 'grad_norm': 1.4125336408615112, 'learning_rate': 2.4070594709665704e-06, 'epoch': 0.53} {'loss': 2.2382, 'grad_norm': 1.714720606803894, 'learning_rate': 2.406625371023456e-06, 'epoch': 0.53} {'loss': 2.212, 'grad_norm': 1.5010114908218384, 'learning_rate': 2.4061912738995794e-06, 'epoch': 0.53} {'loss': 2.2192, 'grad_norm': 1.7332149744033813, 'learning_rate': 2.4057571796080482e-06, 'epoch': 0.53} {'loss': 2.058, 'grad_norm': 1.523167610168457, 'learning_rate': 2.4053230881619683e-06, 'epoch': 0.53} {'loss': 2.1961, 'grad_norm': 1.33027184009552, 'learning_rate': 2.404888999574446e-06, 'epoch': 0.53} {'loss': 2.2347, 'grad_norm': 1.5720146894454956, 'learning_rate': 2.4044549138585876e-06, 'epoch': 0.53} {'loss': 2.0709, 'grad_norm': 12.6752347946167, 'learning_rate': 2.4040208310275e-06, 'epoch': 0.53} {'loss': 1.6202, 'grad_norm': 1.5185182094573975, 'learning_rate': 2.403586751094289e-06, 'epoch': 0.53} {'loss': 2.2351, 'grad_norm': 2.0892531871795654, 'learning_rate': 2.4031526740720594e-06, 'epoch': 0.53} {'loss': 2.3053, 'grad_norm': 1.5425934791564941, 'learning_rate': 2.402718599973919e-06, 'epoch': 0.53} {'loss': 2.2886, 'grad_norm': 1.6076172590255737, 'learning_rate': 2.402284528812974e-06, 'epoch': 0.53} {'loss': 2.0368, 'grad_norm': 1.464673638343811, 'learning_rate': 2.4018504606023295e-06, 'epoch': 0.53} {'loss': 2.5882, 'grad_norm': 1.6507831811904907, 'learning_rate': 2.4014163953550896e-06, 'epoch': 0.53} {'loss': 2.4434, 'grad_norm': 1.5668706893920898, 'learning_rate': 2.4009823330843617e-06, 'epoch': 0.53} {'loss': 2.5304, 'grad_norm': 1.6623281240463257, 'learning_rate': 2.4005482738032513e-06, 'epoch': 0.53} {'loss': 1.9226, 'grad_norm': 1.4376311302185059, 'learning_rate': 2.4001142175248635e-06, 'epoch': 0.53} {'loss': 2.1939, 'grad_norm': 1.5862345695495605, 'learning_rate': 2.3996801642623034e-06, 'epoch': 0.53} {'loss': 2.2853, 'grad_norm': 1.523652195930481, 'learning_rate': 2.3992461140286768e-06, 'epoch': 0.53} {'loss': 2.3652, 'grad_norm': 1.6302077770233154, 'learning_rate': 2.3988120668370885e-06, 'epoch': 0.53} {'loss': 2.1881, 'grad_norm': 1.470528483390808, 'learning_rate': 2.3983780227006448e-06, 'epoch': 0.53} {'loss': 2.309, 'grad_norm': 1.5728909969329834, 'learning_rate': 2.3979439816324483e-06, 'epoch': 0.53} {'loss': 2.1343, 'grad_norm': 1.580057978630066, 'learning_rate': 2.397509943645606e-06, 'epoch': 0.53} {'loss': 2.464, 'grad_norm': 1.7060189247131348, 'learning_rate': 2.3970759087532212e-06, 'epoch': 0.53} {'loss': 2.4324, 'grad_norm': 1.4693644046783447, 'learning_rate': 2.3966418769684e-06, 'epoch': 0.53} {'loss': 2.3326, 'grad_norm': 1.705837607383728, 'learning_rate': 2.396207848304246e-06, 'epoch': 0.53} {'loss': 2.1839, 'grad_norm': 1.4325743913650513, 'learning_rate': 2.3957738227738634e-06, 'epoch': 0.53} {'loss': 2.1965, 'grad_norm': 2.8524506092071533, 'learning_rate': 2.3953398003903582e-06, 'epoch': 0.53} {'loss': 2.4147, 'grad_norm': 1.4626145362854004, 'learning_rate': 2.394905781166833e-06, 'epoch': 0.53} {'loss': 2.364, 'grad_norm': 2.840224266052246, 'learning_rate': 2.394471765116395e-06, 'epoch': 0.53} {'loss': 2.1253, 'grad_norm': 1.6912890672683716, 'learning_rate': 2.3940377522521444e-06, 'epoch': 0.53} {'loss': 2.0371, 'grad_norm': 1.4663865566253662, 'learning_rate': 2.3936037425871874e-06, 'epoch': 0.53} {'loss': 2.0952, 'grad_norm': 1.569517731666565, 'learning_rate': 2.3931697361346276e-06, 'epoch': 0.53} {'loss': 2.2891, 'grad_norm': 1.4899473190307617, 'learning_rate': 2.392735732907569e-06, 'epoch': 0.53} {'loss': 2.1715, 'grad_norm': 1.4453237056732178, 'learning_rate': 2.3923017329191153e-06, 'epoch': 0.53} {'loss': 2.4097, 'grad_norm': 2.0323243141174316, 'learning_rate': 2.39186773618237e-06, 'epoch': 0.53} {'loss': 2.2256, 'grad_norm': 1.5833925008773804, 'learning_rate': 2.391433742710437e-06, 'epoch': 0.53} {'loss': 1.7792, 'grad_norm': 1.4000332355499268, 'learning_rate': 2.390999752516419e-06, 'epoch': 0.53} {'loss': 2.2449, 'grad_norm': 1.7721426486968994, 'learning_rate': 2.390565765613421e-06, 'epoch': 0.53} {'loss': 2.287, 'grad_norm': 1.652698040008545, 'learning_rate': 2.3901317820145445e-06, 'epoch': 0.53} {'loss': 2.0411, 'grad_norm': 1.4919543266296387, 'learning_rate': 2.3896978017328933e-06, 'epoch': 0.53} {'loss': 1.8647, 'grad_norm': 4.63834285736084, 'learning_rate': 2.3892638247815702e-06, 'epoch': 0.53} {'loss': 2.0897, 'grad_norm': 1.602766990661621, 'learning_rate': 2.388829851173678e-06, 'epoch': 0.53} {'loss': 2.1107, 'grad_norm': 1.5670119524002075, 'learning_rate': 2.388395880922321e-06, 'epoch': 0.53} {'loss': 2.3156, 'grad_norm': 1.770255208015442, 'learning_rate': 2.3879619140406004e-06, 'epoch': 0.53} {'loss': 2.4075, 'grad_norm': 1.4064948558807373, 'learning_rate': 2.38752795054162e-06, 'epoch': 0.53} {'loss': 2.0764, 'grad_norm': 1.603394627571106, 'learning_rate': 2.3870939904384814e-06, 'epoch': 0.53} {'loss': 2.246, 'grad_norm': 2.5762624740600586, 'learning_rate': 2.386660033744288e-06, 'epoch': 0.53} {'loss': 2.1821, 'grad_norm': 1.528285026550293, 'learning_rate': 2.386226080472141e-06, 'epoch': 0.53} {'loss': 2.1383, 'grad_norm': 1.552636981010437, 'learning_rate': 2.385792130635144e-06, 'epoch': 0.53} {'loss': 2.1879, 'grad_norm': 1.2809522151947021, 'learning_rate': 2.3853581842463976e-06, 'epoch': 0.53} {'loss': 2.5068, 'grad_norm': 1.669471025466919, 'learning_rate': 2.384924241319005e-06, 'epoch': 0.53} {'loss': 2.4966, 'grad_norm': 1.8080077171325684, 'learning_rate': 2.3844903018660675e-06, 'epoch': 0.53} {'loss': 2.3698, 'grad_norm': 1.585368275642395, 'learning_rate': 2.3840563659006876e-06, 'epoch': 0.53} {'loss': 2.1652, 'grad_norm': 1.468673825263977, 'learning_rate': 2.3836224334359656e-06, 'epoch': 0.53} {'loss': 2.2411, 'grad_norm': 1.477782964706421, 'learning_rate': 2.383188504485005e-06, 'epoch': 0.53} {'loss': 2.4442, 'grad_norm': 1.560173749923706, 'learning_rate': 2.3827545790609076e-06, 'epoch': 0.53} {'loss': 2.1339, 'grad_norm': 1.4431943893432617, 'learning_rate': 2.3823206571767727e-06, 'epoch': 0.53} {'loss': 2.2949, 'grad_norm': 1.6166421175003052, 'learning_rate': 2.3818867388457022e-06, 'epoch': 0.53} {'loss': 2.2677, 'grad_norm': 1.6132936477661133, 'learning_rate': 2.3814528240807976e-06, 'epoch': 0.53} {'loss': 2.238, 'grad_norm': 1.452797532081604, 'learning_rate': 2.3810189128951602e-06, 'epoch': 0.53} {'loss': 2.2247, 'grad_norm': 1.6409848928451538, 'learning_rate': 2.3805850053018913e-06, 'epoch': 0.53} {'loss': 2.4885, 'grad_norm': 1.4423987865447998, 'learning_rate': 2.380151101314091e-06, 'epoch': 0.53} {'loss': 2.2397, 'grad_norm': 1.5377237796783447, 'learning_rate': 2.37971720094486e-06, 'epoch': 0.53} {'loss': 1.94, 'grad_norm': 1.2562400102615356, 'learning_rate': 2.3792833042073e-06, 'epoch': 0.53} {'loss': 2.3536, 'grad_norm': 1.5612424612045288, 'learning_rate': 2.378849411114511e-06, 'epoch': 0.53} {'loss': 2.2732, 'grad_norm': 1.3966624736785889, 'learning_rate': 2.378415521679593e-06, 'epoch': 0.53} {'loss': 2.2063, 'grad_norm': 1.330570936203003, 'learning_rate': 2.3779816359156468e-06, 'epoch': 0.53} {'loss': 2.3569, 'grad_norm': 1.5985651016235352, 'learning_rate': 2.377547753835772e-06, 'epoch': 0.53} {'loss': 2.655, 'grad_norm': 1.6127429008483887, 'learning_rate': 2.377113875453069e-06, 'epoch': 0.53} {'loss': 2.1245, 'grad_norm': 1.3685266971588135, 'learning_rate': 2.3766800007806386e-06, 'epoch': 0.53} {'loss': 2.2948, 'grad_norm': 1.5515294075012207, 'learning_rate': 2.3762461298315794e-06, 'epoch': 0.53} {'loss': 2.1486, 'grad_norm': 1.7435694932937622, 'learning_rate': 2.3758122626189918e-06, 'epoch': 0.53} {'loss': 2.3308, 'grad_norm': 1.5091745853424072, 'learning_rate': 2.3753783991559767e-06, 'epoch': 0.53} {'loss': 2.3053, 'grad_norm': 1.698147177696228, 'learning_rate': 2.374944539455631e-06, 'epoch': 0.53} {'loss': 2.0404, 'grad_norm': 1.732433795928955, 'learning_rate': 2.3745106835310556e-06, 'epoch': 0.53} {'loss': 2.2419, 'grad_norm': 1.6016517877578735, 'learning_rate': 2.37407683139535e-06, 'epoch': 0.53} {'loss': 2.4347, 'grad_norm': 38.30702590942383, 'learning_rate': 2.3736429830616125e-06, 'epoch': 0.53} {'loss': 2.2056, 'grad_norm': 1.5343971252441406, 'learning_rate': 2.3732091385429434e-06, 'epoch': 0.53} {'loss': 2.3031, 'grad_norm': 1.3900381326675415, 'learning_rate': 2.372775297852441e-06, 'epoch': 0.53} {'loss': 2.3724, 'grad_norm': 1.6319479942321777, 'learning_rate': 2.3723414610032036e-06, 'epoch': 0.53} {'loss': 2.1229, 'grad_norm': 1.8185173273086548, 'learning_rate': 2.3719076280083312e-06, 'epoch': 0.53} {'loss': 2.1476, 'grad_norm': 1.7179539203643799, 'learning_rate': 2.371473798880922e-06, 'epoch': 0.53} {'loss': 2.2064, 'grad_norm': 1.3503012657165527, 'learning_rate': 2.3710399736340735e-06, 'epoch': 0.53} {'loss': 2.329, 'grad_norm': 1.9153404235839844, 'learning_rate': 2.370606152280885e-06, 'epoch': 0.53} {'loss': 2.1132, 'grad_norm': 1.7838555574417114, 'learning_rate': 2.3701723348344545e-06, 'epoch': 0.53} {'loss': 1.9938, 'grad_norm': 1.770398497581482, 'learning_rate': 2.3697385213078806e-06, 'epoch': 0.53} {'loss': 1.9916, 'grad_norm': 1.9058297872543335, 'learning_rate': 2.3693047117142607e-06, 'epoch': 0.53} {'loss': 2.2777, 'grad_norm': 1.3665268421173096, 'learning_rate': 2.3688709060666924e-06, 'epoch': 0.53} {'loss': 2.1629, 'grad_norm': 1.5618607997894287, 'learning_rate': 2.3684371043782743e-06, 'epoch': 0.53} {'loss': 2.3347, 'grad_norm': 4.14001989364624, 'learning_rate': 2.3680033066621044e-06, 'epoch': 0.53} {'loss': 2.037, 'grad_norm': 1.6934125423431396, 'learning_rate': 2.3675695129312805e-06, 'epoch': 0.53} {'loss': 2.5638, 'grad_norm': 1.7567788362503052, 'learning_rate': 2.3671357231988976e-06, 'epoch': 0.53} {'loss': 2.0939, 'grad_norm': 1.603188157081604, 'learning_rate': 2.3667019374780555e-06, 'epoch': 0.53} {'loss': 2.2439, 'grad_norm': 1.7259434461593628, 'learning_rate': 2.3662681557818503e-06, 'epoch': 0.53} {'loss': 2.3912, 'grad_norm': 1.638920545578003, 'learning_rate': 2.365834378123379e-06, 'epoch': 0.53} {'loss': 2.2384, 'grad_norm': 1.624302625656128, 'learning_rate': 2.365400604515739e-06, 'epoch': 0.53} {'loss': 2.233, 'grad_norm': 1.5538018941879272, 'learning_rate': 2.364966834972027e-06, 'epoch': 0.53} {'loss': 2.4691, 'grad_norm': 1.541866660118103, 'learning_rate': 2.36453306950534e-06, 'epoch': 0.53} {'loss': 1.6699, 'grad_norm': 1.1815329790115356, 'learning_rate': 2.3640993081287735e-06, 'epoch': 0.53} {'loss': 2.3043, 'grad_norm': 1.6691166162490845, 'learning_rate': 2.363665550855426e-06, 'epoch': 0.53} {'loss': 2.3559, 'grad_norm': 1.266883373260498, 'learning_rate': 2.3632317976983915e-06, 'epoch': 0.53} {'loss': 2.405, 'grad_norm': 1.4726964235305786, 'learning_rate': 2.3627980486707673e-06, 'epoch': 0.53} {'loss': 2.2119, 'grad_norm': 1.6657620668411255, 'learning_rate': 2.3623643037856496e-06, 'epoch': 0.53} {'loss': 1.8136, 'grad_norm': 1.3162952661514282, 'learning_rate': 2.3619305630561335e-06, 'epoch': 0.53} {'loss': 2.1324, 'grad_norm': 1.5811350345611572, 'learning_rate': 2.3614968264953164e-06, 'epoch': 0.53} {'loss': 1.8679, 'grad_norm': 1.4440209865570068, 'learning_rate': 2.361063094116293e-06, 'epoch': 0.53} {'loss': 2.2323, 'grad_norm': 1.4991178512573242, 'learning_rate': 2.360629365932159e-06, 'epoch': 0.53} {'loss': 2.3815, 'grad_norm': 1.71378493309021, 'learning_rate': 2.3601956419560097e-06, 'epoch': 0.53} {'loss': 2.1902, 'grad_norm': 1.7565964460372925, 'learning_rate': 2.359761922200941e-06, 'epoch': 0.53} {'loss': 2.4122, 'grad_norm': 1.3029837608337402, 'learning_rate': 2.3593282066800472e-06, 'epoch': 0.53} {'loss': 2.151, 'grad_norm': 1.8883960247039795, 'learning_rate': 2.3588944954064242e-06, 'epoch': 0.53} {'loss': 1.6393, 'grad_norm': 1.4607362747192383, 'learning_rate': 2.358460788393166e-06, 'epoch': 0.53} {'loss': 2.2858, 'grad_norm': 1.8744761943817139, 'learning_rate': 2.3580270856533686e-06, 'epoch': 0.53} {'loss': 2.5287, 'grad_norm': 1.750215768814087, 'learning_rate': 2.3575933872001254e-06, 'epoch': 0.53} {'loss': 2.4561, 'grad_norm': 1.4855417013168335, 'learning_rate': 2.3571596930465325e-06, 'epoch': 0.53} {'loss': 2.3971, 'grad_norm': 1.3889539241790771, 'learning_rate': 2.3567260032056823e-06, 'epoch': 0.53} {'loss': 2.229, 'grad_norm': 1.537111520767212, 'learning_rate': 2.356292317690671e-06, 'epoch': 0.53} {'loss': 2.2572, 'grad_norm': 1.608125925064087, 'learning_rate': 2.3558586365145933e-06, 'epoch': 0.53} {'loss': 2.262, 'grad_norm': 1.6394675970077515, 'learning_rate': 2.3554249596905406e-06, 'epoch': 0.53} {'loss': 2.3067, 'grad_norm': 1.6826980113983154, 'learning_rate': 2.354991287231608e-06, 'epoch': 0.53} {'loss': 2.3284, 'grad_norm': 2.138603687286377, 'learning_rate': 2.3545576191508896e-06, 'epoch': 0.53} {'loss': 2.1129, 'grad_norm': 1.6956843137741089, 'learning_rate': 2.354123955461479e-06, 'epoch': 0.53} {'loss': 2.3097, 'grad_norm': 1.3171837329864502, 'learning_rate': 2.353690296176469e-06, 'epoch': 0.53} {'loss': 2.1207, 'grad_norm': 1.4657152891159058, 'learning_rate': 2.3532566413089546e-06, 'epoch': 0.53} {'loss': 2.243, 'grad_norm': 1.5334924459457397, 'learning_rate': 2.3528229908720275e-06, 'epoch': 0.53} {'loss': 2.2244, 'grad_norm': 1.6140252351760864, 'learning_rate': 2.352389344878782e-06, 'epoch': 0.53} {'loss': 2.156, 'grad_norm': 1.5079131126403809, 'learning_rate': 2.3519557033423098e-06, 'epoch': 0.53} {'loss': 2.203, 'grad_norm': 1.5228936672210693, 'learning_rate': 2.351522066275704e-06, 'epoch': 0.53} {'loss': 2.1642, 'grad_norm': 1.8686819076538086, 'learning_rate': 2.3510884336920578e-06, 'epoch': 0.53} {'loss': 2.257, 'grad_norm': 1.5363759994506836, 'learning_rate': 2.3506548056044635e-06, 'epoch': 0.53} {'loss': 2.1741, 'grad_norm': 2.110614538192749, 'learning_rate': 2.350221182026014e-06, 'epoch': 0.53} {'loss': 2.277, 'grad_norm': 1.4755345582962036, 'learning_rate': 2.349787562969801e-06, 'epoch': 0.53} {'loss': 2.1633, 'grad_norm': 1.3690636157989502, 'learning_rate': 2.349353948448916e-06, 'epoch': 0.53} {'loss': 2.3156, 'grad_norm': 1.3737905025482178, 'learning_rate': 2.3489203384764526e-06, 'epoch': 0.53} {'loss': 2.3682, 'grad_norm': 2.1844749450683594, 'learning_rate': 2.3484867330655033e-06, 'epoch': 0.53} {'loss': 2.1579, 'grad_norm': 2.424933671951294, 'learning_rate': 2.3480531322291574e-06, 'epoch': 0.53} {'loss': 2.4495, 'grad_norm': 1.7702921628952026, 'learning_rate': 2.347619535980507e-06, 'epoch': 0.53} {'loss': 2.2382, 'grad_norm': 1.6546452045440674, 'learning_rate': 2.3471859443326447e-06, 'epoch': 0.53} {'loss': 2.242, 'grad_norm': 1.5194532871246338, 'learning_rate': 2.3467523572986613e-06, 'epoch': 0.53} {'loss': 2.1817, 'grad_norm': 1.6928621530532837, 'learning_rate': 2.346318774891648e-06, 'epoch': 0.53} {'loss': 2.3168, 'grad_norm': 1.2962805032730103, 'learning_rate': 2.345885197124696e-06, 'epoch': 0.53} {'loss': 2.3188, 'grad_norm': 1.420584797859192, 'learning_rate': 2.345451624010896e-06, 'epoch': 0.53} {'loss': 2.249, 'grad_norm': 1.420862078666687, 'learning_rate': 2.345018055563339e-06, 'epoch': 0.53} {'loss': 2.0716, 'grad_norm': 1.4125969409942627, 'learning_rate': 2.344584491795116e-06, 'epoch': 0.53} {'loss': 2.337, 'grad_norm': 1.5518994331359863, 'learning_rate': 2.3441509327193163e-06, 'epoch': 0.53} {'loss': 2.0725, 'grad_norm': 1.4646022319793701, 'learning_rate': 2.3437173783490308e-06, 'epoch': 0.53} {'loss': 2.3055, 'grad_norm': 2.147535800933838, 'learning_rate': 2.34328382869735e-06, 'epoch': 0.53} {'loss': 2.2983, 'grad_norm': 1.497818946838379, 'learning_rate': 2.342850283777364e-06, 'epoch': 0.54} {'loss': 2.3762, 'grad_norm': 2.3196511268615723, 'learning_rate': 2.3424167436021613e-06, 'epoch': 0.54} {'loss': 2.1381, 'grad_norm': 2.0881574153900146, 'learning_rate': 2.341983208184834e-06, 'epoch': 0.54} {'loss': 2.3655, 'grad_norm': 1.5661368370056152, 'learning_rate': 2.3415496775384703e-06, 'epoch': 0.54} {'loss': 2.3405, 'grad_norm': 1.5450718402862549, 'learning_rate': 2.3411161516761603e-06, 'epoch': 0.54} {'loss': 2.437, 'grad_norm': 1.7335892915725708, 'learning_rate': 2.3406826306109943e-06, 'epoch': 0.54} {'loss': 2.3524, 'grad_norm': 1.7983849048614502, 'learning_rate': 2.340249114356058e-06, 'epoch': 0.54} {'loss': 2.3309, 'grad_norm': 1.7174283266067505, 'learning_rate': 2.339815602924444e-06, 'epoch': 0.54} {'loss': 2.1894, 'grad_norm': 1.4748578071594238, 'learning_rate': 2.3393820963292394e-06, 'epoch': 0.54} {'loss': 2.2573, 'grad_norm': 1.5007877349853516, 'learning_rate': 2.3389485945835338e-06, 'epoch': 0.54} {'loss': 2.3567, 'grad_norm': 1.6987147331237793, 'learning_rate': 2.338515097700415e-06, 'epoch': 0.54} {'loss': 2.2612, 'grad_norm': 1.809004306793213, 'learning_rate': 2.3380816056929722e-06, 'epoch': 0.54} {'loss': 1.7296, 'grad_norm': 1.5915794372558594, 'learning_rate': 2.3376481185742936e-06, 'epoch': 0.54} {'loss': 2.2542, 'grad_norm': 1.6517136096954346, 'learning_rate': 2.337214636357467e-06, 'epoch': 0.54} {'loss': 1.9567, 'grad_norm': 1.6078455448150635, 'learning_rate': 2.3367811590555816e-06, 'epoch': 0.54} {'loss': 2.3231, 'grad_norm': 1.5999228954315186, 'learning_rate': 2.336347686681724e-06, 'epoch': 0.54} {'loss': 2.2677, 'grad_norm': 1.88495934009552, 'learning_rate': 2.335914219248982e-06, 'epoch': 0.54} {'loss': 2.1805, 'grad_norm': 1.7952759265899658, 'learning_rate': 2.335480756770443e-06, 'epoch': 0.54} {'loss': 2.3242, 'grad_norm': 3.4221155643463135, 'learning_rate': 2.335047299259195e-06, 'epoch': 0.54} {'loss': 1.8124, 'grad_norm': 1.6455450057983398, 'learning_rate': 2.334613846728325e-06, 'epoch': 0.54} {'loss': 2.344, 'grad_norm': 1.6366456747055054, 'learning_rate': 2.3341803991909214e-06, 'epoch': 0.54} {'loss': 2.3396, 'grad_norm': 1.6642056703567505, 'learning_rate': 2.3337469566600693e-06, 'epoch': 0.54} {'loss': 2.1777, 'grad_norm': 1.6702319383621216, 'learning_rate': 2.3333135191488565e-06, 'epoch': 0.54} {'loss': 2.5534, 'grad_norm': 1.77571702003479, 'learning_rate': 2.3328800866703704e-06, 'epoch': 0.54} {'loss': 2.2347, 'grad_norm': 1.5636972188949585, 'learning_rate': 2.3324466592376955e-06, 'epoch': 0.54} {'loss': 2.4899, 'grad_norm': 1.5426229238510132, 'learning_rate': 2.33201323686392e-06, 'epoch': 0.54} {'loss': 2.1458, 'grad_norm': 1.3353322744369507, 'learning_rate': 2.3315798195621288e-06, 'epoch': 0.54} {'loss': 2.3675, 'grad_norm': 1.6489787101745605, 'learning_rate': 2.331146407345409e-06, 'epoch': 0.54} {'loss': 2.4493, 'grad_norm': 1.476399302482605, 'learning_rate': 2.3307130002268457e-06, 'epoch': 0.54} {'loss': 2.0555, 'grad_norm': 1.3361395597457886, 'learning_rate': 2.3302795982195254e-06, 'epoch': 0.54} {'loss': 2.4605, 'grad_norm': 1.702336311340332, 'learning_rate': 2.329846201336533e-06, 'epoch': 0.54} {'loss': 2.4047, 'grad_norm': 1.594820261001587, 'learning_rate': 2.3294128095909553e-06, 'epoch': 0.54} {'loss': 1.9321, 'grad_norm': 1.698130488395691, 'learning_rate': 2.3289794229958763e-06, 'epoch': 0.54} {'loss': 2.5458, 'grad_norm': 1.8209450244903564, 'learning_rate': 2.328546041564381e-06, 'epoch': 0.54} {'loss': 2.1773, 'grad_norm': 1.4352364540100098, 'learning_rate': 2.3281126653095544e-06, 'epoch': 0.54} {'loss': 2.5015, 'grad_norm': 1.583198070526123, 'learning_rate': 2.327679294244482e-06, 'epoch': 0.54} {'loss': 2.2157, 'grad_norm': 1.3025264739990234, 'learning_rate': 2.3272459283822487e-06, 'epoch': 0.54} {'loss': 2.5127, 'grad_norm': 1.839130163192749, 'learning_rate': 2.326812567735938e-06, 'epoch': 0.54} {'loss': 2.597, 'grad_norm': 1.5158082246780396, 'learning_rate': 2.3263792123186354e-06, 'epoch': 0.54} {'loss': 2.15, 'grad_norm': 1.8497692346572876, 'learning_rate': 2.325945862143424e-06, 'epoch': 0.54} {'loss': 2.0614, 'grad_norm': 2.520528793334961, 'learning_rate': 2.3255125172233893e-06, 'epoch': 0.54} {'loss': 2.0412, 'grad_norm': 1.8139848709106445, 'learning_rate': 2.3250791775716136e-06, 'epoch': 0.54} {'loss': 2.4038, 'grad_norm': 2.8100552558898926, 'learning_rate': 2.324645843201181e-06, 'epoch': 0.54} {'loss': 2.3561, 'grad_norm': 1.3802708387374878, 'learning_rate': 2.324212514125176e-06, 'epoch': 0.54} {'loss': 2.1782, 'grad_norm': 1.5097898244857788, 'learning_rate': 2.3237791903566807e-06, 'epoch': 0.54} {'loss': 2.4189, 'grad_norm': 1.6359353065490723, 'learning_rate': 2.323345871908779e-06, 'epoch': 0.54} {'loss': 2.3548, 'grad_norm': 1.559470295906067, 'learning_rate': 2.322912558794554e-06, 'epoch': 0.54} {'loss': 2.3673, 'grad_norm': 1.8393809795379639, 'learning_rate': 2.322479251027088e-06, 'epoch': 0.54} {'loss': 2.1417, 'grad_norm': 1.9537349939346313, 'learning_rate': 2.322045948619465e-06, 'epoch': 0.54} {'loss': 2.1458, 'grad_norm': 1.6257199048995972, 'learning_rate': 2.321612651584768e-06, 'epoch': 0.54} {'loss': 2.3936, 'grad_norm': 1.9189339876174927, 'learning_rate': 2.321179359936077e-06, 'epoch': 0.54} {'loss': 2.1537, 'grad_norm': 1.5949461460113525, 'learning_rate': 2.320746073686475e-06, 'epoch': 0.54} {'loss': 2.1318, 'grad_norm': 1.6291223764419556, 'learning_rate': 2.3203127928490458e-06, 'epoch': 0.54} {'loss': 2.2773, 'grad_norm': 1.1856430768966675, 'learning_rate': 2.31987951743687e-06, 'epoch': 0.54} {'loss': 2.0559, 'grad_norm': 1.615399956703186, 'learning_rate': 2.3194462474630296e-06, 'epoch': 0.54} {'loss': 2.4956, 'grad_norm': 1.3393765687942505, 'learning_rate': 2.3190129829406064e-06, 'epoch': 0.54} {'loss': 2.1658, 'grad_norm': 1.4269262552261353, 'learning_rate': 2.3185797238826815e-06, 'epoch': 0.54} {'loss': 2.4355, 'grad_norm': 1.5736503601074219, 'learning_rate': 2.3181464703023367e-06, 'epoch': 0.54} {'loss': 2.0204, 'grad_norm': 1.5704267024993896, 'learning_rate': 2.3177132222126537e-06, 'epoch': 0.54} {'loss': 2.1568, 'grad_norm': 1.6780401468276978, 'learning_rate': 2.3172799796267114e-06, 'epoch': 0.54} {'loss': 2.2685, 'grad_norm': 1.4953454732894897, 'learning_rate': 2.316846742557592e-06, 'epoch': 0.54} {'loss': 2.2557, 'grad_norm': 1.5061770677566528, 'learning_rate': 2.316413511018376e-06, 'epoch': 0.54} {'loss': 2.2995, 'grad_norm': 1.4719585180282593, 'learning_rate': 2.3159802850221443e-06, 'epoch': 0.54} {'loss': 2.1331, 'grad_norm': 1.6641913652420044, 'learning_rate': 2.3155470645819753e-06, 'epoch': 0.54} {'loss': 1.4273, 'grad_norm': 1.458462119102478, 'learning_rate': 2.3151138497109514e-06, 'epoch': 0.54} {'loss': 2.2131, 'grad_norm': 1.637138843536377, 'learning_rate': 2.3146806404221516e-06, 'epoch': 0.54} {'loss': 2.4026, 'grad_norm': 4.328921318054199, 'learning_rate': 2.314247436728656e-06, 'epoch': 0.54} {'loss': 2.1519, 'grad_norm': 1.781213641166687, 'learning_rate': 2.3138142386435447e-06, 'epoch': 0.54} {'loss': 2.2887, 'grad_norm': 1.6074274778366089, 'learning_rate': 2.313381046179895e-06, 'epoch': 0.54} {'loss': 2.2397, 'grad_norm': 1.5718168020248413, 'learning_rate': 2.312947859350788e-06, 'epoch': 0.54} {'loss': 2.3321, 'grad_norm': 1.3084723949432373, 'learning_rate': 2.3125146781693024e-06, 'epoch': 0.54} {'loss': 2.3594, 'grad_norm': 1.6680341958999634, 'learning_rate': 2.312081502648517e-06, 'epoch': 0.54} {'loss': 1.4481, 'grad_norm': 1.5721584558486938, 'learning_rate': 2.311648332801511e-06, 'epoch': 0.54} {'loss': 2.407, 'grad_norm': 1.4328012466430664, 'learning_rate': 2.3112151686413627e-06, 'epoch': 0.54} {'loss': 2.3397, 'grad_norm': 1.6627130508422852, 'learning_rate': 2.3107820101811504e-06, 'epoch': 0.54} {'loss': 2.3058, 'grad_norm': 2.4395253658294678, 'learning_rate': 2.310348857433953e-06, 'epoch': 0.54} {'loss': 1.4375, 'grad_norm': 1.4685990810394287, 'learning_rate': 2.3099157104128474e-06, 'epoch': 0.54} {'loss': 2.3087, 'grad_norm': 1.583759069442749, 'learning_rate': 2.309482569130912e-06, 'epoch': 0.54} {'loss': 2.114, 'grad_norm': 2.423265218734741, 'learning_rate': 2.309049433601225e-06, 'epoch': 0.54} {'loss': 2.3292, 'grad_norm': 1.5222280025482178, 'learning_rate': 2.308616303836864e-06, 'epoch': 0.54} {'loss': 2.2174, 'grad_norm': 1.3656635284423828, 'learning_rate': 2.308183179850905e-06, 'epoch': 0.54} {'loss': 2.2192, 'grad_norm': 1.6042065620422363, 'learning_rate': 2.307750061656427e-06, 'epoch': 0.54} {'loss': 2.3814, 'grad_norm': 1.7607917785644531, 'learning_rate': 2.307316949266506e-06, 'epoch': 0.54} {'loss': 2.1328, 'grad_norm': 1.549351453781128, 'learning_rate': 2.3068838426942192e-06, 'epoch': 0.54} {'loss': 2.3108, 'grad_norm': 5.020674705505371, 'learning_rate': 2.3064507419526438e-06, 'epoch': 0.54} {'loss': 2.0254, 'grad_norm': 1.4287500381469727, 'learning_rate': 2.3060176470548553e-06, 'epoch': 0.54} {'loss': 2.4572, 'grad_norm': 1.7607048749923706, 'learning_rate': 2.3055845580139304e-06, 'epoch': 0.54} {'loss': 1.8891, 'grad_norm': 1.7662699222564697, 'learning_rate': 2.3051514748429455e-06, 'epoch': 0.54} {'loss': 2.1559, 'grad_norm': 1.5689518451690674, 'learning_rate': 2.3047183975549763e-06, 'epoch': 0.54} {'loss': 2.43, 'grad_norm': 1.6303077936172485, 'learning_rate': 2.3042853261630983e-06, 'epoch': 0.54} {'loss': 2.3896, 'grad_norm': 1.2211673259735107, 'learning_rate': 2.3038522606803882e-06, 'epoch': 0.54} {'loss': 2.1917, 'grad_norm': 1.5137330293655396, 'learning_rate': 2.3034192011199203e-06, 'epoch': 0.54} {'loss': 1.714, 'grad_norm': 1.369484305381775, 'learning_rate': 2.30298614749477e-06, 'epoch': 0.54} {'loss': 2.354, 'grad_norm': 1.9322839975357056, 'learning_rate': 2.302553099818014e-06, 'epoch': 0.54} {'loss': 2.4389, 'grad_norm': 1.8000303506851196, 'learning_rate': 2.3021200581027253e-06, 'epoch': 0.54} {'loss': 2.3379, 'grad_norm': 1.7293730974197388, 'learning_rate': 2.301687022361979e-06, 'epoch': 0.54} {'loss': 2.3003, 'grad_norm': 1.7208702564239502, 'learning_rate': 2.3012539926088497e-06, 'epoch': 0.54} {'loss': 2.1335, 'grad_norm': 1.4976726770401, 'learning_rate': 2.300820968856412e-06, 'epoch': 0.54} {'loss': 2.391, 'grad_norm': 2.1337597370147705, 'learning_rate': 2.3003879511177406e-06, 'epoch': 0.54} {'loss': 2.2664, 'grad_norm': 1.638547658920288, 'learning_rate': 2.2999549394059085e-06, 'epoch': 0.54} {'loss': 2.2178, 'grad_norm': 2.058236598968506, 'learning_rate': 2.29952193373399e-06, 'epoch': 0.54} {'loss': 2.4045, 'grad_norm': 1.5771198272705078, 'learning_rate': 2.299088934115059e-06, 'epoch': 0.54} {'loss': 2.2586, 'grad_norm': 1.6045095920562744, 'learning_rate': 2.298655940562189e-06, 'epoch': 0.54} {'loss': 2.193, 'grad_norm': 1.6558209657669067, 'learning_rate': 2.2982229530884527e-06, 'epoch': 0.54} {'loss': 2.2003, 'grad_norm': 1.5869227647781372, 'learning_rate': 2.297789971706923e-06, 'epoch': 0.54} {'loss': 2.3434, 'grad_norm': 1.6755131483078003, 'learning_rate': 2.297356996430673e-06, 'epoch': 0.54} {'loss': 1.8348, 'grad_norm': 1.579060435295105, 'learning_rate': 2.296924027272777e-06, 'epoch': 0.54} {'loss': 2.1897, 'grad_norm': 1.5290281772613525, 'learning_rate': 2.2964910642463046e-06, 'epoch': 0.54} {'loss': 2.4515, 'grad_norm': 1.665350317955017, 'learning_rate': 2.2960581073643306e-06, 'epoch': 0.54} {'loss': 2.2939, 'grad_norm': 1.631251573562622, 'learning_rate': 2.2956251566399256e-06, 'epoch': 0.54} {'loss': 2.6411, 'grad_norm': 1.6841833591461182, 'learning_rate': 2.295192212086163e-06, 'epoch': 0.54} {'loss': 2.4185, 'grad_norm': 1.7048368453979492, 'learning_rate': 2.2947592737161147e-06, 'epoch': 0.54} {'loss': 2.1713, 'grad_norm': 1.5041782855987549, 'learning_rate': 2.2943263415428507e-06, 'epoch': 0.54} {'loss': 2.3832, 'grad_norm': 1.5529701709747314, 'learning_rate': 2.2938934155794422e-06, 'epoch': 0.54} {'loss': 2.3768, 'grad_norm': 1.3440479040145874, 'learning_rate': 2.2934604958389625e-06, 'epoch': 0.54} {'loss': 2.2623, 'grad_norm': 1.6646809577941895, 'learning_rate': 2.2930275823344812e-06, 'epoch': 0.54} {'loss': 2.3046, 'grad_norm': 1.4365893602371216, 'learning_rate': 2.29259467507907e-06, 'epoch': 0.54} {'loss': 1.4923, 'grad_norm': 1.6419655084609985, 'learning_rate': 2.292161774085799e-06, 'epoch': 0.54} {'loss': 2.2326, 'grad_norm': 1.41861891746521, 'learning_rate': 2.2917288793677384e-06, 'epoch': 0.54} {'loss': 2.1676, 'grad_norm': 1.8368624448776245, 'learning_rate': 2.291295990937959e-06, 'epoch': 0.54} {'loss': 2.3631, 'grad_norm': 2.592930316925049, 'learning_rate': 2.2908631088095314e-06, 'epoch': 0.54} {'loss': 2.3694, 'grad_norm': 1.664337158203125, 'learning_rate': 2.2904302329955243e-06, 'epoch': 0.54} {'loss': 2.3645, 'grad_norm': 1.5360568761825562, 'learning_rate': 2.289997363509008e-06, 'epoch': 0.54} {'loss': 2.0256, 'grad_norm': 1.7118275165557861, 'learning_rate': 2.289564500363052e-06, 'epoch': 0.54} {'loss': 2.3372, 'grad_norm': 1.5474714040756226, 'learning_rate': 2.289131643570726e-06, 'epoch': 0.54} {'loss': 1.6653, 'grad_norm': 1.441072940826416, 'learning_rate': 2.288698793145098e-06, 'epoch': 0.54} {'loss': 2.1389, 'grad_norm': 1.410073161125183, 'learning_rate': 2.288265949099238e-06, 'epoch': 0.54} {'loss': 2.3131, 'grad_norm': 1.352491855621338, 'learning_rate': 2.2878331114462147e-06, 'epoch': 0.54} {'loss': 2.2965, 'grad_norm': 1.598127007484436, 'learning_rate': 2.287400280199098e-06, 'epoch': 0.54} {'loss': 2.2348, 'grad_norm': 1.384140968322754, 'learning_rate': 2.2869674553709527e-06, 'epoch': 0.54} {'loss': 2.0345, 'grad_norm': 1.8561111688613892, 'learning_rate': 2.2865346369748497e-06, 'epoch': 0.54} {'loss': 2.124, 'grad_norm': 2.08769154548645, 'learning_rate': 2.2861018250238564e-06, 'epoch': 0.54} {'loss': 2.2308, 'grad_norm': 1.7759958505630493, 'learning_rate': 2.2856690195310405e-06, 'epoch': 0.54} {'loss': 2.2243, 'grad_norm': 1.3025082349777222, 'learning_rate': 2.28523622050947e-06, 'epoch': 0.54} {'loss': 2.2485, 'grad_norm': 1.439218521118164, 'learning_rate': 2.2848034279722113e-06, 'epoch': 0.54} {'loss': 2.1526, 'grad_norm': 1.7699061632156372, 'learning_rate': 2.2843706419323324e-06, 'epoch': 0.54} {'loss': 2.1109, 'grad_norm': 1.5887540578842163, 'learning_rate': 2.2839378624029e-06, 'epoch': 0.54} {'loss': 2.1555, 'grad_norm': 1.4743053913116455, 'learning_rate': 2.2835050893969814e-06, 'epoch': 0.54} {'loss': 2.1994, 'grad_norm': 1.5768800973892212, 'learning_rate': 2.2830723229276425e-06, 'epoch': 0.54} {'loss': 2.0638, 'grad_norm': 1.6301522254943848, 'learning_rate': 2.2826395630079503e-06, 'epoch': 0.54} {'loss': 1.8538, 'grad_norm': 1.466194748878479, 'learning_rate': 2.28220680965097e-06, 'epoch': 0.54} {'loss': 2.2079, 'grad_norm': 1.9236829280853271, 'learning_rate': 2.2817740628697695e-06, 'epoch': 0.54} {'loss': 2.1772, 'grad_norm': 1.5882954597473145, 'learning_rate': 2.2813413226774123e-06, 'epoch': 0.54} {'loss': 2.0461, 'grad_norm': 1.5039557218551636, 'learning_rate': 2.280908589086966e-06, 'epoch': 0.54} {'loss': 2.5061, 'grad_norm': 1.8034956455230713, 'learning_rate': 2.280475862111495e-06, 'epoch': 0.54} {'loss': 1.8745, 'grad_norm': 1.597928762435913, 'learning_rate': 2.280043141764065e-06, 'epoch': 0.54} {'loss': 2.3144, 'grad_norm': 1.459341049194336, 'learning_rate': 2.2796104280577413e-06, 'epoch': 0.54} {'loss': 2.2934, 'grad_norm': 1.2122600078582764, 'learning_rate': 2.2791777210055876e-06, 'epoch': 0.54} {'loss': 2.3283, 'grad_norm': 1.546203374862671, 'learning_rate': 2.2787450206206695e-06, 'epoch': 0.54} {'loss': 2.2072, 'grad_norm': 10.039337158203125, 'learning_rate': 2.2783123269160508e-06, 'epoch': 0.54} {'loss': 2.2506, 'grad_norm': 3.6598358154296875, 'learning_rate': 2.2778796399047957e-06, 'epoch': 0.54} {'loss': 2.1625, 'grad_norm': 9.6751708984375, 'learning_rate': 2.2774469595999693e-06, 'epoch': 0.54} {'loss': 2.4469, 'grad_norm': 1.5683722496032715, 'learning_rate': 2.277014286014634e-06, 'epoch': 0.54} {'loss': 2.1939, 'grad_norm': 1.7082160711288452, 'learning_rate': 2.2765816191618543e-06, 'epoch': 0.54} {'loss': 2.3535, 'grad_norm': 1.889365315437317, 'learning_rate': 2.2761489590546924e-06, 'epoch': 0.54} {'loss': 1.6811, 'grad_norm': 1.3725006580352783, 'learning_rate': 2.275716305706215e-06, 'epoch': 0.54} {'loss': 2.2779, 'grad_norm': 1.6070435047149658, 'learning_rate': 2.2752836591294806e-06, 'epoch': 0.54} {'loss': 2.5429, 'grad_norm': 1.4545482397079468, 'learning_rate': 2.2748510193375544e-06, 'epoch': 0.54} {'loss': 2.1834, 'grad_norm': 1.6458827257156372, 'learning_rate': 2.2744183863434975e-06, 'epoch': 0.54} {'loss': 2.2795, 'grad_norm': 1.5095843076705933, 'learning_rate': 2.2739857601603744e-06, 'epoch': 0.54} {'loss': 2.0904, 'grad_norm': 1.6610209941864014, 'learning_rate': 2.273553140801246e-06, 'epoch': 0.54} {'loss': 1.9629, 'grad_norm': 1.2999805212020874, 'learning_rate': 2.2731205282791747e-06, 'epoch': 0.54} {'loss': 2.3568, 'grad_norm': 1.7606712579727173, 'learning_rate': 2.2726879226072217e-06, 'epoch': 0.54} {'loss': 2.1352, 'grad_norm': 1.5326457023620605, 'learning_rate': 2.272255323798449e-06, 'epoch': 0.54} {'loss': 2.344, 'grad_norm': 2.4002559185028076, 'learning_rate': 2.271822731865919e-06, 'epoch': 0.54} {'loss': 2.2292, 'grad_norm': 1.4976624250411987, 'learning_rate': 2.2713901468226905e-06, 'epoch': 0.54} {'loss': 2.438, 'grad_norm': 1.6540175676345825, 'learning_rate': 2.2709575686818257e-06, 'epoch': 0.54} {'loss': 2.5314, 'grad_norm': 1.8199689388275146, 'learning_rate': 2.2705249974563852e-06, 'epoch': 0.54} {'loss': 2.098, 'grad_norm': 1.3237864971160889, 'learning_rate': 2.2700924331594303e-06, 'epoch': 0.54} {'loss': 2.2435, 'grad_norm': 1.667401671409607, 'learning_rate': 2.26965987580402e-06, 'epoch': 0.54} {'loss': 2.2154, 'grad_norm': 1.6193455457687378, 'learning_rate': 2.2692273254032145e-06, 'epoch': 0.54} {'loss': 1.935, 'grad_norm': 1.4483346939086914, 'learning_rate': 2.268794781970075e-06, 'epoch': 0.54} {'loss': 2.2613, 'grad_norm': 2.3965187072753906, 'learning_rate': 2.2683622455176603e-06, 'epoch': 0.54} {'loss': 2.3359, 'grad_norm': 1.612282395362854, 'learning_rate': 2.267929716059031e-06, 'epoch': 0.54} {'loss': 1.8211, 'grad_norm': 1.248045802116394, 'learning_rate': 2.2674971936072445e-06, 'epoch': 0.54} {'loss': 2.0985, 'grad_norm': 1.692309856414795, 'learning_rate': 2.26706467817536e-06, 'epoch': 0.54} {'loss': 2.3099, 'grad_norm': 1.6367493867874146, 'learning_rate': 2.2666321697764376e-06, 'epoch': 0.54} {'loss': 2.2709, 'grad_norm': 1.666019320487976, 'learning_rate': 2.2661996684235348e-06, 'epoch': 0.54} {'loss': 2.2524, 'grad_norm': 1.4319877624511719, 'learning_rate': 2.265767174129711e-06, 'epoch': 0.54} {'loss': 2.2796, 'grad_norm': 1.7046865224838257, 'learning_rate': 2.2653346869080244e-06, 'epoch': 0.54} {'loss': 2.0281, 'grad_norm': 1.7559854984283447, 'learning_rate': 2.2649022067715317e-06, 'epoch': 0.54} {'loss': 2.386, 'grad_norm': 1.8235875368118286, 'learning_rate': 2.2644697337332924e-06, 'epoch': 0.54} {'loss': 2.0404, 'grad_norm': 1.4499702453613281, 'learning_rate': 2.2640372678063627e-06, 'epoch': 0.54} {'loss': 2.2817, 'grad_norm': 2.0685195922851562, 'learning_rate': 2.2636048090038004e-06, 'epoch': 0.54} {'loss': 2.0387, 'grad_norm': 1.4089570045471191, 'learning_rate': 2.2631723573386626e-06, 'epoch': 0.54} {'loss': 2.4199, 'grad_norm': 1.6539193391799927, 'learning_rate': 2.2627399128240062e-06, 'epoch': 0.54} {'loss': 2.3927, 'grad_norm': 1.644407868385315, 'learning_rate': 2.262307475472888e-06, 'epoch': 0.55} {'loss': 2.3829, 'grad_norm': 1.6217644214630127, 'learning_rate': 2.261875045298364e-06, 'epoch': 0.55} {'loss': 2.1456, 'grad_norm': 1.6036677360534668, 'learning_rate': 2.2614426223134914e-06, 'epoch': 0.55} {'loss': 2.1699, 'grad_norm': 5.9877424240112305, 'learning_rate': 2.2610102065313256e-06, 'epoch': 0.55} {'loss': 2.3991, 'grad_norm': 1.5885015726089478, 'learning_rate': 2.2605777979649237e-06, 'epoch': 0.55} {'loss': 2.467, 'grad_norm': 1.7238901853561401, 'learning_rate': 2.2601453966273385e-06, 'epoch': 0.55} {'loss': 2.0385, 'grad_norm': 1.3488166332244873, 'learning_rate': 2.2597130025316276e-06, 'epoch': 0.55} {'loss': 2.4463, 'grad_norm': 1.4360167980194092, 'learning_rate': 2.259280615690846e-06, 'epoch': 0.55} {'loss': 2.2822, 'grad_norm': 1.5416711568832397, 'learning_rate': 2.2588482361180475e-06, 'epoch': 0.55} {'loss': 1.4499, 'grad_norm': 1.6706836223602295, 'learning_rate': 2.258415863826288e-06, 'epoch': 0.55} {'loss': 2.1546, 'grad_norm': 1.4228508472442627, 'learning_rate': 2.2579834988286217e-06, 'epoch': 0.55} {'loss': 2.1558, 'grad_norm': 1.463700294494629, 'learning_rate': 2.257551141138103e-06, 'epoch': 0.55} {'loss': 2.3146, 'grad_norm': 1.5218069553375244, 'learning_rate': 2.2571187907677855e-06, 'epoch': 0.55} {'loss': 2.3627, 'grad_norm': 1.4535839557647705, 'learning_rate': 2.256686447730724e-06, 'epoch': 0.55} {'loss': 2.3753, 'grad_norm': 1.6690654754638672, 'learning_rate': 2.256254112039971e-06, 'epoch': 0.55} {'loss': 2.3026, 'grad_norm': 1.5603710412979126, 'learning_rate': 2.2558217837085803e-06, 'epoch': 0.55} {'loss': 2.0336, 'grad_norm': 1.66489839553833, 'learning_rate': 2.2553894627496057e-06, 'epoch': 0.55} {'loss': 2.3079, 'grad_norm': 1.5091980695724487, 'learning_rate': 2.2549571491760985e-06, 'epoch': 0.55} {'loss': 2.3568, 'grad_norm': 1.6091729402542114, 'learning_rate': 2.2545248430011136e-06, 'epoch': 0.55} {'loss': 2.2821, 'grad_norm': 1.691021203994751, 'learning_rate': 2.2540925442377022e-06, 'epoch': 0.55} {'loss': 2.1384, 'grad_norm': 1.5291879177093506, 'learning_rate': 2.2536602528989166e-06, 'epoch': 0.55} {'loss': 1.546, 'grad_norm': 1.4546434879302979, 'learning_rate': 2.25322796899781e-06, 'epoch': 0.55} {'loss': 2.3587, 'grad_norm': 1.5461325645446777, 'learning_rate': 2.2527956925474335e-06, 'epoch': 0.55} {'loss': 2.0036, 'grad_norm': 1.4514026641845703, 'learning_rate': 2.252363423560838e-06, 'epoch': 0.55} {'loss': 2.1486, 'grad_norm': 1.7352992296218872, 'learning_rate': 2.251931162051076e-06, 'epoch': 0.55} {'loss': 2.2204, 'grad_norm': 1.6317452192306519, 'learning_rate': 2.2514989080311977e-06, 'epoch': 0.55} {'loss': 2.2559, 'grad_norm': 1.5266940593719482, 'learning_rate': 2.251066661514255e-06, 'epoch': 0.55} {'loss': 2.0946, 'grad_norm': 1.4680545330047607, 'learning_rate': 2.250634422513298e-06, 'epoch': 0.55} {'loss': 1.8975, 'grad_norm': 1.2409887313842773, 'learning_rate': 2.2502021910413772e-06, 'epoch': 0.55} {'loss': 2.3949, 'grad_norm': 1.6707515716552734, 'learning_rate': 2.249769967111543e-06, 'epoch': 0.55} {'loss': 2.4181, 'grad_norm': 1.8138229846954346, 'learning_rate': 2.249337750736845e-06, 'epoch': 0.55} {'loss': 2.0483, 'grad_norm': 1.500596046447754, 'learning_rate': 2.2489055419303355e-06, 'epoch': 0.55} {'loss': 1.8405, 'grad_norm': 1.4027221202850342, 'learning_rate': 2.2484733407050605e-06, 'epoch': 0.55} {'loss': 2.1649, 'grad_norm': 1.6616750955581665, 'learning_rate': 2.248041147074071e-06, 'epoch': 0.55} {'loss': 2.3103, 'grad_norm': 1.9531489610671997, 'learning_rate': 2.2476089610504155e-06, 'epoch': 0.55} {'loss': 1.7031, 'grad_norm': 1.5540966987609863, 'learning_rate': 2.2471767826471443e-06, 'epoch': 0.55} {'loss': 2.2556, 'grad_norm': 1.6625730991363525, 'learning_rate': 2.246744611877305e-06, 'epoch': 0.55} {'loss': 1.9911, 'grad_norm': 1.4729363918304443, 'learning_rate': 2.246312448753946e-06, 'epoch': 0.55} {'loss': 2.2699, 'grad_norm': 1.7240599393844604, 'learning_rate': 2.245880293290116e-06, 'epoch': 0.55} {'loss': 2.3158, 'grad_norm': 1.8257334232330322, 'learning_rate': 2.2454481454988624e-06, 'epoch': 0.55} {'loss': 2.3079, 'grad_norm': 1.5786696672439575, 'learning_rate': 2.245016005393234e-06, 'epoch': 0.55} {'loss': 2.1143, 'grad_norm': 1.7319737672805786, 'learning_rate': 2.2445838729862767e-06, 'epoch': 0.55} {'loss': 2.3192, 'grad_norm': 1.539670705795288, 'learning_rate': 2.2441517482910387e-06, 'epoch': 0.55} {'loss': 2.4272, 'grad_norm': 1.4993025064468384, 'learning_rate': 2.2437196313205668e-06, 'epoch': 0.55} {'loss': 2.0585, 'grad_norm': 1.62870454788208, 'learning_rate': 2.2432875220879085e-06, 'epoch': 0.55} {'loss': 2.2609, 'grad_norm': 1.5567251443862915, 'learning_rate': 2.2428554206061095e-06, 'epoch': 0.55} {'loss': 2.1649, 'grad_norm': 1.4883310794830322, 'learning_rate': 2.2424233268882157e-06, 'epoch': 0.55} {'loss': 2.3375, 'grad_norm': 1.6283190250396729, 'learning_rate': 2.2419912409472745e-06, 'epoch': 0.55} {'loss': 2.3483, 'grad_norm': 1.68178391456604, 'learning_rate': 2.2415591627963322e-06, 'epoch': 0.55} {'loss': 2.2642, 'grad_norm': 2.011479139328003, 'learning_rate': 2.241127092448433e-06, 'epoch': 0.55} {'loss': 2.1746, 'grad_norm': 1.4443415403366089, 'learning_rate': 2.2406950299166223e-06, 'epoch': 0.55} {'loss': 2.2803, 'grad_norm': 1.505082368850708, 'learning_rate': 2.2402629752139453e-06, 'epoch': 0.55} {'loss': 2.2975, 'grad_norm': 1.6767499446868896, 'learning_rate': 2.239830928353448e-06, 'epoch': 0.55} {'loss': 1.9333, 'grad_norm': 1.5016366243362427, 'learning_rate': 2.239398889348174e-06, 'epoch': 0.55} {'loss': 2.5083, 'grad_norm': 1.4593756198883057, 'learning_rate': 2.2389668582111686e-06, 'epoch': 0.55} {'loss': 2.331, 'grad_norm': 1.6385473012924194, 'learning_rate': 2.2385348349554754e-06, 'epoch': 0.55} {'loss': 2.2119, 'grad_norm': 1.697855830192566, 'learning_rate': 2.2381028195941385e-06, 'epoch': 0.55} {'loss': 1.9654, 'grad_norm': 1.4853113889694214, 'learning_rate': 2.2376708121402024e-06, 'epoch': 0.55} {'loss': 2.3309, 'grad_norm': 2.2305877208709717, 'learning_rate': 2.2372388126067095e-06, 'epoch': 0.55} {'loss': 2.4097, 'grad_norm': 1.5276660919189453, 'learning_rate': 2.2368068210067034e-06, 'epoch': 0.55} {'loss': 2.5026, 'grad_norm': 1.5637456178665161, 'learning_rate': 2.236374837353227e-06, 'epoch': 0.55} {'loss': 2.3503, 'grad_norm': 1.7346255779266357, 'learning_rate': 2.2359428616593232e-06, 'epoch': 0.55} {'loss': 2.068, 'grad_norm': 1.5300203561782837, 'learning_rate': 2.2355108939380353e-06, 'epoch': 0.55} {'loss': 2.237, 'grad_norm': 1.4780182838439941, 'learning_rate': 2.2350789342024036e-06, 'epoch': 0.55} {'loss': 2.3916, 'grad_norm': 1.7521766424179077, 'learning_rate': 2.2346469824654727e-06, 'epoch': 0.55} {'loss': 2.3305, 'grad_norm': 1.621728777885437, 'learning_rate': 2.234215038740283e-06, 'epoch': 0.55} {'loss': 2.4858, 'grad_norm': 1.7458066940307617, 'learning_rate': 2.233783103039877e-06, 'epoch': 0.55} {'loss': 2.4188, 'grad_norm': 1.6088809967041016, 'learning_rate': 2.233351175377294e-06, 'epoch': 0.55} {'loss': 2.3428, 'grad_norm': 1.6874643564224243, 'learning_rate': 2.2329192557655767e-06, 'epoch': 0.55} {'loss': 2.2781, 'grad_norm': 1.6697224378585815, 'learning_rate': 2.232487344217766e-06, 'epoch': 0.55} {'loss': 2.2281, 'grad_norm': 1.6454827785491943, 'learning_rate': 2.2320554407469017e-06, 'epoch': 0.55} {'loss': 2.136, 'grad_norm': 1.576323390007019, 'learning_rate': 2.2316235453660247e-06, 'epoch': 0.55} {'loss': 2.1481, 'grad_norm': 1.4743248224258423, 'learning_rate': 2.2311916580881752e-06, 'epoch': 0.55} {'loss': 2.3211, 'grad_norm': 1.3782535791397095, 'learning_rate': 2.230759778926393e-06, 'epoch': 0.55} {'loss': 2.4341, 'grad_norm': 1.7502025365829468, 'learning_rate': 2.2303279078937173e-06, 'epoch': 0.55} {'loss': 2.435, 'grad_norm': 1.566982388496399, 'learning_rate': 2.2298960450031886e-06, 'epoch': 0.55} {'loss': 1.9279, 'grad_norm': 1.7524219751358032, 'learning_rate': 2.2294641902678444e-06, 'epoch': 0.55} {'loss': 2.3232, 'grad_norm': 1.577708125114441, 'learning_rate': 2.229032343700725e-06, 'epoch': 0.55} {'loss': 2.3347, 'grad_norm': 1.8119429349899292, 'learning_rate': 2.2286005053148677e-06, 'epoch': 0.55} {'loss': 2.1842, 'grad_norm': 1.5344116687774658, 'learning_rate': 2.2281686751233116e-06, 'epoch': 0.55} {'loss': 2.0965, 'grad_norm': 5.257568359375, 'learning_rate': 2.2277368531390955e-06, 'epoch': 0.55} {'loss': 2.3833, 'grad_norm': 1.5838327407836914, 'learning_rate': 2.2273050393752564e-06, 'epoch': 0.55} {'loss': 2.2136, 'grad_norm': 1.9200879335403442, 'learning_rate': 2.226873233844833e-06, 'epoch': 0.55} {'loss': 2.3494, 'grad_norm': 1.8722132444381714, 'learning_rate': 2.226441436560861e-06, 'epoch': 0.55} {'loss': 2.1575, 'grad_norm': 1.4481465816497803, 'learning_rate': 2.2260096475363797e-06, 'epoch': 0.55} {'loss': 2.1403, 'grad_norm': 1.56037437915802, 'learning_rate': 2.225577866784424e-06, 'epoch': 0.55} {'loss': 2.1756, 'grad_norm': 1.626043438911438, 'learning_rate': 2.2251460943180314e-06, 'epoch': 0.55} {'loss': 2.2826, 'grad_norm': 1.422601342201233, 'learning_rate': 2.2247143301502384e-06, 'epoch': 0.55} {'loss': 2.2456, 'grad_norm': 1.683343768119812, 'learning_rate': 2.224282574294081e-06, 'epoch': 0.55} {'loss': 2.5148, 'grad_norm': 1.6656638383865356, 'learning_rate': 2.2238508267625953e-06, 'epoch': 0.55} {'loss': 2.2653, 'grad_norm': 1.2420696020126343, 'learning_rate': 2.2234190875688166e-06, 'epoch': 0.55} {'loss': 2.4349, 'grad_norm': 6.373597621917725, 'learning_rate': 2.22298735672578e-06, 'epoch': 0.55} {'loss': 2.475, 'grad_norm': 1.6622941493988037, 'learning_rate': 2.2225556342465212e-06, 'epoch': 0.55} {'loss': 2.1521, 'grad_norm': 2.518016815185547, 'learning_rate': 2.2221239201440767e-06, 'epoch': 0.55} {'loss': 1.985, 'grad_norm': 1.394938349723816, 'learning_rate': 2.2216922144314783e-06, 'epoch': 0.55} {'loss': 2.0641, 'grad_norm': 1.5218257904052734, 'learning_rate': 2.2212605171217615e-06, 'epoch': 0.55} {'loss': 2.2417, 'grad_norm': 1.419315218925476, 'learning_rate': 2.22082882822796e-06, 'epoch': 0.55} {'loss': 2.4511, 'grad_norm': 1.634770154953003, 'learning_rate': 2.220397147763109e-06, 'epoch': 0.55} {'loss': 2.4512, 'grad_norm': 1.4777705669403076, 'learning_rate': 2.219965475740241e-06, 'epoch': 0.55} {'loss': 2.2622, 'grad_norm': 44.907814025878906, 'learning_rate': 2.2195338121723893e-06, 'epoch': 0.55} {'loss': 2.3726, 'grad_norm': 1.6176563501358032, 'learning_rate': 2.219102157072588e-06, 'epoch': 0.55} {'loss': 2.2629, 'grad_norm': 1.4732840061187744, 'learning_rate': 2.21867051045387e-06, 'epoch': 0.55} {'loss': 1.632, 'grad_norm': 1.4931230545043945, 'learning_rate': 2.218238872329266e-06, 'epoch': 0.55} {'loss': 2.3112, 'grad_norm': 1.7898319959640503, 'learning_rate': 2.21780724271181e-06, 'epoch': 0.55} {'loss': 1.6097, 'grad_norm': 1.4185274839401245, 'learning_rate': 2.217375621614534e-06, 'epoch': 0.55} {'loss': 2.1353, 'grad_norm': 2.08918833732605, 'learning_rate': 2.2169440090504694e-06, 'epoch': 0.55} {'loss': 2.4417, 'grad_norm': 1.4996693134307861, 'learning_rate': 2.216512405032648e-06, 'epoch': 0.55} {'loss': 2.1404, 'grad_norm': 1.6860071420669556, 'learning_rate': 2.2160808095741003e-06, 'epoch': 0.55} {'loss': 2.4711, 'grad_norm': 4.272075653076172, 'learning_rate': 2.2156492226878586e-06, 'epoch': 0.55} {'loss': 2.1215, 'grad_norm': 1.6457862854003906, 'learning_rate': 2.215217644386953e-06, 'epoch': 0.55} {'loss': 2.5021, 'grad_norm': 1.3429754972457886, 'learning_rate': 2.214786074684416e-06, 'epoch': 0.55} {'loss': 2.1549, 'grad_norm': 1.393826961517334, 'learning_rate': 2.214354513593274e-06, 'epoch': 0.55} {'loss': 2.2338, 'grad_norm': 1.5691629648208618, 'learning_rate': 2.2139229611265593e-06, 'epoch': 0.55} {'loss': 2.3242, 'grad_norm': 1.5490623712539673, 'learning_rate': 2.2134914172973024e-06, 'epoch': 0.55} {'loss': 1.9281, 'grad_norm': 1.338716745376587, 'learning_rate': 2.2130598821185317e-06, 'epoch': 0.55} {'loss': 2.1261, 'grad_norm': 1.5525782108306885, 'learning_rate': 2.212628355603276e-06, 'epoch': 0.55} {'loss': 2.2555, 'grad_norm': 1.610979676246643, 'learning_rate': 2.2121968377645654e-06, 'epoch': 0.55} {'loss': 2.1805, 'grad_norm': 2.6432511806488037, 'learning_rate': 2.2117653286154285e-06, 'epoch': 0.55} {'loss': 2.2913, 'grad_norm': 1.7574810981750488, 'learning_rate': 2.2113338281688927e-06, 'epoch': 0.55} {'loss': 2.3757, 'grad_norm': 2.187307596206665, 'learning_rate': 2.210902336437988e-06, 'epoch': 0.55} {'loss': 2.3356, 'grad_norm': 1.562360405921936, 'learning_rate': 2.2104708534357407e-06, 'epoch': 0.55} {'loss': 2.6382, 'grad_norm': 11.078983306884766, 'learning_rate': 2.2100393791751785e-06, 'epoch': 0.55} {'loss': 2.1683, 'grad_norm': 1.8925305604934692, 'learning_rate': 2.2096079136693295e-06, 'epoch': 0.55} {'loss': 2.3444, 'grad_norm': 1.577091932296753, 'learning_rate': 2.209176456931221e-06, 'epoch': 0.55} {'loss': 2.2746, 'grad_norm': 1.5695487260818481, 'learning_rate': 2.2087450089738786e-06, 'epoch': 0.55} {'loss': 2.1851, 'grad_norm': 1.632782220840454, 'learning_rate': 2.20831356981033e-06, 'epoch': 0.55} {'loss': 2.4279, 'grad_norm': 1.693112850189209, 'learning_rate': 2.207882139453602e-06, 'epoch': 0.55} {'loss': 2.3279, 'grad_norm': 1.6257355213165283, 'learning_rate': 2.2074507179167195e-06, 'epoch': 0.55} {'loss': 2.0523, 'grad_norm': 1.4159879684448242, 'learning_rate': 2.2070193052127106e-06, 'epoch': 0.55} {'loss': 2.1545, 'grad_norm': 2.002227306365967, 'learning_rate': 2.2065879013545966e-06, 'epoch': 0.55} {'loss': 2.1952, 'grad_norm': 2.4136781692504883, 'learning_rate': 2.2061565063554063e-06, 'epoch': 0.55} {'loss': 2.4567, 'grad_norm': 1.6981452703475952, 'learning_rate': 2.2057251202281635e-06, 'epoch': 0.55} {'loss': 1.4675, 'grad_norm': 1.8157951831817627, 'learning_rate': 2.2052937429858932e-06, 'epoch': 0.55} {'loss': 2.366, 'grad_norm': 1.693238377571106, 'learning_rate': 2.2048623746416198e-06, 'epoch': 0.55} {'loss': 2.0801, 'grad_norm': 1.5524038076400757, 'learning_rate': 2.204431015208367e-06, 'epoch': 0.55} {'loss': 2.3222, 'grad_norm': 1.6445566415786743, 'learning_rate': 2.2039996646991597e-06, 'epoch': 0.55} {'loss': 2.2682, 'grad_norm': 1.747365117073059, 'learning_rate': 2.203568323127021e-06, 'epoch': 0.55} {'loss': 2.3103, 'grad_norm': 1.6246105432510376, 'learning_rate': 2.203136990504975e-06, 'epoch': 0.55} {'loss': 2.1673, 'grad_norm': 1.4291380643844604, 'learning_rate': 2.2027056668460437e-06, 'epoch': 0.55} {'loss': 1.9813, 'grad_norm': 1.470471978187561, 'learning_rate': 2.20227435216325e-06, 'epoch': 0.55} {'loss': 2.0752, 'grad_norm': 1.7046217918395996, 'learning_rate': 2.2018430464696174e-06, 'epoch': 0.55} {'loss': 2.4674, 'grad_norm': 1.6553596258163452, 'learning_rate': 2.201411749778167e-06, 'epoch': 0.55} {'loss': 2.3249, 'grad_norm': 1.7128450870513916, 'learning_rate': 2.200980462101922e-06, 'epoch': 0.55} {'loss': 2.1349, 'grad_norm': 1.3735474348068237, 'learning_rate': 2.200549183453904e-06, 'epoch': 0.55} {'loss': 2.408, 'grad_norm': 1.5694032907485962, 'learning_rate': 2.200117913847134e-06, 'epoch': 0.55} {'loss': 2.1533, 'grad_norm': 1.3144066333770752, 'learning_rate': 2.1996866532946337e-06, 'epoch': 0.55} {'loss': 2.4345, 'grad_norm': 1.622267723083496, 'learning_rate': 2.199255401809424e-06, 'epoch': 0.55} {'loss': 2.2289, 'grad_norm': 12.65969181060791, 'learning_rate': 2.1988241594045252e-06, 'epoch': 0.55} {'loss': 1.1238, 'grad_norm': 1.7066603899002075, 'learning_rate': 2.198392926092958e-06, 'epoch': 0.55} {'loss': 2.1433, 'grad_norm': 1.7360938787460327, 'learning_rate': 2.197961701887742e-06, 'epoch': 0.55} {'loss': 1.963, 'grad_norm': 1.5403980016708374, 'learning_rate': 2.1975304868018975e-06, 'epoch': 0.55} {'loss': 2.2825, 'grad_norm': 3.097248077392578, 'learning_rate': 2.1970992808484446e-06, 'epoch': 0.55} {'loss': 2.3242, 'grad_norm': 1.3071491718292236, 'learning_rate': 2.1966680840404013e-06, 'epoch': 0.55} {'loss': 2.3056, 'grad_norm': 1.5489698648452759, 'learning_rate': 2.1962368963907874e-06, 'epoch': 0.55} {'loss': 1.904, 'grad_norm': 1.6673437356948853, 'learning_rate': 2.195805717912623e-06, 'epoch': 0.55} {'loss': 2.4445, 'grad_norm': 1.4812631607055664, 'learning_rate': 2.195374548618924e-06, 'epoch': 0.55} {'loss': 2.1408, 'grad_norm': 1.6186448335647583, 'learning_rate': 2.19494338852271e-06, 'epoch': 0.55} {'loss': 2.3178, 'grad_norm': 2.2165298461914062, 'learning_rate': 2.1945122376369986e-06, 'epoch': 0.55} {'loss': 2.3688, 'grad_norm': 1.5024771690368652, 'learning_rate': 2.194081095974807e-06, 'epoch': 0.55} {'loss': 2.1763, 'grad_norm': 1.4286988973617554, 'learning_rate': 2.1936499635491536e-06, 'epoch': 0.55} {'loss': 2.3631, 'grad_norm': 1.5924957990646362, 'learning_rate': 2.1932188403730547e-06, 'epoch': 0.55} {'loss': 2.2745, 'grad_norm': 2.080533504486084, 'learning_rate': 2.192787726459528e-06, 'epoch': 0.55} {'loss': 1.2965, 'grad_norm': 2.061877965927124, 'learning_rate': 2.192356621821589e-06, 'epoch': 0.55} {'loss': 2.2315, 'grad_norm': 3.3335461616516113, 'learning_rate': 2.1919255264722545e-06, 'epoch': 0.55} {'loss': 2.219, 'grad_norm': 1.5501245260238647, 'learning_rate': 2.1914944404245404e-06, 'epoch': 0.55} {'loss': 2.1961, 'grad_norm': 1.6838289499282837, 'learning_rate': 2.191063363691462e-06, 'epoch': 0.55} {'loss': 2.3849, 'grad_norm': 2.1985275745391846, 'learning_rate': 2.190632296286035e-06, 'epoch': 0.55} {'loss': 2.2549, 'grad_norm': 1.940677523612976, 'learning_rate': 2.1902012382212745e-06, 'epoch': 0.55} {'loss': 2.1707, 'grad_norm': 1.7332489490509033, 'learning_rate': 2.1897701895101954e-06, 'epoch': 0.55} {'loss': 2.2815, 'grad_norm': 16.32217788696289, 'learning_rate': 2.189339150165812e-06, 'epoch': 0.55} {'loss': 2.1275, 'grad_norm': 1.5913761854171753, 'learning_rate': 2.1889081202011383e-06, 'epoch': 0.55} {'loss': 2.083, 'grad_norm': 1.357529640197754, 'learning_rate': 2.188477099629189e-06, 'epoch': 0.55} {'loss': 2.4235, 'grad_norm': 1.7210465669631958, 'learning_rate': 2.1880460884629793e-06, 'epoch': 0.55} {'loss': 2.3453, 'grad_norm': 1.6620196104049683, 'learning_rate': 2.1876150867155196e-06, 'epoch': 0.55} {'loss': 2.5587, 'grad_norm': 1.607875943183899, 'learning_rate': 2.1871840943998234e-06, 'epoch': 0.55} {'loss': 2.3898, 'grad_norm': 1.5804344415664673, 'learning_rate': 2.186753111528905e-06, 'epoch': 0.55} {'loss': 2.2949, 'grad_norm': 1.507947325706482, 'learning_rate': 2.1863221381157765e-06, 'epoch': 0.55} {'loss': 2.6141, 'grad_norm': 1.7834978103637695, 'learning_rate': 2.18589117417345e-06, 'epoch': 0.55} {'loss': 2.0817, 'grad_norm': 1.408994197845459, 'learning_rate': 2.1854602197149376e-06, 'epoch': 0.55} {'loss': 2.323, 'grad_norm': 1.4774360656738281, 'learning_rate': 2.185029274753251e-06, 'epoch': 0.55} {'loss': 2.413, 'grad_norm': 1.5895718336105347, 'learning_rate': 2.1845983393014017e-06, 'epoch': 0.55} {'loss': 2.2864, 'grad_norm': 1.6424379348754883, 'learning_rate': 2.1841674133724015e-06, 'epoch': 0.55} {'loss': 2.2452, 'grad_norm': 1.1691160202026367, 'learning_rate': 2.1837364969792596e-06, 'epoch': 0.55} {'loss': 2.1255, 'grad_norm': 1.4563806056976318, 'learning_rate': 2.1833055901349875e-06, 'epoch': 0.55} {'loss': 2.2984, 'grad_norm': 1.5455316305160522, 'learning_rate': 2.1828746928525954e-06, 'epoch': 0.55} {'loss': 2.5082, 'grad_norm': 1.5338138341903687, 'learning_rate': 2.1824438051450934e-06, 'epoch': 0.55} {'loss': 2.4309, 'grad_norm': 1.2663636207580566, 'learning_rate': 2.1820129270254906e-06, 'epoch': 0.55} {'loss': 2.0833, 'grad_norm': 1.6451603174209595, 'learning_rate': 2.181582058506797e-06, 'epoch': 0.56} {'loss': 2.1601, 'grad_norm': 1.218521237373352, 'learning_rate': 2.181151199602022e-06, 'epoch': 0.56} {'loss': 2.4249, 'grad_norm': 1.4232412576675415, 'learning_rate': 2.1807203503241735e-06, 'epoch': 0.56} {'loss': 2.2418, 'grad_norm': 1.4551990032196045, 'learning_rate': 2.1802895106862622e-06, 'epoch': 0.56} {'loss': 2.3755, 'grad_norm': 2.2969868183135986, 'learning_rate': 2.179858680701293e-06, 'epoch': 0.56} {'loss': 2.3013, 'grad_norm': 1.7288198471069336, 'learning_rate': 2.1794278603822762e-06, 'epoch': 0.56} {'loss': 2.3397, 'grad_norm': 1.647695541381836, 'learning_rate': 2.178997049742218e-06, 'epoch': 0.56} {'loss': 2.0513, 'grad_norm': 1.9712772369384766, 'learning_rate': 2.1785662487941274e-06, 'epoch': 0.56} {'loss': 2.1012, 'grad_norm': 1.4843324422836304, 'learning_rate': 2.1781354575510103e-06, 'epoch': 0.56} {'loss': 2.4446, 'grad_norm': 1.579278826713562, 'learning_rate': 2.177704676025874e-06, 'epoch': 0.56} {'loss': 1.4079, 'grad_norm': 1.4360125064849854, 'learning_rate': 2.1772739042317246e-06, 'epoch': 0.56} {'loss': 2.1878, 'grad_norm': 1.5572174787521362, 'learning_rate': 2.176843142181569e-06, 'epoch': 0.56} {'loss': 1.9916, 'grad_norm': 1.4869168996810913, 'learning_rate': 2.176412389888412e-06, 'epoch': 0.56} {'loss': 2.0357, 'grad_norm': 1.24480140209198, 'learning_rate': 2.17598164736526e-06, 'epoch': 0.56} {'loss': 2.3301, 'grad_norm': 1.6184147596359253, 'learning_rate': 2.175550914625118e-06, 'epoch': 0.56} {'loss': 2.285, 'grad_norm': 1.7493982315063477, 'learning_rate': 2.175120191680991e-06, 'epoch': 0.56} {'loss': 2.0413, 'grad_norm': 1.4200538396835327, 'learning_rate': 2.174689478545884e-06, 'epoch': 0.56} {'loss': 2.2982, 'grad_norm': 1.4340170621871948, 'learning_rate': 2.174258775232801e-06, 'epoch': 0.56} {'loss': 2.0346, 'grad_norm': 1.3845471143722534, 'learning_rate': 2.1738280817547465e-06, 'epoch': 0.56} {'loss': 2.4242, 'grad_norm': 1.779823899269104, 'learning_rate': 2.1733973981247242e-06, 'epoch': 0.56} {'loss': 2.3857, 'grad_norm': 1.7049983739852905, 'learning_rate': 2.172966724355738e-06, 'epoch': 0.56} {'loss': 1.5121, 'grad_norm': 1.491999864578247, 'learning_rate': 2.1725360604607905e-06, 'epoch': 0.56} {'loss': 2.2214, 'grad_norm': 2.4128026962280273, 'learning_rate': 2.172105406452885e-06, 'epoch': 0.56} {'loss': 2.1448, 'grad_norm': 1.6376522779464722, 'learning_rate': 2.1716747623450237e-06, 'epoch': 0.56} {'loss': 2.2397, 'grad_norm': 1.3758057355880737, 'learning_rate': 2.1712441281502095e-06, 'epoch': 0.56} {'loss': 2.4629, 'grad_norm': 1.6665560007095337, 'learning_rate': 2.170813503881444e-06, 'epoch': 0.56} {'loss': 2.3161, 'grad_norm': 1.9452691078186035, 'learning_rate': 2.1703828895517294e-06, 'epoch': 0.56} {'loss': 2.259, 'grad_norm': 1.5305570363998413, 'learning_rate': 2.1699522851740665e-06, 'epoch': 0.56} {'loss': 2.5136, 'grad_norm': 1.7142235040664673, 'learning_rate': 2.1695216907614566e-06, 'epoch': 0.56} {'loss': 2.2296, 'grad_norm': 2.08577036857605, 'learning_rate': 2.1690911063269025e-06, 'epoch': 0.56} {'loss': 2.3261, 'grad_norm': 1.5721386671066284, 'learning_rate': 2.1686605318834013e-06, 'epoch': 0.56} {'loss': 2.3299, 'grad_norm': 1.9263091087341309, 'learning_rate': 2.1682299674439556e-06, 'epoch': 0.56} {'loss': 2.3113, 'grad_norm': 1.6557186841964722, 'learning_rate': 2.1677994130215643e-06, 'epoch': 0.56} {'loss': 2.3608, 'grad_norm': 1.6421692371368408, 'learning_rate': 2.167368868629227e-06, 'epoch': 0.56} {'loss': 2.0919, 'grad_norm': 1.2672953605651855, 'learning_rate': 2.166938334279944e-06, 'epoch': 0.56} {'loss': 2.3263, 'grad_norm': 1.5486520528793335, 'learning_rate': 2.166507809986713e-06, 'epoch': 0.56} {'loss': 2.094, 'grad_norm': 1.4470229148864746, 'learning_rate': 2.1660772957625344e-06, 'epoch': 0.56} {'loss': 2.1875, 'grad_norm': 1.591667890548706, 'learning_rate': 2.165646791620405e-06, 'epoch': 0.56} {'loss': 2.3507, 'grad_norm': 2.1442341804504395, 'learning_rate': 2.1652162975733246e-06, 'epoch': 0.56} {'loss': 2.5229, 'grad_norm': 1.6385610103607178, 'learning_rate': 2.1647858136342893e-06, 'epoch': 0.56} {'loss': 2.6541, 'grad_norm': 1.6123629808425903, 'learning_rate': 2.164355339816297e-06, 'epoch': 0.56} {'loss': 2.1666, 'grad_norm': 1.7921141386032104, 'learning_rate': 2.1639248761323453e-06, 'epoch': 0.56} {'loss': 2.2975, 'grad_norm': 1.6670244932174683, 'learning_rate': 2.163494422595431e-06, 'epoch': 0.56} {'loss': 2.2067, 'grad_norm': 1.5219805240631104, 'learning_rate': 2.1630639792185506e-06, 'epoch': 0.56} {'loss': 2.164, 'grad_norm': 1.5669564008712769, 'learning_rate': 2.1626335460147005e-06, 'epoch': 0.56} {'loss': 2.4418, 'grad_norm': 1.6124542951583862, 'learning_rate': 2.162203122996876e-06, 'epoch': 0.56} {'loss': 2.2656, 'grad_norm': 1.5937758684158325, 'learning_rate': 2.161772710178074e-06, 'epoch': 0.56} {'loss': 2.1105, 'grad_norm': 2.2856523990631104, 'learning_rate': 2.16134230757129e-06, 'epoch': 0.56} {'loss': 2.5306, 'grad_norm': 1.5916543006896973, 'learning_rate': 2.1609119151895173e-06, 'epoch': 0.56} {'loss': 2.2827, 'grad_norm': 1.6160740852355957, 'learning_rate': 2.1604815330457514e-06, 'epoch': 0.56} {'loss': 2.2692, 'grad_norm': 1.8108184337615967, 'learning_rate': 2.160051161152987e-06, 'epoch': 0.56} {'loss': 2.0244, 'grad_norm': 1.3417636156082153, 'learning_rate': 2.1596207995242183e-06, 'epoch': 0.56} {'loss': 1.3728, 'grad_norm': 1.6039073467254639, 'learning_rate': 2.159190448172439e-06, 'epoch': 0.56} {'loss': 2.583, 'grad_norm': 1.6204026937484741, 'learning_rate': 2.158760107110642e-06, 'epoch': 0.56} {'loss': 2.2989, 'grad_norm': 1.9641205072402954, 'learning_rate': 2.1583297763518217e-06, 'epoch': 0.56} {'loss': 2.0578, 'grad_norm': 1.4531959295272827, 'learning_rate': 2.15789945590897e-06, 'epoch': 0.56} {'loss': 2.3037, 'grad_norm': 1.415953278541565, 'learning_rate': 2.1574691457950805e-06, 'epoch': 0.56} {'loss': 2.0691, 'grad_norm': 1.5976622104644775, 'learning_rate': 2.157038846023144e-06, 'epoch': 0.56} {'loss': 2.2687, 'grad_norm': 1.6677719354629517, 'learning_rate': 2.1566085566061532e-06, 'epoch': 0.56} {'loss': 2.1146, 'grad_norm': 1.6663620471954346, 'learning_rate': 2.1561782775570996e-06, 'epoch': 0.56} {'loss': 2.5073, 'grad_norm': 1.8489015102386475, 'learning_rate': 2.1557480088889747e-06, 'epoch': 0.56} {'loss': 2.296, 'grad_norm': 1.7682377099990845, 'learning_rate': 2.1553177506147686e-06, 'epoch': 0.56} {'loss': 2.0236, 'grad_norm': 1.6875627040863037, 'learning_rate': 2.1548875027474736e-06, 'epoch': 0.56} {'loss': 2.216, 'grad_norm': 1.5840444564819336, 'learning_rate': 2.1544572653000794e-06, 'epoch': 0.56} {'loss': 2.2738, 'grad_norm': 1.6380813121795654, 'learning_rate': 2.1540270382855764e-06, 'epoch': 0.56} {'loss': 2.1809, 'grad_norm': 1.426471471786499, 'learning_rate': 2.1535968217169535e-06, 'epoch': 0.56} {'loss': 2.3295, 'grad_norm': 1.6324200630187988, 'learning_rate': 2.1531666156071995e-06, 'epoch': 0.56} {'loss': 2.2522, 'grad_norm': 1.817124366760254, 'learning_rate': 2.1527364199693054e-06, 'epoch': 0.56} {'loss': 2.3626, 'grad_norm': 1.3956365585327148, 'learning_rate': 2.1523062348162586e-06, 'epoch': 0.56} {'loss': 2.1474, 'grad_norm': 1.3888887166976929, 'learning_rate': 2.151876060161048e-06, 'epoch': 0.56} {'loss': 2.2906, 'grad_norm': 1.6337639093399048, 'learning_rate': 2.1514458960166623e-06, 'epoch': 0.56} {'loss': 2.0667, 'grad_norm': 1.453263521194458, 'learning_rate': 2.1510157423960887e-06, 'epoch': 0.56} {'loss': 2.313, 'grad_norm': 1.5248751640319824, 'learning_rate': 2.1505855993123148e-06, 'epoch': 0.56} {'loss': 1.9968, 'grad_norm': 1.3935927152633667, 'learning_rate': 2.1501554667783286e-06, 'epoch': 0.56} {'loss': 2.4063, 'grad_norm': 1.4322928190231323, 'learning_rate': 2.149725344807116e-06, 'epoch': 0.56} {'loss': 2.4185, 'grad_norm': 1.700977087020874, 'learning_rate': 2.1492952334116634e-06, 'epoch': 0.56} {'loss': 2.1827, 'grad_norm': 1.962533712387085, 'learning_rate': 2.1488651326049577e-06, 'epoch': 0.56} {'loss': 2.3108, 'grad_norm': 2.118274688720703, 'learning_rate': 2.148435042399985e-06, 'epoch': 0.56} {'loss': 2.5363, 'grad_norm': 1.5822473764419556, 'learning_rate': 2.148004962809729e-06, 'epoch': 0.56} {'loss': 2.2456, 'grad_norm': 1.646536946296692, 'learning_rate': 2.147574893847178e-06, 'epoch': 0.56} {'loss': 1.363, 'grad_norm': 1.5362120866775513, 'learning_rate': 2.1471448355253157e-06, 'epoch': 0.56} {'loss': 2.2994, 'grad_norm': 1.4539507627487183, 'learning_rate': 2.1467147878571263e-06, 'epoch': 0.56} {'loss': 2.1151, 'grad_norm': 1.4102637767791748, 'learning_rate': 2.1462847508555952e-06, 'epoch': 0.56} {'loss': 2.2908, 'grad_norm': 2.255784273147583, 'learning_rate': 2.1458547245337046e-06, 'epoch': 0.56} {'loss': 1.9473, 'grad_norm': 1.4066061973571777, 'learning_rate': 2.1454247089044394e-06, 'epoch': 0.56} {'loss': 1.3653, 'grad_norm': 1.998099446296692, 'learning_rate': 2.144994703980783e-06, 'epoch': 0.56} {'loss': 2.3068, 'grad_norm': 1.4602817296981812, 'learning_rate': 2.144564709775718e-06, 'epoch': 0.56} {'loss': 2.3134, 'grad_norm': 1.5212011337280273, 'learning_rate': 2.144134726302227e-06, 'epoch': 0.56} {'loss': 2.3535, 'grad_norm': 1.733582854270935, 'learning_rate': 2.143704753573293e-06, 'epoch': 0.56} {'loss': 2.2988, 'grad_norm': 1.8950270414352417, 'learning_rate': 2.143274791601898e-06, 'epoch': 0.56} {'loss': 2.4221, 'grad_norm': 7.51699161529541, 'learning_rate': 2.1428448404010227e-06, 'epoch': 0.56} {'loss': 2.2356, 'grad_norm': 1.591725468635559, 'learning_rate': 2.142414899983651e-06, 'epoch': 0.56} {'loss': 2.6118, 'grad_norm': 1.54402756690979, 'learning_rate': 2.1419849703627612e-06, 'epoch': 0.56} {'loss': 2.2701, 'grad_norm': 1.760269045829773, 'learning_rate': 2.1415550515513355e-06, 'epoch': 0.56} {'loss': 2.2024, 'grad_norm': 1.5900800228118896, 'learning_rate': 2.141125143562353e-06, 'epoch': 0.56} {'loss': 2.501, 'grad_norm': 1.4228109121322632, 'learning_rate': 2.140695246408796e-06, 'epoch': 0.56} {'loss': 2.2546, 'grad_norm': 1.5339264869689941, 'learning_rate': 2.1402653601036423e-06, 'epoch': 0.56} {'loss': 2.3454, 'grad_norm': 1.3080558776855469, 'learning_rate': 2.1398354846598728e-06, 'epoch': 0.56} {'loss': 1.6836, 'grad_norm': 1.7155698537826538, 'learning_rate': 2.1394056200904655e-06, 'epoch': 0.56} {'loss': 2.6539, 'grad_norm': 1.3928364515304565, 'learning_rate': 2.1389757664084e-06, 'epoch': 0.56} {'loss': 2.2452, 'grad_norm': 1.6723355054855347, 'learning_rate': 2.1385459236266555e-06, 'epoch': 0.56} {'loss': 2.0214, 'grad_norm': 1.5530245304107666, 'learning_rate': 2.138116091758208e-06, 'epoch': 0.56} {'loss': 2.3218, 'grad_norm': 1.5910964012145996, 'learning_rate': 2.1376862708160365e-06, 'epoch': 0.56} {'loss': 2.0744, 'grad_norm': 1.8173894882202148, 'learning_rate': 2.1372564608131185e-06, 'epoch': 0.56} {'loss': 2.2704, 'grad_norm': 1.8811438083648682, 'learning_rate': 2.136826661762431e-06, 'epoch': 0.56} {'loss': 2.0995, 'grad_norm': 1.7333569526672363, 'learning_rate': 2.136396873676951e-06, 'epoch': 0.56} {'loss': 2.2737, 'grad_norm': 1.672805666923523, 'learning_rate': 2.1359670965696547e-06, 'epoch': 0.56} {'loss': 2.5241, 'grad_norm': 1.7683937549591064, 'learning_rate': 2.1355373304535178e-06, 'epoch': 0.56} {'loss': 2.2503, 'grad_norm': 1.7361476421356201, 'learning_rate': 2.1351075753415175e-06, 'epoch': 0.56} {'loss': 2.3543, 'grad_norm': 1.4528495073318481, 'learning_rate': 2.13467783124663e-06, 'epoch': 0.56} {'loss': 2.1767, 'grad_norm': 1.8441290855407715, 'learning_rate': 2.1342480981818275e-06, 'epoch': 0.56} {'loss': 2.0442, 'grad_norm': 1.181086778640747, 'learning_rate': 2.133818376160086e-06, 'epoch': 0.56} {'loss': 2.4141, 'grad_norm': 1.388425350189209, 'learning_rate': 2.1333886651943806e-06, 'epoch': 0.56} {'loss': 2.1072, 'grad_norm': 1.520752191543579, 'learning_rate': 2.1329589652976853e-06, 'epoch': 0.56} {'loss': 2.0567, 'grad_norm': 1.572149634361267, 'learning_rate': 2.132529276482974e-06, 'epoch': 0.56} {'loss': 2.1587, 'grad_norm': 1.619989037513733, 'learning_rate': 2.13209959876322e-06, 'epoch': 0.56} {'loss': 2.1164, 'grad_norm': 1.5081617832183838, 'learning_rate': 2.1316699321513966e-06, 'epoch': 0.56} {'loss': 2.3237, 'grad_norm': 1.5475380420684814, 'learning_rate': 2.131240276660477e-06, 'epoch': 0.56} {'loss': 2.1764, 'grad_norm': 1.9440983533859253, 'learning_rate': 2.1308106323034322e-06, 'epoch': 0.56} {'loss': 2.2036, 'grad_norm': 1.45740807056427, 'learning_rate': 2.130380999093236e-06, 'epoch': 0.56} {'loss': 2.1863, 'grad_norm': 1.5592049360275269, 'learning_rate': 2.129951377042859e-06, 'epoch': 0.56} {'loss': 1.9405, 'grad_norm': 1.4088289737701416, 'learning_rate': 2.1295217661652736e-06, 'epoch': 0.56} {'loss': 2.4111, 'grad_norm': 1.6055659055709839, 'learning_rate': 2.1290921664734506e-06, 'epoch': 0.56} {'loss': 2.6205, 'grad_norm': 1.6394217014312744, 'learning_rate': 2.1286625779803603e-06, 'epoch': 0.56} {'loss': 2.3115, 'grad_norm': 1.8153020143508911, 'learning_rate': 2.128233000698974e-06, 'epoch': 0.56} {'loss': 2.2515, 'grad_norm': 1.6595712900161743, 'learning_rate': 2.1278034346422616e-06, 'epoch': 0.56} {'loss': 2.4065, 'grad_norm': 1.5840297937393188, 'learning_rate': 2.127373879823194e-06, 'epoch': 0.56} {'loss': 2.241, 'grad_norm': 1.5643144845962524, 'learning_rate': 2.1269443362547378e-06, 'epoch': 0.56} {'loss': 2.4241, 'grad_norm': 1.9138818979263306, 'learning_rate': 2.1265148039498635e-06, 'epoch': 0.56} {'loss': 2.1378, 'grad_norm': 1.693748950958252, 'learning_rate': 2.126085282921541e-06, 'epoch': 0.56} {'loss': 1.9145, 'grad_norm': 1.4370242357254028, 'learning_rate': 2.1256557731827374e-06, 'epoch': 0.56} {'loss': 2.1468, 'grad_norm': 1.4325767755508423, 'learning_rate': 2.1252262747464213e-06, 'epoch': 0.56} {'loss': 2.5559, 'grad_norm': 1.5875476598739624, 'learning_rate': 2.1247967876255604e-06, 'epoch': 0.56} {'loss': 2.0657, 'grad_norm': 1.4240193367004395, 'learning_rate': 2.1243673118331218e-06, 'epoch': 0.56} {'loss': 2.0631, 'grad_norm': 1.5875484943389893, 'learning_rate': 2.123937847382073e-06, 'epoch': 0.56} {'loss': 2.3728, 'grad_norm': 1.5706912279129028, 'learning_rate': 2.1235083942853813e-06, 'epoch': 0.56} {'loss': 2.2538, 'grad_norm': 2.333460807800293, 'learning_rate': 2.1230789525560114e-06, 'epoch': 0.56} {'loss': 2.2115, 'grad_norm': 1.6363136768341064, 'learning_rate': 2.1226495222069302e-06, 'epoch': 0.56} {'loss': 2.0093, 'grad_norm': 1.6618002653121948, 'learning_rate': 2.1222201032511037e-06, 'epoch': 0.56} {'loss': 2.2282, 'grad_norm': 1.5711427927017212, 'learning_rate': 2.1217906957014974e-06, 'epoch': 0.56} {'loss': 2.1705, 'grad_norm': 1.2794575691223145, 'learning_rate': 2.1213612995710747e-06, 'epoch': 0.56} {'loss': 2.1227, 'grad_norm': 1.696067214012146, 'learning_rate': 2.120931914872802e-06, 'epoch': 0.56} {'loss': 2.2995, 'grad_norm': 1.7038397789001465, 'learning_rate': 2.1205025416196432e-06, 'epoch': 0.56} {'loss': 2.1884, 'grad_norm': 1.7610610723495483, 'learning_rate': 2.120073179824562e-06, 'epoch': 0.56} {'loss': 2.1983, 'grad_norm': 1.496620535850525, 'learning_rate': 2.119643829500523e-06, 'epoch': 0.56} {'loss': 2.1326, 'grad_norm': 1.5562870502471924, 'learning_rate': 2.1192144906604877e-06, 'epoch': 0.56} {'loss': 2.1737, 'grad_norm': 1.5226962566375732, 'learning_rate': 2.11878516331742e-06, 'epoch': 0.56} {'loss': 2.1214, 'grad_norm': 1.8750377893447876, 'learning_rate': 2.1183558474842826e-06, 'epoch': 0.56} {'loss': 2.3007, 'grad_norm': 1.4969640970230103, 'learning_rate': 2.1179265431740377e-06, 'epoch': 0.56} {'loss': 2.1808, 'grad_norm': 1.9644250869750977, 'learning_rate': 2.1174972503996467e-06, 'epoch': 0.56} {'loss': 2.0603, 'grad_norm': 1.6865986585617065, 'learning_rate': 2.117067969174072e-06, 'epoch': 0.56} {'loss': 2.036, 'grad_norm': 1.445365071296692, 'learning_rate': 2.1166386995102735e-06, 'epoch': 0.56} {'loss': 2.0232, 'grad_norm': 7.30565881729126, 'learning_rate': 2.1162094414212125e-06, 'epoch': 0.56} {'loss': 2.3389, 'grad_norm': 1.5689315795898438, 'learning_rate': 2.1157801949198516e-06, 'epoch': 0.56} {'loss': 2.5266, 'grad_norm': 1.8582950830459595, 'learning_rate': 2.115350960019148e-06, 'epoch': 0.56} {'loss': 2.3024, 'grad_norm': 1.6685878038406372, 'learning_rate': 2.1149217367320626e-06, 'epoch': 0.56} {'loss': 2.0745, 'grad_norm': 1.9388099908828735, 'learning_rate': 2.114492525071554e-06, 'epoch': 0.56} {'loss': 2.3947, 'grad_norm': 1.3294779062271118, 'learning_rate': 2.114063325050583e-06, 'epoch': 0.56} {'loss': 2.3329, 'grad_norm': 1.7006314992904663, 'learning_rate': 2.1136341366821077e-06, 'epoch': 0.56} {'loss': 2.165, 'grad_norm': 1.9791285991668701, 'learning_rate': 2.1132049599790856e-06, 'epoch': 0.56} {'loss': 2.3086, 'grad_norm': 1.7534244060516357, 'learning_rate': 2.1127757949544757e-06, 'epoch': 0.56} {'loss': 2.2482, 'grad_norm': 1.6495016813278198, 'learning_rate': 2.1123466416212358e-06, 'epoch': 0.56} {'loss': 2.1779, 'grad_norm': 1.4973348379135132, 'learning_rate': 2.111917499992323e-06, 'epoch': 0.56} {'loss': 2.3949, 'grad_norm': 2.0189080238342285, 'learning_rate': 2.111488370080693e-06, 'epoch': 0.56} {'loss': 1.8096, 'grad_norm': 1.1828882694244385, 'learning_rate': 2.1110592518993043e-06, 'epoch': 0.56} {'loss': 2.231, 'grad_norm': 1.511133074760437, 'learning_rate': 2.1106301454611118e-06, 'epoch': 0.56} {'loss': 2.0877, 'grad_norm': 1.7187297344207764, 'learning_rate': 2.1102010507790725e-06, 'epoch': 0.56} {'loss': 2.2079, 'grad_norm': 1.6175464391708374, 'learning_rate': 2.109771967866141e-06, 'epoch': 0.56} {'loss': 2.3133, 'grad_norm': 1.659825325012207, 'learning_rate': 2.109342896735273e-06, 'epoch': 0.56} {'loss': 2.1848, 'grad_norm': 1.4722874164581299, 'learning_rate': 2.1089138373994226e-06, 'epoch': 0.56} {'loss': 2.411, 'grad_norm': 1.2529579401016235, 'learning_rate': 2.1084847898715465e-06, 'epoch': 0.56} {'loss': 2.0212, 'grad_norm': 1.5355725288391113, 'learning_rate': 2.1080557541645967e-06, 'epoch': 0.56} {'loss': 2.1672, 'grad_norm': 1.287766695022583, 'learning_rate': 2.1076267302915273e-06, 'epoch': 0.56} {'loss': 2.2887, 'grad_norm': 1.6257712841033936, 'learning_rate': 2.107197718265291e-06, 'epoch': 0.56} {'loss': 2.0566, 'grad_norm': 2.160407543182373, 'learning_rate': 2.106768718098843e-06, 'epoch': 0.56} {'loss': 2.2905, 'grad_norm': 1.7877215147018433, 'learning_rate': 2.1063397298051345e-06, 'epoch': 0.56} {'loss': 2.2409, 'grad_norm': 1.4934237003326416, 'learning_rate': 2.1059107533971182e-06, 'epoch': 0.56} {'loss': 2.3828, 'grad_norm': 1.5676016807556152, 'learning_rate': 2.105481788887746e-06, 'epoch': 0.56} {'loss': 2.31, 'grad_norm': 5.666525840759277, 'learning_rate': 2.10505283628997e-06, 'epoch': 0.56} {'loss': 2.2378, 'grad_norm': 1.6606419086456299, 'learning_rate': 2.104623895616741e-06, 'epoch': 0.56} {'loss': 1.581, 'grad_norm': 1.5942927598953247, 'learning_rate': 2.10419496688101e-06, 'epoch': 0.56} {'loss': 2.404, 'grad_norm': 1.6161079406738281, 'learning_rate': 2.103766050095727e-06, 'epoch': 0.56} {'loss': 2.2166, 'grad_norm': 1.4808924198150635, 'learning_rate': 2.1033371452738426e-06, 'epoch': 0.56} {'loss': 2.341, 'grad_norm': 1.6466288566589355, 'learning_rate': 2.102908252428307e-06, 'epoch': 0.56} {'loss': 2.3775, 'grad_norm': 1.6132076978683472, 'learning_rate': 2.102479371572069e-06, 'epoch': 0.56} {'loss': 2.5514, 'grad_norm': 2.1467785835266113, 'learning_rate': 2.102050502718078e-06, 'epoch': 0.56} {'loss': 2.2665, 'grad_norm': 1.5493046045303345, 'learning_rate': 2.1016216458792833e-06, 'epoch': 0.57} {'loss': 2.2547, 'grad_norm': 1.6870241165161133, 'learning_rate': 2.1011928010686325e-06, 'epoch': 0.57} {'loss': 2.3572, 'grad_norm': 2.427565574645996, 'learning_rate': 2.100763968299075e-06, 'epoch': 0.57} {'loss': 2.3266, 'grad_norm': 1.7326383590698242, 'learning_rate': 2.100335147583556e-06, 'epoch': 0.57} {'loss': 2.1718, 'grad_norm': 1.6362478733062744, 'learning_rate': 2.0999063389350243e-06, 'epoch': 0.57} {'loss': 2.2009, 'grad_norm': 1.6426067352294922, 'learning_rate': 2.099477542366427e-06, 'epoch': 0.57} {'loss': 1.8751, 'grad_norm': 1.1967663764953613, 'learning_rate': 2.0990487578907097e-06, 'epoch': 0.57} {'loss': 1.9201, 'grad_norm': 1.3131693601608276, 'learning_rate': 2.09861998552082e-06, 'epoch': 0.57} {'loss': 2.2542, 'grad_norm': 1.4724400043487549, 'learning_rate': 2.0981912252697024e-06, 'epoch': 0.57} {'loss': 2.1354, 'grad_norm': 1.4451147317886353, 'learning_rate': 2.097762477150303e-06, 'epoch': 0.57} {'loss': 2.3829, 'grad_norm': 1.5714519023895264, 'learning_rate': 2.0973337411755663e-06, 'epoch': 0.57} {'loss': 2.1868, 'grad_norm': 2.054687976837158, 'learning_rate': 2.0969050173584386e-06, 'epoch': 0.57} {'loss': 2.2449, 'grad_norm': 1.5037447214126587, 'learning_rate': 2.0964763057118622e-06, 'epoch': 0.57} {'loss': 2.2251, 'grad_norm': 1.599843978881836, 'learning_rate': 2.096047606248782e-06, 'epoch': 0.57} {'loss': 2.3235, 'grad_norm': 1.2311902046203613, 'learning_rate': 2.095618918982142e-06, 'epoch': 0.57} {'loss': 2.3749, 'grad_norm': 1.5691580772399902, 'learning_rate': 2.095190243924885e-06, 'epoch': 0.57} {'loss': 2.1722, 'grad_norm': 1.7210580110549927, 'learning_rate': 2.0947615810899533e-06, 'epoch': 0.57} {'loss': 2.2395, 'grad_norm': 2.057767391204834, 'learning_rate': 2.094332930490291e-06, 'epoch': 0.57} {'loss': 2.1966, 'grad_norm': 1.4879878759384155, 'learning_rate': 2.0939042921388387e-06, 'epoch': 0.57} {'loss': 2.3313, 'grad_norm': 1.856552004814148, 'learning_rate': 2.093475666048539e-06, 'epoch': 0.57} {'loss': 2.2952, 'grad_norm': 1.7582745552062988, 'learning_rate': 2.093047052232334e-06, 'epoch': 0.57} {'loss': 2.0953, 'grad_norm': 1.542459487915039, 'learning_rate': 2.0926184507031634e-06, 'epoch': 0.57} {'loss': 2.2747, 'grad_norm': 1.8238478899002075, 'learning_rate': 2.092189861473968e-06, 'epoch': 0.57} {'loss': 2.2862, 'grad_norm': 1.4001250267028809, 'learning_rate': 2.0917612845576884e-06, 'epoch': 0.57} {'loss': 2.1702, 'grad_norm': 1.5407335758209229, 'learning_rate': 2.0913327199672646e-06, 'epoch': 0.57} {'loss': 2.3596, 'grad_norm': 1.8470699787139893, 'learning_rate': 2.0909041677156363e-06, 'epoch': 0.57} {'loss': 2.2425, 'grad_norm': 1.8706433773040771, 'learning_rate': 2.090475627815742e-06, 'epoch': 0.57} {'loss': 2.207, 'grad_norm': 1.5316470861434937, 'learning_rate': 2.0900471002805217e-06, 'epoch': 0.57} {'loss': 2.0299, 'grad_norm': 1.3237113952636719, 'learning_rate': 2.0896185851229124e-06, 'epoch': 0.57} {'loss': 2.3378, 'grad_norm': 1.7390403747558594, 'learning_rate': 2.0891900823558543e-06, 'epoch': 0.57} {'loss': 2.4149, 'grad_norm': 1.7204660177230835, 'learning_rate': 2.0887615919922825e-06, 'epoch': 0.57} {'loss': 2.3099, 'grad_norm': 1.4789600372314453, 'learning_rate': 2.0883331140451355e-06, 'epoch': 0.57} {'loss': 2.2091, 'grad_norm': 1.5985040664672852, 'learning_rate': 2.0879046485273495e-06, 'epoch': 0.57} {'loss': 2.1009, 'grad_norm': 1.5985244512557983, 'learning_rate': 2.0874761954518625e-06, 'epoch': 0.57} {'loss': 2.1456, 'grad_norm': 1.5188757181167603, 'learning_rate': 2.0870477548316096e-06, 'epoch': 0.57} {'loss': 2.5182, 'grad_norm': 1.6023648977279663, 'learning_rate': 2.0866193266795276e-06, 'epoch': 0.57} {'loss': 2.3539, 'grad_norm': 1.735458493232727, 'learning_rate': 2.086190911008551e-06, 'epoch': 0.57} {'loss': 1.9198, 'grad_norm': 1.0684481859207153, 'learning_rate': 2.0857625078316153e-06, 'epoch': 0.57} {'loss': 2.4597, 'grad_norm': 1.7001084089279175, 'learning_rate': 2.085334117161655e-06, 'epoch': 0.57} {'loss': 2.2125, 'grad_norm': 1.658998727798462, 'learning_rate': 2.0849057390116042e-06, 'epoch': 0.57} {'loss': 2.1424, 'grad_norm': 2.1162474155426025, 'learning_rate': 2.084477373394397e-06, 'epoch': 0.57} {'loss': 2.2308, 'grad_norm': 1.2648825645446777, 'learning_rate': 2.0840490203229667e-06, 'epoch': 0.57} {'loss': 2.4975, 'grad_norm': 2.149120807647705, 'learning_rate': 2.083620679810247e-06, 'epoch': 0.57} {'loss': 2.2074, 'grad_norm': 1.567428469657898, 'learning_rate': 2.0831923518691707e-06, 'epoch': 0.57} {'loss': 1.5954, 'grad_norm': 1.6840004920959473, 'learning_rate': 2.082764036512669e-06, 'epoch': 0.57} {'loss': 2.0851, 'grad_norm': 1.8076459169387817, 'learning_rate': 2.082335733753676e-06, 'epoch': 0.57} {'loss': 2.2902, 'grad_norm': 1.2244820594787598, 'learning_rate': 2.0819074436051224e-06, 'epoch': 0.57} {'loss': 1.9752, 'grad_norm': 1.6420180797576904, 'learning_rate': 2.0814791660799386e-06, 'epoch': 0.57} {'loss': 2.1681, 'grad_norm': 1.4870907068252563, 'learning_rate': 2.081050901191056e-06, 'epoch': 0.57} {'loss': 2.0967, 'grad_norm': 1.5675098896026611, 'learning_rate': 2.080622648951405e-06, 'epoch': 0.57} {'loss': 2.1711, 'grad_norm': 1.9913158416748047, 'learning_rate': 2.080194409373916e-06, 'epoch': 0.57} {'loss': 2.1367, 'grad_norm': 1.3470377922058105, 'learning_rate': 2.079766182471519e-06, 'epoch': 0.57} {'loss': 2.4586, 'grad_norm': 1.4989521503448486, 'learning_rate': 2.079337968257143e-06, 'epoch': 0.57} {'loss': 2.1538, 'grad_norm': 1.668578028678894, 'learning_rate': 2.078909766743717e-06, 'epoch': 0.57} {'loss': 2.0305, 'grad_norm': 1.4028879404067993, 'learning_rate': 2.07848157794417e-06, 'epoch': 0.57} {'loss': 2.0194, 'grad_norm': 2.112036943435669, 'learning_rate': 2.07805340187143e-06, 'epoch': 0.57} {'loss': 2.3213, 'grad_norm': 1.7311547994613647, 'learning_rate': 2.0776252385384238e-06, 'epoch': 0.57} {'loss': 2.3304, 'grad_norm': 1.651437759399414, 'learning_rate': 2.07719708795808e-06, 'epoch': 0.57} {'loss': 2.5685, 'grad_norm': 1.4305615425109863, 'learning_rate': 2.076768950143325e-06, 'epoch': 0.57} {'loss': 2.0138, 'grad_norm': 1.5121259689331055, 'learning_rate': 2.0763408251070867e-06, 'epoch': 0.57} {'loss': 2.3089, 'grad_norm': 1.4187427759170532, 'learning_rate': 2.0759127128622895e-06, 'epoch': 0.57} {'loss': 2.0065, 'grad_norm': 1.4815900325775146, 'learning_rate': 2.07548461342186e-06, 'epoch': 0.57} {'loss': 1.8973, 'grad_norm': 1.5005967617034912, 'learning_rate': 2.075056526798725e-06, 'epoch': 0.57} {'loss': 2.1032, 'grad_norm': 1.4894955158233643, 'learning_rate': 2.074628453005808e-06, 'epoch': 0.57} {'loss': 2.4057, 'grad_norm': 2.5230605602264404, 'learning_rate': 2.0742003920560356e-06, 'epoch': 0.57} {'loss': 2.3643, 'grad_norm': 1.5155714750289917, 'learning_rate': 2.073772343962329e-06, 'epoch': 0.57} {'loss': 2.18, 'grad_norm': 1.5218437910079956, 'learning_rate': 2.073344308737615e-06, 'epoch': 0.57} {'loss': 1.1773, 'grad_norm': 1.5766425132751465, 'learning_rate': 2.0729162863948153e-06, 'epoch': 0.57} {'loss': 2.2099, 'grad_norm': 1.442187786102295, 'learning_rate': 2.072488276946855e-06, 'epoch': 0.57} {'loss': 2.1925, 'grad_norm': 1.6164079904556274, 'learning_rate': 2.0720602804066554e-06, 'epoch': 0.57} {'loss': 2.1885, 'grad_norm': 1.6484886407852173, 'learning_rate': 2.0716322967871393e-06, 'epoch': 0.57} {'loss': 2.1593, 'grad_norm': 1.5369945764541626, 'learning_rate': 2.071204326101229e-06, 'epoch': 0.57} {'loss': 2.1881, 'grad_norm': 1.2879798412322998, 'learning_rate': 2.0707763683618452e-06, 'epoch': 0.57} {'loss': 2.0747, 'grad_norm': 1.722908616065979, 'learning_rate': 2.070348423581911e-06, 'epoch': 0.57} {'loss': 2.3622, 'grad_norm': 1.3864436149597168, 'learning_rate': 2.0699204917743454e-06, 'epoch': 0.57} {'loss': 2.1578, 'grad_norm': 1.8999989032745361, 'learning_rate': 2.0694925729520693e-06, 'epoch': 0.57} {'loss': 2.2267, 'grad_norm': 1.5237873792648315, 'learning_rate': 2.069064667128003e-06, 'epoch': 0.57} {'loss': 2.1003, 'grad_norm': 1.5767003297805786, 'learning_rate': 2.068636774315066e-06, 'epoch': 0.57} {'loss': 2.2089, 'grad_norm': 1.4722028970718384, 'learning_rate': 2.068208894526177e-06, 'epoch': 0.57} {'loss': 2.4864, 'grad_norm': 1.770009994506836, 'learning_rate': 2.0677810277742565e-06, 'epoch': 0.57} {'loss': 2.4693, 'grad_norm': 1.6652791500091553, 'learning_rate': 2.067353174072222e-06, 'epoch': 0.57} {'loss': 2.4688, 'grad_norm': 1.690409541130066, 'learning_rate': 2.0669253334329926e-06, 'epoch': 0.57} {'loss': 2.2035, 'grad_norm': 1.4168121814727783, 'learning_rate': 2.066497505869483e-06, 'epoch': 0.57} {'loss': 2.1901, 'grad_norm': 1.4072331190109253, 'learning_rate': 2.066069691394613e-06, 'epoch': 0.57} {'loss': 2.3145, 'grad_norm': 1.7444400787353516, 'learning_rate': 2.0656418900213e-06, 'epoch': 0.57} {'loss': 2.3868, 'grad_norm': 1.7798991203308105, 'learning_rate': 2.0652141017624584e-06, 'epoch': 0.57} {'loss': 2.3414, 'grad_norm': 1.6574242115020752, 'learning_rate': 2.064786326631006e-06, 'epoch': 0.57} {'loss': 2.3864, 'grad_norm': 1.6289805173873901, 'learning_rate': 2.0643585646398577e-06, 'epoch': 0.57} {'loss': 2.2952, 'grad_norm': 1.471037745475769, 'learning_rate': 2.0639308158019288e-06, 'epoch': 0.57} {'loss': 2.3369, 'grad_norm': 2.0482468605041504, 'learning_rate': 2.0635030801301347e-06, 'epoch': 0.57} {'loss': 2.2624, 'grad_norm': 1.674837589263916, 'learning_rate': 2.0630753576373907e-06, 'epoch': 0.57} {'loss': 2.227, 'grad_norm': 1.6835650205612183, 'learning_rate': 2.0626476483366088e-06, 'epoch': 0.57} {'loss': 2.0674, 'grad_norm': 1.6961311101913452, 'learning_rate': 2.0622199522407038e-06, 'epoch': 0.57} {'loss': 2.3109, 'grad_norm': 1.6020983457565308, 'learning_rate': 2.061792269362589e-06, 'epoch': 0.57} {'loss': 2.3359, 'grad_norm': 1.6431411504745483, 'learning_rate': 2.061364599715177e-06, 'epoch': 0.57} {'loss': 2.0491, 'grad_norm': 1.354926347732544, 'learning_rate': 2.0609369433113815e-06, 'epoch': 0.57} {'loss': 2.1505, 'grad_norm': 1.532286524772644, 'learning_rate': 2.0605093001641138e-06, 'epoch': 0.57} {'loss': 2.3345, 'grad_norm': 1.8449057340621948, 'learning_rate': 2.0600816702862855e-06, 'epoch': 0.57} {'loss': 2.3965, 'grad_norm': 1.5490291118621826, 'learning_rate': 2.0596540536908083e-06, 'epoch': 0.57} {'loss': 2.3271, 'grad_norm': 1.6932988166809082, 'learning_rate': 2.0592264503905933e-06, 'epoch': 0.57} {'loss': 2.2249, 'grad_norm': 2.353001594543457, 'learning_rate': 2.05879886039855e-06, 'epoch': 0.57} {'loss': 2.0882, 'grad_norm': 1.5102627277374268, 'learning_rate': 2.0583712837275896e-06, 'epoch': 0.57} {'loss': 2.2245, 'grad_norm': 1.3615106344223022, 'learning_rate': 2.057943720390621e-06, 'epoch': 0.57} {'loss': 2.5406, 'grad_norm': 1.7738335132598877, 'learning_rate': 2.057516170400554e-06, 'epoch': 0.57} {'loss': 2.4713, 'grad_norm': 1.8992558717727661, 'learning_rate': 2.0570886337702976e-06, 'epoch': 0.57} {'loss': 2.3234, 'grad_norm': 1.3830362558364868, 'learning_rate': 2.0566611105127606e-06, 'epoch': 0.57} {'loss': 2.4277, 'grad_norm': 1.7620370388031006, 'learning_rate': 2.0562336006408493e-06, 'epoch': 0.57} {'loss': 2.5354, 'grad_norm': 1.7479760646820068, 'learning_rate': 2.0558061041674736e-06, 'epoch': 0.57} {'loss': 2.3439, 'grad_norm': 1.751670479774475, 'learning_rate': 2.055378621105541e-06, 'epoch': 0.57} {'loss': 2.2657, 'grad_norm': 1.5789943933486938, 'learning_rate': 2.0549511514679566e-06, 'epoch': 0.57} {'loss': 2.2691, 'grad_norm': 1.586442232131958, 'learning_rate': 2.0545236952676273e-06, 'epoch': 0.57} {'loss': 2.3422, 'grad_norm': 1.6141985654830933, 'learning_rate': 2.054096252517459e-06, 'epoch': 0.57} {'loss': 2.1559, 'grad_norm': 1.6445965766906738, 'learning_rate': 2.0536688232303587e-06, 'epoch': 0.57} {'loss': 2.1672, 'grad_norm': 1.8325296640396118, 'learning_rate': 2.053241407419231e-06, 'epoch': 0.57} {'loss': 2.5515, 'grad_norm': 1.5986497402191162, 'learning_rate': 2.05281400509698e-06, 'epoch': 0.57} {'loss': 2.0104, 'grad_norm': 1.5248745679855347, 'learning_rate': 2.0523866162765116e-06, 'epoch': 0.57} {'loss': 2.1711, 'grad_norm': 1.5067121982574463, 'learning_rate': 2.051959240970729e-06, 'epoch': 0.57} {'loss': 2.2109, 'grad_norm': 1.7068850994110107, 'learning_rate': 2.051531879192536e-06, 'epoch': 0.57} {'loss': 2.2399, 'grad_norm': 1.5901390314102173, 'learning_rate': 2.0511045309548355e-06, 'epoch': 0.57} {'loss': 2.2383, 'grad_norm': 1.507837176322937, 'learning_rate': 2.0506771962705304e-06, 'epoch': 0.57} {'loss': 2.4847, 'grad_norm': 1.5933070182800293, 'learning_rate': 2.0502498751525236e-06, 'epoch': 0.57} {'loss': 2.2335, 'grad_norm': 1.6377664804458618, 'learning_rate': 2.049822567613716e-06, 'epoch': 0.57} {'loss': 2.2266, 'grad_norm': 1.4611101150512695, 'learning_rate': 2.049395273667011e-06, 'epoch': 0.57} {'loss': 2.79, 'grad_norm': 1.6015737056732178, 'learning_rate': 2.0489679933253077e-06, 'epoch': 0.57} {'loss': 2.058, 'grad_norm': 1.3114720582962036, 'learning_rate': 2.0485407266015083e-06, 'epoch': 0.57} {'loss': 2.3205, 'grad_norm': 1.4038132429122925, 'learning_rate': 2.0481134735085133e-06, 'epoch': 0.57} {'loss': 2.3114, 'grad_norm': 1.6557296514511108, 'learning_rate': 2.047686234059223e-06, 'epoch': 0.57} {'loss': 2.1241, 'grad_norm': 1.4716545343399048, 'learning_rate': 2.0472590082665344e-06, 'epoch': 0.57} {'loss': 2.1522, 'grad_norm': 1.5139731168746948, 'learning_rate': 2.046831796143349e-06, 'epoch': 0.57} {'loss': 2.2495, 'grad_norm': 1.740759015083313, 'learning_rate': 2.046404597702565e-06, 'epoch': 0.57} {'loss': 2.3898, 'grad_norm': 3.091442108154297, 'learning_rate': 2.04597741295708e-06, 'epoch': 0.57} {'loss': 2.2065, 'grad_norm': 1.635688066482544, 'learning_rate': 2.0455502419197933e-06, 'epoch': 0.57} {'loss': 2.3836, 'grad_norm': 1.476217269897461, 'learning_rate': 2.045123084603601e-06, 'epoch': 0.57} {'loss': 2.1094, 'grad_norm': 1.515466570854187, 'learning_rate': 2.044695941021401e-06, 'epoch': 0.57} {'loss': 2.3507, 'grad_norm': 1.8180978298187256, 'learning_rate': 2.04426881118609e-06, 'epoch': 0.57} {'loss': 2.0161, 'grad_norm': 1.690338373184204, 'learning_rate': 2.0438416951105628e-06, 'epoch': 0.57} {'loss': 2.2492, 'grad_norm': 1.591486930847168, 'learning_rate': 2.043414592807717e-06, 'epoch': 0.57} {'loss': 1.5303, 'grad_norm': 1.842782735824585, 'learning_rate': 2.042987504290447e-06, 'epoch': 0.57} {'loss': 2.1148, 'grad_norm': 1.7961335182189941, 'learning_rate': 2.0425604295716478e-06, 'epoch': 0.57} {'loss': 2.3373, 'grad_norm': 8.508987426757812, 'learning_rate': 2.042133368664214e-06, 'epoch': 0.57} {'loss': 2.3485, 'grad_norm': 1.575421929359436, 'learning_rate': 2.0417063215810403e-06, 'epoch': 0.57} {'loss': 2.2568, 'grad_norm': 1.7869040966033936, 'learning_rate': 2.04127928833502e-06, 'epoch': 0.57} {'loss': 2.1533, 'grad_norm': 1.5379185676574707, 'learning_rate': 2.040852268939047e-06, 'epoch': 0.57} {'loss': 2.1932, 'grad_norm': 1.3593436479568481, 'learning_rate': 2.040425263406014e-06, 'epoch': 0.57} {'loss': 2.1638, 'grad_norm': 1.8062739372253418, 'learning_rate': 2.0399982717488124e-06, 'epoch': 0.57} {'loss': 2.4085, 'grad_norm': 1.4554386138916016, 'learning_rate': 2.0395712939803355e-06, 'epoch': 0.57} {'loss': 2.3381, 'grad_norm': 1.6399623155593872, 'learning_rate': 2.039144330113474e-06, 'epoch': 0.57} {'loss': 2.2972, 'grad_norm': 1.6118757724761963, 'learning_rate': 2.03871738016112e-06, 'epoch': 0.57} {'loss': 2.073, 'grad_norm': 2.0156917572021484, 'learning_rate': 2.038290444136163e-06, 'epoch': 0.57} {'loss': 2.0068, 'grad_norm': 1.350020408630371, 'learning_rate': 2.0378635220514954e-06, 'epoch': 0.57} {'loss': 2.5831, 'grad_norm': 1.6095302104949951, 'learning_rate': 2.037436613920006e-06, 'epoch': 0.57} {'loss': 2.2005, 'grad_norm': 1.7175878286361694, 'learning_rate': 2.037009719754584e-06, 'epoch': 0.57} {'loss': 2.4164, 'grad_norm': 1.4546492099761963, 'learning_rate': 2.036582839568119e-06, 'epoch': 0.57} {'loss': 2.1028, 'grad_norm': 1.556689977645874, 'learning_rate': 2.0361559733735e-06, 'epoch': 0.57} {'loss': 2.3593, 'grad_norm': 4.49531364440918, 'learning_rate': 2.0357291211836146e-06, 'epoch': 0.57} {'loss': 2.0701, 'grad_norm': 1.6346355676651, 'learning_rate': 2.0353022830113504e-06, 'epoch': 0.57} {'loss': 1.9997, 'grad_norm': 1.787985920906067, 'learning_rate': 2.0348754588695953e-06, 'epoch': 0.57} {'loss': 2.3838, 'grad_norm': 1.7735785245895386, 'learning_rate': 2.034448648771237e-06, 'epoch': 0.57} {'loss': 2.0693, 'grad_norm': 1.6843873262405396, 'learning_rate': 2.0340218527291607e-06, 'epoch': 0.57} {'loss': 2.1376, 'grad_norm': 1.5051944255828857, 'learning_rate': 2.0335950707562535e-06, 'epoch': 0.57} {'loss': 2.3161, 'grad_norm': 1.6296108961105347, 'learning_rate': 2.033168302865401e-06, 'epoch': 0.57} {'loss': 2.1838, 'grad_norm': 2.437411069869995, 'learning_rate': 2.032741549069489e-06, 'epoch': 0.57} {'loss': 2.3543, 'grad_norm': 1.557446002960205, 'learning_rate': 2.0323148093814014e-06, 'epoch': 0.57} {'loss': 2.0651, 'grad_norm': 1.3050788640975952, 'learning_rate': 2.0318880838140233e-06, 'epoch': 0.57} {'loss': 2.1213, 'grad_norm': 1.640708565711975, 'learning_rate': 2.0314613723802378e-06, 'epoch': 0.57} {'loss': 2.1324, 'grad_norm': 1.265346646308899, 'learning_rate': 2.0310346750929295e-06, 'epoch': 0.57} {'loss': 2.2023, 'grad_norm': 2.0117273330688477, 'learning_rate': 2.0306079919649806e-06, 'epoch': 0.57} {'loss': 2.4937, 'grad_norm': 1.7318633794784546, 'learning_rate': 2.030181323009275e-06, 'epoch': 0.57} {'loss': 2.0451, 'grad_norm': 1.334723711013794, 'learning_rate': 2.029754668238694e-06, 'epoch': 0.57} {'loss': 2.2551, 'grad_norm': 1.7151960134506226, 'learning_rate': 2.02932802766612e-06, 'epoch': 0.57} {'loss': 2.2874, 'grad_norm': 1.5492058992385864, 'learning_rate': 2.0289014013044364e-06, 'epoch': 0.57} {'loss': 2.1826, 'grad_norm': 1.6790283918380737, 'learning_rate': 2.028474789166521e-06, 'epoch': 0.57} {'loss': 2.3339, 'grad_norm': 1.5373231172561646, 'learning_rate': 2.0280481912652546e-06, 'epoch': 0.57} {'loss': 2.299, 'grad_norm': 2.056485652923584, 'learning_rate': 2.027621607613519e-06, 'epoch': 0.57} {'loss': 2.2897, 'grad_norm': 1.6758877038955688, 'learning_rate': 2.0271950382241934e-06, 'epoch': 0.57} {'loss': 2.0028, 'grad_norm': 1.4630663394927979, 'learning_rate': 2.0267684831101574e-06, 'epoch': 0.57} {'loss': 1.9633, 'grad_norm': 1.1875920295715332, 'learning_rate': 2.026341942284289e-06, 'epoch': 0.57} {'loss': 2.3354, 'grad_norm': 1.530340552330017, 'learning_rate': 2.025915415759468e-06, 'epoch': 0.57} {'loss': 2.1256, 'grad_norm': 1.616995930671692, 'learning_rate': 2.0254889035485707e-06, 'epoch': 0.57} {'loss': 2.049, 'grad_norm': 1.6720503568649292, 'learning_rate': 2.025062405664477e-06, 'epoch': 0.57} {'loss': 2.3342, 'grad_norm': 1.848344087600708, 'learning_rate': 2.0246359221200616e-06, 'epoch': 0.57} {'loss': 2.4092, 'grad_norm': 1.6727890968322754, 'learning_rate': 2.0242094529282024e-06, 'epoch': 0.57} {'loss': 1.8264, 'grad_norm': 1.5336092710494995, 'learning_rate': 2.023782998101775e-06, 'epoch': 0.57} {'loss': 2.3017, 'grad_norm': 1.679184913635254, 'learning_rate': 2.023356557653657e-06, 'epoch': 0.57} {'loss': 2.1848, 'grad_norm': 1.333875298500061, 'learning_rate': 2.022930131596722e-06, 'epoch': 0.57} {'loss': 2.2892, 'grad_norm': 1.6677483320236206, 'learning_rate': 2.0225037199438447e-06, 'epoch': 0.57} {'loss': 2.2044, 'grad_norm': 1.6648441553115845, 'learning_rate': 2.022077322707901e-06, 'epoch': 0.57} {'loss': 2.1027, 'grad_norm': 1.7186951637268066, 'learning_rate': 2.0216509399017666e-06, 'epoch': 0.58} {'loss': 2.4001, 'grad_norm': 1.8530173301696777, 'learning_rate': 2.0212245715383116e-06, 'epoch': 0.58} {'loss': 2.3495, 'grad_norm': 1.6202784776687622, 'learning_rate': 2.0207982176304098e-06, 'epoch': 0.58} {'loss': 2.3837, 'grad_norm': 1.4334943294525146, 'learning_rate': 2.020371878190936e-06, 'epoch': 0.58} {'loss': 2.0479, 'grad_norm': 1.9069403409957886, 'learning_rate': 2.019945553232761e-06, 'epoch': 0.58} {'loss': 2.1306, 'grad_norm': 1.7660504579544067, 'learning_rate': 2.019519242768758e-06, 'epoch': 0.58} {'loss': 2.3867, 'grad_norm': 1.7147184610366821, 'learning_rate': 2.019092946811797e-06, 'epoch': 0.58} {'loss': 2.2742, 'grad_norm': 1.4877444505691528, 'learning_rate': 2.0186666653747506e-06, 'epoch': 0.58} {'loss': 2.1284, 'grad_norm': 1.6921664476394653, 'learning_rate': 2.018240398470488e-06, 'epoch': 0.58} {'loss': 2.3206, 'grad_norm': 1.5288242101669312, 'learning_rate': 2.017814146111881e-06, 'epoch': 0.58} {'loss': 2.4693, 'grad_norm': 1.6203982830047607, 'learning_rate': 2.0173879083117976e-06, 'epoch': 0.58} {'loss': 2.1308, 'grad_norm': 1.4719821214675903, 'learning_rate': 2.016961685083108e-06, 'epoch': 0.58} {'loss': 2.347, 'grad_norm': 1.461056113243103, 'learning_rate': 2.016535476438681e-06, 'epoch': 0.58} {'loss': 2.0708, 'grad_norm': 1.355681300163269, 'learning_rate': 2.0161092823913843e-06, 'epoch': 0.58} {'loss': 2.2899, 'grad_norm': 1.5889217853546143, 'learning_rate': 2.0156831029540864e-06, 'epoch': 0.58} {'loss': 2.4189, 'grad_norm': 1.5866732597351074, 'learning_rate': 2.0152569381396557e-06, 'epoch': 0.58} {'loss': 2.2574, 'grad_norm': 1.6311912536621094, 'learning_rate': 2.014830787960958e-06, 'epoch': 0.58} {'loss': 2.1863, 'grad_norm': 1.4754458665847778, 'learning_rate': 2.0144046524308608e-06, 'epoch': 0.58} {'loss': 2.0768, 'grad_norm': 1.3711450099945068, 'learning_rate': 2.013978531562231e-06, 'epoch': 0.58} {'loss': 2.2289, 'grad_norm': 1.3890514373779297, 'learning_rate': 2.013552425367932e-06, 'epoch': 0.58} {'loss': 2.2498, 'grad_norm': 1.8391131162643433, 'learning_rate': 2.0131263338608307e-06, 'epoch': 0.58} {'loss': 2.2659, 'grad_norm': 1.8124558925628662, 'learning_rate': 2.012700257053792e-06, 'epoch': 0.58} {'loss': 2.3572, 'grad_norm': 8.685036659240723, 'learning_rate': 2.01227419495968e-06, 'epoch': 0.58} {'loss': 2.2522, 'grad_norm': 1.5837392807006836, 'learning_rate': 2.0118481475913584e-06, 'epoch': 0.58} {'loss': 1.355, 'grad_norm': 1.447893500328064, 'learning_rate': 2.0114221149616914e-06, 'epoch': 0.58} {'loss': 2.1575, 'grad_norm': 1.552294135093689, 'learning_rate': 2.010996097083542e-06, 'epoch': 0.58} {'loss': 2.2906, 'grad_norm': 1.4149401187896729, 'learning_rate': 2.010570093969772e-06, 'epoch': 0.58} {'loss': 2.2903, 'grad_norm': 1.4616984128952026, 'learning_rate': 2.010144105633246e-06, 'epoch': 0.58} {'loss': 2.0854, 'grad_norm': 1.2082173824310303, 'learning_rate': 2.009718132086823e-06, 'epoch': 0.58} {'loss': 2.0911, 'grad_norm': 1.3423515558242798, 'learning_rate': 2.009292173343366e-06, 'epoch': 0.58} {'loss': 2.2306, 'grad_norm': 1.2502679824829102, 'learning_rate': 2.0088662294157345e-06, 'epoch': 0.58} {'loss': 2.4131, 'grad_norm': 1.7003350257873535, 'learning_rate': 2.0084403003167892e-06, 'epoch': 0.58} {'loss': 2.0759, 'grad_norm': 1.4784599542617798, 'learning_rate': 2.0080143860593914e-06, 'epoch': 0.58} {'loss': 1.8274, 'grad_norm': 1.6434578895568848, 'learning_rate': 2.0075884866563993e-06, 'epoch': 0.58} {'loss': 2.5054, 'grad_norm': 1.8587983846664429, 'learning_rate': 2.007162602120673e-06, 'epoch': 0.58} {'loss': 2.0284, 'grad_norm': 1.5088963508605957, 'learning_rate': 2.0067367324650707e-06, 'epoch': 0.58} {'loss': 1.9128, 'grad_norm': 1.365371823310852, 'learning_rate': 2.0063108777024505e-06, 'epoch': 0.58} {'loss': 2.2451, 'grad_norm': 1.6726197004318237, 'learning_rate': 2.00588503784567e-06, 'epoch': 0.58} {'loss': 2.382, 'grad_norm': 1.8454253673553467, 'learning_rate': 2.005459212907587e-06, 'epoch': 0.58} {'loss': 2.2838, 'grad_norm': 1.8573660850524902, 'learning_rate': 2.0050334029010572e-06, 'epoch': 0.58} {'loss': 2.0529, 'grad_norm': 1.8248521089553833, 'learning_rate': 2.004607607838938e-06, 'epoch': 0.58} {'loss': 2.501, 'grad_norm': 1.6697630882263184, 'learning_rate': 2.004181827734085e-06, 'epoch': 0.58} {'loss': 2.3105, 'grad_norm': 1.448576807975769, 'learning_rate': 2.003756062599354e-06, 'epoch': 0.58} {'loss': 2.3144, 'grad_norm': 1.9658218622207642, 'learning_rate': 2.003330312447599e-06, 'epoch': 0.58} {'loss': 2.303, 'grad_norm': 1.6548919677734375, 'learning_rate': 2.0029045772916757e-06, 'epoch': 0.58} {'loss': 2.0327, 'grad_norm': 1.5912567377090454, 'learning_rate': 2.002478857144439e-06, 'epoch': 0.58} {'loss': 2.2553, 'grad_norm': 1.719283103942871, 'learning_rate': 2.0020531520187408e-06, 'epoch': 0.58} {'loss': 2.2489, 'grad_norm': 1.7755497694015503, 'learning_rate': 2.0016274619274338e-06, 'epoch': 0.58} {'loss': 2.4299, 'grad_norm': 1.5294100046157837, 'learning_rate': 2.001201786883373e-06, 'epoch': 0.58} {'loss': 2.2586, 'grad_norm': 1.8316785097122192, 'learning_rate': 2.0007761268994096e-06, 'epoch': 0.58} {'loss': 2.1511, 'grad_norm': 1.7394176721572876, 'learning_rate': 2.000350481988395e-06, 'epoch': 0.58} {'loss': 2.1378, 'grad_norm': 1.7665477991104126, 'learning_rate': 1.9999248521631814e-06, 'epoch': 0.58} {'loss': 2.2582, 'grad_norm': 1.5087411403656006, 'learning_rate': 1.9994992374366194e-06, 'epoch': 0.58} {'loss': 1.8377, 'grad_norm': 1.1646462678909302, 'learning_rate': 1.9990736378215597e-06, 'epoch': 0.58} {'loss': 2.3585, 'grad_norm': 1.8497073650360107, 'learning_rate': 1.998648053330852e-06, 'epoch': 0.58} {'loss': 2.2816, 'grad_norm': 1.5397560596466064, 'learning_rate': 1.9982224839773457e-06, 'epoch': 0.58} {'loss': 2.4142, 'grad_norm': 1.624428153038025, 'learning_rate': 1.9977969297738903e-06, 'epoch': 0.58} {'loss': 2.1636, 'grad_norm': 1.5474659204483032, 'learning_rate': 1.9973713907333343e-06, 'epoch': 0.58} {'loss': 2.0331, 'grad_norm': 1.3583776950836182, 'learning_rate': 1.996945866868526e-06, 'epoch': 0.58} {'loss': 2.5172, 'grad_norm': 1.5149623155593872, 'learning_rate': 1.996520358192313e-06, 'epoch': 0.58} {'loss': 1.8014, 'grad_norm': 3.3902852535247803, 'learning_rate': 1.9960948647175426e-06, 'epoch': 0.58} {'loss': 2.0966, 'grad_norm': 1.5897886753082275, 'learning_rate': 1.995669386457062e-06, 'epoch': 0.58} {'loss': 2.2681, 'grad_norm': 1.5431032180786133, 'learning_rate': 1.9952439234237182e-06, 'epoch': 0.58} {'loss': 2.415, 'grad_norm': 1.5791243314743042, 'learning_rate': 1.9948184756303553e-06, 'epoch': 0.58} {'loss': 2.3994, 'grad_norm': 1.6461673974990845, 'learning_rate': 1.994393043089819e-06, 'epoch': 0.58} {'loss': 2.2256, 'grad_norm': 2.3821473121643066, 'learning_rate': 1.9939676258149555e-06, 'epoch': 0.58} {'loss': 2.3366, 'grad_norm': 2.1906886100769043, 'learning_rate': 1.9935422238186087e-06, 'epoch': 0.58} {'loss': 2.1261, 'grad_norm': 1.2454875707626343, 'learning_rate': 1.9931168371136227e-06, 'epoch': 0.58} {'loss': 2.289, 'grad_norm': 1.609859824180603, 'learning_rate': 1.992691465712841e-06, 'epoch': 0.58} {'loss': 2.2849, 'grad_norm': 1.651768445968628, 'learning_rate': 1.992266109629107e-06, 'epoch': 0.58} {'loss': 2.4279, 'grad_norm': 1.28617262840271, 'learning_rate': 1.9918407688752635e-06, 'epoch': 0.58} {'loss': 2.1789, 'grad_norm': 1.1968631744384766, 'learning_rate': 1.9914154434641524e-06, 'epoch': 0.58} {'loss': 2.385, 'grad_norm': 1.5855507850646973, 'learning_rate': 1.9909901334086152e-06, 'epoch': 0.58} {'loss': 1.979, 'grad_norm': 1.5623891353607178, 'learning_rate': 1.9905648387214935e-06, 'epoch': 0.58} {'loss': 2.1231, 'grad_norm': 1.442147135734558, 'learning_rate': 1.990139559415628e-06, 'epoch': 0.58} {'loss': 2.4747, 'grad_norm': 1.7089771032333374, 'learning_rate': 1.9897142955038593e-06, 'epoch': 0.58} {'loss': 2.1605, 'grad_norm': 1.5612858533859253, 'learning_rate': 1.9892890469990263e-06, 'epoch': 0.58} {'loss': 2.0863, 'grad_norm': 1.489426851272583, 'learning_rate': 1.98886381391397e-06, 'epoch': 0.58} {'loss': 2.2886, 'grad_norm': 1.573665738105774, 'learning_rate': 1.9884385962615288e-06, 'epoch': 0.58} {'loss': 2.2513, 'grad_norm': 1.7068700790405273, 'learning_rate': 1.988013394054541e-06, 'epoch': 0.58} {'loss': 2.2052, 'grad_norm': 1.6150580644607544, 'learning_rate': 1.987588207305845e-06, 'epoch': 0.58} {'loss': 2.269, 'grad_norm': 1.488313913345337, 'learning_rate': 1.9871630360282777e-06, 'epoch': 0.58} {'loss': 2.2973, 'grad_norm': 1.6472831964492798, 'learning_rate': 1.9867378802346766e-06, 'epoch': 0.58} {'loss': 2.445, 'grad_norm': 1.5770668983459473, 'learning_rate': 1.9863127399378777e-06, 'epoch': 0.58} {'loss': 2.2104, 'grad_norm': 1.8619016408920288, 'learning_rate': 1.9858876151507185e-06, 'epoch': 0.58} {'loss': 2.1715, 'grad_norm': 1.923624038696289, 'learning_rate': 1.9854625058860334e-06, 'epoch': 0.58} {'loss': 2.1792, 'grad_norm': 1.5649477243423462, 'learning_rate': 1.985037412156658e-06, 'epoch': 0.58} {'loss': 2.1351, 'grad_norm': 1.6438517570495605, 'learning_rate': 1.9846123339754277e-06, 'epoch': 0.58} {'loss': 2.2811, 'grad_norm': 1.5262703895568848, 'learning_rate': 1.9841872713551754e-06, 'epoch': 0.58} {'loss': 2.1942, 'grad_norm': 1.5523748397827148, 'learning_rate': 1.9837622243087373e-06, 'epoch': 0.58} {'loss': 2.107, 'grad_norm': 1.7011005878448486, 'learning_rate': 1.9833371928489442e-06, 'epoch': 0.58} {'loss': 2.5974, 'grad_norm': 1.8382627964019775, 'learning_rate': 1.9829121769886304e-06, 'epoch': 0.58} {'loss': 2.424, 'grad_norm': 1.7750500440597534, 'learning_rate': 1.982487176740627e-06, 'epoch': 0.58} {'loss': 2.1835, 'grad_norm': 1.5617622137069702, 'learning_rate': 1.9820621921177673e-06, 'epoch': 0.58} {'loss': 2.1789, 'grad_norm': 1.654442310333252, 'learning_rate': 1.9816372231328828e-06, 'epoch': 0.58} {'loss': 2.3993, 'grad_norm': 1.6773386001586914, 'learning_rate': 1.9812122697988034e-06, 'epoch': 0.58} {'loss': 2.2124, 'grad_norm': 2.4195258617401123, 'learning_rate': 1.9807873321283606e-06, 'epoch': 0.58} {'loss': 2.3517, 'grad_norm': 4.022305011749268, 'learning_rate': 1.980362410134384e-06, 'epoch': 0.58} {'loss': 2.1102, 'grad_norm': 1.7907581329345703, 'learning_rate': 1.9799375038297036e-06, 'epoch': 0.58} {'loss': 2.2351, 'grad_norm': 1.805428147315979, 'learning_rate': 1.9795126132271477e-06, 'epoch': 0.58} {'loss': 2.3473, 'grad_norm': 1.3716992139816284, 'learning_rate': 1.979087738339545e-06, 'epoch': 0.58} {'loss': 2.4781, 'grad_norm': 1.5483391284942627, 'learning_rate': 1.9786628791797246e-06, 'epoch': 0.58} {'loss': 2.2938, 'grad_norm': 1.8680157661437988, 'learning_rate': 1.978238035760513e-06, 'epoch': 0.58} {'loss': 2.116, 'grad_norm': 1.657537817955017, 'learning_rate': 1.977813208094739e-06, 'epoch': 0.58} {'loss': 2.1711, 'grad_norm': 1.5521613359451294, 'learning_rate': 1.9773883961952273e-06, 'epoch': 0.58} {'loss': 2.3737, 'grad_norm': 1.7643873691558838, 'learning_rate': 1.976963600074805e-06, 'epoch': 0.58} {'loss': 2.326, 'grad_norm': 1.6932251453399658, 'learning_rate': 1.976538819746299e-06, 'epoch': 0.58} {'loss': 2.14, 'grad_norm': 1.5944035053253174, 'learning_rate': 1.976114055222533e-06, 'epoch': 0.58} {'loss': 2.4634, 'grad_norm': 1.9922428131103516, 'learning_rate': 1.9756893065163326e-06, 'epoch': 0.58} {'loss': 2.412, 'grad_norm': 1.4006003141403198, 'learning_rate': 1.975264573640521e-06, 'epoch': 0.58} {'loss': 2.1939, 'grad_norm': 1.9036672115325928, 'learning_rate': 1.974839856607924e-06, 'epoch': 0.58} {'loss': 2.3788, 'grad_norm': 1.837043285369873, 'learning_rate': 1.9744151554313635e-06, 'epoch': 0.58} {'loss': 2.019, 'grad_norm': 1.4264514446258545, 'learning_rate': 1.973990470123663e-06, 'epoch': 0.58} {'loss': 2.4286, 'grad_norm': 1.8604915142059326, 'learning_rate': 1.9735658006976448e-06, 'epoch': 0.58} {'loss': 2.2621, 'grad_norm': 1.6298102140426636, 'learning_rate': 1.973141147166131e-06, 'epoch': 0.58} {'loss': 2.2869, 'grad_norm': 1.666687250137329, 'learning_rate': 1.972716509541944e-06, 'epoch': 0.58} {'loss': 2.304, 'grad_norm': 1.4841841459274292, 'learning_rate': 1.972291887837902e-06, 'epoch': 0.58} {'loss': 2.399, 'grad_norm': 1.5432608127593994, 'learning_rate': 1.971867282066828e-06, 'epoch': 0.58} {'loss': 2.1649, 'grad_norm': 1.6226210594177246, 'learning_rate': 1.971442692241541e-06, 'epoch': 0.58} {'loss': 2.1117, 'grad_norm': 1.34794020652771, 'learning_rate': 1.971018118374861e-06, 'epoch': 0.58} {'loss': 2.3384, 'grad_norm': 1.6714749336242676, 'learning_rate': 1.9705935604796067e-06, 'epoch': 0.58} {'loss': 2.2497, 'grad_norm': 1.2829738855361938, 'learning_rate': 1.970169018568596e-06, 'epoch': 0.58} {'loss': 2.3592, 'grad_norm': 1.728582739830017, 'learning_rate': 1.969744492654649e-06, 'epoch': 0.58} {'loss': 2.5379, 'grad_norm': 2.1825594902038574, 'learning_rate': 1.9693199827505815e-06, 'epoch': 0.58} {'loss': 2.2967, 'grad_norm': 1.7748799324035645, 'learning_rate': 1.9688954888692126e-06, 'epoch': 0.58} {'loss': 2.1862, 'grad_norm': 1.5529003143310547, 'learning_rate': 1.9684710110233564e-06, 'epoch': 0.58} {'loss': 2.3747, 'grad_norm': 1.6098688840866089, 'learning_rate': 1.96804654922583e-06, 'epoch': 0.58} {'loss': 2.4648, 'grad_norm': 1.6011582612991333, 'learning_rate': 1.9676221034894494e-06, 'epoch': 0.58} {'loss': 2.3209, 'grad_norm': 1.7407394647598267, 'learning_rate': 1.9671976738270298e-06, 'epoch': 0.58} {'loss': 2.3436, 'grad_norm': 1.8069465160369873, 'learning_rate': 1.966773260251386e-06, 'epoch': 0.58} {'loss': 2.1362, 'grad_norm': 1.612463116645813, 'learning_rate': 1.9663488627753317e-06, 'epoch': 0.58} {'loss': 2.2633, 'grad_norm': 1.5768855810165405, 'learning_rate': 1.9659244814116816e-06, 'epoch': 0.58} {'loss': 2.399, 'grad_norm': 1.6431511640548706, 'learning_rate': 1.965500116173248e-06, 'epoch': 0.58} {'loss': 2.3917, 'grad_norm': 1.6808689832687378, 'learning_rate': 1.9650757670728443e-06, 'epoch': 0.58} {'loss': 2.2681, 'grad_norm': 1.4669392108917236, 'learning_rate': 1.964651434123282e-06, 'epoch': 0.58} {'loss': 2.1347, 'grad_norm': 1.6323727369308472, 'learning_rate': 1.964227117337374e-06, 'epoch': 0.58} {'loss': 2.2144, 'grad_norm': 1.49325692653656, 'learning_rate': 1.96380281672793e-06, 'epoch': 0.58} {'loss': 2.3128, 'grad_norm': 1.5884288549423218, 'learning_rate': 1.9633785323077624e-06, 'epoch': 0.58} {'loss': 2.2441, 'grad_norm': 1.597103238105774, 'learning_rate': 1.96295426408968e-06, 'epoch': 0.58} {'loss': 2.2242, 'grad_norm': 1.8102326393127441, 'learning_rate': 1.9625300120864942e-06, 'epoch': 0.58} {'loss': 2.4722, 'grad_norm': 1.5702720880508423, 'learning_rate': 1.962105776311013e-06, 'epoch': 0.58} {'loss': 1.8612, 'grad_norm': 1.562119960784912, 'learning_rate': 1.9616815567760467e-06, 'epoch': 0.58} {'loss': 2.1933, 'grad_norm': 1.5340548753738403, 'learning_rate': 1.9612573534944033e-06, 'epoch': 0.58} {'loss': 2.103, 'grad_norm': 1.550034761428833, 'learning_rate': 1.9608331664788893e-06, 'epoch': 0.58} {'loss': 2.1023, 'grad_norm': 1.4473210573196411, 'learning_rate': 1.9604089957423134e-06, 'epoch': 0.58} {'loss': 2.3385, 'grad_norm': 1.6925941705703735, 'learning_rate': 1.9599848412974816e-06, 'epoch': 0.58} {'loss': 2.1576, 'grad_norm': 1.7975761890411377, 'learning_rate': 1.959560703157201e-06, 'epoch': 0.58} {'loss': 2.2575, 'grad_norm': 1.544368028640747, 'learning_rate': 1.9591365813342774e-06, 'epoch': 0.58} {'loss': 2.1029, 'grad_norm': 1.9270284175872803, 'learning_rate': 1.958712475841516e-06, 'epoch': 0.58} {'loss': 2.3783, 'grad_norm': 1.5807807445526123, 'learning_rate': 1.958288386691722e-06, 'epoch': 0.58} {'loss': 2.0498, 'grad_norm': 1.2836254835128784, 'learning_rate': 1.957864313897699e-06, 'epoch': 0.58} {'loss': 2.3186, 'grad_norm': 1.6680601835250854, 'learning_rate': 1.957440257472253e-06, 'epoch': 0.58} {'loss': 1.9837, 'grad_norm': 1.4544596672058105, 'learning_rate': 1.957016217428185e-06, 'epoch': 0.58} {'loss': 2.1036, 'grad_norm': 1.9910821914672852, 'learning_rate': 1.9565921937782988e-06, 'epoch': 0.58} {'loss': 2.3647, 'grad_norm': 1.5328737497329712, 'learning_rate': 1.956168186535397e-06, 'epoch': 0.58} {'loss': 2.1028, 'grad_norm': 1.256710171699524, 'learning_rate': 1.9557441957122815e-06, 'epoch': 0.58} {'loss': 2.2425, 'grad_norm': 1.573070764541626, 'learning_rate': 1.955320221321754e-06, 'epoch': 0.58} {'loss': 2.3833, 'grad_norm': 1.4033854007720947, 'learning_rate': 1.9548962633766152e-06, 'epoch': 0.58} {'loss': 2.2843, 'grad_norm': 1.6091588735580444, 'learning_rate': 1.9544723218896658e-06, 'epoch': 0.58} {'loss': 1.616, 'grad_norm': 1.263665795326233, 'learning_rate': 1.954048396873706e-06, 'epoch': 0.58} {'loss': 2.2137, 'grad_norm': 1.4930075407028198, 'learning_rate': 1.9536244883415344e-06, 'epoch': 0.58} {'loss': 2.1904, 'grad_norm': 2.1178972721099854, 'learning_rate': 1.9532005963059502e-06, 'epoch': 0.58} {'loss': 2.3555, 'grad_norm': 1.7751147747039795, 'learning_rate': 1.9527767207797523e-06, 'epoch': 0.58} {'loss': 2.2624, 'grad_norm': 1.729903221130371, 'learning_rate': 1.9523528617757383e-06, 'epoch': 0.58} {'loss': 2.4111, 'grad_norm': 1.4510438442230225, 'learning_rate': 1.951929019306706e-06, 'epoch': 0.58} {'loss': 2.2291, 'grad_norm': 1.767735481262207, 'learning_rate': 1.9515051933854525e-06, 'epoch': 0.58} {'loss': 2.0709, 'grad_norm': 1.642808437347412, 'learning_rate': 1.9510813840247732e-06, 'epoch': 0.58} {'loss': 2.1716, 'grad_norm': 1.6935542821884155, 'learning_rate': 1.950657591237465e-06, 'epoch': 0.58} {'loss': 2.2211, 'grad_norm': 1.5853220224380493, 'learning_rate': 1.950233815036325e-06, 'epoch': 0.58} {'loss': 2.6154, 'grad_norm': 1.6769200563430786, 'learning_rate': 1.9498100554341447e-06, 'epoch': 0.58} {'loss': 2.2738, 'grad_norm': 1.9342451095581055, 'learning_rate': 1.9493863124437206e-06, 'epoch': 0.58} {'loss': 2.4229, 'grad_norm': 1.6226860284805298, 'learning_rate': 1.948962586077846e-06, 'epoch': 0.58} {'loss': 1.9005, 'grad_norm': 1.4586001634597778, 'learning_rate': 1.948538876349315e-06, 'epoch': 0.58} {'loss': 2.1408, 'grad_norm': 1.699737310409546, 'learning_rate': 1.9481151832709207e-06, 'epoch': 0.58} {'loss': 2.4257, 'grad_norm': 1.5103737115859985, 'learning_rate': 1.947691506855455e-06, 'epoch': 0.58} {'loss': 2.3264, 'grad_norm': 1.7489261627197266, 'learning_rate': 1.94726784711571e-06, 'epoch': 0.58} {'loss': 2.29, 'grad_norm': 1.6086113452911377, 'learning_rate': 1.9468442040644774e-06, 'epoch': 0.58} {'loss': 2.2982, 'grad_norm': 1.448281168937683, 'learning_rate': 1.9464205777145482e-06, 'epoch': 0.58} {'loss': 2.3529, 'grad_norm': 1.5840651988983154, 'learning_rate': 1.9459969680787123e-06, 'epoch': 0.58} {'loss': 2.3111, 'grad_norm': 1.447356939315796, 'learning_rate': 1.94557337516976e-06, 'epoch': 0.58} {'loss': 2.6099, 'grad_norm': 1.7939207553863525, 'learning_rate': 1.9451497990004804e-06, 'epoch': 0.58} {'loss': 2.2716, 'grad_norm': 1.6573222875595093, 'learning_rate': 1.9447262395836627e-06, 'epoch': 0.58} {'loss': 2.3563, 'grad_norm': 1.760816216468811, 'learning_rate': 1.9443026969320956e-06, 'epoch': 0.58} {'loss': 2.3139, 'grad_norm': 1.5188539028167725, 'learning_rate': 1.943879171058566e-06, 'epoch': 0.58} {'loss': 2.1249, 'grad_norm': 1.230000376701355, 'learning_rate': 1.9434556619758625e-06, 'epoch': 0.58} {'loss': 2.3458, 'grad_norm': 1.351099967956543, 'learning_rate': 1.9430321696967722e-06, 'epoch': 0.58} {'loss': 2.3574, 'grad_norm': 2.3514859676361084, 'learning_rate': 1.9426086942340816e-06, 'epoch': 0.59} {'loss': 1.9967, 'grad_norm': 1.3513598442077637, 'learning_rate': 1.9421852356005753e-06, 'epoch': 0.59} {'loss': 2.4798, 'grad_norm': 1.805691123008728, 'learning_rate': 1.9417617938090384e-06, 'epoch': 0.59} {'loss': 2.0136, 'grad_norm': 1.2498176097869873, 'learning_rate': 1.941338368872257e-06, 'epoch': 0.59} {'loss': 2.399, 'grad_norm': 2.0869743824005127, 'learning_rate': 1.940914960803015e-06, 'epoch': 0.59} {'loss': 2.4155, 'grad_norm': 1.5569828748703003, 'learning_rate': 1.9404915696140973e-06, 'epoch': 0.59} {'loss': 1.9173, 'grad_norm': 1.3827425241470337, 'learning_rate': 1.9400681953182855e-06, 'epoch': 0.59} {'loss': 2.351, 'grad_norm': 1.5790997743606567, 'learning_rate': 1.9396448379283637e-06, 'epoch': 0.59} {'loss': 2.2979, 'grad_norm': 1.7077172994613647, 'learning_rate': 1.939221497457114e-06, 'epoch': 0.59} {'loss': 2.2285, 'grad_norm': 1.937697410583496, 'learning_rate': 1.9387981739173185e-06, 'epoch': 0.59} {'loss': 2.1721, 'grad_norm': 1.959999442100525, 'learning_rate': 1.9383748673217573e-06, 'epoch': 0.59} {'loss': 2.3235, 'grad_norm': 1.5541963577270508, 'learning_rate': 1.937951577683212e-06, 'epoch': 0.59} {'loss': 2.0834, 'grad_norm': 1.6767960786819458, 'learning_rate': 1.937528305014463e-06, 'epoch': 0.59} {'loss': 2.2996, 'grad_norm': 1.615126132965088, 'learning_rate': 1.9371050493282893e-06, 'epoch': 0.59} {'loss': 2.4104, 'grad_norm': 1.8637125492095947, 'learning_rate': 1.936681810637471e-06, 'epoch': 0.59} {'loss': 2.0848, 'grad_norm': 1.7028599977493286, 'learning_rate': 1.936258588954787e-06, 'epoch': 0.59} {'loss': 2.3996, 'grad_norm': 4.1437835693359375, 'learning_rate': 1.935835384293015e-06, 'epoch': 0.59} {'loss': 2.0536, 'grad_norm': 1.982845664024353, 'learning_rate': 1.935412196664934e-06, 'epoch': 0.59} {'loss': 2.1114, 'grad_norm': 1.8136073350906372, 'learning_rate': 1.9349890260833183e-06, 'epoch': 0.59} {'loss': 2.1982, 'grad_norm': 1.7679344415664673, 'learning_rate': 1.934565872560947e-06, 'epoch': 0.59} {'loss': 2.0134, 'grad_norm': 1.5185260772705078, 'learning_rate': 1.9341427361105957e-06, 'epoch': 0.59} {'loss': 2.0513, 'grad_norm': 1.2958712577819824, 'learning_rate': 1.9337196167450402e-06, 'epoch': 0.59} {'loss': 2.1911, 'grad_norm': 1.6155364513397217, 'learning_rate': 1.933296514477055e-06, 'epoch': 0.59} {'loss': 2.3057, 'grad_norm': 1.460292935371399, 'learning_rate': 1.932873429319415e-06, 'epoch': 0.59} {'loss': 2.165, 'grad_norm': 2.19091796875, 'learning_rate': 1.9324503612848953e-06, 'epoch': 0.59} {'loss': 2.0039, 'grad_norm': 1.5350967645645142, 'learning_rate': 1.932027310386268e-06, 'epoch': 0.59} {'loss': 2.1084, 'grad_norm': 1.4698511362075806, 'learning_rate': 1.9316042766363078e-06, 'epoch': 0.59} {'loss': 1.9091, 'grad_norm': 1.645376443862915, 'learning_rate': 1.9311812600477854e-06, 'epoch': 0.59} {'loss': 2.5786, 'grad_norm': 1.7086737155914307, 'learning_rate': 1.930758260633474e-06, 'epoch': 0.59} {'loss': 2.506, 'grad_norm': 1.5079364776611328, 'learning_rate': 1.930335278406145e-06, 'epoch': 0.59} {'loss': 2.2105, 'grad_norm': 1.6929980516433716, 'learning_rate': 1.9299123133785687e-06, 'epoch': 0.59} {'loss': 2.3022, 'grad_norm': 1.5329385995864868, 'learning_rate': 1.9294893655635164e-06, 'epoch': 0.59} {'loss': 2.5239, 'grad_norm': 1.6944793462753296, 'learning_rate': 1.929066434973758e-06, 'epoch': 0.59} {'loss': 2.0995, 'grad_norm': 1.6529927253723145, 'learning_rate': 1.9286435216220625e-06, 'epoch': 0.59} {'loss': 2.1824, 'grad_norm': 1.313083529472351, 'learning_rate': 1.9282206255211995e-06, 'epoch': 0.59} {'loss': 2.0981, 'grad_norm': 1.342111587524414, 'learning_rate': 1.9277977466839372e-06, 'epoch': 0.59} {'loss': 2.107, 'grad_norm': 1.9094407558441162, 'learning_rate': 1.9273748851230428e-06, 'epoch': 0.59} {'loss': 2.4202, 'grad_norm': 1.6556462049484253, 'learning_rate': 1.9269520408512842e-06, 'epoch': 0.59} {'loss': 2.2508, 'grad_norm': 1.5445364713668823, 'learning_rate': 1.9265292138814285e-06, 'epoch': 0.59} {'loss': 2.2519, 'grad_norm': 1.4213337898254395, 'learning_rate': 1.9261064042262412e-06, 'epoch': 0.59} {'loss': 2.3613, 'grad_norm': 1.6012587547302246, 'learning_rate': 1.925683611898489e-06, 'epoch': 0.59} {'loss': 2.2328, 'grad_norm': 1.6479449272155762, 'learning_rate': 1.9252608369109368e-06, 'epoch': 0.59} {'loss': 2.2405, 'grad_norm': 1.7131614685058594, 'learning_rate': 1.9248380792763487e-06, 'epoch': 0.59} {'loss': 2.1402, 'grad_norm': 1.4142420291900635, 'learning_rate': 1.9244153390074895e-06, 'epoch': 0.59} {'loss': 2.2338, 'grad_norm': 1.896591305732727, 'learning_rate': 1.923992616117124e-06, 'epoch': 0.59} {'loss': 2.4204, 'grad_norm': 1.4727673530578613, 'learning_rate': 1.9235699106180135e-06, 'epoch': 0.59} {'loss': 1.9738, 'grad_norm': 1.272794485092163, 'learning_rate': 1.9231472225229216e-06, 'epoch': 0.59} {'loss': 2.2039, 'grad_norm': 1.497525930404663, 'learning_rate': 1.9227245518446096e-06, 'epoch': 0.59} {'loss': 2.2677, 'grad_norm': 1.805845856666565, 'learning_rate': 1.9223018985958404e-06, 'epoch': 0.59} {'loss': 2.2304, 'grad_norm': 1.6972742080688477, 'learning_rate': 1.9218792627893747e-06, 'epoch': 0.59} {'loss': 2.3388, 'grad_norm': 1.6038671731948853, 'learning_rate': 1.921456644437972e-06, 'epoch': 0.59} {'loss': 2.1496, 'grad_norm': 1.604377269744873, 'learning_rate': 1.9210340435543935e-06, 'epoch': 0.59} {'loss': 2.3782, 'grad_norm': 1.6485940217971802, 'learning_rate': 1.920611460151398e-06, 'epoch': 0.59} {'loss': 2.0017, 'grad_norm': 1.7715017795562744, 'learning_rate': 1.920188894241746e-06, 'epoch': 0.59} {'loss': 1.8251, 'grad_norm': 1.4289439916610718, 'learning_rate': 1.9197663458381938e-06, 'epoch': 0.59} {'loss': 2.1993, 'grad_norm': 1.4837983846664429, 'learning_rate': 1.9193438149535e-06, 'epoch': 0.59} {'loss': 2.2368, 'grad_norm': 1.5715276002883911, 'learning_rate': 1.9189213016004223e-06, 'epoch': 0.59} {'loss': 2.1706, 'grad_norm': 1.6923664808273315, 'learning_rate': 1.918498805791717e-06, 'epoch': 0.59} {'loss': 2.1905, 'grad_norm': 1.3963180780410767, 'learning_rate': 1.918076327540141e-06, 'epoch': 0.59} {'loss': 2.4019, 'grad_norm': 1.945316195487976, 'learning_rate': 1.9176538668584497e-06, 'epoch': 0.59} {'loss': 2.0937, 'grad_norm': 1.4186233282089233, 'learning_rate': 1.9172314237593987e-06, 'epoch': 0.59} {'loss': 1.2954, 'grad_norm': 1.927046298980713, 'learning_rate': 1.9168089982557432e-06, 'epoch': 0.59} {'loss': 2.1756, 'grad_norm': 1.5581769943237305, 'learning_rate': 1.9163865903602374e-06, 'epoch': 0.59} {'loss': 2.3891, 'grad_norm': 1.6327950954437256, 'learning_rate': 1.9159642000856326e-06, 'epoch': 0.59} {'loss': 2.2719, 'grad_norm': 1.5824370384216309, 'learning_rate': 1.9155418274446846e-06, 'epoch': 0.59} {'loss': 2.1861, 'grad_norm': 1.8703970909118652, 'learning_rate': 1.9151194724501447e-06, 'epoch': 0.59} {'loss': 2.205, 'grad_norm': 1.9127517938613892, 'learning_rate': 1.9146971351147657e-06, 'epoch': 0.59} {'loss': 2.4568, 'grad_norm': 1.423140048980713, 'learning_rate': 1.914274815451298e-06, 'epoch': 0.59} {'loss': 2.2551, 'grad_norm': 1.5782966613769531, 'learning_rate': 1.913852513472494e-06, 'epoch': 0.59} {'loss': 2.1931, 'grad_norm': 1.757516622543335, 'learning_rate': 1.913430229191104e-06, 'epoch': 0.59} {'loss': 2.2871, 'grad_norm': 1.6615753173828125, 'learning_rate': 1.9130079626198774e-06, 'epoch': 0.59} {'loss': 2.2388, 'grad_norm': 1.5033597946166992, 'learning_rate': 1.912585713771563e-06, 'epoch': 0.59} {'loss': 2.2371, 'grad_norm': 1.650888204574585, 'learning_rate': 1.9121634826589103e-06, 'epoch': 0.59} {'loss': 2.1107, 'grad_norm': 1.7580307722091675, 'learning_rate': 1.911741269294668e-06, 'epoch': 0.59} {'loss': 2.3014, 'grad_norm': 1.4260668754577637, 'learning_rate': 1.911319073691583e-06, 'epoch': 0.59} {'loss': 2.415, 'grad_norm': 1.5666604042053223, 'learning_rate': 1.9108968958624037e-06, 'epoch': 0.59} {'loss': 2.0739, 'grad_norm': 1.6278667449951172, 'learning_rate': 1.9104747358198755e-06, 'epoch': 0.59} {'loss': 2.4211, 'grad_norm': 1.6257425546646118, 'learning_rate': 1.9100525935767456e-06, 'epoch': 0.59} {'loss': 1.8394, 'grad_norm': 1.341780185699463, 'learning_rate': 1.9096304691457597e-06, 'epoch': 0.59} {'loss': 2.3591, 'grad_norm': 1.5860724449157715, 'learning_rate': 1.909208362539663e-06, 'epoch': 0.59} {'loss': 2.3347, 'grad_norm': 1.6819868087768555, 'learning_rate': 1.908786273771198e-06, 'epoch': 0.59} {'loss': 2.2553, 'grad_norm': 1.8177112340927124, 'learning_rate': 1.9083642028531114e-06, 'epoch': 0.59} {'loss': 2.2457, 'grad_norm': 1.5869203805923462, 'learning_rate': 1.9079421497981455e-06, 'epoch': 0.59} {'loss': 2.1378, 'grad_norm': 1.5277416706085205, 'learning_rate': 1.907520114619043e-06, 'epoch': 0.59} {'loss': 2.3235, 'grad_norm': 1.619662880897522, 'learning_rate': 1.9070980973285468e-06, 'epoch': 0.59} {'loss': 2.3274, 'grad_norm': 1.7054027318954468, 'learning_rate': 1.9066760979393988e-06, 'epoch': 0.59} {'loss': 2.3532, 'grad_norm': 1.9411836862564087, 'learning_rate': 1.9062541164643404e-06, 'epoch': 0.59} {'loss': 2.2079, 'grad_norm': 1.4530694484710693, 'learning_rate': 1.9058321529161116e-06, 'epoch': 0.59} {'loss': 2.2705, 'grad_norm': 1.5600630044937134, 'learning_rate': 1.905410207307454e-06, 'epoch': 0.59} {'loss': 2.3305, 'grad_norm': 1.6760098934173584, 'learning_rate': 1.904988279651106e-06, 'epoch': 0.59} {'loss': 2.1564, 'grad_norm': 1.511734127998352, 'learning_rate': 1.9045663699598071e-06, 'epoch': 0.59} {'loss': 1.9764, 'grad_norm': 1.6742465496063232, 'learning_rate': 1.904144478246296e-06, 'epoch': 0.59} {'loss': 2.3288, 'grad_norm': 1.4204987287521362, 'learning_rate': 1.9037226045233106e-06, 'epoch': 0.59} {'loss': 1.5293, 'grad_norm': 1.8948566913604736, 'learning_rate': 1.9033007488035893e-06, 'epoch': 0.59} {'loss': 2.3698, 'grad_norm': 1.7258081436157227, 'learning_rate': 1.902878911099868e-06, 'epoch': 0.59} {'loss': 2.2995, 'grad_norm': 4.151371479034424, 'learning_rate': 1.902457091424884e-06, 'epoch': 0.59} {'loss': 2.2699, 'grad_norm': 1.6894042491912842, 'learning_rate': 1.9020352897913729e-06, 'epoch': 0.59} {'loss': 2.1153, 'grad_norm': 1.5833996534347534, 'learning_rate': 1.9016135062120702e-06, 'epoch': 0.59} {'loss': 2.4317, 'grad_norm': 1.6234451532363892, 'learning_rate': 1.9011917406997104e-06, 'epoch': 0.59} {'loss': 2.128, 'grad_norm': 1.6662451028823853, 'learning_rate': 1.9007699932670275e-06, 'epoch': 0.59} {'loss': 2.194, 'grad_norm': 1.4227498769760132, 'learning_rate': 1.9003482639267556e-06, 'epoch': 0.59} {'loss': 2.2694, 'grad_norm': 1.5296211242675781, 'learning_rate': 1.8999265526916282e-06, 'epoch': 0.59} {'loss': 2.211, 'grad_norm': 1.6516313552856445, 'learning_rate': 1.8995048595743772e-06, 'epoch': 0.59} {'loss': 2.3075, 'grad_norm': 1.572500467300415, 'learning_rate': 1.8990831845877356e-06, 'epoch': 0.59} {'loss': 2.293, 'grad_norm': 1.701168417930603, 'learning_rate': 1.8986615277444333e-06, 'epoch': 0.59} {'loss': 2.272, 'grad_norm': 1.4689552783966064, 'learning_rate': 1.8982398890572032e-06, 'epoch': 0.59} {'loss': 1.7246, 'grad_norm': 1.3176413774490356, 'learning_rate': 1.8978182685387761e-06, 'epoch': 0.59} {'loss': 2.0687, 'grad_norm': 1.4255198240280151, 'learning_rate': 1.8973966662018795e-06, 'epoch': 0.59} {'loss': 2.3252, 'grad_norm': 1.7606676816940308, 'learning_rate': 1.8969750820592439e-06, 'epoch': 0.59} {'loss': 2.1829, 'grad_norm': 1.3305882215499878, 'learning_rate': 1.8965535161235977e-06, 'epoch': 0.59} {'loss': 2.2774, 'grad_norm': 4.609601020812988, 'learning_rate': 1.89613196840767e-06, 'epoch': 0.59} {'loss': 2.0895, 'grad_norm': 1.3631964921951294, 'learning_rate': 1.8957104389241884e-06, 'epoch': 0.59} {'loss': 2.2461, 'grad_norm': 1.4790018796920776, 'learning_rate': 1.8952889276858797e-06, 'epoch': 0.59} {'loss': 2.3567, 'grad_norm': 1.6155343055725098, 'learning_rate': 1.8948674347054701e-06, 'epoch': 0.59} {'loss': 2.3831, 'grad_norm': 1.2361105680465698, 'learning_rate': 1.8944459599956866e-06, 'epoch': 0.59} {'loss': 2.0607, 'grad_norm': 1.6089332103729248, 'learning_rate': 1.8940245035692545e-06, 'epoch': 0.59} {'loss': 2.0208, 'grad_norm': 1.3660080432891846, 'learning_rate': 1.8936030654388977e-06, 'epoch': 0.59} {'loss': 2.2505, 'grad_norm': 1.3072255849838257, 'learning_rate': 1.8931816456173413e-06, 'epoch': 0.59} {'loss': 2.4092, 'grad_norm': 1.5074489116668701, 'learning_rate': 1.8927602441173093e-06, 'epoch': 0.59} {'loss': 1.9378, 'grad_norm': 1.6277893781661987, 'learning_rate': 1.8923388609515244e-06, 'epoch': 0.59} {'loss': 2.2045, 'grad_norm': 1.858798623085022, 'learning_rate': 1.89191749613271e-06, 'epoch': 0.59} {'loss': 2.3162, 'grad_norm': 1.4040179252624512, 'learning_rate': 1.8914961496735872e-06, 'epoch': 0.59} {'loss': 2.1735, 'grad_norm': 1.5085917711257935, 'learning_rate': 1.891074821586879e-06, 'epoch': 0.59} {'loss': 2.4287, 'grad_norm': 1.5262699127197266, 'learning_rate': 1.890653511885307e-06, 'epoch': 0.59} {'loss': 2.4803, 'grad_norm': 1.5855540037155151, 'learning_rate': 1.8902322205815895e-06, 'epoch': 0.59} {'loss': 2.4844, 'grad_norm': 1.8425686359405518, 'learning_rate': 1.8898109476884469e-06, 'epoch': 0.59} {'loss': 2.2118, 'grad_norm': 1.839833378791809, 'learning_rate': 1.8893896932185996e-06, 'epoch': 0.59} {'loss': 1.9721, 'grad_norm': 1.7364174127578735, 'learning_rate': 1.8889684571847661e-06, 'epoch': 0.59} {'loss': 2.2772, 'grad_norm': 1.6985901594161987, 'learning_rate': 1.8885472395996648e-06, 'epoch': 0.59} {'loss': 2.2, 'grad_norm': 1.7999244928359985, 'learning_rate': 1.888126040476013e-06, 'epoch': 0.59} {'loss': 2.0504, 'grad_norm': 1.672975778579712, 'learning_rate': 1.8877048598265283e-06, 'epoch': 0.59} {'loss': 2.2923, 'grad_norm': 1.8289871215820312, 'learning_rate': 1.887283697663927e-06, 'epoch': 0.59} {'loss': 2.2328, 'grad_norm': 1.5217701196670532, 'learning_rate': 1.8868625540009256e-06, 'epoch': 0.59} {'loss': 2.0136, 'grad_norm': 2.3002870082855225, 'learning_rate': 1.8864414288502385e-06, 'epoch': 0.59} {'loss': 2.2553, 'grad_norm': 1.7189116477966309, 'learning_rate': 1.8860203222245822e-06, 'epoch': 0.59} {'loss': 2.3157, 'grad_norm': 1.5216591358184814, 'learning_rate': 1.8855992341366696e-06, 'epoch': 0.59} {'loss': 2.0455, 'grad_norm': 1.437713623046875, 'learning_rate': 1.8851781645992152e-06, 'epoch': 0.59} {'loss': 2.2606, 'grad_norm': 1.5875660181045532, 'learning_rate': 1.8847571136249323e-06, 'epoch': 0.59} {'loss': 2.6476, 'grad_norm': 1.9209221601486206, 'learning_rate': 1.8843360812265333e-06, 'epoch': 0.59} {'loss': 2.3375, 'grad_norm': 1.784555435180664, 'learning_rate': 1.8839150674167307e-06, 'epoch': 0.59} {'loss': 1.642, 'grad_norm': 1.2177841663360596, 'learning_rate': 1.883494072208236e-06, 'epoch': 0.59} {'loss': 2.5046, 'grad_norm': 1.7057604789733887, 'learning_rate': 1.883073095613761e-06, 'epoch': 0.59} {'loss': 2.1346, 'grad_norm': 1.5464274883270264, 'learning_rate': 1.882652137646014e-06, 'epoch': 0.59} {'loss': 2.2762, 'grad_norm': 1.6530932188034058, 'learning_rate': 1.8822311983177066e-06, 'epoch': 0.59} {'loss': 2.3592, 'grad_norm': 1.618191123008728, 'learning_rate': 1.8818102776415475e-06, 'epoch': 0.59} {'loss': 2.2366, 'grad_norm': 1.558323860168457, 'learning_rate': 1.8813893756302459e-06, 'epoch': 0.59} {'loss': 1.994, 'grad_norm': 3.0947325229644775, 'learning_rate': 1.8809684922965097e-06, 'epoch': 0.59} {'loss': 2.2262, 'grad_norm': 1.5786397457122803, 'learning_rate': 1.8805476276530466e-06, 'epoch': 0.59} {'loss': 2.2705, 'grad_norm': 1.6350746154785156, 'learning_rate': 1.8801267817125636e-06, 'epoch': 0.59} {'loss': 2.246, 'grad_norm': 1.6358978748321533, 'learning_rate': 1.8797059544877669e-06, 'epoch': 0.59} {'loss': 2.2992, 'grad_norm': 1.339796543121338, 'learning_rate': 1.8792851459913635e-06, 'epoch': 0.59} {'loss': 2.1929, 'grad_norm': 1.5933144092559814, 'learning_rate': 1.8788643562360575e-06, 'epoch': 0.59} {'loss': 2.2647, 'grad_norm': 1.5334535837173462, 'learning_rate': 1.8784435852345546e-06, 'epoch': 0.59} {'loss': 2.0258, 'grad_norm': 1.1362017393112183, 'learning_rate': 1.878022832999558e-06, 'epoch': 0.59} {'loss': 2.3255, 'grad_norm': 1.4734196662902832, 'learning_rate': 1.8776020995437722e-06, 'epoch': 0.59} {'loss': 2.1396, 'grad_norm': 1.5136780738830566, 'learning_rate': 1.8771813848799004e-06, 'epoch': 0.59} {'loss': 2.1835, 'grad_norm': 1.7207140922546387, 'learning_rate': 1.876760689020645e-06, 'epoch': 0.59} {'loss': 2.0614, 'grad_norm': 2.552464246749878, 'learning_rate': 1.876340011978708e-06, 'epoch': 0.59} {'loss': 2.3436, 'grad_norm': 2.1530065536499023, 'learning_rate': 1.8759193537667902e-06, 'epoch': 0.59} {'loss': 2.2999, 'grad_norm': 1.4370152950286865, 'learning_rate': 1.875498714397594e-06, 'epoch': 0.59} {'loss': 2.329, 'grad_norm': 1.5543850660324097, 'learning_rate': 1.8750780938838178e-06, 'epoch': 0.59} {'loss': 2.1809, 'grad_norm': 1.6989130973815918, 'learning_rate': 1.8746574922381621e-06, 'epoch': 0.59} {'loss': 2.3523, 'grad_norm': 1.6141058206558228, 'learning_rate': 1.874236909473326e-06, 'epoch': 0.59} {'loss': 2.2724, 'grad_norm': 1.5622849464416504, 'learning_rate': 1.8738163456020082e-06, 'epoch': 0.59} {'loss': 2.3436, 'grad_norm': 1.6770100593566895, 'learning_rate': 1.8733958006369062e-06, 'epoch': 0.59} {'loss': 2.3516, 'grad_norm': 1.4865009784698486, 'learning_rate': 1.8729752745907182e-06, 'epoch': 0.59} {'loss': 2.3528, 'grad_norm': 1.7228370904922485, 'learning_rate': 1.8725547674761399e-06, 'epoch': 0.59} {'loss': 2.1771, 'grad_norm': 1.7477141618728638, 'learning_rate': 1.8721342793058689e-06, 'epoch': 0.59} {'loss': 2.2611, 'grad_norm': 1.236833095550537, 'learning_rate': 1.8717138100926014e-06, 'epoch': 0.59} {'loss': 1.946, 'grad_norm': 1.2945202589035034, 'learning_rate': 1.8712933598490302e-06, 'epoch': 0.59} {'loss': 2.1829, 'grad_norm': 2.37785005569458, 'learning_rate': 1.8708729285878508e-06, 'epoch': 0.59} {'loss': 2.0882, 'grad_norm': 1.7655925750732422, 'learning_rate': 1.8704525163217574e-06, 'epoch': 0.59} {'loss': 2.153, 'grad_norm': 1.4398808479309082, 'learning_rate': 1.8700321230634439e-06, 'epoch': 0.59} {'loss': 2.4023, 'grad_norm': 1.9507842063903809, 'learning_rate': 1.8696117488256025e-06, 'epoch': 0.59} {'loss': 1.7841, 'grad_norm': 1.6840746402740479, 'learning_rate': 1.8691913936209256e-06, 'epoch': 0.59} {'loss': 2.3808, 'grad_norm': 1.7723709344863892, 'learning_rate': 1.8687710574621051e-06, 'epoch': 0.59} {'loss': 1.7033, 'grad_norm': 1.498170256614685, 'learning_rate': 1.8683507403618326e-06, 'epoch': 0.59} {'loss': 2.1413, 'grad_norm': 1.9542282819747925, 'learning_rate': 1.8679304423327972e-06, 'epoch': 0.59} {'loss': 2.0997, 'grad_norm': 1.465259075164795, 'learning_rate': 1.86751016338769e-06, 'epoch': 0.59} {'loss': 2.2222, 'grad_norm': 1.469174861907959, 'learning_rate': 1.8670899035391998e-06, 'epoch': 0.59} {'loss': 2.1736, 'grad_norm': 1.3184508085250854, 'learning_rate': 1.8666696628000155e-06, 'epoch': 0.59} {'loss': 2.3243, 'grad_norm': 1.9377363920211792, 'learning_rate': 1.8662494411828258e-06, 'epoch': 0.59} {'loss': 2.1309, 'grad_norm': 1.7200971841812134, 'learning_rate': 1.8658292387003177e-06, 'epoch': 0.59} {'loss': 2.2488, 'grad_norm': 2.0431315898895264, 'learning_rate': 1.8654090553651782e-06, 'epoch': 0.59} {'loss': 2.2942, 'grad_norm': 2.033407688140869, 'learning_rate': 1.864988891190095e-06, 'epoch': 0.59} {'loss': 2.2521, 'grad_norm': 1.6108371019363403, 'learning_rate': 1.8645687461877538e-06, 'epoch': 0.59} {'loss': 1.5197, 'grad_norm': 3.57075572013855, 'learning_rate': 1.8641486203708387e-06, 'epoch': 0.6} {'loss': 2.4923, 'grad_norm': 1.5246050357818604, 'learning_rate': 1.8637285137520342e-06, 'epoch': 0.6} {'loss': 2.0161, 'grad_norm': 1.686360478401184, 'learning_rate': 1.863308426344026e-06, 'epoch': 0.6} {'loss': 2.1772, 'grad_norm': 1.5882474184036255, 'learning_rate': 1.8628883581594975e-06, 'epoch': 0.6} {'loss': 2.2246, 'grad_norm': 1.6423708200454712, 'learning_rate': 1.8624683092111307e-06, 'epoch': 0.6} {'loss': 2.5539, 'grad_norm': 1.6842693090438843, 'learning_rate': 1.862048279511609e-06, 'epoch': 0.6} {'loss': 1.891, 'grad_norm': 1.408274531364441, 'learning_rate': 1.861628269073614e-06, 'epoch': 0.6} {'loss': 2.5509, 'grad_norm': 1.525704264640808, 'learning_rate': 1.8612082779098268e-06, 'epoch': 0.6} {'loss': 2.2479, 'grad_norm': 1.861552357673645, 'learning_rate': 1.8607883060329284e-06, 'epoch': 0.6} {'loss': 2.0792, 'grad_norm': 1.7350850105285645, 'learning_rate': 1.8603683534555988e-06, 'epoch': 0.6} {'loss': 2.2041, 'grad_norm': 1.461837887763977, 'learning_rate': 1.859948420190517e-06, 'epoch': 0.6} {'loss': 2.2807, 'grad_norm': 1.7561756372451782, 'learning_rate': 1.8595285062503626e-06, 'epoch': 0.6} {'loss': 2.2156, 'grad_norm': 1.6812820434570312, 'learning_rate': 1.8591086116478135e-06, 'epoch': 0.6} {'loss': 2.1789, 'grad_norm': 1.6155894994735718, 'learning_rate': 1.8586887363955471e-06, 'epoch': 0.6} {'loss': 2.3011, 'grad_norm': 1.8826791048049927, 'learning_rate': 1.8582688805062422e-06, 'epoch': 0.6} {'loss': 2.2947, 'grad_norm': 1.3667831420898438, 'learning_rate': 1.857849043992574e-06, 'epoch': 0.6} {'loss': 1.9752, 'grad_norm': 1.2739372253417969, 'learning_rate': 1.857429226867219e-06, 'epoch': 0.6} {'loss': 2.2587, 'grad_norm': 1.8649572134017944, 'learning_rate': 1.8570094291428536e-06, 'epoch': 0.6} {'loss': 2.1996, 'grad_norm': 1.5856431722640991, 'learning_rate': 1.8565896508321502e-06, 'epoch': 0.6} {'loss': 2.2265, 'grad_norm': 2.0652527809143066, 'learning_rate': 1.856169891947785e-06, 'epoch': 0.6} {'loss': 2.061, 'grad_norm': 1.5585612058639526, 'learning_rate': 1.8557501525024313e-06, 'epoch': 0.6} {'loss': 2.3467, 'grad_norm': 1.6791912317276, 'learning_rate': 1.8553304325087618e-06, 'epoch': 0.6} {'loss': 2.0711, 'grad_norm': 1.6110306978225708, 'learning_rate': 1.8549107319794497e-06, 'epoch': 0.6} {'loss': 2.0811, 'grad_norm': 1.6194020509719849, 'learning_rate': 1.854491050927166e-06, 'epoch': 0.6} {'loss': 2.3468, 'grad_norm': 1.22722327709198, 'learning_rate': 1.854071389364583e-06, 'epoch': 0.6} {'loss': 1.565, 'grad_norm': 1.6693449020385742, 'learning_rate': 1.8536517473043706e-06, 'epoch': 0.6} {'loss': 2.345, 'grad_norm': 1.4816232919692993, 'learning_rate': 1.8532321247592e-06, 'epoch': 0.6} {'loss': 2.3171, 'grad_norm': 1.7703183889389038, 'learning_rate': 1.8528125217417398e-06, 'epoch': 0.6} {'loss': 2.2303, 'grad_norm': 1.6790516376495361, 'learning_rate': 1.8523929382646589e-06, 'epoch': 0.6} {'loss': 2.19, 'grad_norm': 2.2231709957122803, 'learning_rate': 1.8519733743406265e-06, 'epoch': 0.6} {'loss': 2.1411, 'grad_norm': 1.6999821662902832, 'learning_rate': 1.8515538299823089e-06, 'epoch': 0.6} {'loss': 2.0316, 'grad_norm': 1.2675209045410156, 'learning_rate': 1.8511343052023752e-06, 'epoch': 0.6} {'loss': 2.1024, 'grad_norm': 1.8888404369354248, 'learning_rate': 1.8507148000134911e-06, 'epoch': 0.6} {'loss': 2.2368, 'grad_norm': 1.8275800943374634, 'learning_rate': 1.8502953144283232e-06, 'epoch': 0.6} {'loss': 2.3011, 'grad_norm': 23.87015151977539, 'learning_rate': 1.8498758484595358e-06, 'epoch': 0.6} {'loss': 2.3237, 'grad_norm': 1.584959864616394, 'learning_rate': 1.849456402119795e-06, 'epoch': 0.6} {'loss': 2.0634, 'grad_norm': 1.7770156860351562, 'learning_rate': 1.8490369754217642e-06, 'epoch': 0.6} {'loss': 2.3883, 'grad_norm': 1.660240888595581, 'learning_rate': 1.8486175683781066e-06, 'epoch': 0.6} {'loss': 2.3081, 'grad_norm': 2.148934841156006, 'learning_rate': 1.8481981810014866e-06, 'epoch': 0.6} {'loss': 2.1843, 'grad_norm': 1.716103196144104, 'learning_rate': 1.8477788133045658e-06, 'epoch': 0.6} {'loss': 2.3041, 'grad_norm': 1.744370460510254, 'learning_rate': 1.847359465300006e-06, 'epoch': 0.6} {'loss': 2.2513, 'grad_norm': 1.6454912424087524, 'learning_rate': 1.8469401370004691e-06, 'epoch': 0.6} {'loss': 2.3563, 'grad_norm': 2.2316718101501465, 'learning_rate': 1.8465208284186145e-06, 'epoch': 0.6} {'loss': 2.2547, 'grad_norm': 1.8968878984451294, 'learning_rate': 1.846101539567105e-06, 'epoch': 0.6} {'loss': 2.2406, 'grad_norm': 1.5685681104660034, 'learning_rate': 1.8456822704585974e-06, 'epoch': 0.6} {'loss': 2.2896, 'grad_norm': 1.7299388647079468, 'learning_rate': 1.8452630211057512e-06, 'epoch': 0.6} {'loss': 2.4509, 'grad_norm': 2.292100429534912, 'learning_rate': 1.8448437915212247e-06, 'epoch': 0.6} {'loss': 2.231, 'grad_norm': 1.7866764068603516, 'learning_rate': 1.844424581717676e-06, 'epoch': 0.6} {'loss': 2.2499, 'grad_norm': 1.384885549545288, 'learning_rate': 1.8440053917077625e-06, 'epoch': 0.6} {'loss': 2.0379, 'grad_norm': 1.6891852617263794, 'learning_rate': 1.84358622150414e-06, 'epoch': 0.6} {'loss': 2.0542, 'grad_norm': 1.3907191753387451, 'learning_rate': 1.843167071119465e-06, 'epoch': 0.6} {'loss': 2.2509, 'grad_norm': 1.7973179817199707, 'learning_rate': 1.8427479405663923e-06, 'epoch': 0.6} {'loss': 2.3339, 'grad_norm': 1.906326174736023, 'learning_rate': 1.8423288298575772e-06, 'epoch': 0.6} {'loss': 2.3713, 'grad_norm': 1.9112685918807983, 'learning_rate': 1.8419097390056734e-06, 'epoch': 0.6} {'loss': 2.3279, 'grad_norm': 1.7160210609436035, 'learning_rate': 1.8414906680233342e-06, 'epoch': 0.6} {'loss': 2.4015, 'grad_norm': 1.7276999950408936, 'learning_rate': 1.8410716169232123e-06, 'epoch': 0.6} {'loss': 2.1288, 'grad_norm': 1.579176425933838, 'learning_rate': 1.8406525857179609e-06, 'epoch': 0.6} {'loss': 2.3811, 'grad_norm': 1.7363795042037964, 'learning_rate': 1.8402335744202313e-06, 'epoch': 0.6} {'loss': 2.2015, 'grad_norm': 1.60238778591156, 'learning_rate': 1.8398145830426744e-06, 'epoch': 0.6} {'loss': 2.2943, 'grad_norm': 2.60386061668396, 'learning_rate': 1.8393956115979407e-06, 'epoch': 0.6} {'loss': 2.165, 'grad_norm': 1.5761988162994385, 'learning_rate': 1.8389766600986803e-06, 'epoch': 0.6} {'loss': 2.1902, 'grad_norm': 1.7032710313796997, 'learning_rate': 1.838557728557544e-06, 'epoch': 0.6} {'loss': 2.2061, 'grad_norm': 1.5086877346038818, 'learning_rate': 1.8381388169871777e-06, 'epoch': 0.6} {'loss': 2.5094, 'grad_norm': 1.5153383016586304, 'learning_rate': 1.8377199254002304e-06, 'epoch': 0.6} {'loss': 2.3804, 'grad_norm': 1.4153271913528442, 'learning_rate': 1.8373010538093504e-06, 'epoch': 0.6} {'loss': 2.1467, 'grad_norm': 1.4420850276947021, 'learning_rate': 1.8368822022271844e-06, 'epoch': 0.6} {'loss': 2.4041, 'grad_norm': 1.5839354991912842, 'learning_rate': 1.8364633706663782e-06, 'epoch': 0.6} {'loss': 2.409, 'grad_norm': 1.7064595222473145, 'learning_rate': 1.8360445591395782e-06, 'epoch': 0.6} {'loss': 2.2653, 'grad_norm': 1.9809778928756714, 'learning_rate': 1.8356257676594285e-06, 'epoch': 0.6} {'loss': 2.2193, 'grad_norm': 1.3257176876068115, 'learning_rate': 1.8352069962385744e-06, 'epoch': 0.6} {'loss': 2.1118, 'grad_norm': 1.5211635828018188, 'learning_rate': 1.83478824488966e-06, 'epoch': 0.6} {'loss': 1.7997, 'grad_norm': 1.3046404123306274, 'learning_rate': 1.8343695136253276e-06, 'epoch': 0.6} {'loss': 2.2992, 'grad_norm': 1.6339112520217896, 'learning_rate': 1.83395080245822e-06, 'epoch': 0.6} {'loss': 2.3904, 'grad_norm': 1.7346553802490234, 'learning_rate': 1.8335321114009797e-06, 'epoch': 0.6} {'loss': 2.3338, 'grad_norm': 1.8109697103500366, 'learning_rate': 1.8331134404662481e-06, 'epoch': 0.6} {'loss': 2.2183, 'grad_norm': 1.6080763339996338, 'learning_rate': 1.8326947896666652e-06, 'epoch': 0.6} {'loss': 2.4391, 'grad_norm': 1.4059823751449585, 'learning_rate': 1.8322761590148727e-06, 'epoch': 0.6} {'loss': 2.229, 'grad_norm': 1.517386555671692, 'learning_rate': 1.8318575485235093e-06, 'epoch': 0.6} {'loss': 2.1735, 'grad_norm': 1.3362265825271606, 'learning_rate': 1.831438958205214e-06, 'epoch': 0.6} {'loss': 2.2896, 'grad_norm': 1.5680320262908936, 'learning_rate': 1.831020388072627e-06, 'epoch': 0.6} {'loss': 2.1973, 'grad_norm': 1.6495941877365112, 'learning_rate': 1.8306018381383823e-06, 'epoch': 0.6} {'loss': 2.3056, 'grad_norm': 1.7360858917236328, 'learning_rate': 1.83018330841512e-06, 'epoch': 0.6} {'loss': 2.0478, 'grad_norm': 1.6469067335128784, 'learning_rate': 1.829764798915476e-06, 'epoch': 0.6} {'loss': 2.225, 'grad_norm': 1.4893146753311157, 'learning_rate': 1.8293463096520857e-06, 'epoch': 0.6} {'loss': 2.1247, 'grad_norm': 3.77738356590271, 'learning_rate': 1.8289278406375854e-06, 'epoch': 0.6} {'loss': 2.0883, 'grad_norm': 3.7836058139801025, 'learning_rate': 1.8285093918846093e-06, 'epoch': 0.6} {'loss': 2.2059, 'grad_norm': 1.6606849431991577, 'learning_rate': 1.8280909634057913e-06, 'epoch': 0.6} {'loss': 1.94, 'grad_norm': 1.3900803327560425, 'learning_rate': 1.8276725552137659e-06, 'epoch': 0.6} {'loss': 2.0706, 'grad_norm': 1.6935685873031616, 'learning_rate': 1.8272541673211648e-06, 'epoch': 0.6} {'loss': 2.0945, 'grad_norm': 1.381866216659546, 'learning_rate': 1.8268357997406208e-06, 'epoch': 0.6} {'loss': 2.0545, 'grad_norm': 1.2941887378692627, 'learning_rate': 1.8264174524847656e-06, 'epoch': 0.6} {'loss': 2.1979, 'grad_norm': 1.6135536432266235, 'learning_rate': 1.82599912556623e-06, 'epoch': 0.6} {'loss': 2.4024, 'grad_norm': 1.7107821702957153, 'learning_rate': 1.8255808189976443e-06, 'epoch': 0.6} {'loss': 2.2967, 'grad_norm': 1.7322726249694824, 'learning_rate': 1.8251625327916388e-06, 'epoch': 0.6} {'loss': 2.216, 'grad_norm': 1.715828537940979, 'learning_rate': 1.8247442669608432e-06, 'epoch': 0.6} {'loss': 2.3129, 'grad_norm': 1.716007947921753, 'learning_rate': 1.8243260215178852e-06, 'epoch': 0.6} {'loss': 2.3784, 'grad_norm': 1.8189326524734497, 'learning_rate': 1.8239077964753938e-06, 'epoch': 0.6} {'loss': 1.8324, 'grad_norm': 1.7898638248443604, 'learning_rate': 1.823489591845995e-06, 'epoch': 0.6} {'loss': 2.1639, 'grad_norm': 1.5355398654937744, 'learning_rate': 1.8230714076423162e-06, 'epoch': 0.6} {'loss': 2.0699, 'grad_norm': 1.4563482999801636, 'learning_rate': 1.8226532438769834e-06, 'epoch': 0.6} {'loss': 2.3086, 'grad_norm': 1.638081669807434, 'learning_rate': 1.8222351005626227e-06, 'epoch': 0.6} {'loss': 2.2543, 'grad_norm': 1.5339382886886597, 'learning_rate': 1.8218169777118583e-06, 'epoch': 0.6} {'loss': 2.2622, 'grad_norm': 1.2477210760116577, 'learning_rate': 1.8213988753373147e-06, 'epoch': 0.6} {'loss': 2.1062, 'grad_norm': 1.625819206237793, 'learning_rate': 1.8209807934516158e-06, 'epoch': 0.6} {'loss': 2.2144, 'grad_norm': 1.9307019710540771, 'learning_rate': 1.820562732067384e-06, 'epoch': 0.6} {'loss': 2.3273, 'grad_norm': 1.409206748008728, 'learning_rate': 1.8201446911972437e-06, 'epoch': 0.6} {'loss': 2.2135, 'grad_norm': 1.983569622039795, 'learning_rate': 1.8197266708538142e-06, 'epoch': 0.6} {'loss': 1.5222, 'grad_norm': 1.7426766157150269, 'learning_rate': 1.8193086710497176e-06, 'epoch': 0.6} {'loss': 2.2043, 'grad_norm': 1.6393989324569702, 'learning_rate': 1.8188906917975741e-06, 'epoch': 0.6} {'loss': 2.276, 'grad_norm': 1.682173252105713, 'learning_rate': 1.8184727331100047e-06, 'epoch': 0.6} {'loss': 1.9567, 'grad_norm': 1.4428431987762451, 'learning_rate': 1.818054794999628e-06, 'epoch': 0.6} {'loss': 2.3363, 'grad_norm': 1.6079245805740356, 'learning_rate': 1.8176368774790632e-06, 'epoch': 0.6} {'loss': 2.1576, 'grad_norm': 1.6833977699279785, 'learning_rate': 1.8172189805609278e-06, 'epoch': 0.6} {'loss': 2.2288, 'grad_norm': 1.8275463581085205, 'learning_rate': 1.8168011042578393e-06, 'epoch': 0.6} {'loss': 2.5878, 'grad_norm': 2.096090316772461, 'learning_rate': 1.8163832485824157e-06, 'epoch': 0.6} {'loss': 2.2175, 'grad_norm': 1.6817221641540527, 'learning_rate': 1.8159654135472714e-06, 'epoch': 0.6} {'loss': 2.0076, 'grad_norm': 1.579195261001587, 'learning_rate': 1.8155475991650234e-06, 'epoch': 0.6} {'loss': 2.2336, 'grad_norm': 1.5150346755981445, 'learning_rate': 1.8151298054482858e-06, 'epoch': 0.6} {'loss': 2.4857, 'grad_norm': 1.7528425455093384, 'learning_rate': 1.8147120324096734e-06, 'epoch': 0.6} {'loss': 2.1134, 'grad_norm': 1.5854614973068237, 'learning_rate': 1.8142942800617997e-06, 'epoch': 0.6} {'loss': 2.3695, 'grad_norm': 1.9742740392684937, 'learning_rate': 1.8138765484172776e-06, 'epoch': 0.6} {'loss': 2.3836, 'grad_norm': 1.5160080194473267, 'learning_rate': 1.81345883748872e-06, 'epoch': 0.6} {'loss': 2.4233, 'grad_norm': 1.7784967422485352, 'learning_rate': 1.8130411472887388e-06, 'epoch': 0.6} {'loss': 2.4228, 'grad_norm': 1.8248775005340576, 'learning_rate': 1.8126234778299461e-06, 'epoch': 0.6} {'loss': 2.5984, 'grad_norm': 1.6286600828170776, 'learning_rate': 1.8122058291249506e-06, 'epoch': 0.6} {'loss': 2.1279, 'grad_norm': 1.6914830207824707, 'learning_rate': 1.8117882011863625e-06, 'epoch': 0.6} {'loss': 2.3011, 'grad_norm': 9.567702293395996, 'learning_rate': 1.8113705940267923e-06, 'epoch': 0.6} {'loss': 1.728, 'grad_norm': 1.5459216833114624, 'learning_rate': 1.810953007658848e-06, 'epoch': 0.6} {'loss': 2.1858, 'grad_norm': 1.6913330554962158, 'learning_rate': 1.810535442095138e-06, 'epoch': 0.6} {'loss': 2.1917, 'grad_norm': 1.7133058309555054, 'learning_rate': 1.8101178973482697e-06, 'epoch': 0.6} {'loss': 2.1934, 'grad_norm': 1.2501332759857178, 'learning_rate': 1.8097003734308497e-06, 'epoch': 0.6} {'loss': 2.1652, 'grad_norm': 1.7870334386825562, 'learning_rate': 1.8092828703554844e-06, 'epoch': 0.6} {'loss': 2.2143, 'grad_norm': 1.9757647514343262, 'learning_rate': 1.80886538813478e-06, 'epoch': 0.6} {'loss': 2.2802, 'grad_norm': 1.4389621019363403, 'learning_rate': 1.80844792678134e-06, 'epoch': 0.6} {'loss': 1.9631, 'grad_norm': 1.5723817348480225, 'learning_rate': 1.8080304863077696e-06, 'epoch': 0.6} {'loss': 2.2201, 'grad_norm': 1.592658519744873, 'learning_rate': 1.8076130667266723e-06, 'epoch': 0.6} {'loss': 2.4143, 'grad_norm': 1.6431413888931274, 'learning_rate': 1.8071956680506513e-06, 'epoch': 0.6} {'loss': 2.3077, 'grad_norm': 1.6272687911987305, 'learning_rate': 1.8067782902923088e-06, 'epoch': 0.6} {'loss': 2.2406, 'grad_norm': 1.600345253944397, 'learning_rate': 1.8063609334642465e-06, 'epoch': 0.6} {'loss': 2.2267, 'grad_norm': 1.59935462474823, 'learning_rate': 1.8059435975790662e-06, 'epoch': 0.6} {'loss': 2.2174, 'grad_norm': 1.6234463453292847, 'learning_rate': 1.805526282649369e-06, 'epoch': 0.6} {'loss': 2.2244, 'grad_norm': 1.6675903797149658, 'learning_rate': 1.805108988687752e-06, 'epoch': 0.6} {'loss': 1.9218, 'grad_norm': 2.0002059936523438, 'learning_rate': 1.8046917157068172e-06, 'epoch': 0.6} {'loss': 1.9971, 'grad_norm': 1.7428044080734253, 'learning_rate': 1.8042744637191624e-06, 'epoch': 0.6} {'loss': 2.2046, 'grad_norm': 1.6814409494400024, 'learning_rate': 1.8038572327373848e-06, 'epoch': 0.6} {'loss': 2.5807, 'grad_norm': 1.5960415601730347, 'learning_rate': 1.8034400227740827e-06, 'epoch': 0.6} {'loss': 2.218, 'grad_norm': 1.683571696281433, 'learning_rate': 1.803022833841853e-06, 'epoch': 0.6} {'loss': 2.2183, 'grad_norm': 1.6199408769607544, 'learning_rate': 1.802605665953291e-06, 'epoch': 0.6} {'loss': 2.2599, 'grad_norm': 1.522336483001709, 'learning_rate': 1.8021885191209926e-06, 'epoch': 0.6} {'loss': 2.2836, 'grad_norm': 1.845884919166565, 'learning_rate': 1.8017713933575527e-06, 'epoch': 0.6} {'loss': 2.1971, 'grad_norm': 1.8234142065048218, 'learning_rate': 1.801354288675565e-06, 'epoch': 0.6} {'loss': 2.2925, 'grad_norm': 1.7045490741729736, 'learning_rate': 1.8009372050876234e-06, 'epoch': 0.6} {'loss': 2.2242, 'grad_norm': 1.5094923973083496, 'learning_rate': 1.8005201426063208e-06, 'epoch': 0.6} {'loss': 2.121, 'grad_norm': 2.1269009113311768, 'learning_rate': 1.8001031012442494e-06, 'epoch': 0.6} {'loss': 2.4053, 'grad_norm': 1.4036163091659546, 'learning_rate': 1.7996860810139999e-06, 'epoch': 0.6} {'loss': 2.3942, 'grad_norm': 1.5838687419891357, 'learning_rate': 1.799269081928165e-06, 'epoch': 0.6} {'loss': 2.1438, 'grad_norm': 1.823969841003418, 'learning_rate': 1.7988521039993346e-06, 'epoch': 0.6} {'loss': 2.2038, 'grad_norm': 1.4184365272521973, 'learning_rate': 1.798435147240098e-06, 'epoch': 0.6} {'loss': 2.0261, 'grad_norm': 1.5632606744766235, 'learning_rate': 1.7980182116630446e-06, 'epoch': 0.6} {'loss': 2.3854, 'grad_norm': 1.8284555673599243, 'learning_rate': 1.797601297280762e-06, 'epoch': 0.6} {'loss': 1.7583, 'grad_norm': 1.446393609046936, 'learning_rate': 1.7971844041058392e-06, 'epoch': 0.6} {'loss': 2.2043, 'grad_norm': 1.416684865951538, 'learning_rate': 1.7967675321508626e-06, 'epoch': 0.6} {'loss': 2.2049, 'grad_norm': 1.5651425123214722, 'learning_rate': 1.7963506814284187e-06, 'epoch': 0.6} {'loss': 2.3019, 'grad_norm': 1.5903881788253784, 'learning_rate': 1.7959338519510938e-06, 'epoch': 0.6} {'loss': 2.1786, 'grad_norm': 1.5945876836776733, 'learning_rate': 1.7955170437314726e-06, 'epoch': 0.6} {'loss': 2.2654, 'grad_norm': 1.566900610923767, 'learning_rate': 1.7951002567821401e-06, 'epoch': 0.6} {'loss': 2.0895, 'grad_norm': 1.563323974609375, 'learning_rate': 1.7946834911156796e-06, 'epoch': 0.6} {'loss': 2.2882, 'grad_norm': 1.6474946737289429, 'learning_rate': 1.7942667467446766e-06, 'epoch': 0.6} {'loss': 2.2605, 'grad_norm': 1.4926159381866455, 'learning_rate': 1.7938500236817113e-06, 'epoch': 0.6} {'loss': 2.29, 'grad_norm': 1.59175443649292, 'learning_rate': 1.7934333219393664e-06, 'epoch': 0.6} {'loss': 2.1359, 'grad_norm': 1.6191380023956299, 'learning_rate': 1.793016641530223e-06, 'epoch': 0.6} {'loss': 2.1653, 'grad_norm': 1.559262752532959, 'learning_rate': 1.7925999824668627e-06, 'epoch': 0.6} {'loss': 2.3936, 'grad_norm': 1.7627449035644531, 'learning_rate': 1.792183344761865e-06, 'epoch': 0.6} {'loss': 2.3274, 'grad_norm': 1.4867749214172363, 'learning_rate': 1.7917667284278096e-06, 'epoch': 0.6} {'loss': 2.5026, 'grad_norm': 1.5039325952529907, 'learning_rate': 1.7913501334772753e-06, 'epoch': 0.6} {'loss': 2.1458, 'grad_norm': 1.7548795938491821, 'learning_rate': 1.79093355992284e-06, 'epoch': 0.6} {'loss': 2.1988, 'grad_norm': 1.9559742212295532, 'learning_rate': 1.7905170077770818e-06, 'epoch': 0.6} {'loss': 2.2154, 'grad_norm': 1.5973215103149414, 'learning_rate': 1.7901004770525768e-06, 'epoch': 0.6} {'loss': 2.4529, 'grad_norm': 1.982292652130127, 'learning_rate': 1.7896839677619016e-06, 'epoch': 0.6} {'loss': 2.2136, 'grad_norm': 1.6352919340133667, 'learning_rate': 1.7892674799176313e-06, 'epoch': 0.6} {'loss': 2.2, 'grad_norm': 1.5490310192108154, 'learning_rate': 1.7888510135323414e-06, 'epoch': 0.6} {'loss': 2.1991, 'grad_norm': 1.5930315256118774, 'learning_rate': 1.788434568618606e-06, 'epoch': 0.6} {'loss': 2.0583, 'grad_norm': 1.3700644969940186, 'learning_rate': 1.7880181451889984e-06, 'epoch': 0.6} {'loss': 2.091, 'grad_norm': 1.4249331951141357, 'learning_rate': 1.787601743256092e-06, 'epoch': 0.6} {'loss': 2.3542, 'grad_norm': 1.6061674356460571, 'learning_rate': 1.7871853628324592e-06, 'epoch': 0.6} {'loss': 2.3249, 'grad_norm': 1.9131361246109009, 'learning_rate': 1.7867690039306729e-06, 'epoch': 0.6} {'loss': 2.4457, 'grad_norm': 1.5897878408432007, 'learning_rate': 1.7863526665633012e-06, 'epoch': 0.6} {'loss': 2.0283, 'grad_norm': 1.8874406814575195, 'learning_rate': 1.7859363507429155e-06, 'epoch': 0.61} {'loss': 2.2307, 'grad_norm': 1.4585552215576172, 'learning_rate': 1.785520056482087e-06, 'epoch': 0.61} {'loss': 2.0696, 'grad_norm': 1.4328104257583618, 'learning_rate': 1.7851037837933833e-06, 'epoch': 0.61} {'loss': 2.251, 'grad_norm': 1.8451426029205322, 'learning_rate': 1.7846875326893734e-06, 'epoch': 0.61} {'loss': 2.1438, 'grad_norm': 1.4763354063034058, 'learning_rate': 1.784271303182625e-06, 'epoch': 0.61} {'loss': 2.4593, 'grad_norm': 1.599788784980774, 'learning_rate': 1.7838550952857053e-06, 'epoch': 0.61} {'loss': 2.1345, 'grad_norm': 1.8140227794647217, 'learning_rate': 1.7834389090111812e-06, 'epoch': 0.61} {'loss': 2.2788, 'grad_norm': 1.5967069864273071, 'learning_rate': 1.7830227443716175e-06, 'epoch': 0.61} {'loss': 2.4456, 'grad_norm': 1.5728936195373535, 'learning_rate': 1.7826066013795796e-06, 'epoch': 0.61} {'loss': 2.1191, 'grad_norm': 1.7109036445617676, 'learning_rate': 1.7821904800476325e-06, 'epoch': 0.61} {'loss': 2.3666, 'grad_norm': 1.4931269884109497, 'learning_rate': 1.7817743803883397e-06, 'epoch': 0.61} {'loss': 2.0767, 'grad_norm': 1.498579978942871, 'learning_rate': 1.7813583024142647e-06, 'epoch': 0.61} {'loss': 2.0424, 'grad_norm': 1.6296699047088623, 'learning_rate': 1.780942246137969e-06, 'epoch': 0.61} {'loss': 2.3463, 'grad_norm': 2.4561710357666016, 'learning_rate': 1.7805262115720162e-06, 'epoch': 0.61} {'loss': 2.2119, 'grad_norm': 3.152780532836914, 'learning_rate': 1.7801101987289666e-06, 'epoch': 0.61} {'loss': 1.8316, 'grad_norm': 1.6079095602035522, 'learning_rate': 1.7796942076213818e-06, 'epoch': 0.61} {'loss': 2.2095, 'grad_norm': 1.4230124950408936, 'learning_rate': 1.7792782382618193e-06, 'epoch': 0.61} {'loss': 2.2512, 'grad_norm': 2.101677656173706, 'learning_rate': 1.7788622906628404e-06, 'epoch': 0.61} {'loss': 2.1159, 'grad_norm': 1.3153311014175415, 'learning_rate': 1.7784463648370033e-06, 'epoch': 0.61} {'loss': 1.6082, 'grad_norm': 1.423156499862671, 'learning_rate': 1.7780304607968652e-06, 'epoch': 0.61} {'loss': 2.4101, 'grad_norm': 1.763572335243225, 'learning_rate': 1.7776145785549845e-06, 'epoch': 0.61} {'loss': 2.2153, 'grad_norm': 1.6624798774719238, 'learning_rate': 1.7771987181239172e-06, 'epoch': 0.61} {'loss': 2.0805, 'grad_norm': 1.7752329111099243, 'learning_rate': 1.7767828795162195e-06, 'epoch': 0.61} {'loss': 2.2767, 'grad_norm': 1.5786422491073608, 'learning_rate': 1.7763670627444465e-06, 'epoch': 0.61} {'loss': 2.3559, 'grad_norm': 2.529646873474121, 'learning_rate': 1.7759512678211535e-06, 'epoch': 0.61} {'loss': 2.5067, 'grad_norm': 1.665502905845642, 'learning_rate': 1.7755354947588937e-06, 'epoch': 0.61} {'loss': 2.3014, 'grad_norm': 1.9019668102264404, 'learning_rate': 1.7751197435702206e-06, 'epoch': 0.61} {'loss': 2.1748, 'grad_norm': 1.498632788658142, 'learning_rate': 1.7747040142676868e-06, 'epoch': 0.61} {'loss': 2.3059, 'grad_norm': 1.6147533655166626, 'learning_rate': 1.7742883068638447e-06, 'epoch': 0.61} {'loss': 2.4725, 'grad_norm': 1.4576046466827393, 'learning_rate': 1.7738726213712448e-06, 'epoch': 0.61} {'loss': 2.5617, 'grad_norm': 1.6244139671325684, 'learning_rate': 1.773456957802439e-06, 'epoch': 0.61} {'loss': 2.3175, 'grad_norm': 1.8176498413085938, 'learning_rate': 1.7730413161699772e-06, 'epoch': 0.61} {'loss': 2.1298, 'grad_norm': 1.532823085784912, 'learning_rate': 1.772625696486408e-06, 'epoch': 0.61} {'loss': 2.1706, 'grad_norm': 1.305281162261963, 'learning_rate': 1.772210098764281e-06, 'epoch': 0.61} {'loss': 2.2047, 'grad_norm': 1.7314938306808472, 'learning_rate': 1.7717945230161432e-06, 'epoch': 0.61} {'loss': 1.9383, 'grad_norm': 1.393880009651184, 'learning_rate': 1.7713789692545427e-06, 'epoch': 0.61} {'loss': 2.3317, 'grad_norm': 1.647931456565857, 'learning_rate': 1.7709634374920259e-06, 'epoch': 0.61} {'loss': 2.3338, 'grad_norm': 1.6367965936660767, 'learning_rate': 1.7705479277411391e-06, 'epoch': 0.61} {'loss': 2.3156, 'grad_norm': 1.634692668914795, 'learning_rate': 1.7701324400144275e-06, 'epoch': 0.61} {'loss': 2.2571, 'grad_norm': 1.754549503326416, 'learning_rate': 1.7697169743244358e-06, 'epoch': 0.61} {'loss': 2.4641, 'grad_norm': 1.5095221996307373, 'learning_rate': 1.769301530683708e-06, 'epoch': 0.61} {'loss': 2.4326, 'grad_norm': 2.266592502593994, 'learning_rate': 1.7688861091047873e-06, 'epoch': 0.61} {'loss': 2.4357, 'grad_norm': 1.9258575439453125, 'learning_rate': 1.7684707096002186e-06, 'epoch': 0.61} {'loss': 2.2825, 'grad_norm': 1.7449480295181274, 'learning_rate': 1.7680553321825405e-06, 'epoch': 0.61} {'loss': 2.3696, 'grad_norm': 1.9090663194656372, 'learning_rate': 1.7676399768642965e-06, 'epoch': 0.61} {'loss': 2.2429, 'grad_norm': 1.6615970134735107, 'learning_rate': 1.767224643658026e-06, 'epoch': 0.61} {'loss': 2.1286, 'grad_norm': 1.6601064205169678, 'learning_rate': 1.7668093325762705e-06, 'epoch': 0.61} {'loss': 2.3143, 'grad_norm': 1.4927208423614502, 'learning_rate': 1.766394043631569e-06, 'epoch': 0.61} {'loss': 2.2086, 'grad_norm': 1.5495944023132324, 'learning_rate': 1.7659787768364596e-06, 'epoch': 0.61} {'loss': 2.2447, 'grad_norm': 1.7199336290359497, 'learning_rate': 1.7655635322034812e-06, 'epoch': 0.61} {'loss': 2.2079, 'grad_norm': 1.781601071357727, 'learning_rate': 1.7651483097451705e-06, 'epoch': 0.61} {'loss': 2.2346, 'grad_norm': 1.612277865409851, 'learning_rate': 1.764733109474065e-06, 'epoch': 0.61} {'loss': 2.3397, 'grad_norm': 1.5914638042449951, 'learning_rate': 1.7643179314026997e-06, 'epoch': 0.61} {'loss': 2.3111, 'grad_norm': 1.8529443740844727, 'learning_rate': 1.7639027755436105e-06, 'epoch': 0.61} {'loss': 2.3702, 'grad_norm': 1.4460006952285767, 'learning_rate': 1.763487641909332e-06, 'epoch': 0.61} {'loss': 2.1313, 'grad_norm': 1.6837561130523682, 'learning_rate': 1.7630725305123986e-06, 'epoch': 0.61} {'loss': 2.2099, 'grad_norm': 1.8345359563827515, 'learning_rate': 1.7626574413653433e-06, 'epoch': 0.61} {'loss': 2.1285, 'grad_norm': 1.1647303104400635, 'learning_rate': 1.7622423744806982e-06, 'epoch': 0.61} {'loss': 2.2842, 'grad_norm': 1.7812176942825317, 'learning_rate': 1.7618273298709965e-06, 'epoch': 0.61} {'loss': 2.4058, 'grad_norm': 1.6384800672531128, 'learning_rate': 1.7614123075487703e-06, 'epoch': 0.61} {'loss': 2.1811, 'grad_norm': 1.7486001253128052, 'learning_rate': 1.7609973075265477e-06, 'epoch': 0.61} {'loss': 2.0906, 'grad_norm': 1.822641372680664, 'learning_rate': 1.76058232981686e-06, 'epoch': 0.61} {'loss': 2.3093, 'grad_norm': 1.668336033821106, 'learning_rate': 1.7601673744322362e-06, 'epoch': 0.61} {'loss': 1.6751, 'grad_norm': 1.478622555732727, 'learning_rate': 1.7597524413852056e-06, 'epoch': 0.61} {'loss': 2.2183, 'grad_norm': 1.6434361934661865, 'learning_rate': 1.759337530688296e-06, 'epoch': 0.61} {'loss': 2.5709, 'grad_norm': 2.1501576900482178, 'learning_rate': 1.7589226423540346e-06, 'epoch': 0.61} {'loss': 2.181, 'grad_norm': 1.3359166383743286, 'learning_rate': 1.7585077763949476e-06, 'epoch': 0.61} {'loss': 2.3142, 'grad_norm': 1.600452184677124, 'learning_rate': 1.7580929328235616e-06, 'epoch': 0.61} {'loss': 2.3866, 'grad_norm': 1.506500244140625, 'learning_rate': 1.7576781116524022e-06, 'epoch': 0.61} {'loss': 2.4698, 'grad_norm': 2.1630947589874268, 'learning_rate': 1.7572633128939925e-06, 'epoch': 0.61} {'loss': 2.2539, 'grad_norm': 1.535975694656372, 'learning_rate': 1.756848536560858e-06, 'epoch': 0.61} {'loss': 2.2694, 'grad_norm': 1.5224777460098267, 'learning_rate': 1.7564337826655205e-06, 'epoch': 0.61} {'loss': 2.4336, 'grad_norm': 2.0409066677093506, 'learning_rate': 1.7560190512205038e-06, 'epoch': 0.61} {'loss': 2.0394, 'grad_norm': 1.6023987531661987, 'learning_rate': 1.7556043422383293e-06, 'epoch': 0.61} {'loss': 2.0587, 'grad_norm': 1.6205679178237915, 'learning_rate': 1.7551896557315173e-06, 'epoch': 0.61} {'loss': 1.3439, 'grad_norm': 1.9825074672698975, 'learning_rate': 1.7547749917125903e-06, 'epoch': 0.61} {'loss': 2.0492, 'grad_norm': 1.649563193321228, 'learning_rate': 1.754360350194067e-06, 'epoch': 0.61} {'loss': 2.3783, 'grad_norm': 1.6359647512435913, 'learning_rate': 1.7539457311884678e-06, 'epoch': 0.61} {'loss': 2.0779, 'grad_norm': 1.9820457696914673, 'learning_rate': 1.7535311347083083e-06, 'epoch': 0.61} {'loss': 2.2075, 'grad_norm': 1.7023437023162842, 'learning_rate': 1.7531165607661088e-06, 'epoch': 0.61} {'loss': 2.3191, 'grad_norm': 1.583633303642273, 'learning_rate': 1.7527020093743858e-06, 'epoch': 0.61} {'loss': 2.381, 'grad_norm': 1.4168217182159424, 'learning_rate': 1.7522874805456553e-06, 'epoch': 0.61} {'loss': 2.1206, 'grad_norm': 1.6478995084762573, 'learning_rate': 1.7518729742924336e-06, 'epoch': 0.61} {'loss': 2.2996, 'grad_norm': 1.3789693117141724, 'learning_rate': 1.7514584906272358e-06, 'epoch': 0.61} {'loss': 2.1389, 'grad_norm': 1.5951409339904785, 'learning_rate': 1.751044029562576e-06, 'epoch': 0.61} {'loss': 2.1279, 'grad_norm': 1.6661139726638794, 'learning_rate': 1.7506295911109684e-06, 'epoch': 0.61} {'loss': 1.8367, 'grad_norm': 1.4250727891921997, 'learning_rate': 1.750215175284926e-06, 'epoch': 0.61} {'loss': 2.4352, 'grad_norm': 1.9582256078720093, 'learning_rate': 1.7498007820969603e-06, 'epoch': 0.61} {'loss': 2.2264, 'grad_norm': 1.6075302362442017, 'learning_rate': 1.7493864115595837e-06, 'epoch': 0.61} {'loss': 1.3875, 'grad_norm': 1.4429128170013428, 'learning_rate': 1.748972063685307e-06, 'epoch': 0.61} {'loss': 2.1814, 'grad_norm': 1.5403348207473755, 'learning_rate': 1.7485577384866404e-06, 'epoch': 0.61} {'loss': 2.254, 'grad_norm': 1.5268219709396362, 'learning_rate': 1.7481434359760934e-06, 'epoch': 0.61} {'loss': 2.2138, 'grad_norm': 1.5159366130828857, 'learning_rate': 1.7477291561661757e-06, 'epoch': 0.61} {'loss': 2.3758, 'grad_norm': 2.22223162651062, 'learning_rate': 1.7473148990693956e-06, 'epoch': 0.61} {'loss': 2.6346, 'grad_norm': 1.6074247360229492, 'learning_rate': 1.7469006646982595e-06, 'epoch': 0.61} {'loss': 2.3799, 'grad_norm': 1.6644625663757324, 'learning_rate': 1.7464864530652753e-06, 'epoch': 0.61} {'loss': 2.3806, 'grad_norm': 1.6530897617340088, 'learning_rate': 1.7460722641829486e-06, 'epoch': 0.61} {'loss': 2.2943, 'grad_norm': 1.613456130027771, 'learning_rate': 1.7456580980637853e-06, 'epoch': 0.61} {'loss': 2.0876, 'grad_norm': 1.6389447450637817, 'learning_rate': 1.74524395472029e-06, 'epoch': 0.61} {'loss': 2.3062, 'grad_norm': 1.9356969594955444, 'learning_rate': 1.7448298341649667e-06, 'epoch': 0.61} {'loss': 2.3013, 'grad_norm': 1.6567949056625366, 'learning_rate': 1.744415736410319e-06, 'epoch': 0.61} {'loss': 2.1416, 'grad_norm': 1.5769822597503662, 'learning_rate': 1.7440016614688498e-06, 'epoch': 0.61} {'loss': 2.4677, 'grad_norm': 1.9912254810333252, 'learning_rate': 1.743587609353061e-06, 'epoch': 0.61} {'loss': 1.399, 'grad_norm': 2.211442470550537, 'learning_rate': 1.7431735800754535e-06, 'epoch': 0.61} {'loss': 2.2741, 'grad_norm': 1.5976636409759521, 'learning_rate': 1.74275957364853e-06, 'epoch': 0.61} {'loss': 2.1848, 'grad_norm': 1.5503605604171753, 'learning_rate': 1.742345590084788e-06, 'epoch': 0.61} {'loss': 2.4387, 'grad_norm': 1.559262990951538, 'learning_rate': 1.741931629396728e-06, 'epoch': 0.61} {'loss': 2.1995, 'grad_norm': 1.7786210775375366, 'learning_rate': 1.7415176915968479e-06, 'epoch': 0.61} {'loss': 2.3238, 'grad_norm': 1.406011939048767, 'learning_rate': 1.7411037766976465e-06, 'epoch': 0.61} {'loss': 2.3571, 'grad_norm': 2.0292770862579346, 'learning_rate': 1.740689884711621e-06, 'epoch': 0.61} {'loss': 2.3297, 'grad_norm': 3.8179850578308105, 'learning_rate': 1.7402760156512673e-06, 'epoch': 0.61} {'loss': 2.2836, 'grad_norm': 1.5535614490509033, 'learning_rate': 1.739862169529082e-06, 'epoch': 0.61} {'loss': 2.2005, 'grad_norm': 5.467555999755859, 'learning_rate': 1.7394483463575602e-06, 'epoch': 0.61} {'loss': 2.2059, 'grad_norm': 1.7190662622451782, 'learning_rate': 1.7390345461491953e-06, 'epoch': 0.61} {'loss': 2.3102, 'grad_norm': 1.7857732772827148, 'learning_rate': 1.738620768916482e-06, 'epoch': 0.61} {'loss': 2.033, 'grad_norm': 1.425526738166809, 'learning_rate': 1.7382070146719133e-06, 'epoch': 0.61} {'loss': 2.5085, 'grad_norm': 1.8300135135650635, 'learning_rate': 1.737793283427981e-06, 'epoch': 0.61} {'loss': 2.1577, 'grad_norm': 1.5819801092147827, 'learning_rate': 1.7373795751971778e-06, 'epoch': 0.61} {'loss': 2.4016, 'grad_norm': 1.6808152198791504, 'learning_rate': 1.7369658899919938e-06, 'epoch': 0.61} {'loss': 2.3754, 'grad_norm': 1.6291821002960205, 'learning_rate': 1.736552227824919e-06, 'epoch': 0.61} {'loss': 2.1969, 'grad_norm': 1.73763108253479, 'learning_rate': 1.7361385887084448e-06, 'epoch': 0.61} {'loss': 2.234, 'grad_norm': 1.6116364002227783, 'learning_rate': 1.7357249726550596e-06, 'epoch': 0.61} {'loss': 2.1801, 'grad_norm': 1.659752607345581, 'learning_rate': 1.7353113796772497e-06, 'epoch': 0.61} {'loss': 2.274, 'grad_norm': 20.85843276977539, 'learning_rate': 1.7348978097875036e-06, 'epoch': 0.61} {'loss': 2.115, 'grad_norm': 1.316745400428772, 'learning_rate': 1.7344842629983087e-06, 'epoch': 0.61} {'loss': 2.3381, 'grad_norm': 1.7858576774597168, 'learning_rate': 1.7340707393221513e-06, 'epoch': 0.61} {'loss': 2.1981, 'grad_norm': 2.0303354263305664, 'learning_rate': 1.733657238771516e-06, 'epoch': 0.61} {'loss': 2.0695, 'grad_norm': 1.6121914386749268, 'learning_rate': 1.733243761358888e-06, 'epoch': 0.61} {'loss': 2.2186, 'grad_norm': 1.4326448440551758, 'learning_rate': 1.7328303070967514e-06, 'epoch': 0.61} {'loss': 2.3113, 'grad_norm': 1.2194502353668213, 'learning_rate': 1.732416875997589e-06, 'epoch': 0.61} {'loss': 2.1198, 'grad_norm': 1.5180513858795166, 'learning_rate': 1.7320034680738845e-06, 'epoch': 0.61} {'loss': 2.214, 'grad_norm': 1.634177803993225, 'learning_rate': 1.7315900833381186e-06, 'epoch': 0.61} {'loss': 2.0075, 'grad_norm': 1.5184006690979004, 'learning_rate': 1.7311767218027731e-06, 'epoch': 0.61} {'loss': 2.3285, 'grad_norm': 1.5765782594680786, 'learning_rate': 1.730763383480328e-06, 'epoch': 0.61} {'loss': 1.9883, 'grad_norm': 1.3561089038848877, 'learning_rate': 1.7303500683832641e-06, 'epoch': 0.61} {'loss': 2.1967, 'grad_norm': 1.5423099994659424, 'learning_rate': 1.7299367765240597e-06, 'epoch': 0.61} {'loss': 2.2621, 'grad_norm': 2.012910842895508, 'learning_rate': 1.7295235079151928e-06, 'epoch': 0.61} {'loss': 2.1711, 'grad_norm': 1.5752140283584595, 'learning_rate': 1.7291102625691427e-06, 'epoch': 0.61} {'loss': 2.2802, 'grad_norm': 1.5847934484481812, 'learning_rate': 1.7286970404983854e-06, 'epoch': 0.61} {'loss': 2.2906, 'grad_norm': 1.7589401006698608, 'learning_rate': 1.7282838417153985e-06, 'epoch': 0.61} {'loss': 2.2412, 'grad_norm': 1.4672423601150513, 'learning_rate': 1.727870666232655e-06, 'epoch': 0.61} {'loss': 2.3857, 'grad_norm': 1.9850214719772339, 'learning_rate': 1.7274575140626318e-06, 'epoch': 0.61} {'loss': 2.0436, 'grad_norm': 1.5240100622177124, 'learning_rate': 1.7270443852178026e-06, 'epoch': 0.61} {'loss': 2.1025, 'grad_norm': 2.2096314430236816, 'learning_rate': 1.7266312797106407e-06, 'epoch': 0.61} {'loss': 1.9439, 'grad_norm': 1.1496639251708984, 'learning_rate': 1.7262181975536194e-06, 'epoch': 0.61} {'loss': 2.1818, 'grad_norm': 1.9487886428833008, 'learning_rate': 1.7258051387592103e-06, 'epoch': 0.61} {'loss': 2.2014, 'grad_norm': 1.8692134618759155, 'learning_rate': 1.7253921033398852e-06, 'epoch': 0.61} {'loss': 2.3018, 'grad_norm': 1.7004051208496094, 'learning_rate': 1.7249790913081144e-06, 'epoch': 0.61} {'loss': 2.2108, 'grad_norm': 1.6665388345718384, 'learning_rate': 1.7245661026763688e-06, 'epoch': 0.61} {'loss': 2.0466, 'grad_norm': 1.5466032028198242, 'learning_rate': 1.724153137457116e-06, 'epoch': 0.61} {'loss': 2.0871, 'grad_norm': 1.3570576906204224, 'learning_rate': 1.7237401956628259e-06, 'epoch': 0.61} {'loss': 2.2029, 'grad_norm': 1.637032389640808, 'learning_rate': 1.7233272773059657e-06, 'epoch': 0.61} {'loss': 2.3809, 'grad_norm': 1.739072561264038, 'learning_rate': 1.7229143823990024e-06, 'epoch': 0.61} {'loss': 2.4738, 'grad_norm': 1.7020515203475952, 'learning_rate': 1.722501510954403e-06, 'epoch': 0.61} {'loss': 2.3549, 'grad_norm': 1.7222256660461426, 'learning_rate': 1.7220886629846334e-06, 'epoch': 0.61} {'loss': 2.4083, 'grad_norm': 1.6486212015151978, 'learning_rate': 1.7216758385021582e-06, 'epoch': 0.61} {'loss': 2.3223, 'grad_norm': 1.6089080572128296, 'learning_rate': 1.7212630375194417e-06, 'epoch': 0.61} {'loss': 2.3467, 'grad_norm': 4.742299556732178, 'learning_rate': 1.7208502600489482e-06, 'epoch': 0.61} {'loss': 2.1115, 'grad_norm': 1.8656420707702637, 'learning_rate': 1.7204375061031396e-06, 'epoch': 0.61} {'loss': 2.196, 'grad_norm': 1.6592286825180054, 'learning_rate': 1.7200247756944783e-06, 'epoch': 0.61} {'loss': 2.1281, 'grad_norm': 1.636176347732544, 'learning_rate': 1.7196120688354256e-06, 'epoch': 0.61} {'loss': 2.1013, 'grad_norm': 1.4745768308639526, 'learning_rate': 1.7191993855384432e-06, 'epoch': 0.61} {'loss': 1.867, 'grad_norm': 4.235934734344482, 'learning_rate': 1.7187867258159902e-06, 'epoch': 0.61} {'loss': 2.2496, 'grad_norm': 1.7912540435791016, 'learning_rate': 1.7183740896805262e-06, 'epoch': 0.61} {'loss': 2.1943, 'grad_norm': 1.5753782987594604, 'learning_rate': 1.7179614771445098e-06, 'epoch': 0.61} {'loss': 2.2878, 'grad_norm': 1.589495062828064, 'learning_rate': 1.7175488882204003e-06, 'epoch': 0.61} {'loss': 2.0441, 'grad_norm': 1.7319062948226929, 'learning_rate': 1.717136322920653e-06, 'epoch': 0.61} {'loss': 1.6863, 'grad_norm': 1.450542688369751, 'learning_rate': 1.7167237812577242e-06, 'epoch': 0.61} {'loss': 2.2555, 'grad_norm': 1.4717587232589722, 'learning_rate': 1.716311263244071e-06, 'epoch': 0.61} {'loss': 2.2317, 'grad_norm': 1.4740900993347168, 'learning_rate': 1.7158987688921475e-06, 'epoch': 0.61} {'loss': 2.3269, 'grad_norm': 1.386548399925232, 'learning_rate': 1.7154862982144088e-06, 'epoch': 0.61} {'loss': 2.2216, 'grad_norm': 1.6226459741592407, 'learning_rate': 1.7150738512233084e-06, 'epoch': 0.61} {'loss': 2.0963, 'grad_norm': 1.643628716468811, 'learning_rate': 1.714661427931299e-06, 'epoch': 0.61} {'loss': 2.0835, 'grad_norm': 1.3792121410369873, 'learning_rate': 1.7142490283508326e-06, 'epoch': 0.61} {'loss': 2.2819, 'grad_norm': 2.2274510860443115, 'learning_rate': 1.7138366524943617e-06, 'epoch': 0.61} {'loss': 2.331, 'grad_norm': 1.5335757732391357, 'learning_rate': 1.7134243003743357e-06, 'epoch': 0.61} {'loss': 2.5262, 'grad_norm': 1.6058958768844604, 'learning_rate': 1.7130119720032051e-06, 'epoch': 0.61} {'loss': 2.4074, 'grad_norm': 1.785487413406372, 'learning_rate': 1.7125996673934198e-06, 'epoch': 0.61} {'loss': 1.9285, 'grad_norm': 1.6455178260803223, 'learning_rate': 1.7121873865574274e-06, 'epoch': 0.61} {'loss': 2.2631, 'grad_norm': 1.645033836364746, 'learning_rate': 1.7117751295076768e-06, 'epoch': 0.61} {'loss': 2.2721, 'grad_norm': 1.6787257194519043, 'learning_rate': 1.7113628962566147e-06, 'epoch': 0.61} {'loss': 2.1826, 'grad_norm': 1.6457645893096924, 'learning_rate': 1.710950686816687e-06, 'epoch': 0.61} {'loss': 2.3366, 'grad_norm': 1.4203637838363647, 'learning_rate': 1.7105385012003406e-06, 'epoch': 0.61} {'loss': 2.1666, 'grad_norm': 1.643034815788269, 'learning_rate': 1.7101263394200213e-06, 'epoch': 0.61} {'loss': 2.5564, 'grad_norm': 1.9305801391601562, 'learning_rate': 1.7097142014881708e-06, 'epoch': 0.61} {'loss': 2.2094, 'grad_norm': 1.684044361114502, 'learning_rate': 1.7093020874172333e-06, 'epoch': 0.61} {'loss': 2.27, 'grad_norm': 1.4751158952713013, 'learning_rate': 1.7088899972196533e-06, 'epoch': 0.62} {'loss': 2.0037, 'grad_norm': 1.4237399101257324, 'learning_rate': 1.708477930907872e-06, 'epoch': 0.62} {'loss': 2.3119, 'grad_norm': 1.2977590560913086, 'learning_rate': 1.7080658884943303e-06, 'epoch': 0.62} {'loss': 2.5204, 'grad_norm': 1.416164755821228, 'learning_rate': 1.7076538699914697e-06, 'epoch': 0.62} {'loss': 2.1681, 'grad_norm': 1.7273552417755127, 'learning_rate': 1.70724187541173e-06, 'epoch': 0.62} {'loss': 2.2617, 'grad_norm': 1.5821489095687866, 'learning_rate': 1.70682990476755e-06, 'epoch': 0.62} {'loss': 2.0544, 'grad_norm': 1.7661190032958984, 'learning_rate': 1.7064179580713697e-06, 'epoch': 0.62} {'loss': 2.3482, 'grad_norm': 1.7158552408218384, 'learning_rate': 1.706006035335625e-06, 'epoch': 0.62} {'loss': 2.2042, 'grad_norm': 1.4419958591461182, 'learning_rate': 1.7055941365727534e-06, 'epoch': 0.62} {'loss': 2.2886, 'grad_norm': 1.5493241548538208, 'learning_rate': 1.7051822617951921e-06, 'epoch': 0.62} {'loss': 2.1842, 'grad_norm': 1.7663828134536743, 'learning_rate': 1.7047704110153763e-06, 'epoch': 0.62} {'loss': 2.2821, 'grad_norm': 1.5812560319900513, 'learning_rate': 1.7043585842457406e-06, 'epoch': 0.62} {'loss': 2.5188, 'grad_norm': 1.6440227031707764, 'learning_rate': 1.7039467814987191e-06, 'epoch': 0.62} {'loss': 2.2742, 'grad_norm': 1.659301519393921, 'learning_rate': 1.7035350027867458e-06, 'epoch': 0.62} {'loss': 2.1317, 'grad_norm': 1.4626829624176025, 'learning_rate': 1.7031232481222536e-06, 'epoch': 0.62} {'loss': 2.1083, 'grad_norm': 1.6255505084991455, 'learning_rate': 1.7027115175176756e-06, 'epoch': 0.62} {'loss': 2.0503, 'grad_norm': 1.391015887260437, 'learning_rate': 1.7022998109854398e-06, 'epoch': 0.62} {'loss': 2.3212, 'grad_norm': 1.7333344221115112, 'learning_rate': 1.701888128537979e-06, 'epoch': 0.62} {'loss': 2.2212, 'grad_norm': 1.5831477642059326, 'learning_rate': 1.701476470187723e-06, 'epoch': 0.62} {'loss': 2.2759, 'grad_norm': 1.6914478540420532, 'learning_rate': 1.7010648359471003e-06, 'epoch': 0.62} {'loss': 2.1355, 'grad_norm': 1.7144557237625122, 'learning_rate': 1.7006532258285396e-06, 'epoch': 0.62} {'loss': 2.2719, 'grad_norm': 1.817596673965454, 'learning_rate': 1.7002416398444686e-06, 'epoch': 0.62} {'loss': 1.7039, 'grad_norm': 1.5650571584701538, 'learning_rate': 1.699830078007314e-06, 'epoch': 0.62} {'loss': 2.2179, 'grad_norm': 1.5597776174545288, 'learning_rate': 1.6994185403295027e-06, 'epoch': 0.62} {'loss': 2.0077, 'grad_norm': 1.3038647174835205, 'learning_rate': 1.6990070268234588e-06, 'epoch': 0.62} {'loss': 2.2948, 'grad_norm': 1.2858235836029053, 'learning_rate': 1.6985955375016084e-06, 'epoch': 0.62} {'loss': 2.2596, 'grad_norm': 1.6258606910705566, 'learning_rate': 1.6981840723763744e-06, 'epoch': 0.62} {'loss': 2.1576, 'grad_norm': 4.652329921722412, 'learning_rate': 1.6977726314601805e-06, 'epoch': 0.62} {'loss': 2.1762, 'grad_norm': 1.5281249284744263, 'learning_rate': 1.6973612147654488e-06, 'epoch': 0.62} {'loss': 2.2648, 'grad_norm': 1.65532386302948, 'learning_rate': 1.6969498223046027e-06, 'epoch': 0.62} {'loss': 2.2674, 'grad_norm': 2.4171504974365234, 'learning_rate': 1.6965384540900615e-06, 'epoch': 0.62} {'loss': 2.2012, 'grad_norm': 1.5481122732162476, 'learning_rate': 1.6961271101342467e-06, 'epoch': 0.62} {'loss': 2.1748, 'grad_norm': 1.6151862144470215, 'learning_rate': 1.6957157904495778e-06, 'epoch': 0.62} {'loss': 2.2125, 'grad_norm': 1.5442296266555786, 'learning_rate': 1.6953044950484725e-06, 'epoch': 0.62} {'loss': 2.1641, 'grad_norm': 1.2774378061294556, 'learning_rate': 1.6948932239433503e-06, 'epoch': 0.62} {'loss': 2.2245, 'grad_norm': 1.5917284488677979, 'learning_rate': 1.6944819771466282e-06, 'epoch': 0.62} {'loss': 2.355, 'grad_norm': 1.6663435697555542, 'learning_rate': 1.6940707546707222e-06, 'epoch': 0.62} {'loss': 2.3228, 'grad_norm': 1.6590063571929932, 'learning_rate': 1.6936595565280488e-06, 'epoch': 0.62} {'loss': 2.2276, 'grad_norm': 2.428323268890381, 'learning_rate': 1.6932483827310236e-06, 'epoch': 0.62} {'loss': 2.1522, 'grad_norm': 1.5569777488708496, 'learning_rate': 1.6928372332920605e-06, 'epoch': 0.62} {'loss': 2.3919, 'grad_norm': 1.7565582990646362, 'learning_rate': 1.6924261082235732e-06, 'epoch': 0.62} {'loss': 2.4429, 'grad_norm': 1.5181652307510376, 'learning_rate': 1.692015007537976e-06, 'epoch': 0.62} {'loss': 2.3092, 'grad_norm': 1.568595290184021, 'learning_rate': 1.6916039312476794e-06, 'epoch': 0.62} {'loss': 1.3186, 'grad_norm': 1.7735676765441895, 'learning_rate': 1.6911928793650957e-06, 'epoch': 0.62} {'loss': 2.2745, 'grad_norm': 1.3469151258468628, 'learning_rate': 1.6907818519026353e-06, 'epoch': 0.62} {'loss': 2.3836, 'grad_norm': 1.7274479866027832, 'learning_rate': 1.690370848872708e-06, 'epoch': 0.62} {'loss': 2.0215, 'grad_norm': 1.51377272605896, 'learning_rate': 1.6899598702877246e-06, 'epoch': 0.62} {'loss': 2.4935, 'grad_norm': 1.6759637594223022, 'learning_rate': 1.6895489161600925e-06, 'epoch': 0.62} {'loss': 2.5258, 'grad_norm': 1.4954174757003784, 'learning_rate': 1.6891379865022198e-06, 'epoch': 0.62} {'loss': 2.3459, 'grad_norm': 2.387286901473999, 'learning_rate': 1.688727081326514e-06, 'epoch': 0.62} {'loss': 2.256, 'grad_norm': 2.0309929847717285, 'learning_rate': 1.688316200645381e-06, 'epoch': 0.62} {'loss': 1.9306, 'grad_norm': 1.269294261932373, 'learning_rate': 1.6879053444712263e-06, 'epoch': 0.62} {'loss': 1.9917, 'grad_norm': 1.9642413854599, 'learning_rate': 1.687494512816455e-06, 'epoch': 0.62} {'loss': 2.1904, 'grad_norm': 1.6703457832336426, 'learning_rate': 1.6870837056934714e-06, 'epoch': 0.62} {'loss': 2.3719, 'grad_norm': 1.6742323637008667, 'learning_rate': 1.6866729231146783e-06, 'epoch': 0.62} {'loss': 2.259, 'grad_norm': 1.7959803342819214, 'learning_rate': 1.686262165092479e-06, 'epoch': 0.62} {'loss': 2.258, 'grad_norm': 1.9452098608016968, 'learning_rate': 1.6858514316392754e-06, 'epoch': 0.62} {'loss': 2.2219, 'grad_norm': 1.6574524641036987, 'learning_rate': 1.6854407227674679e-06, 'epoch': 0.62} {'loss': 2.3641, 'grad_norm': 1.6190303564071655, 'learning_rate': 1.685030038489458e-06, 'epoch': 0.62} {'loss': 2.5856, 'grad_norm': 1.8679016828536987, 'learning_rate': 1.6846193788176457e-06, 'epoch': 0.62} {'loss': 2.495, 'grad_norm': 2.1579337120056152, 'learning_rate': 1.6842087437644283e-06, 'epoch': 0.62} {'loss': 2.1675, 'grad_norm': 1.603454828262329, 'learning_rate': 1.6837981333422049e-06, 'epoch': 0.62} {'loss': 2.3702, 'grad_norm': 6.191020965576172, 'learning_rate': 1.6833875475633727e-06, 'epoch': 0.62} {'loss': 2.3559, 'grad_norm': 1.6540510654449463, 'learning_rate': 1.682976986440329e-06, 'epoch': 0.62} {'loss': 2.0902, 'grad_norm': 1.3542457818984985, 'learning_rate': 1.6825664499854694e-06, 'epoch': 0.62} {'loss': 2.4833, 'grad_norm': 2.290747880935669, 'learning_rate': 1.6821559382111892e-06, 'epoch': 0.62} {'loss': 2.1381, 'grad_norm': 1.5336699485778809, 'learning_rate': 1.6817454511298831e-06, 'epoch': 0.62} {'loss': 2.3745, 'grad_norm': 1.8657251596450806, 'learning_rate': 1.6813349887539442e-06, 'epoch': 0.62} {'loss': 1.506, 'grad_norm': 1.605157732963562, 'learning_rate': 1.6809245510957667e-06, 'epoch': 0.62} {'loss': 2.1385, 'grad_norm': 1.7683115005493164, 'learning_rate': 1.6805141381677414e-06, 'epoch': 0.62} {'loss': 2.3518, 'grad_norm': 2.2224531173706055, 'learning_rate': 1.6801037499822607e-06, 'epoch': 0.62} {'loss': 2.2708, 'grad_norm': 1.7740678787231445, 'learning_rate': 1.6796933865517148e-06, 'epoch': 0.62} {'loss': 2.2961, 'grad_norm': 1.8318957090377808, 'learning_rate': 1.6792830478884941e-06, 'epoch': 0.62} {'loss': 2.1592, 'grad_norm': 1.3366343975067139, 'learning_rate': 1.678872734004987e-06, 'epoch': 0.62} {'loss': 2.154, 'grad_norm': 1.4048409461975098, 'learning_rate': 1.678462444913584e-06, 'epoch': 0.62} {'loss': 2.2426, 'grad_norm': 1.8073632717132568, 'learning_rate': 1.6780521806266708e-06, 'epoch': 0.62} {'loss': 2.3834, 'grad_norm': 1.7276389598846436, 'learning_rate': 1.677641941156637e-06, 'epoch': 0.62} {'loss': 2.3021, 'grad_norm': 1.641043782234192, 'learning_rate': 1.6772317265158656e-06, 'epoch': 0.62} {'loss': 2.396, 'grad_norm': 1.6390377283096313, 'learning_rate': 1.6768215367167431e-06, 'epoch': 0.62} {'loss': 2.1069, 'grad_norm': 1.6120529174804688, 'learning_rate': 1.6764113717716557e-06, 'epoch': 0.62} {'loss': 2.2991, 'grad_norm': 2.50234317779541, 'learning_rate': 1.676001231692986e-06, 'epoch': 0.62} {'loss': 2.2589, 'grad_norm': 1.6463497877120972, 'learning_rate': 1.6755911164931183e-06, 'epoch': 0.62} {'loss': 2.2258, 'grad_norm': 1.5874903202056885, 'learning_rate': 1.6751810261844343e-06, 'epoch': 0.62} {'loss': 2.1985, 'grad_norm': 1.5067031383514404, 'learning_rate': 1.6747709607793162e-06, 'epoch': 0.62} {'loss': 2.2166, 'grad_norm': 2.0734503269195557, 'learning_rate': 1.6743609202901445e-06, 'epoch': 0.62} {'loss': 2.2404, 'grad_norm': 1.7599703073501587, 'learning_rate': 1.6739509047293006e-06, 'epoch': 0.62} {'loss': 2.1207, 'grad_norm': 1.8317549228668213, 'learning_rate': 1.6735409141091628e-06, 'epoch': 0.62} {'loss': 2.3476, 'grad_norm': 3.739218235015869, 'learning_rate': 1.6731309484421099e-06, 'epoch': 0.62} {'loss': 2.0453, 'grad_norm': 1.6398276090621948, 'learning_rate': 1.6727210077405204e-06, 'epoch': 0.62} {'loss': 1.8934, 'grad_norm': 1.5171617269515991, 'learning_rate': 1.6723110920167717e-06, 'epoch': 0.62} {'loss': 2.2942, 'grad_norm': 1.6439536809921265, 'learning_rate': 1.6719012012832392e-06, 'epoch': 0.62} {'loss': 2.3258, 'grad_norm': 1.665587067604065, 'learning_rate': 1.6714913355523e-06, 'epoch': 0.62} {'loss': 1.947, 'grad_norm': 1.7371165752410889, 'learning_rate': 1.6710814948363285e-06, 'epoch': 0.62} {'loss': 2.048, 'grad_norm': 1.2297331094741821, 'learning_rate': 1.670671679147699e-06, 'epoch': 0.62} {'loss': 2.1764, 'grad_norm': 1.826067566871643, 'learning_rate': 1.6702618884987852e-06, 'epoch': 0.62} {'loss': 2.309, 'grad_norm': 1.3185433149337769, 'learning_rate': 1.6698521229019593e-06, 'epoch': 0.62} {'loss': 2.2064, 'grad_norm': 1.8186005353927612, 'learning_rate': 1.6694423823695931e-06, 'epoch': 0.62} {'loss': 1.7757, 'grad_norm': 1.251837134361267, 'learning_rate': 1.6690326669140588e-06, 'epoch': 0.62} {'loss': 2.3446, 'grad_norm': 1.7449277639389038, 'learning_rate': 1.6686229765477257e-06, 'epoch': 0.62} {'loss': 2.3566, 'grad_norm': 1.464542269706726, 'learning_rate': 1.6682133112829641e-06, 'epoch': 0.62} {'loss': 2.3231, 'grad_norm': 2.15252423286438, 'learning_rate': 1.6678036711321427e-06, 'epoch': 0.62} {'loss': 2.3488, 'grad_norm': 1.7761656045913696, 'learning_rate': 1.66739405610763e-06, 'epoch': 0.62} {'loss': 2.1711, 'grad_norm': 1.4679914712905884, 'learning_rate': 1.6669844662217927e-06, 'epoch': 0.62} {'loss': 2.2875, 'grad_norm': 1.772552251815796, 'learning_rate': 1.6665749014869994e-06, 'epoch': 0.62} {'loss': 2.0953, 'grad_norm': 1.6650481224060059, 'learning_rate': 1.6661653619156137e-06, 'epoch': 0.62} {'loss': 2.3325, 'grad_norm': 1.6689647436141968, 'learning_rate': 1.6657558475200014e-06, 'epoch': 0.62} {'loss': 2.278, 'grad_norm': 1.4715336561203003, 'learning_rate': 1.6653463583125268e-06, 'epoch': 0.62} {'loss': 2.31, 'grad_norm': 1.471660852432251, 'learning_rate': 1.6649368943055537e-06, 'epoch': 0.62} {'loss': 2.1397, 'grad_norm': 1.4620161056518555, 'learning_rate': 1.6645274555114456e-06, 'epoch': 0.62} {'loss': 2.2015, 'grad_norm': 1.664930820465088, 'learning_rate': 1.6641180419425636e-06, 'epoch': 0.62} {'loss': 2.3166, 'grad_norm': 2.9584896564483643, 'learning_rate': 1.6637086536112696e-06, 'epoch': 0.62} {'loss': 2.2467, 'grad_norm': 1.8471451997756958, 'learning_rate': 1.663299290529924e-06, 'epoch': 0.62} {'loss': 2.5025, 'grad_norm': 1.6307387351989746, 'learning_rate': 1.6628899527108872e-06, 'epoch': 0.62} {'loss': 2.2721, 'grad_norm': 1.7709664106369019, 'learning_rate': 1.6624806401665172e-06, 'epoch': 0.62} {'loss': 2.1633, 'grad_norm': 2.0096628665924072, 'learning_rate': 1.6620713529091725e-06, 'epoch': 0.62} {'loss': 2.2405, 'grad_norm': 1.7094485759735107, 'learning_rate': 1.661662090951211e-06, 'epoch': 0.62} {'loss': 2.0793, 'grad_norm': 1.6813322305679321, 'learning_rate': 1.6612528543049892e-06, 'epoch': 0.62} {'loss': 2.3348, 'grad_norm': 1.8816072940826416, 'learning_rate': 1.660843642982863e-06, 'epoch': 0.62} {'loss': 2.237, 'grad_norm': 1.6915658712387085, 'learning_rate': 1.660434456997188e-06, 'epoch': 0.62} {'loss': 2.1537, 'grad_norm': 1.5920346975326538, 'learning_rate': 1.6600252963603181e-06, 'epoch': 0.62} {'loss': 2.5057, 'grad_norm': 1.543936014175415, 'learning_rate': 1.6596161610846074e-06, 'epoch': 0.62} {'loss': 2.1727, 'grad_norm': 1.5473315715789795, 'learning_rate': 1.6592070511824098e-06, 'epoch': 0.62} {'loss': 2.1225, 'grad_norm': 1.670520544052124, 'learning_rate': 1.658797966666076e-06, 'epoch': 0.62} {'loss': 2.2921, 'grad_norm': 1.5463374853134155, 'learning_rate': 1.658388907547957e-06, 'epoch': 0.62} {'loss': 2.441, 'grad_norm': 1.6821377277374268, 'learning_rate': 1.6579798738404047e-06, 'epoch': 0.62} {'loss': 2.4875, 'grad_norm': 1.8151949644088745, 'learning_rate': 1.6575708655557683e-06, 'epoch': 0.62} {'loss': 2.3695, 'grad_norm': 1.8838152885437012, 'learning_rate': 1.6571618827063973e-06, 'epoch': 0.62} {'loss': 2.4057, 'grad_norm': 1.7087098360061646, 'learning_rate': 1.65675292530464e-06, 'epoch': 0.62} {'loss': 2.1913, 'grad_norm': 2.2640607357025146, 'learning_rate': 1.6563439933628435e-06, 'epoch': 0.62} {'loss': 2.3467, 'grad_norm': 1.5890436172485352, 'learning_rate': 1.6559350868933554e-06, 'epoch': 0.62} {'loss': 2.3235, 'grad_norm': 1.659256100654602, 'learning_rate': 1.6555262059085205e-06, 'epoch': 0.62} {'loss': 2.0819, 'grad_norm': 1.7892752885818481, 'learning_rate': 1.6551173504206851e-06, 'epoch': 0.62} {'loss': 2.4457, 'grad_norm': 1.4522181749343872, 'learning_rate': 1.6547085204421931e-06, 'epoch': 0.62} {'loss': 2.1823, 'grad_norm': 1.7982690334320068, 'learning_rate': 1.6542997159853885e-06, 'epoch': 0.62} {'loss': 2.2563, 'grad_norm': 1.480262279510498, 'learning_rate': 1.6538909370626137e-06, 'epoch': 0.62} {'loss': 2.4607, 'grad_norm': 1.6059023141860962, 'learning_rate': 1.6534821836862114e-06, 'epoch': 0.62} {'loss': 2.255, 'grad_norm': 1.5716630220413208, 'learning_rate': 1.6530734558685233e-06, 'epoch': 0.62} {'loss': 2.3939, 'grad_norm': 1.721686601638794, 'learning_rate': 1.6526647536218895e-06, 'epoch': 0.62} {'loss': 1.5669, 'grad_norm': 2.1608710289001465, 'learning_rate': 1.6522560769586509e-06, 'epoch': 0.62} {'loss': 2.0467, 'grad_norm': 1.6328022480010986, 'learning_rate': 1.651847425891145e-06, 'epoch': 0.62} {'loss': 2.2015, 'grad_norm': 1.619752287864685, 'learning_rate': 1.65143880043171e-06, 'epoch': 0.62} {'loss': 2.1083, 'grad_norm': 1.347636342048645, 'learning_rate': 1.6510302005926849e-06, 'epoch': 0.62} {'loss': 2.2231, 'grad_norm': 1.5955125093460083, 'learning_rate': 1.6506216263864052e-06, 'epoch': 0.62} {'loss': 2.3319, 'grad_norm': 1.5028525590896606, 'learning_rate': 1.6502130778252079e-06, 'epoch': 0.62} {'loss': 2.3367, 'grad_norm': 1.8821245431900024, 'learning_rate': 1.6498045549214275e-06, 'epoch': 0.62} {'loss': 2.2516, 'grad_norm': 1.6543114185333252, 'learning_rate': 1.649396057687399e-06, 'epoch': 0.62} {'loss': 2.2087, 'grad_norm': 1.5341004133224487, 'learning_rate': 1.6489875861354557e-06, 'epoch': 0.62} {'loss': 2.1762, 'grad_norm': 1.6730732917785645, 'learning_rate': 1.6485791402779311e-06, 'epoch': 0.62} {'loss': 2.3639, 'grad_norm': 1.6234554052352905, 'learning_rate': 1.6481707201271558e-06, 'epoch': 0.62} {'loss': 2.1126, 'grad_norm': 1.3532277345657349, 'learning_rate': 1.6477623256954625e-06, 'epoch': 0.62} {'loss': 2.0205, 'grad_norm': 1.6570590734481812, 'learning_rate': 1.6473539569951813e-06, 'epoch': 0.62} {'loss': 2.203, 'grad_norm': 1.474465250968933, 'learning_rate': 1.646945614038642e-06, 'epoch': 0.62} {'loss': 2.1722, 'grad_norm': 1.5817780494689941, 'learning_rate': 1.6465372968381726e-06, 'epoch': 0.62} {'loss': 2.3969, 'grad_norm': 1.5461795330047607, 'learning_rate': 1.6461290054061035e-06, 'epoch': 0.62} {'loss': 2.0323, 'grad_norm': 1.5704660415649414, 'learning_rate': 1.645720739754761e-06, 'epoch': 0.62} {'loss': 2.235, 'grad_norm': 1.4349220991134644, 'learning_rate': 1.6453124998964714e-06, 'epoch': 0.62} {'loss': 2.3209, 'grad_norm': 2.021296977996826, 'learning_rate': 1.6449042858435615e-06, 'epoch': 0.62} {'loss': 2.3646, 'grad_norm': 1.6509102582931519, 'learning_rate': 1.6444960976083554e-06, 'epoch': 0.62} {'loss': 2.1589, 'grad_norm': 1.5997039079666138, 'learning_rate': 1.644087935203178e-06, 'epoch': 0.62} {'loss': 2.0223, 'grad_norm': 1.7699521780014038, 'learning_rate': 1.6436797986403527e-06, 'epoch': 0.62} {'loss': 2.2549, 'grad_norm': 1.755722165107727, 'learning_rate': 1.6432716879322022e-06, 'epoch': 0.62} {'loss': 2.0892, 'grad_norm': 1.7792320251464844, 'learning_rate': 1.6428636030910488e-06, 'epoch': 0.62} {'loss': 2.1945, 'grad_norm': 1.5008450746536255, 'learning_rate': 1.6424555441292134e-06, 'epoch': 0.62} {'loss': 2.332, 'grad_norm': 1.9109214544296265, 'learning_rate': 1.6420475110590168e-06, 'epoch': 0.62} {'loss': 2.1326, 'grad_norm': 1.8356107473373413, 'learning_rate': 1.6416395038927773e-06, 'epoch': 0.62} {'loss': 2.3252, 'grad_norm': 1.8249014616012573, 'learning_rate': 1.641231522642817e-06, 'epoch': 0.62} {'loss': 2.3562, 'grad_norm': 1.9759118556976318, 'learning_rate': 1.6408235673214506e-06, 'epoch': 0.62} {'loss': 2.4006, 'grad_norm': 1.6898469924926758, 'learning_rate': 1.6404156379409963e-06, 'epoch': 0.62} {'loss': 2.207, 'grad_norm': 1.2807636260986328, 'learning_rate': 1.640007734513771e-06, 'epoch': 0.62} {'loss': 2.1438, 'grad_norm': 1.6203421354293823, 'learning_rate': 1.6395998570520904e-06, 'epoch': 0.62} {'loss': 2.1558, 'grad_norm': 1.6967008113861084, 'learning_rate': 1.6391920055682698e-06, 'epoch': 0.62} {'loss': 2.1232, 'grad_norm': 1.6787481307983398, 'learning_rate': 1.6387841800746228e-06, 'epoch': 0.62} {'loss': 2.1536, 'grad_norm': 48.8731689453125, 'learning_rate': 1.6383763805834631e-06, 'epoch': 0.62} {'loss': 2.2429, 'grad_norm': 1.8163291215896606, 'learning_rate': 1.6379686071071033e-06, 'epoch': 0.62} {'loss': 2.221, 'grad_norm': 1.667267084121704, 'learning_rate': 1.6375608596578551e-06, 'epoch': 0.62} {'loss': 2.5224, 'grad_norm': 1.8084964752197266, 'learning_rate': 1.6371531382480297e-06, 'epoch': 0.62} {'loss': 2.0781, 'grad_norm': 1.7190579175949097, 'learning_rate': 1.6367454428899365e-06, 'epoch': 0.62} {'loss': 2.2192, 'grad_norm': 1.7126330137252808, 'learning_rate': 1.636337773595886e-06, 'epoch': 0.62} {'loss': 2.2115, 'grad_norm': 1.8255130052566528, 'learning_rate': 1.6359301303781863e-06, 'epoch': 0.62} {'loss': 2.2312, 'grad_norm': 1.6128121614456177, 'learning_rate': 1.6355225132491453e-06, 'epoch': 0.62} {'loss': 2.1119, 'grad_norm': 2.0325098037719727, 'learning_rate': 1.6351149222210705e-06, 'epoch': 0.62} {'loss': 2.4077, 'grad_norm': 1.7844583988189697, 'learning_rate': 1.634707357306267e-06, 'epoch': 0.62} {'loss': 2.1937, 'grad_norm': 1.5657265186309814, 'learning_rate': 1.6342998185170432e-06, 'epoch': 0.62} {'loss': 1.9994, 'grad_norm': 1.552276849746704, 'learning_rate': 1.6338923058657008e-06, 'epoch': 0.62} {'loss': 2.2932, 'grad_norm': 1.5759401321411133, 'learning_rate': 1.6334848193645448e-06, 'epoch': 0.62} {'loss': 2.0508, 'grad_norm': 1.6842995882034302, 'learning_rate': 1.6330773590258775e-06, 'epoch': 0.62} {'loss': 2.1643, 'grad_norm': 1.602889895439148, 'learning_rate': 1.6326699248620032e-06, 'epoch': 0.62} {'loss': 2.2188, 'grad_norm': 1.5691462755203247, 'learning_rate': 1.6322625168852219e-06, 'epoch': 0.63} {'loss': 2.1427, 'grad_norm': 1.6180018186569214, 'learning_rate': 1.631855135107835e-06, 'epoch': 0.63} {'loss': 1.8855, 'grad_norm': 1.7066906690597534, 'learning_rate': 1.631447779542142e-06, 'epoch': 0.63} {'loss': 2.1932, 'grad_norm': 1.4253942966461182, 'learning_rate': 1.6310404502004424e-06, 'epoch': 0.63} {'loss': 2.1249, 'grad_norm': 1.7149018049240112, 'learning_rate': 1.6306331470950354e-06, 'epoch': 0.63} {'loss': 2.1151, 'grad_norm': 1.7348068952560425, 'learning_rate': 1.6302258702382173e-06, 'epoch': 0.63} {'loss': 2.4265, 'grad_norm': 1.3458118438720703, 'learning_rate': 1.6298186196422851e-06, 'epoch': 0.63} {'loss': 2.2012, 'grad_norm': 1.5207006931304932, 'learning_rate': 1.6294113953195353e-06, 'epoch': 0.63} {'loss': 2.2981, 'grad_norm': 1.6550185680389404, 'learning_rate': 1.6290041972822632e-06, 'epoch': 0.63} {'loss': 2.2813, 'grad_norm': 1.4463495016098022, 'learning_rate': 1.6285970255427627e-06, 'epoch': 0.63} {'loss': 2.3223, 'grad_norm': 1.6700294017791748, 'learning_rate': 1.6281898801133271e-06, 'epoch': 0.63} {'loss': 2.1613, 'grad_norm': 1.5813488960266113, 'learning_rate': 1.6277827610062508e-06, 'epoch': 0.63} {'loss': 2.3139, 'grad_norm': 1.5623301267623901, 'learning_rate': 1.6273756682338248e-06, 'epoch': 0.63} {'loss': 2.2624, 'grad_norm': 1.7776236534118652, 'learning_rate': 1.626968601808342e-06, 'epoch': 0.63} {'loss': 2.2033, 'grad_norm': 1.57706618309021, 'learning_rate': 1.626561561742089e-06, 'epoch': 0.63} {'loss': 2.2344, 'grad_norm': 1.5031625032424927, 'learning_rate': 1.626154548047359e-06, 'epoch': 0.63} {'loss': 2.3709, 'grad_norm': 1.730944275856018, 'learning_rate': 1.6257475607364393e-06, 'epoch': 0.63} {'loss': 2.1298, 'grad_norm': 1.8492566347122192, 'learning_rate': 1.6253405998216183e-06, 'epoch': 0.63} {'loss': 2.4783, 'grad_norm': 1.5824028253555298, 'learning_rate': 1.6249336653151836e-06, 'epoch': 0.63} {'loss': 2.4136, 'grad_norm': 1.7060885429382324, 'learning_rate': 1.6245267572294212e-06, 'epoch': 0.63} {'loss': 2.1301, 'grad_norm': 1.7460464239120483, 'learning_rate': 1.6241198755766175e-06, 'epoch': 0.63} {'loss': 2.2837, 'grad_norm': 1.6803224086761475, 'learning_rate': 1.6237130203690563e-06, 'epoch': 0.63} {'loss': 2.4106, 'grad_norm': 1.700834035873413, 'learning_rate': 1.623306191619023e-06, 'epoch': 0.63} {'loss': 2.4041, 'grad_norm': 1.8966562747955322, 'learning_rate': 1.6228993893387996e-06, 'epoch': 0.63} {'loss': 2.3875, 'grad_norm': 1.6845232248306274, 'learning_rate': 1.6224926135406693e-06, 'epoch': 0.63} {'loss': 2.1874, 'grad_norm': 1.612636923789978, 'learning_rate': 1.6220858642369133e-06, 'epoch': 0.63} {'loss': 2.2942, 'grad_norm': 1.9415719509124756, 'learning_rate': 1.621679141439813e-06, 'epoch': 0.63} {'loss': 2.3035, 'grad_norm': 1.2585108280181885, 'learning_rate': 1.621272445161648e-06, 'epoch': 0.63} {'loss': 2.2749, 'grad_norm': 1.9078927040100098, 'learning_rate': 1.620865775414698e-06, 'epoch': 0.63} {'loss': 2.4576, 'grad_norm': 2.576720714569092, 'learning_rate': 1.6204591322112417e-06, 'epoch': 0.63} {'loss': 2.1404, 'grad_norm': 1.707334041595459, 'learning_rate': 1.6200525155635564e-06, 'epoch': 0.63} {'loss': 2.1579, 'grad_norm': 1.608813762664795, 'learning_rate': 1.6196459254839192e-06, 'epoch': 0.63} {'loss': 2.4167, 'grad_norm': 1.5765223503112793, 'learning_rate': 1.6192393619846058e-06, 'epoch': 0.63} {'loss': 2.3797, 'grad_norm': 1.685523271560669, 'learning_rate': 1.6188328250778917e-06, 'epoch': 0.63} {'loss': 2.0138, 'grad_norm': 1.6892741918563843, 'learning_rate': 1.6184263147760516e-06, 'epoch': 0.63} {'loss': 1.759, 'grad_norm': 1.3398444652557373, 'learning_rate': 1.6180198310913583e-06, 'epoch': 0.63} {'loss': 2.0616, 'grad_norm': 1.5629398822784424, 'learning_rate': 1.6176133740360855e-06, 'epoch': 0.63} {'loss': 2.1929, 'grad_norm': 1.301847219467163, 'learning_rate': 1.6172069436225055e-06, 'epoch': 0.63} {'loss': 2.0586, 'grad_norm': 1.5775095224380493, 'learning_rate': 1.6168005398628888e-06, 'epoch': 0.63} {'loss': 2.1113, 'grad_norm': 1.5824072360992432, 'learning_rate': 1.6163941627695056e-06, 'epoch': 0.63} {'loss': 2.3164, 'grad_norm': 1.3695533275604248, 'learning_rate': 1.6159878123546276e-06, 'epoch': 0.63} {'loss': 2.2814, 'grad_norm': 1.6764488220214844, 'learning_rate': 1.6155814886305216e-06, 'epoch': 0.63} {'loss': 2.4813, 'grad_norm': 1.7242263555526733, 'learning_rate': 1.6151751916094554e-06, 'epoch': 0.63} {'loss': 2.1697, 'grad_norm': 1.5565036535263062, 'learning_rate': 1.614768921303697e-06, 'epoch': 0.63} {'loss': 2.3654, 'grad_norm': 1.500608205795288, 'learning_rate': 1.6143626777255133e-06, 'epoch': 0.63} {'loss': 2.3216, 'grad_norm': 1.6088356971740723, 'learning_rate': 1.6139564608871698e-06, 'epoch': 0.63} {'loss': 1.4314, 'grad_norm': 1.6641461849212646, 'learning_rate': 1.6135502708009308e-06, 'epoch': 0.63} {'loss': 2.3663, 'grad_norm': 1.5716441869735718, 'learning_rate': 1.61314410747906e-06, 'epoch': 0.63} {'loss': 2.0685, 'grad_norm': 1.9857771396636963, 'learning_rate': 1.612737970933822e-06, 'epoch': 0.63} {'loss': 1.5902, 'grad_norm': 1.4959123134613037, 'learning_rate': 1.612331861177478e-06, 'epoch': 0.63} {'loss': 2.0975, 'grad_norm': 1.5767163038253784, 'learning_rate': 1.6119257782222895e-06, 'epoch': 0.63} {'loss': 2.3623, 'grad_norm': 1.5562459230422974, 'learning_rate': 1.6115197220805176e-06, 'epoch': 0.63} {'loss': 2.2856, 'grad_norm': 1.4233174324035645, 'learning_rate': 1.6111136927644223e-06, 'epoch': 0.63} {'loss': 2.2534, 'grad_norm': 1.6303367614746094, 'learning_rate': 1.6107076902862629e-06, 'epoch': 0.63} {'loss': 2.3448, 'grad_norm': 1.557884931564331, 'learning_rate': 1.6103017146582972e-06, 'epoch': 0.63} {'loss': 2.2009, 'grad_norm': 2.889673948287964, 'learning_rate': 1.6098957658927827e-06, 'epoch': 0.63} {'loss': 1.9756, 'grad_norm': 1.6715707778930664, 'learning_rate': 1.6094898440019768e-06, 'epoch': 0.63} {'loss': 2.2933, 'grad_norm': 1.7472914457321167, 'learning_rate': 1.6090839489981366e-06, 'epoch': 0.63} {'loss': 2.2635, 'grad_norm': 1.6818881034851074, 'learning_rate': 1.6086780808935144e-06, 'epoch': 0.63} {'loss': 2.2822, 'grad_norm': 2.512035608291626, 'learning_rate': 1.608272239700366e-06, 'epoch': 0.63} {'loss': 2.092, 'grad_norm': 1.7362030744552612, 'learning_rate': 1.6078664254309436e-06, 'epoch': 0.63} {'loss': 2.258, 'grad_norm': 1.5252522230148315, 'learning_rate': 1.6074606380975015e-06, 'epoch': 0.63} {'loss': 2.3782, 'grad_norm': 1.467328667640686, 'learning_rate': 1.6070548777122913e-06, 'epoch': 0.63} {'loss': 2.3199, 'grad_norm': 1.6433203220367432, 'learning_rate': 1.6066491442875636e-06, 'epoch': 0.63} {'loss': 2.2434, 'grad_norm': 1.5322988033294678, 'learning_rate': 1.6062434378355685e-06, 'epoch': 0.63} {'loss': 2.2793, 'grad_norm': 1.687488079071045, 'learning_rate': 1.6058377583685558e-06, 'epoch': 0.63} {'loss': 2.2158, 'grad_norm': 1.725284457206726, 'learning_rate': 1.6054321058987744e-06, 'epoch': 0.63} {'loss': 2.0379, 'grad_norm': 1.4850642681121826, 'learning_rate': 1.6050264804384708e-06, 'epoch': 0.63} {'loss': 2.3213, 'grad_norm': 1.5596399307250977, 'learning_rate': 1.6046208819998926e-06, 'epoch': 0.63} {'loss': 2.2393, 'grad_norm': 1.722896695137024, 'learning_rate': 1.6042153105952862e-06, 'epoch': 0.63} {'loss': 2.1187, 'grad_norm': 1.3715037107467651, 'learning_rate': 1.6038097662368968e-06, 'epoch': 0.63} {'loss': 2.3125, 'grad_norm': 1.8345760107040405, 'learning_rate': 1.6034042489369687e-06, 'epoch': 0.63} {'loss': 2.055, 'grad_norm': 1.656175971031189, 'learning_rate': 1.602998758707745e-06, 'epoch': 0.63} {'loss': 2.1428, 'grad_norm': 1.2796796560287476, 'learning_rate': 1.6025932955614704e-06, 'epoch': 0.63} {'loss': 2.2841, 'grad_norm': 1.72206449508667, 'learning_rate': 1.6021878595103856e-06, 'epoch': 0.63} {'loss': 2.3318, 'grad_norm': 1.5992282629013062, 'learning_rate': 1.601782450566733e-06, 'epoch': 0.63} {'loss': 2.3319, 'grad_norm': 1.5157489776611328, 'learning_rate': 1.6013770687427506e-06, 'epoch': 0.63} {'loss': 2.041, 'grad_norm': 1.7698657512664795, 'learning_rate': 1.6009717140506804e-06, 'epoch': 0.63} {'loss': 2.3168, 'grad_norm': 1.5653412342071533, 'learning_rate': 1.6005663865027598e-06, 'epoch': 0.63} {'loss': 2.1957, 'grad_norm': 1.7452499866485596, 'learning_rate': 1.6001610861112273e-06, 'epoch': 0.63} {'loss': 2.3156, 'grad_norm': 1.8300349712371826, 'learning_rate': 1.59975581288832e-06, 'epoch': 0.63} {'loss': 2.3951, 'grad_norm': 1.5392483472824097, 'learning_rate': 1.5993505668462743e-06, 'epoch': 0.63} {'loss': 2.0527, 'grad_norm': 1.3771030902862549, 'learning_rate': 1.598945347997326e-06, 'epoch': 0.63} {'loss': 1.5164, 'grad_norm': 1.649205207824707, 'learning_rate': 1.5985401563537089e-06, 'epoch': 0.63} {'loss': 1.372, 'grad_norm': 1.6799852848052979, 'learning_rate': 1.5981349919276582e-06, 'epoch': 0.63} {'loss': 2.3819, 'grad_norm': 1.5381113290786743, 'learning_rate': 1.5977298547314052e-06, 'epoch': 0.63} {'loss': 2.2697, 'grad_norm': 1.6876657009124756, 'learning_rate': 1.5973247447771833e-06, 'epoch': 0.63} {'loss': 2.4083, 'grad_norm': 2.021515130996704, 'learning_rate': 1.5969196620772234e-06, 'epoch': 0.63} {'loss': 2.338, 'grad_norm': 1.7443673610687256, 'learning_rate': 1.5965146066437564e-06, 'epoch': 0.63} {'loss': 2.3833, 'grad_norm': 1.51199471950531, 'learning_rate': 1.5961095784890113e-06, 'epoch': 0.63} {'loss': 2.2453, 'grad_norm': 1.7646490335464478, 'learning_rate': 1.595704577625218e-06, 'epoch': 0.63} {'loss': 2.2809, 'grad_norm': 1.6436214447021484, 'learning_rate': 1.5952996040646043e-06, 'epoch': 0.63} {'loss': 2.1076, 'grad_norm': 1.5149043798446655, 'learning_rate': 1.5948946578193985e-06, 'epoch': 0.63} {'loss': 2.3271, 'grad_norm': 1.558909296989441, 'learning_rate': 1.5944897389018243e-06, 'epoch': 0.63} {'loss': 2.4087, 'grad_norm': 1.8428645133972168, 'learning_rate': 1.5940848473241094e-06, 'epoch': 0.63} {'loss': 1.9001, 'grad_norm': 2.5282602310180664, 'learning_rate': 1.5936799830984784e-06, 'epoch': 0.63} {'loss': 2.3361, 'grad_norm': 1.6641558408737183, 'learning_rate': 1.593275146237155e-06, 'epoch': 0.63} {'loss': 1.6865, 'grad_norm': 1.503515362739563, 'learning_rate': 1.5928703367523618e-06, 'epoch': 0.63} {'loss': 2.4388, 'grad_norm': 2.31247878074646, 'learning_rate': 1.5924655546563222e-06, 'epoch': 0.63} {'loss': 2.3529, 'grad_norm': 1.8307805061340332, 'learning_rate': 1.592060799961257e-06, 'epoch': 0.63} {'loss': 1.9679, 'grad_norm': 1.7190728187561035, 'learning_rate': 1.591656072679387e-06, 'epoch': 0.63} {'loss': 2.2758, 'grad_norm': 1.6060845851898193, 'learning_rate': 1.5912513728229329e-06, 'epoch': 0.63} {'loss': 1.9112, 'grad_norm': 1.5472412109375, 'learning_rate': 1.590846700404112e-06, 'epoch': 0.63} {'loss': 2.1649, 'grad_norm': 1.6046181917190552, 'learning_rate': 1.5904420554351435e-06, 'epoch': 0.63} {'loss': 1.9605, 'grad_norm': 1.4620994329452515, 'learning_rate': 1.5900374379282445e-06, 'epoch': 0.63} {'loss': 2.2676, 'grad_norm': 1.6629011631011963, 'learning_rate': 1.5896328478956313e-06, 'epoch': 0.63} {'loss': 2.1253, 'grad_norm': 1.9050841331481934, 'learning_rate': 1.58922828534952e-06, 'epoch': 0.63} {'loss': 2.3075, 'grad_norm': 1.5390334129333496, 'learning_rate': 1.588823750302126e-06, 'epoch': 0.63} {'loss': 2.3349, 'grad_norm': 1.7002159357070923, 'learning_rate': 1.5884192427656626e-06, 'epoch': 0.63} {'loss': 1.5821, 'grad_norm': 1.4391909837722778, 'learning_rate': 1.5880147627523426e-06, 'epoch': 0.63} {'loss': 2.345, 'grad_norm': 1.9447211027145386, 'learning_rate': 1.5876103102743798e-06, 'epoch': 0.63} {'loss': 2.3281, 'grad_norm': 1.6645127534866333, 'learning_rate': 1.5872058853439842e-06, 'epoch': 0.63} {'loss': 2.2881, 'grad_norm': 1.5228825807571411, 'learning_rate': 1.5868014879733673e-06, 'epoch': 0.63} {'loss': 2.188, 'grad_norm': 1.4747074842453003, 'learning_rate': 1.5863971181747383e-06, 'epoch': 0.63} {'loss': 2.1591, 'grad_norm': 1.465362310409546, 'learning_rate': 1.5859927759603074e-06, 'epoch': 0.63} {'loss': 2.2657, 'grad_norm': 1.7927693128585815, 'learning_rate': 1.5855884613422816e-06, 'epoch': 0.63} {'loss': 2.3742, 'grad_norm': 1.5922112464904785, 'learning_rate': 1.5851841743328694e-06, 'epoch': 0.63} {'loss': 2.1199, 'grad_norm': 1.5744291543960571, 'learning_rate': 1.5847799149442762e-06, 'epoch': 0.63} {'loss': 2.2489, 'grad_norm': 1.5380710363388062, 'learning_rate': 1.5843756831887084e-06, 'epoch': 0.63} {'loss': 2.0756, 'grad_norm': 1.51227867603302, 'learning_rate': 1.583971479078372e-06, 'epoch': 0.63} {'loss': 2.0809, 'grad_norm': 1.6996994018554688, 'learning_rate': 1.583567302625469e-06, 'epoch': 0.63} {'loss': 2.143, 'grad_norm': 1.6956632137298584, 'learning_rate': 1.5831631538422027e-06, 'epoch': 0.63} {'loss': 2.1419, 'grad_norm': 1.663683295249939, 'learning_rate': 1.5827590327407762e-06, 'epoch': 0.63} {'loss': 2.1103, 'grad_norm': 1.5292764902114868, 'learning_rate': 1.5823549393333915e-06, 'epoch': 0.63} {'loss': 2.2663, 'grad_norm': 1.6481326818466187, 'learning_rate': 1.5819508736322487e-06, 'epoch': 0.63} {'loss': 2.129, 'grad_norm': 1.4485574960708618, 'learning_rate': 1.5815468356495478e-06, 'epoch': 0.63} {'loss': 2.0692, 'grad_norm': 1.3952676057815552, 'learning_rate': 1.5811428253974878e-06, 'epoch': 0.63} {'loss': 2.0976, 'grad_norm': 1.4993268251419067, 'learning_rate': 1.580738842888267e-06, 'epoch': 0.63} {'loss': 2.2847, 'grad_norm': 2.286254405975342, 'learning_rate': 1.580334888134083e-06, 'epoch': 0.63} {'loss': 2.2837, 'grad_norm': 1.5595879554748535, 'learning_rate': 1.5799309611471314e-06, 'epoch': 0.63} {'loss': 2.0921, 'grad_norm': 1.574062466621399, 'learning_rate': 1.5795270619396082e-06, 'epoch': 0.63} {'loss': 2.1399, 'grad_norm': 1.6135088205337524, 'learning_rate': 1.5791231905237087e-06, 'epoch': 0.63} {'loss': 2.3567, 'grad_norm': 1.9119082689285278, 'learning_rate': 1.578719346911627e-06, 'epoch': 0.63} {'loss': 2.1876, 'grad_norm': 1.4783669710159302, 'learning_rate': 1.578315531115555e-06, 'epoch': 0.63} {'loss': 2.2477, 'grad_norm': 1.5233912467956543, 'learning_rate': 1.5779117431476862e-06, 'epoch': 0.63} {'loss': 1.9293, 'grad_norm': 1.3922613859176636, 'learning_rate': 1.5775079830202119e-06, 'epoch': 0.63} {'loss': 2.169, 'grad_norm': 1.7526262998580933, 'learning_rate': 1.5771042507453228e-06, 'epoch': 0.63} {'loss': 2.1955, 'grad_norm': 1.528737187385559, 'learning_rate': 1.5767005463352094e-06, 'epoch': 0.63} {'loss': 2.3808, 'grad_norm': 1.6957025527954102, 'learning_rate': 1.5762968698020583e-06, 'epoch': 0.63} {'loss': 2.3381, 'grad_norm': 1.6740278005599976, 'learning_rate': 1.5758932211580596e-06, 'epoch': 0.63} {'loss': 2.2747, 'grad_norm': 2.1953022480010986, 'learning_rate': 1.5754896004154002e-06, 'epoch': 0.63} {'loss': 2.2264, 'grad_norm': 1.7594947814941406, 'learning_rate': 1.5750860075862662e-06, 'epoch': 0.63} {'loss': 2.1877, 'grad_norm': 2.5251450538635254, 'learning_rate': 1.5746824426828432e-06, 'epoch': 0.63} {'loss': 2.3966, 'grad_norm': 6.337385177612305, 'learning_rate': 1.5742789057173163e-06, 'epoch': 0.63} {'loss': 2.3749, 'grad_norm': 1.7693772315979004, 'learning_rate': 1.5738753967018695e-06, 'epoch': 0.63} {'loss': 2.4094, 'grad_norm': 1.8308641910552979, 'learning_rate': 1.5734719156486855e-06, 'epoch': 0.63} {'loss': 2.5122, 'grad_norm': 1.8578989505767822, 'learning_rate': 1.573068462569946e-06, 'epoch': 0.63} {'loss': 1.539, 'grad_norm': 1.6630520820617676, 'learning_rate': 1.5726650374778334e-06, 'epoch': 0.63} {'loss': 1.4158, 'grad_norm': 2.198613405227661, 'learning_rate': 1.5722616403845275e-06, 'epoch': 0.63} {'loss': 2.2885, 'grad_norm': 1.6100205183029175, 'learning_rate': 1.571858271302208e-06, 'epoch': 0.63} {'loss': 2.0153, 'grad_norm': 1.473653793334961, 'learning_rate': 1.5714549302430537e-06, 'epoch': 0.63} {'loss': 1.975, 'grad_norm': 2.3730833530426025, 'learning_rate': 1.5710516172192437e-06, 'epoch': 0.63} {'loss': 2.1744, 'grad_norm': 1.707229733467102, 'learning_rate': 1.5706483322429536e-06, 'epoch': 0.63} {'loss': 2.1697, 'grad_norm': 1.4421939849853516, 'learning_rate': 1.5702450753263605e-06, 'epoch': 0.63} {'loss': 2.1112, 'grad_norm': 1.9585663080215454, 'learning_rate': 1.5698418464816409e-06, 'epoch': 0.63} {'loss': 2.1608, 'grad_norm': 1.5680850744247437, 'learning_rate': 1.5694386457209666e-06, 'epoch': 0.63} {'loss': 2.3259, 'grad_norm': 1.5276408195495605, 'learning_rate': 1.5690354730565134e-06, 'epoch': 0.63} {'loss': 2.5419, 'grad_norm': 1.6593620777130127, 'learning_rate': 1.5686323285004534e-06, 'epoch': 0.63} {'loss': 2.3459, 'grad_norm': 1.7255812883377075, 'learning_rate': 1.5682292120649595e-06, 'epoch': 0.63} {'loss': 2.3715, 'grad_norm': 1.6045421361923218, 'learning_rate': 1.5678261237622022e-06, 'epoch': 0.63} {'loss': 2.4374, 'grad_norm': 1.6968364715576172, 'learning_rate': 1.567423063604352e-06, 'epoch': 0.63} {'loss': 2.3204, 'grad_norm': 1.5660079717636108, 'learning_rate': 1.5670200316035782e-06, 'epoch': 0.63} {'loss': 2.2941, 'grad_norm': 1.6453092098236084, 'learning_rate': 1.56661702777205e-06, 'epoch': 0.63} {'loss': 2.3572, 'grad_norm': 1.5115102529525757, 'learning_rate': 1.5662140521219353e-06, 'epoch': 0.63} {'loss': 2.0927, 'grad_norm': 1.4262580871582031, 'learning_rate': 1.5658111046654e-06, 'epoch': 0.63} {'loss': 2.3383, 'grad_norm': 1.6412650346755981, 'learning_rate': 1.5654081854146108e-06, 'epoch': 0.63} {'loss': 2.142, 'grad_norm': 1.883948802947998, 'learning_rate': 1.5650052943817334e-06, 'epoch': 0.63} {'loss': 2.1834, 'grad_norm': 1.78134286403656, 'learning_rate': 1.564602431578931e-06, 'epoch': 0.63} {'loss': 2.0797, 'grad_norm': 1.7491750717163086, 'learning_rate': 1.5641995970183682e-06, 'epoch': 0.63} {'loss': 1.9604, 'grad_norm': 1.2831218242645264, 'learning_rate': 1.5637967907122075e-06, 'epoch': 0.63} {'loss': 2.2992, 'grad_norm': 1.6868311166763306, 'learning_rate': 1.5633940126726105e-06, 'epoch': 0.63} {'loss': 2.2865, 'grad_norm': 1.5355380773544312, 'learning_rate': 1.5629912629117388e-06, 'epoch': 0.63} {'loss': 2.433, 'grad_norm': 1.64041006565094, 'learning_rate': 1.5625885414417522e-06, 'epoch': 0.63} {'loss': 1.8181, 'grad_norm': 1.3748199939727783, 'learning_rate': 1.5621858482748092e-06, 'epoch': 0.63} {'loss': 2.3348, 'grad_norm': 1.8517444133758545, 'learning_rate': 1.561783183423069e-06, 'epoch': 0.63} {'loss': 2.2239, 'grad_norm': 1.6237105131149292, 'learning_rate': 1.5613805468986892e-06, 'epoch': 0.63} {'loss': 2.0837, 'grad_norm': 1.2742570638656616, 'learning_rate': 1.560977938713826e-06, 'epoch': 0.63} {'loss': 2.2753, 'grad_norm': 1.6150628328323364, 'learning_rate': 1.5605753588806355e-06, 'epoch': 0.63} {'loss': 2.091, 'grad_norm': 1.4393268823623657, 'learning_rate': 1.5601728074112733e-06, 'epoch': 0.63} {'loss': 2.1446, 'grad_norm': 1.8906384706497192, 'learning_rate': 1.559770284317892e-06, 'epoch': 0.63} {'loss': 2.3676, 'grad_norm': 1.666379451751709, 'learning_rate': 1.5593677896126464e-06, 'epoch': 0.63} {'loss': 2.2008, 'grad_norm': 1.6644682884216309, 'learning_rate': 1.5589653233076895e-06, 'epoch': 0.63} {'loss': 2.3935, 'grad_norm': 1.5751450061798096, 'learning_rate': 1.5585628854151712e-06, 'epoch': 0.63} {'loss': 2.522, 'grad_norm': 2.221024751663208, 'learning_rate': 1.5581604759472419e-06, 'epoch': 0.63} {'loss': 2.4381, 'grad_norm': 1.6497775316238403, 'learning_rate': 1.5577580949160532e-06, 'epoch': 0.63} {'loss': 2.2324, 'grad_norm': 1.8160666227340698, 'learning_rate': 1.5573557423337527e-06, 'epoch': 0.63} {'loss': 2.2951, 'grad_norm': 1.7672187089920044, 'learning_rate': 1.5569534182124895e-06, 'epoch': 0.64} {'loss': 2.257, 'grad_norm': 1.4203026294708252, 'learning_rate': 1.5565511225644102e-06, 'epoch': 0.64} {'loss': 2.1564, 'grad_norm': 1.658626675605774, 'learning_rate': 1.5561488554016619e-06, 'epoch': 0.64} {'loss': 2.1142, 'grad_norm': 2.7549030780792236, 'learning_rate': 1.5557466167363894e-06, 'epoch': 0.64} {'loss': 2.2595, 'grad_norm': 1.5390652418136597, 'learning_rate': 1.5553444065807382e-06, 'epoch': 0.64} {'loss': 2.1463, 'grad_norm': 1.668439269065857, 'learning_rate': 1.5549422249468515e-06, 'epoch': 0.64} {'loss': 2.2213, 'grad_norm': 1.62599515914917, 'learning_rate': 1.5545400718468723e-06, 'epoch': 0.64} {'loss': 2.3097, 'grad_norm': 1.506386160850525, 'learning_rate': 1.554137947292943e-06, 'epoch': 0.64} {'loss': 2.0695, 'grad_norm': 1.6705487966537476, 'learning_rate': 1.5537358512972046e-06, 'epoch': 0.64} {'loss': 2.4804, 'grad_norm': 1.6803807020187378, 'learning_rate': 1.5533337838717973e-06, 'epoch': 0.64} {'loss': 2.102, 'grad_norm': 1.5951225757598877, 'learning_rate': 1.5529317450288608e-06, 'epoch': 0.64} {'loss': 2.1447, 'grad_norm': 1.341543436050415, 'learning_rate': 1.5525297347805345e-06, 'epoch': 0.64} {'loss': 2.1662, 'grad_norm': 1.5934430360794067, 'learning_rate': 1.5521277531389565e-06, 'epoch': 0.64} {'loss': 2.2703, 'grad_norm': 1.665469765663147, 'learning_rate': 1.5517258001162615e-06, 'epoch': 0.64} {'loss': 2.0961, 'grad_norm': 1.5764069557189941, 'learning_rate': 1.551323875724587e-06, 'epoch': 0.64} {'loss': 2.3783, 'grad_norm': 1.7405728101730347, 'learning_rate': 1.5509219799760683e-06, 'epoch': 0.64} {'loss': 1.865, 'grad_norm': 1.4380650520324707, 'learning_rate': 1.5505201128828395e-06, 'epoch': 0.64} {'loss': 2.3528, 'grad_norm': 2.6481502056121826, 'learning_rate': 1.5501182744570342e-06, 'epoch': 0.64} {'loss': 1.8478, 'grad_norm': 1.5154310464859009, 'learning_rate': 1.5497164647107853e-06, 'epoch': 0.64} {'loss': 2.3076, 'grad_norm': 1.9059258699417114, 'learning_rate': 1.5493146836562239e-06, 'epoch': 0.64} {'loss': 2.4118, 'grad_norm': 1.6487758159637451, 'learning_rate': 1.5489129313054813e-06, 'epoch': 0.64} {'loss': 2.2748, 'grad_norm': 1.5958008766174316, 'learning_rate': 1.5485112076706876e-06, 'epoch': 0.64} {'loss': 2.3126, 'grad_norm': 1.6368862390518188, 'learning_rate': 1.5481095127639717e-06, 'epoch': 0.64} {'loss': 2.1899, 'grad_norm': 1.573276162147522, 'learning_rate': 1.5477078465974618e-06, 'epoch': 0.64} {'loss': 2.1499, 'grad_norm': 1.6412519216537476, 'learning_rate': 1.5473062091832852e-06, 'epoch': 0.64} {'loss': 2.3054, 'grad_norm': 1.3673955202102661, 'learning_rate': 1.5469046005335693e-06, 'epoch': 0.64} {'loss': 2.3273, 'grad_norm': 1.8020390272140503, 'learning_rate': 1.546503020660438e-06, 'epoch': 0.64} {'loss': 1.8255, 'grad_norm': 1.5132102966308594, 'learning_rate': 1.546101469576018e-06, 'epoch': 0.64} {'loss': 2.3958, 'grad_norm': 1.714258074760437, 'learning_rate': 1.5456999472924324e-06, 'epoch': 0.64} {'loss': 2.2189, 'grad_norm': 1.6353083848953247, 'learning_rate': 1.5452984538218048e-06, 'epoch': 0.64} {'loss': 2.3172, 'grad_norm': 3.2985801696777344, 'learning_rate': 1.5448969891762578e-06, 'epoch': 0.64} {'loss': 2.2409, 'grad_norm': 1.7240341901779175, 'learning_rate': 1.54449555336791e-06, 'epoch': 0.64} {'loss': 2.4609, 'grad_norm': 1.7940198183059692, 'learning_rate': 1.5440941464088845e-06, 'epoch': 0.64} {'loss': 2.2172, 'grad_norm': 1.5911450386047363, 'learning_rate': 1.5436927683113e-06, 'epoch': 0.64} {'loss': 2.3674, 'grad_norm': 1.774055004119873, 'learning_rate': 1.5432914190872757e-06, 'epoch': 0.64} {'loss': 2.2963, 'grad_norm': 1.5972260236740112, 'learning_rate': 1.5428900987489293e-06, 'epoch': 0.64} {'loss': 2.1883, 'grad_norm': 1.578007698059082, 'learning_rate': 1.5424888073083772e-06, 'epoch': 0.64} {'loss': 2.137, 'grad_norm': 1.8799207210540771, 'learning_rate': 1.5420875447777359e-06, 'epoch': 0.64} {'loss': 2.3984, 'grad_norm': 1.4485357999801636, 'learning_rate': 1.5416863111691199e-06, 'epoch': 0.64} {'loss': 2.1562, 'grad_norm': 1.4155235290527344, 'learning_rate': 1.541285106494646e-06, 'epoch': 0.64} {'loss': 2.1969, 'grad_norm': 1.5927451848983765, 'learning_rate': 1.540883930766425e-06, 'epoch': 0.64} {'loss': 2.1721, 'grad_norm': 1.299274206161499, 'learning_rate': 1.5404827839965703e-06, 'epoch': 0.64} {'loss': 2.3049, 'grad_norm': 1.5580750703811646, 'learning_rate': 1.540081666197194e-06, 'epoch': 0.64} {'loss': 2.2517, 'grad_norm': 2.369673013687134, 'learning_rate': 1.5396805773804057e-06, 'epoch': 0.64} {'loss': 2.302, 'grad_norm': 1.544732689857483, 'learning_rate': 1.5392795175583175e-06, 'epoch': 0.64} {'loss': 2.2994, 'grad_norm': 1.6356124877929688, 'learning_rate': 1.5388784867430373e-06, 'epoch': 0.64} {'loss': 2.4127, 'grad_norm': 1.7272449731826782, 'learning_rate': 1.5384774849466733e-06, 'epoch': 0.64} {'loss': 2.0344, 'grad_norm': 1.6040891408920288, 'learning_rate': 1.5380765121813329e-06, 'epoch': 0.64} {'loss': 2.19, 'grad_norm': 1.4309099912643433, 'learning_rate': 1.5376755684591232e-06, 'epoch': 0.64} {'loss': 2.3175, 'grad_norm': 2.0227510929107666, 'learning_rate': 1.5372746537921488e-06, 'epoch': 0.64} {'loss': 2.1671, 'grad_norm': 2.89286470413208, 'learning_rate': 1.536873768192515e-06, 'epoch': 0.64} {'loss': 1.8528, 'grad_norm': 1.1412150859832764, 'learning_rate': 1.5364729116723253e-06, 'epoch': 0.64} {'loss': 2.0292, 'grad_norm': 1.803553819656372, 'learning_rate': 1.536072084243683e-06, 'epoch': 0.64} {'loss': 2.1658, 'grad_norm': 1.7710672616958618, 'learning_rate': 1.5356712859186901e-06, 'epoch': 0.64} {'loss': 2.3178, 'grad_norm': 1.831666350364685, 'learning_rate': 1.5352705167094478e-06, 'epoch': 0.64} {'loss': 2.4634, 'grad_norm': 1.2126661539077759, 'learning_rate': 1.534869776628056e-06, 'epoch': 0.64} {'loss': 2.4087, 'grad_norm': 1.6808916330337524, 'learning_rate': 1.534469065686615e-06, 'epoch': 0.64} {'loss': 2.2644, 'grad_norm': 1.664910912513733, 'learning_rate': 1.5340683838972241e-06, 'epoch': 0.64} {'loss': 2.3017, 'grad_norm': 1.6849071979522705, 'learning_rate': 1.5336677312719789e-06, 'epoch': 0.64} {'loss': 2.2616, 'grad_norm': 1.606873869895935, 'learning_rate': 1.5332671078229764e-06, 'epoch': 0.64} {'loss': 1.9826, 'grad_norm': 2.3291969299316406, 'learning_rate': 1.5328665135623138e-06, 'epoch': 0.64} {'loss': 2.2091, 'grad_norm': 1.8886497020721436, 'learning_rate': 1.5324659485020856e-06, 'epoch': 0.64} {'loss': 2.4512, 'grad_norm': 1.6445432901382446, 'learning_rate': 1.5320654126543861e-06, 'epoch': 0.64} {'loss': 2.2079, 'grad_norm': 2.2033498287200928, 'learning_rate': 1.5316649060313085e-06, 'epoch': 0.64} {'loss': 2.2177, 'grad_norm': 1.6083786487579346, 'learning_rate': 1.5312644286449453e-06, 'epoch': 0.64} {'loss': 2.3552, 'grad_norm': 2.1357061862945557, 'learning_rate': 1.5308639805073882e-06, 'epoch': 0.64} {'loss': 2.1552, 'grad_norm': 1.7387537956237793, 'learning_rate': 1.5304635616307273e-06, 'epoch': 0.64} {'loss': 2.2431, 'grad_norm': 1.8022040128707886, 'learning_rate': 1.5300631720270523e-06, 'epoch': 0.64} {'loss': 2.3197, 'grad_norm': 1.631067156791687, 'learning_rate': 1.5296628117084525e-06, 'epoch': 0.64} {'loss': 2.3348, 'grad_norm': 1.8611295223236084, 'learning_rate': 1.5292624806870157e-06, 'epoch': 0.64} {'loss': 2.3068, 'grad_norm': 1.7235358953475952, 'learning_rate': 1.5288621789748292e-06, 'epoch': 0.64} {'loss': 2.3747, 'grad_norm': 1.9266395568847656, 'learning_rate': 1.528461906583979e-06, 'epoch': 0.64} {'loss': 2.3324, 'grad_norm': 1.7865880727767944, 'learning_rate': 1.52806166352655e-06, 'epoch': 0.64} {'loss': 1.2652, 'grad_norm': 1.4463567733764648, 'learning_rate': 1.5276614498146274e-06, 'epoch': 0.64} {'loss': 2.4645, 'grad_norm': 1.5981030464172363, 'learning_rate': 1.5272612654602959e-06, 'epoch': 0.64} {'loss': 2.2713, 'grad_norm': 1.6273927688598633, 'learning_rate': 1.5268611104756354e-06, 'epoch': 0.64} {'loss': 2.0657, 'grad_norm': 2.3693580627441406, 'learning_rate': 1.5264609848727286e-06, 'epoch': 0.64} {'loss': 2.0829, 'grad_norm': 1.7648916244506836, 'learning_rate': 1.5260608886636574e-06, 'epoch': 0.64} {'loss': 2.3739, 'grad_norm': 1.7205100059509277, 'learning_rate': 1.5256608218605015e-06, 'epoch': 0.64} {'loss': 2.2411, 'grad_norm': 1.569362998008728, 'learning_rate': 1.5252607844753397e-06, 'epoch': 0.64} {'loss': 2.2776, 'grad_norm': 1.5912199020385742, 'learning_rate': 1.5248607765202502e-06, 'epoch': 0.64} {'loss': 2.1636, 'grad_norm': 1.5324453115463257, 'learning_rate': 1.5244607980073106e-06, 'epoch': 0.64} {'loss': 2.1496, 'grad_norm': 1.5740479230880737, 'learning_rate': 1.5240608489485969e-06, 'epoch': 0.64} {'loss': 2.1327, 'grad_norm': 1.5895111560821533, 'learning_rate': 1.523660929356186e-06, 'epoch': 0.64} {'loss': 2.3344, 'grad_norm': 1.513986587524414, 'learning_rate': 1.523261039242151e-06, 'epoch': 0.64} {'loss': 2.2186, 'grad_norm': 1.5324530601501465, 'learning_rate': 1.522861178618566e-06, 'epoch': 0.64} {'loss': 2.0641, 'grad_norm': 1.6323493719100952, 'learning_rate': 1.5224613474975043e-06, 'epoch': 0.64} {'loss': 2.2454, 'grad_norm': 1.647712230682373, 'learning_rate': 1.5220615458910375e-06, 'epoch': 0.64} {'loss': 2.5162, 'grad_norm': 2.426189661026001, 'learning_rate': 1.5216617738112372e-06, 'epoch': 0.64} {'loss': 2.3456, 'grad_norm': 2.0792036056518555, 'learning_rate': 1.5212620312701732e-06, 'epoch': 0.64} {'loss': 1.96, 'grad_norm': 1.2895692586898804, 'learning_rate': 1.5208623182799154e-06, 'epoch': 0.64} {'loss': 2.345, 'grad_norm': 1.7445640563964844, 'learning_rate': 1.5204626348525317e-06, 'epoch': 0.64} {'loss': 2.3521, 'grad_norm': 1.8646607398986816, 'learning_rate': 1.5200629810000906e-06, 'epoch': 0.64} {'loss': 2.1935, 'grad_norm': 1.6153396368026733, 'learning_rate': 1.519663356734657e-06, 'epoch': 0.64} {'loss': 2.4435, 'grad_norm': 2.043795347213745, 'learning_rate': 1.5192637620682982e-06, 'epoch': 0.64} {'loss': 2.2714, 'grad_norm': 1.5742942094802856, 'learning_rate': 1.518864197013078e-06, 'epoch': 0.64} {'loss': 2.4747, 'grad_norm': 1.6127099990844727, 'learning_rate': 1.5184646615810612e-06, 'epoch': 0.64} {'loss': 2.4619, 'grad_norm': 1.5520344972610474, 'learning_rate': 1.5180651557843106e-06, 'epoch': 0.64} {'loss': 2.2725, 'grad_norm': 1.6320559978485107, 'learning_rate': 1.5176656796348883e-06, 'epoch': 0.64} {'loss': 2.3201, 'grad_norm': 1.6110725402832031, 'learning_rate': 1.5172662331448556e-06, 'epoch': 0.64} {'loss': 2.275, 'grad_norm': 1.6510823965072632, 'learning_rate': 1.5168668163262724e-06, 'epoch': 0.64} {'loss': 1.9797, 'grad_norm': 1.6444919109344482, 'learning_rate': 1.5164674291912004e-06, 'epoch': 0.64} {'loss': 2.0951, 'grad_norm': 1.8740142583847046, 'learning_rate': 1.5160680717516955e-06, 'epoch': 0.64} {'loss': 2.3702, 'grad_norm': 1.6492129564285278, 'learning_rate': 1.5156687440198164e-06, 'epoch': 0.64} {'loss': 1.9598, 'grad_norm': 1.4165360927581787, 'learning_rate': 1.51526944600762e-06, 'epoch': 0.64} {'loss': 2.3107, 'grad_norm': 1.3949863910675049, 'learning_rate': 1.5148701777271613e-06, 'epoch': 0.64} {'loss': 2.3025, 'grad_norm': 1.6647127866744995, 'learning_rate': 1.514470939190497e-06, 'epoch': 0.64} {'loss': 2.3297, 'grad_norm': 1.582711935043335, 'learning_rate': 1.5140717304096806e-06, 'epoch': 0.64} {'loss': 2.4123, 'grad_norm': 1.6219429969787598, 'learning_rate': 1.513672551396765e-06, 'epoch': 0.64} {'loss': 2.2383, 'grad_norm': 1.5572034120559692, 'learning_rate': 1.5132734021638025e-06, 'epoch': 0.64} {'loss': 2.324, 'grad_norm': 2.4641473293304443, 'learning_rate': 1.5128742827228448e-06, 'epoch': 0.64} {'loss': 2.1776, 'grad_norm': 1.816299319267273, 'learning_rate': 1.5124751930859421e-06, 'epoch': 0.64} {'loss': 2.5377, 'grad_norm': 1.8045037984848022, 'learning_rate': 1.5120761332651446e-06, 'epoch': 0.64} {'loss': 2.1256, 'grad_norm': 2.1642119884490967, 'learning_rate': 1.5116771032725e-06, 'epoch': 0.64} {'loss': 2.2792, 'grad_norm': 1.5996570587158203, 'learning_rate': 1.5112781031200569e-06, 'epoch': 0.64} {'loss': 2.2212, 'grad_norm': 28.821073532104492, 'learning_rate': 1.5108791328198622e-06, 'epoch': 0.64} {'loss': 2.3661, 'grad_norm': 1.508373737335205, 'learning_rate': 1.5104801923839619e-06, 'epoch': 0.64} {'loss': 2.2002, 'grad_norm': 1.2617058753967285, 'learning_rate': 1.5100812818244e-06, 'epoch': 0.64} {'loss': 2.3018, 'grad_norm': 1.8054407835006714, 'learning_rate': 1.5096824011532235e-06, 'epoch': 0.64} {'loss': 2.2905, 'grad_norm': 1.5900640487670898, 'learning_rate': 1.5092835503824726e-06, 'epoch': 0.64} {'loss': 2.5835, 'grad_norm': 1.6262705326080322, 'learning_rate': 1.5088847295241915e-06, 'epoch': 0.64} {'loss': 2.4925, 'grad_norm': 1.7833629846572876, 'learning_rate': 1.5084859385904201e-06, 'epoch': 0.64} {'loss': 2.2731, 'grad_norm': 1.6771106719970703, 'learning_rate': 1.508087177593201e-06, 'epoch': 0.64} {'loss': 2.2717, 'grad_norm': 1.5141370296478271, 'learning_rate': 1.507688446544573e-06, 'epoch': 0.64} {'loss': 2.2288, 'grad_norm': 1.7781656980514526, 'learning_rate': 1.5072897454565748e-06, 'epoch': 0.64} {'loss': 2.2337, 'grad_norm': 2.002845048904419, 'learning_rate': 1.5068910743412445e-06, 'epoch': 0.64} {'loss': 1.8936, 'grad_norm': 1.7364060878753662, 'learning_rate': 1.506492433210619e-06, 'epoch': 0.64} {'loss': 2.4055, 'grad_norm': 1.6433963775634766, 'learning_rate': 1.5060938220767345e-06, 'epoch': 0.64} {'loss': 2.1037, 'grad_norm': 1.6214871406555176, 'learning_rate': 1.5056952409516262e-06, 'epoch': 0.64} {'loss': 2.254, 'grad_norm': 1.5303207635879517, 'learning_rate': 1.5052966898473275e-06, 'epoch': 0.64} {'loss': 2.0712, 'grad_norm': 1.6070523262023926, 'learning_rate': 1.504898168775873e-06, 'epoch': 0.64} {'loss': 2.1812, 'grad_norm': 1.6671886444091797, 'learning_rate': 1.5044996777492942e-06, 'epoch': 0.64} {'loss': 2.1334, 'grad_norm': 2.0881292819976807, 'learning_rate': 1.5041012167796232e-06, 'epoch': 0.64} {'loss': 1.3669, 'grad_norm': 1.6337863206863403, 'learning_rate': 1.50370278587889e-06, 'epoch': 0.64} {'loss': 2.3772, 'grad_norm': 1.6341092586517334, 'learning_rate': 1.5033043850591256e-06, 'epoch': 0.64} {'loss': 2.0686, 'grad_norm': 1.3833779096603394, 'learning_rate': 1.5029060143323576e-06, 'epoch': 0.64} {'loss': 2.0938, 'grad_norm': 2.0346078872680664, 'learning_rate': 1.5025076737106153e-06, 'epoch': 0.64} {'loss': 2.2898, 'grad_norm': 1.7605503797531128, 'learning_rate': 1.5021093632059243e-06, 'epoch': 0.64} {'loss': 2.3811, 'grad_norm': 1.6700735092163086, 'learning_rate': 1.50171108283031e-06, 'epoch': 0.64} {'loss': 2.1944, 'grad_norm': 2.0766425132751465, 'learning_rate': 1.5013128325958e-06, 'epoch': 0.64} {'loss': 2.0371, 'grad_norm': 1.7753393650054932, 'learning_rate': 1.5009146125144166e-06, 'epoch': 0.64} {'loss': 2.2368, 'grad_norm': 15.738268852233887, 'learning_rate': 1.5005164225981841e-06, 'epoch': 0.64} {'loss': 2.33, 'grad_norm': 1.6905694007873535, 'learning_rate': 1.5001182628591248e-06, 'epoch': 0.64} {'loss': 2.3633, 'grad_norm': 1.6329165697097778, 'learning_rate': 1.4997201333092603e-06, 'epoch': 0.64} {'loss': 2.4018, 'grad_norm': 1.7969117164611816, 'learning_rate': 1.499322033960611e-06, 'epoch': 0.64} {'loss': 2.5163, 'grad_norm': 1.6915359497070312, 'learning_rate': 1.4989239648251973e-06, 'epoch': 0.64} {'loss': 2.1776, 'grad_norm': 1.5462102890014648, 'learning_rate': 1.498525925915037e-06, 'epoch': 0.64} {'loss': 2.1665, 'grad_norm': 1.7204314470291138, 'learning_rate': 1.4981279172421481e-06, 'epoch': 0.64} {'loss': 2.0082, 'grad_norm': 9.392462730407715, 'learning_rate': 1.4977299388185481e-06, 'epoch': 0.64} {'loss': 1.9331, 'grad_norm': 1.5540305376052856, 'learning_rate': 1.497331990656253e-06, 'epoch': 0.64} {'loss': 2.5679, 'grad_norm': 1.7640548944473267, 'learning_rate': 1.4969340727672771e-06, 'epoch': 0.64} {'loss': 2.2768, 'grad_norm': 1.6802978515625, 'learning_rate': 1.4965361851636362e-06, 'epoch': 0.64} {'loss': 2.3506, 'grad_norm': 1.49424409866333, 'learning_rate': 1.4961383278573428e-06, 'epoch': 0.64} {'loss': 2.0589, 'grad_norm': 1.357251763343811, 'learning_rate': 1.4957405008604092e-06, 'epoch': 0.64} {'loss': 2.1954, 'grad_norm': 1.8618189096450806, 'learning_rate': 1.4953427041848474e-06, 'epoch': 0.64} {'loss': 2.2574, 'grad_norm': 1.645280361175537, 'learning_rate': 1.4949449378426673e-06, 'epoch': 0.64} {'loss': 2.233, 'grad_norm': 1.5130945444107056, 'learning_rate': 1.494547201845879e-06, 'epoch': 0.64} {'loss': 2.2777, 'grad_norm': 1.7088932991027832, 'learning_rate': 1.4941494962064905e-06, 'epoch': 0.64} {'loss': 1.9961, 'grad_norm': 1.7904493808746338, 'learning_rate': 1.4937518209365109e-06, 'epoch': 0.64} {'loss': 1.9453, 'grad_norm': 1.6523135900497437, 'learning_rate': 1.4933541760479465e-06, 'epoch': 0.64} {'loss': 2.3217, 'grad_norm': 1.6883339881896973, 'learning_rate': 1.492956561552803e-06, 'epoch': 0.64} {'loss': 2.1325, 'grad_norm': 1.2725815773010254, 'learning_rate': 1.4925589774630855e-06, 'epoch': 0.64} {'loss': 1.2895, 'grad_norm': 1.6107531785964966, 'learning_rate': 1.4921614237907982e-06, 'epoch': 0.64} {'loss': 2.3047, 'grad_norm': 1.8610732555389404, 'learning_rate': 1.4917639005479462e-06, 'epoch': 0.64} {'loss': 2.3002, 'grad_norm': 1.7025097608566284, 'learning_rate': 1.491366407746529e-06, 'epoch': 0.64} {'loss': 2.3271, 'grad_norm': 1.5738141536712646, 'learning_rate': 1.4909689453985492e-06, 'epoch': 0.64} {'loss': 2.1129, 'grad_norm': 1.4783775806427002, 'learning_rate': 1.4905715135160064e-06, 'epoch': 0.64} {'loss': 2.2909, 'grad_norm': 2.0037710666656494, 'learning_rate': 1.490174112110902e-06, 'epoch': 0.64} {'loss': 2.3593, 'grad_norm': 1.506837248802185, 'learning_rate': 1.4897767411952338e-06, 'epoch': 0.64} {'loss': 1.9068, 'grad_norm': 1.3318636417388916, 'learning_rate': 1.4893794007809992e-06, 'epoch': 0.64} {'loss': 2.2976, 'grad_norm': 1.5177984237670898, 'learning_rate': 1.4889820908801954e-06, 'epoch': 0.64} {'loss': 2.2368, 'grad_norm': 1.7723238468170166, 'learning_rate': 1.4885848115048184e-06, 'epoch': 0.64} {'loss': 2.2961, 'grad_norm': 1.704897403717041, 'learning_rate': 1.4881875626668625e-06, 'epoch': 0.64} {'loss': 2.2226, 'grad_norm': 1.8445086479187012, 'learning_rate': 1.487790344378322e-06, 'epoch': 0.64} {'loss': 2.1756, 'grad_norm': 2.174407720565796, 'learning_rate': 1.4873931566511901e-06, 'epoch': 0.64} {'loss': 1.9654, 'grad_norm': 1.169382929801941, 'learning_rate': 1.4869959994974592e-06, 'epoch': 0.64} {'loss': 2.3053, 'grad_norm': 1.390525460243225, 'learning_rate': 1.4865988729291202e-06, 'epoch': 0.64} {'loss': 2.3934, 'grad_norm': 1.8360222578048706, 'learning_rate': 1.4862017769581638e-06, 'epoch': 0.64} {'loss': 2.249, 'grad_norm': 1.8521500825881958, 'learning_rate': 1.4858047115965796e-06, 'epoch': 0.64} {'loss': 2.3181, 'grad_norm': 1.6081252098083496, 'learning_rate': 1.4854076768563546e-06, 'epoch': 0.64} {'loss': 2.3346, 'grad_norm': 1.613533854484558, 'learning_rate': 1.4850106727494795e-06, 'epoch': 0.64} {'loss': 2.3642, 'grad_norm': 1.5606915950775146, 'learning_rate': 1.4846136992879378e-06, 'epoch': 0.64} {'loss': 2.211, 'grad_norm': 1.5835059881210327, 'learning_rate': 1.4842167564837167e-06, 'epoch': 0.64} {'loss': 2.2317, 'grad_norm': 1.664268970489502, 'learning_rate': 1.4838198443488e-06, 'epoch': 0.64} {'loss': 2.4298, 'grad_norm': 1.4713170528411865, 'learning_rate': 1.483422962895173e-06, 'epoch': 0.64} {'loss': 2.2414, 'grad_norm': 1.916239619255066, 'learning_rate': 1.4830261121348177e-06, 'epoch': 0.64} {'loss': 2.326, 'grad_norm': 1.9188183546066284, 'learning_rate': 1.4826292920797163e-06, 'epoch': 0.65} {'loss': 2.488, 'grad_norm': 2.0478696823120117, 'learning_rate': 1.4822325027418504e-06, 'epoch': 0.65} {'loss': 2.4735, 'grad_norm': 1.6542221307754517, 'learning_rate': 1.4818357441331995e-06, 'epoch': 0.65} {'loss': 2.5627, 'grad_norm': 1.6758803129196167, 'learning_rate': 1.4814390162657439e-06, 'epoch': 0.65} {'loss': 2.4405, 'grad_norm': 1.6668721437454224, 'learning_rate': 1.48104231915146e-06, 'epoch': 0.65} {'loss': 2.4177, 'grad_norm': 1.5498948097229004, 'learning_rate': 1.4806456528023266e-06, 'epoch': 0.65} {'loss': 2.4195, 'grad_norm': 1.6800434589385986, 'learning_rate': 1.4802490172303198e-06, 'epoch': 0.65} {'loss': 1.9866, 'grad_norm': 1.5449473857879639, 'learning_rate': 1.479852412447415e-06, 'epoch': 0.65} {'loss': 2.3097, 'grad_norm': 1.6364097595214844, 'learning_rate': 1.4794558384655872e-06, 'epoch': 0.65} {'loss': 2.0395, 'grad_norm': 3.5369443893432617, 'learning_rate': 1.4790592952968092e-06, 'epoch': 0.65} {'loss': 2.376, 'grad_norm': 1.923332929611206, 'learning_rate': 1.4786627829530548e-06, 'epoch': 0.65} {'loss': 2.0167, 'grad_norm': 1.5024843215942383, 'learning_rate': 1.4782663014462957e-06, 'epoch': 0.65} {'loss': 2.2904, 'grad_norm': 1.621907353401184, 'learning_rate': 1.4778698507885032e-06, 'epoch': 0.65} {'loss': 1.6994, 'grad_norm': 1.5166536569595337, 'learning_rate': 1.477473430991645e-06, 'epoch': 0.65} {'loss': 2.303, 'grad_norm': 1.6371257305145264, 'learning_rate': 1.4770770420676916e-06, 'epoch': 0.65} {'loss': 2.1633, 'grad_norm': 2.2724528312683105, 'learning_rate': 1.4766806840286113e-06, 'epoch': 0.65} {'loss': 2.1824, 'grad_norm': 2.1369102001190186, 'learning_rate': 1.4762843568863714e-06, 'epoch': 0.65} {'loss': 2.3601, 'grad_norm': 1.580603837966919, 'learning_rate': 1.4758880606529375e-06, 'epoch': 0.65} {'loss': 2.3025, 'grad_norm': 2.1600193977355957, 'learning_rate': 1.4754917953402748e-06, 'epoch': 0.65} {'loss': 2.2394, 'grad_norm': 1.6197444200515747, 'learning_rate': 1.4750955609603484e-06, 'epoch': 0.65} {'loss': 2.2005, 'grad_norm': 1.543150782585144, 'learning_rate': 1.474699357525121e-06, 'epoch': 0.65} {'loss': 2.152, 'grad_norm': 1.6090022325515747, 'learning_rate': 1.474303185046556e-06, 'epoch': 0.65} {'loss': 2.3217, 'grad_norm': 1.6317940950393677, 'learning_rate': 1.4739070435366134e-06, 'epoch': 0.65} {'loss': 2.0748, 'grad_norm': 1.5046086311340332, 'learning_rate': 1.473510933007255e-06, 'epoch': 0.65} {'loss': 1.9346, 'grad_norm': 1.392442226409912, 'learning_rate': 1.4731148534704399e-06, 'epoch': 0.65} {'loss': 2.1522, 'grad_norm': 1.4749001264572144, 'learning_rate': 1.4727188049381274e-06, 'epoch': 0.65} {'loss': 2.1636, 'grad_norm': 1.5201125144958496, 'learning_rate': 1.4723227874222743e-06, 'epoch': 0.65} {'loss': 2.3394, 'grad_norm': 1.7272510528564453, 'learning_rate': 1.4719268009348386e-06, 'epoch': 0.65} {'loss': 2.1822, 'grad_norm': 1.675824522972107, 'learning_rate': 1.4715308454877758e-06, 'epoch': 0.65} {'loss': 2.1966, 'grad_norm': 1.5725828409194946, 'learning_rate': 1.471134921093042e-06, 'epoch': 0.65} {'loss': 2.003, 'grad_norm': 1.9186389446258545, 'learning_rate': 1.4707390277625886e-06, 'epoch': 0.65} {'loss': 2.1126, 'grad_norm': 1.717258334159851, 'learning_rate': 1.4703431655083705e-06, 'epoch': 0.65} {'loss': 2.2512, 'grad_norm': 1.779036045074463, 'learning_rate': 1.4699473343423399e-06, 'epoch': 0.65} {'loss': 2.3475, 'grad_norm': 1.447955846786499, 'learning_rate': 1.4695515342764477e-06, 'epoch': 0.65} {'loss': 2.162, 'grad_norm': 1.594931721687317, 'learning_rate': 1.469155765322644e-06, 'epoch': 0.65} {'loss': 2.2796, 'grad_norm': 2.2269606590270996, 'learning_rate': 1.4687600274928787e-06, 'epoch': 0.65} {'loss': 2.3406, 'grad_norm': 1.5843199491500854, 'learning_rate': 1.4683643207991e-06, 'epoch': 0.65} {'loss': 2.2574, 'grad_norm': 1.468563437461853, 'learning_rate': 1.4679686452532548e-06, 'epoch': 0.65} {'loss': 2.2226, 'grad_norm': 1.8728607892990112, 'learning_rate': 1.4675730008672913e-06, 'epoch': 0.65} {'loss': 2.2287, 'grad_norm': 1.6841903924942017, 'learning_rate': 1.4671773876531532e-06, 'epoch': 0.65} {'loss': 2.4984, 'grad_norm': 1.8406003713607788, 'learning_rate': 1.4667818056227857e-06, 'epoch': 0.65} {'loss': 2.2482, 'grad_norm': 1.554284691810608, 'learning_rate': 1.4663862547881326e-06, 'epoch': 0.65} {'loss': 2.3953, 'grad_norm': 1.6070425510406494, 'learning_rate': 1.4659907351611366e-06, 'epoch': 0.65} {'loss': 2.1151, 'grad_norm': 1.5310841798782349, 'learning_rate': 1.4655952467537398e-06, 'epoch': 0.65} {'loss': 2.2696, 'grad_norm': 1.5943611860275269, 'learning_rate': 1.4651997895778835e-06, 'epoch': 0.65} {'loss': 1.9802, 'grad_norm': 1.8079984188079834, 'learning_rate': 1.4648043636455073e-06, 'epoch': 0.65} {'loss': 2.26, 'grad_norm': 1.8763898611068726, 'learning_rate': 1.4644089689685496e-06, 'epoch': 0.65} {'loss': 2.4125, 'grad_norm': 1.7659924030303955, 'learning_rate': 1.4640136055589494e-06, 'epoch': 0.65} {'loss': 2.4652, 'grad_norm': 1.7445614337921143, 'learning_rate': 1.463618273428643e-06, 'epoch': 0.65} {'loss': 2.2861, 'grad_norm': 1.4857032299041748, 'learning_rate': 1.4632229725895668e-06, 'epoch': 0.65} {'loss': 2.4419, 'grad_norm': 1.6424325704574585, 'learning_rate': 1.4628277030536564e-06, 'epoch': 0.65} {'loss': 2.4713, 'grad_norm': 1.5562983751296997, 'learning_rate': 1.4624324648328456e-06, 'epoch': 0.65} {'loss': 2.4573, 'grad_norm': 1.638169288635254, 'learning_rate': 1.4620372579390678e-06, 'epoch': 0.65} {'loss': 2.2099, 'grad_norm': 1.8392057418823242, 'learning_rate': 1.461642082384256e-06, 'epoch': 0.65} {'loss': 2.2375, 'grad_norm': 1.7909907102584839, 'learning_rate': 1.4612469381803406e-06, 'epoch': 0.65} {'loss': 2.3332, 'grad_norm': 1.6866871118545532, 'learning_rate': 1.4608518253392523e-06, 'epoch': 0.65} {'loss': 2.2008, 'grad_norm': 1.459733486175537, 'learning_rate': 1.4604567438729229e-06, 'epoch': 0.65} {'loss': 2.405, 'grad_norm': 1.6618014574050903, 'learning_rate': 1.4600616937932778e-06, 'epoch': 0.65} {'loss': 2.1339, 'grad_norm': 1.5280035734176636, 'learning_rate': 1.459666675112246e-06, 'epoch': 0.65} {'loss': 2.2828, 'grad_norm': 1.5845109224319458, 'learning_rate': 1.459271687841754e-06, 'epoch': 0.65} {'loss': 2.0792, 'grad_norm': 1.597699522972107, 'learning_rate': 1.4588767319937275e-06, 'epoch': 0.65} {'loss': 2.0665, 'grad_norm': 1.537421703338623, 'learning_rate': 1.4584818075800927e-06, 'epoch': 0.65} {'loss': 2.2064, 'grad_norm': 1.611725926399231, 'learning_rate': 1.458086914612771e-06, 'epoch': 0.65} {'loss': 2.1544, 'grad_norm': 1.6808606386184692, 'learning_rate': 1.4576920531036867e-06, 'epoch': 0.65} {'loss': 2.2166, 'grad_norm': 1.239514708518982, 'learning_rate': 1.4572972230647624e-06, 'epoch': 0.65} {'loss': 2.1464, 'grad_norm': 1.5916563272476196, 'learning_rate': 1.456902424507919e-06, 'epoch': 0.65} {'loss': 2.1811, 'grad_norm': 1.3831260204315186, 'learning_rate': 1.4565076574450757e-06, 'epoch': 0.65} {'loss': 2.3672, 'grad_norm': 2.089709520339966, 'learning_rate': 1.456112921888151e-06, 'epoch': 0.65} {'loss': 2.5952, 'grad_norm': 1.710192322731018, 'learning_rate': 1.4557182178490637e-06, 'epoch': 0.65} {'loss': 2.3345, 'grad_norm': 1.6377729177474976, 'learning_rate': 1.4553235453397318e-06, 'epoch': 0.65} {'loss': 2.131, 'grad_norm': 1.6173583269119263, 'learning_rate': 1.4549289043720705e-06, 'epoch': 0.65} {'loss': 2.0722, 'grad_norm': 1.7368346452713013, 'learning_rate': 1.4545342949579965e-06, 'epoch': 0.65} {'loss': 2.4573, 'grad_norm': 2.188171625137329, 'learning_rate': 1.4541397171094224e-06, 'epoch': 0.65} {'loss': 2.3122, 'grad_norm': 2.514594316482544, 'learning_rate': 1.4537451708382633e-06, 'epoch': 0.65} {'loss': 2.4458, 'grad_norm': 2.063749074935913, 'learning_rate': 1.4533506561564305e-06, 'epoch': 0.65} {'loss': 2.4511, 'grad_norm': 1.5553022623062134, 'learning_rate': 1.4529561730758351e-06, 'epoch': 0.65} {'loss': 1.8413, 'grad_norm': 1.540679931640625, 'learning_rate': 1.4525617216083893e-06, 'epoch': 0.65} {'loss': 2.3321, 'grad_norm': 1.6282483339309692, 'learning_rate': 1.4521673017660004e-06, 'epoch': 0.65} {'loss': 2.3517, 'grad_norm': 1.4961713552474976, 'learning_rate': 1.4517729135605797e-06, 'epoch': 0.65} {'loss': 2.2094, 'grad_norm': 1.5540064573287964, 'learning_rate': 1.4513785570040317e-06, 'epoch': 0.65} {'loss': 2.3981, 'grad_norm': 1.3844449520111084, 'learning_rate': 1.4509842321082656e-06, 'epoch': 0.65} {'loss': 2.3434, 'grad_norm': 1.4643676280975342, 'learning_rate': 1.4505899388851874e-06, 'epoch': 0.65} {'loss': 2.244, 'grad_norm': 1.921383023262024, 'learning_rate': 1.4501956773467007e-06, 'epoch': 0.65} {'loss': 2.341, 'grad_norm': 1.649353265762329, 'learning_rate': 1.4498014475047096e-06, 'epoch': 0.65} {'loss': 2.1381, 'grad_norm': 1.7982800006866455, 'learning_rate': 1.4494072493711162e-06, 'epoch': 0.65} {'loss': 2.3191, 'grad_norm': 1.67604660987854, 'learning_rate': 1.449013082957823e-06, 'epoch': 0.65} {'loss': 2.0683, 'grad_norm': 1.9953856468200684, 'learning_rate': 1.4486189482767321e-06, 'epoch': 0.65} {'loss': 2.3965, 'grad_norm': 1.6943902969360352, 'learning_rate': 1.448224845339742e-06, 'epoch': 0.65} {'loss': 2.2911, 'grad_norm': 2.1287879943847656, 'learning_rate': 1.447830774158753e-06, 'epoch': 0.65} {'loss': 2.1871, 'grad_norm': 1.645821452140808, 'learning_rate': 1.447436734745662e-06, 'epoch': 0.65} {'loss': 2.0197, 'grad_norm': 1.192878007888794, 'learning_rate': 1.4470427271123671e-06, 'epoch': 0.65} {'loss': 2.0845, 'grad_norm': 1.4082492589950562, 'learning_rate': 1.4466487512707644e-06, 'epoch': 0.65} {'loss': 2.4166, 'grad_norm': 1.6779766082763672, 'learning_rate': 1.4462548072327478e-06, 'epoch': 0.65} {'loss': 2.0588, 'grad_norm': 1.6001543998718262, 'learning_rate': 1.4458608950102134e-06, 'epoch': 0.65} {'loss': 2.3605, 'grad_norm': 1.5653393268585205, 'learning_rate': 1.4454670146150528e-06, 'epoch': 0.65} {'loss': 2.1369, 'grad_norm': 2.5696609020233154, 'learning_rate': 1.4450731660591604e-06, 'epoch': 0.65} {'loss': 2.5111, 'grad_norm': 1.681400179862976, 'learning_rate': 1.4446793493544251e-06, 'epoch': 0.65} {'loss': 2.3124, 'grad_norm': 1.7418675422668457, 'learning_rate': 1.4442855645127385e-06, 'epoch': 0.65} {'loss': 1.955, 'grad_norm': 1.3577171564102173, 'learning_rate': 1.4438918115459916e-06, 'epoch': 0.65} {'loss': 2.3569, 'grad_norm': 1.4693331718444824, 'learning_rate': 1.44349809046607e-06, 'epoch': 0.65} {'loss': 2.4163, 'grad_norm': 1.9169013500213623, 'learning_rate': 1.443104401284864e-06, 'epoch': 0.65} {'loss': 1.9266, 'grad_norm': 1.3599032163619995, 'learning_rate': 1.4427107440142585e-06, 'epoch': 0.65} {'loss': 2.1895, 'grad_norm': 1.5870158672332764, 'learning_rate': 1.4423171186661383e-06, 'epoch': 0.65} {'loss': 2.2298, 'grad_norm': 1.6426918506622314, 'learning_rate': 1.4419235252523906e-06, 'epoch': 0.65} {'loss': 2.1572, 'grad_norm': 1.608548879623413, 'learning_rate': 1.4415299637848966e-06, 'epoch': 0.65} {'loss': 2.1274, 'grad_norm': 1.608227014541626, 'learning_rate': 1.4411364342755408e-06, 'epoch': 0.65} {'loss': 2.1307, 'grad_norm': 1.376726508140564, 'learning_rate': 1.440742936736203e-06, 'epoch': 0.65} {'loss': 2.3309, 'grad_norm': 2.416557550430298, 'learning_rate': 1.4403494711787667e-06, 'epoch': 0.65} {'loss': 2.1322, 'grad_norm': 1.4204562902450562, 'learning_rate': 1.439956037615109e-06, 'epoch': 0.65} {'loss': 2.1131, 'grad_norm': 2.11249041557312, 'learning_rate': 1.4395626360571107e-06, 'epoch': 0.65} {'loss': 2.3846, 'grad_norm': 1.6681219339370728, 'learning_rate': 1.4391692665166493e-06, 'epoch': 0.65} {'loss': 2.2283, 'grad_norm': 1.5765172243118286, 'learning_rate': 1.4387759290056003e-06, 'epoch': 0.65} {'loss': 2.1792, 'grad_norm': 1.4708600044250488, 'learning_rate': 1.4383826235358403e-06, 'epoch': 0.65} {'loss': 2.2472, 'grad_norm': 17.10321044921875, 'learning_rate': 1.437989350119246e-06, 'epoch': 0.65} {'loss': 2.5223, 'grad_norm': 1.7324628829956055, 'learning_rate': 1.4375961087676887e-06, 'epoch': 0.65} {'loss': 2.1511, 'grad_norm': 1.6816704273223877, 'learning_rate': 1.4372028994930443e-06, 'epoch': 0.65} {'loss': 2.2792, 'grad_norm': 1.6748216152191162, 'learning_rate': 1.436809722307182e-06, 'epoch': 0.65} {'loss': 2.1931, 'grad_norm': 1.495683193206787, 'learning_rate': 1.4364165772219754e-06, 'epoch': 0.65} {'loss': 2.2403, 'grad_norm': 1.5507951974868774, 'learning_rate': 1.4360234642492937e-06, 'epoch': 0.65} {'loss': 2.2834, 'grad_norm': 1.2209930419921875, 'learning_rate': 1.4356303834010047e-06, 'epoch': 0.65} {'loss': 2.2086, 'grad_norm': 1.4990333318710327, 'learning_rate': 1.4352373346889787e-06, 'epoch': 0.65} {'loss': 2.276, 'grad_norm': 2.85339617729187, 'learning_rate': 1.4348443181250812e-06, 'epoch': 0.65} {'loss': 2.2869, 'grad_norm': 1.463456392288208, 'learning_rate': 1.43445133372118e-06, 'epoch': 0.65} {'loss': 2.2215, 'grad_norm': 1.4634828567504883, 'learning_rate': 1.434058381489139e-06, 'epoch': 0.65} {'loss': 2.1183, 'grad_norm': 1.506785273551941, 'learning_rate': 1.433665461440824e-06, 'epoch': 0.65} {'loss': 2.2284, 'grad_norm': 1.4664226770401, 'learning_rate': 1.433272573588097e-06, 'epoch': 0.65} {'loss': 2.1879, 'grad_norm': 1.2454354763031006, 'learning_rate': 1.4328797179428206e-06, 'epoch': 0.65} {'loss': 2.2494, 'grad_norm': 1.6352503299713135, 'learning_rate': 1.4324868945168582e-06, 'epoch': 0.65} {'loss': 2.2848, 'grad_norm': 1.7254489660263062, 'learning_rate': 1.4320941033220668e-06, 'epoch': 0.65} {'loss': 2.256, 'grad_norm': 1.8208973407745361, 'learning_rate': 1.4317013443703076e-06, 'epoch': 0.65} {'loss': 2.4541, 'grad_norm': 1.6519572734832764, 'learning_rate': 1.4313086176734397e-06, 'epoch': 0.65} {'loss': 2.4845, 'grad_norm': 1.8713343143463135, 'learning_rate': 1.4309159232433193e-06, 'epoch': 0.65} {'loss': 2.1218, 'grad_norm': 8.687352180480957, 'learning_rate': 1.4305232610918047e-06, 'epoch': 0.65} {'loss': 2.2424, 'grad_norm': 1.6455405950546265, 'learning_rate': 1.4301306312307488e-06, 'epoch': 0.65} {'loss': 2.2849, 'grad_norm': 1.6929705142974854, 'learning_rate': 1.429738033672009e-06, 'epoch': 0.65} {'loss': 1.7021, 'grad_norm': 1.2130683660507202, 'learning_rate': 1.4293454684274378e-06, 'epoch': 0.65} {'loss': 2.4493, 'grad_norm': 2.256704568862915, 'learning_rate': 1.4289529355088866e-06, 'epoch': 0.65} {'loss': 1.4955, 'grad_norm': 1.7654578685760498, 'learning_rate': 1.428560434928209e-06, 'epoch': 0.65} {'loss': 2.115, 'grad_norm': 1.7576113939285278, 'learning_rate': 1.4281679666972536e-06, 'epoch': 0.65} {'loss': 2.3978, 'grad_norm': 1.6135660409927368, 'learning_rate': 1.427775530827873e-06, 'epoch': 0.65} {'loss': 2.4288, 'grad_norm': 1.5641347169876099, 'learning_rate': 1.4273831273319124e-06, 'epoch': 0.65} {'loss': 2.3318, 'grad_norm': 1.5820708274841309, 'learning_rate': 1.4269907562212217e-06, 'epoch': 0.65} {'loss': 2.5887, 'grad_norm': 2.1129870414733887, 'learning_rate': 1.4265984175076486e-06, 'epoch': 0.65} {'loss': 2.1727, 'grad_norm': 1.7939460277557373, 'learning_rate': 1.4262061112030362e-06, 'epoch': 0.65} {'loss': 2.5518, 'grad_norm': 1.77482008934021, 'learning_rate': 1.4258138373192328e-06, 'epoch': 0.65} {'loss': 2.3254, 'grad_norm': 1.6027987003326416, 'learning_rate': 1.4254215958680784e-06, 'epoch': 0.65} {'loss': 2.3572, 'grad_norm': 1.4599462747573853, 'learning_rate': 1.4250293868614173e-06, 'epoch': 0.65} {'loss': 2.1297, 'grad_norm': 1.6658374071121216, 'learning_rate': 1.4246372103110931e-06, 'epoch': 0.65} {'loss': 2.1269, 'grad_norm': 1.4747962951660156, 'learning_rate': 1.4242450662289442e-06, 'epoch': 0.65} {'loss': 2.3094, 'grad_norm': 1.560462236404419, 'learning_rate': 1.4238529546268123e-06, 'epoch': 0.65} {'loss': 2.2051, 'grad_norm': 1.590124249458313, 'learning_rate': 1.4234608755165347e-06, 'epoch': 0.65} {'loss': 2.2823, 'grad_norm': 1.672317624092102, 'learning_rate': 1.4230688289099514e-06, 'epoch': 0.65} {'loss': 2.3031, 'grad_norm': 1.5726447105407715, 'learning_rate': 1.4226768148188974e-06, 'epoch': 0.65} {'loss': 2.5069, 'grad_norm': 1.5582290887832642, 'learning_rate': 1.4222848332552105e-06, 'epoch': 0.65} {'loss': 2.1663, 'grad_norm': 1.7063782215118408, 'learning_rate': 1.4218928842307247e-06, 'epoch': 0.65} {'loss': 2.3786, 'grad_norm': 1.6441606283187866, 'learning_rate': 1.421500967757273e-06, 'epoch': 0.65} {'loss': 2.089, 'grad_norm': 1.7488621473312378, 'learning_rate': 1.4211090838466906e-06, 'epoch': 0.65} {'loss': 2.3148, 'grad_norm': 1.36942720413208, 'learning_rate': 1.4207172325108077e-06, 'epoch': 0.65} {'loss': 2.2983, 'grad_norm': 1.6340267658233643, 'learning_rate': 1.4203254137614559e-06, 'epoch': 0.65} {'loss': 2.0556, 'grad_norm': 1.5658003091812134, 'learning_rate': 1.4199336276104665e-06, 'epoch': 0.65} {'loss': 2.2218, 'grad_norm': 1.5351282358169556, 'learning_rate': 1.4195418740696668e-06, 'epoch': 0.65} {'loss': 1.9708, 'grad_norm': 1.6866025924682617, 'learning_rate': 1.4191501531508867e-06, 'epoch': 0.65} {'loss': 2.2052, 'grad_norm': 1.4891667366027832, 'learning_rate': 1.4187584648659525e-06, 'epoch': 0.65} {'loss': 2.2042, 'grad_norm': 1.7418569326400757, 'learning_rate': 1.4183668092266896e-06, 'epoch': 0.65} {'loss': 2.3271, 'grad_norm': 1.5454189777374268, 'learning_rate': 1.4179751862449242e-06, 'epoch': 0.65} {'loss': 2.2027, 'grad_norm': 1.2836488485336304, 'learning_rate': 1.4175835959324794e-06, 'epoch': 0.65} {'loss': 2.2968, 'grad_norm': 1.6780622005462646, 'learning_rate': 1.41719203830118e-06, 'epoch': 0.65} {'loss': 2.1712, 'grad_norm': 1.80207359790802, 'learning_rate': 1.4168005133628465e-06, 'epoch': 0.65} {'loss': 2.1888, 'grad_norm': 1.4574335813522339, 'learning_rate': 1.4164090211293018e-06, 'epoch': 0.65} {'loss': 2.3693, 'grad_norm': 1.5502731800079346, 'learning_rate': 1.4160175616123645e-06, 'epoch': 0.65} {'loss': 2.1273, 'grad_norm': 1.6431317329406738, 'learning_rate': 1.4156261348238543e-06, 'epoch': 0.65} {'loss': 2.3699, 'grad_norm': 1.657050371170044, 'learning_rate': 1.4152347407755923e-06, 'epoch': 0.65} {'loss': 2.0906, 'grad_norm': 1.217923879623413, 'learning_rate': 1.414843379479391e-06, 'epoch': 0.65} {'loss': 2.063, 'grad_norm': 1.6405696868896484, 'learning_rate': 1.4144520509470693e-06, 'epoch': 0.65} {'loss': 2.1419, 'grad_norm': 1.804792046546936, 'learning_rate': 1.4140607551904418e-06, 'epoch': 0.65} {'loss': 2.2391, 'grad_norm': 1.6514098644256592, 'learning_rate': 1.4136694922213231e-06, 'epoch': 0.65} {'loss': 2.3131, 'grad_norm': 1.5336644649505615, 'learning_rate': 1.4132782620515274e-06, 'epoch': 0.65} {'loss': 2.4045, 'grad_norm': 1.622288465499878, 'learning_rate': 1.412887064692865e-06, 'epoch': 0.65} {'loss': 2.0302, 'grad_norm': 1.8276681900024414, 'learning_rate': 1.4124959001571498e-06, 'epoch': 0.65} {'loss': 2.3086, 'grad_norm': 1.9954760074615479, 'learning_rate': 1.4121047684561894e-06, 'epoch': 0.65} {'loss': 2.1589, 'grad_norm': 1.815224528312683, 'learning_rate': 1.4117136696017954e-06, 'epoch': 0.65} {'loss': 2.357, 'grad_norm': 1.5738236904144287, 'learning_rate': 1.4113226036057754e-06, 'epoch': 0.65} {'loss': 2.0306, 'grad_norm': 1.578671932220459, 'learning_rate': 1.4109315704799357e-06, 'epoch': 0.65} {'loss': 2.2919, 'grad_norm': 1.9119867086410522, 'learning_rate': 1.410540570236084e-06, 'epoch': 0.65} {'loss': 2.1903, 'grad_norm': 1.9418208599090576, 'learning_rate': 1.410149602886025e-06, 'epoch': 0.65} {'loss': 2.1271, 'grad_norm': 1.7273693084716797, 'learning_rate': 1.4097586684415638e-06, 'epoch': 0.65} {'loss': 2.0895, 'grad_norm': 1.4088326692581177, 'learning_rate': 1.4093677669145025e-06, 'epoch': 0.65} {'loss': 2.0953, 'grad_norm': 1.8179265260696411, 'learning_rate': 1.4089768983166445e-06, 'epoch': 0.66} {'loss': 2.1822, 'grad_norm': 1.5009597539901733, 'learning_rate': 1.4085860626597925e-06, 'epoch': 0.66} {'loss': 2.0261, 'grad_norm': 1.7457646131515503, 'learning_rate': 1.4081952599557439e-06, 'epoch': 0.66} {'loss': 2.2217, 'grad_norm': 1.996895670890808, 'learning_rate': 1.4078044902163005e-06, 'epoch': 0.66} {'loss': 2.4824, 'grad_norm': 1.685090184211731, 'learning_rate': 1.4074137534532589e-06, 'epoch': 0.66} {'loss': 2.3691, 'grad_norm': 1.7818903923034668, 'learning_rate': 1.4070230496784174e-06, 'epoch': 0.66} {'loss': 2.3644, 'grad_norm': 1.9457508325576782, 'learning_rate': 1.4066323789035736e-06, 'epoch': 0.66} {'loss': 1.822, 'grad_norm': 1.4369741678237915, 'learning_rate': 1.4062417411405205e-06, 'epoch': 0.66} {'loss': 2.2242, 'grad_norm': 1.526111364364624, 'learning_rate': 1.4058511364010552e-06, 'epoch': 0.66} {'loss': 2.3169, 'grad_norm': 1.7254928350448608, 'learning_rate': 1.4054605646969688e-06, 'epoch': 0.66} {'loss': 2.2624, 'grad_norm': 1.4557007551193237, 'learning_rate': 1.4050700260400558e-06, 'epoch': 0.66} {'loss': 2.1207, 'grad_norm': 1.8119604587554932, 'learning_rate': 1.4046795204421066e-06, 'epoch': 0.66} {'loss': 2.3561, 'grad_norm': 1.3891900777816772, 'learning_rate': 1.4042890479149104e-06, 'epoch': 0.66} {'loss': 2.1754, 'grad_norm': 2.1538503170013428, 'learning_rate': 1.4038986084702588e-06, 'epoch': 0.66} {'loss': 2.1022, 'grad_norm': 2.1302366256713867, 'learning_rate': 1.4035082021199387e-06, 'epoch': 0.66} {'loss': 2.3715, 'grad_norm': 1.5618295669555664, 'learning_rate': 1.4031178288757391e-06, 'epoch': 0.66} {'loss': 2.2435, 'grad_norm': 2.201380491256714, 'learning_rate': 1.4027274887494447e-06, 'epoch': 0.66} {'loss': 2.3108, 'grad_norm': 1.6447547674179077, 'learning_rate': 1.4023371817528414e-06, 'epoch': 0.66} {'loss': 2.1537, 'grad_norm': 1.738219141960144, 'learning_rate': 1.4019469078977148e-06, 'epoch': 0.66} {'loss': 2.603, 'grad_norm': 1.5516799688339233, 'learning_rate': 1.401556667195848e-06, 'epoch': 0.66} {'loss': 2.1942, 'grad_norm': 1.5284371376037598, 'learning_rate': 1.4011664596590221e-06, 'epoch': 0.66} {'loss': 2.2656, 'grad_norm': 1.7510182857513428, 'learning_rate': 1.4007762852990203e-06, 'epoch': 0.66} {'loss': 2.4762, 'grad_norm': 1.5662357807159424, 'learning_rate': 1.4003861441276213e-06, 'epoch': 0.66} {'loss': 2.4987, 'grad_norm': 1.7356898784637451, 'learning_rate': 1.3999960361566062e-06, 'epoch': 0.66} {'loss': 2.4052, 'grad_norm': 1.8399972915649414, 'learning_rate': 1.3996059613977519e-06, 'epoch': 0.66} {'loss': 1.9935, 'grad_norm': 1.8677011728286743, 'learning_rate': 1.3992159198628374e-06, 'epoch': 0.66} {'loss': 2.1729, 'grad_norm': 1.652478814125061, 'learning_rate': 1.3988259115636377e-06, 'epoch': 0.66} {'loss': 2.1623, 'grad_norm': 2.1727771759033203, 'learning_rate': 1.3984359365119295e-06, 'epoch': 0.66} {'loss': 1.96, 'grad_norm': 1.5152465105056763, 'learning_rate': 1.398045994719487e-06, 'epoch': 0.66} {'loss': 1.3457, 'grad_norm': 1.8278179168701172, 'learning_rate': 1.397656086198082e-06, 'epoch': 0.66} {'loss': 2.2798, 'grad_norm': 1.4991416931152344, 'learning_rate': 1.3972662109594893e-06, 'epoch': 0.66} {'loss': 2.3231, 'grad_norm': 1.656201720237732, 'learning_rate': 1.3968763690154777e-06, 'epoch': 0.66} {'loss': 2.0691, 'grad_norm': 1.1085752248764038, 'learning_rate': 1.3964865603778206e-06, 'epoch': 0.66} {'loss': 2.2464, 'grad_norm': 1.480207085609436, 'learning_rate': 1.3960967850582843e-06, 'epoch': 0.66} {'loss': 2.1754, 'grad_norm': 1.693980097770691, 'learning_rate': 1.3957070430686392e-06, 'epoch': 0.66} {'loss': 2.3905, 'grad_norm': 1.6801658868789673, 'learning_rate': 1.395317334420653e-06, 'epoch': 0.66} {'loss': 2.5356, 'grad_norm': 1.581472635269165, 'learning_rate': 1.3949276591260904e-06, 'epoch': 0.66} {'loss': 2.3441, 'grad_norm': 1.6243599653244019, 'learning_rate': 1.3945380171967188e-06, 'epoch': 0.66} {'loss': 2.0863, 'grad_norm': 6.0602898597717285, 'learning_rate': 1.3941484086443013e-06, 'epoch': 0.66} {'loss': 2.2884, 'grad_norm': 1.6191043853759766, 'learning_rate': 1.3937588334806007e-06, 'epoch': 0.66} {'loss': 2.2601, 'grad_norm': 1.5468697547912598, 'learning_rate': 1.3933692917173807e-06, 'epoch': 0.66} {'loss': 2.1854, 'grad_norm': 2.141810417175293, 'learning_rate': 1.3929797833664013e-06, 'epoch': 0.66} {'loss': 2.2901, 'grad_norm': 1.6521612405776978, 'learning_rate': 1.3925903084394246e-06, 'epoch': 0.66} {'loss': 2.4309, 'grad_norm': 1.6519612073898315, 'learning_rate': 1.3922008669482078e-06, 'epoch': 0.66} {'loss': 2.3257, 'grad_norm': 1.5886917114257812, 'learning_rate': 1.3918114589045111e-06, 'epoch': 0.66} {'loss': 2.3509, 'grad_norm': 1.7477480173110962, 'learning_rate': 1.3914220843200904e-06, 'epoch': 0.66} {'loss': 2.1359, 'grad_norm': 1.7448183298110962, 'learning_rate': 1.3910327432067033e-06, 'epoch': 0.66} {'loss': 2.2754, 'grad_norm': 1.754148244857788, 'learning_rate': 1.3906434355761046e-06, 'epoch': 0.66} {'loss': 2.3825, 'grad_norm': 1.693352460861206, 'learning_rate': 1.3902541614400469e-06, 'epoch': 0.66} {'loss': 2.1723, 'grad_norm': 1.654543161392212, 'learning_rate': 1.389864920810285e-06, 'epoch': 0.66} {'loss': 2.3248, 'grad_norm': 1.6479711532592773, 'learning_rate': 1.3894757136985725e-06, 'epoch': 0.66} {'loss': 2.3435, 'grad_norm': 1.5725938081741333, 'learning_rate': 1.389086540116658e-06, 'epoch': 0.66} {'loss': 2.0795, 'grad_norm': 1.5601216554641724, 'learning_rate': 1.3886974000762938e-06, 'epoch': 0.66} {'loss': 1.6337, 'grad_norm': 1.1355020999908447, 'learning_rate': 1.3883082935892275e-06, 'epoch': 0.66} {'loss': 2.3, 'grad_norm': 1.6896566152572632, 'learning_rate': 1.3879192206672088e-06, 'epoch': 0.66} {'loss': 2.2997, 'grad_norm': 1.6228437423706055, 'learning_rate': 1.3875301813219843e-06, 'epoch': 0.66} {'loss': 2.1013, 'grad_norm': 2.500175714492798, 'learning_rate': 1.3871411755652992e-06, 'epoch': 0.66} {'loss': 2.2998, 'grad_norm': 1.8269768953323364, 'learning_rate': 1.3867522034089e-06, 'epoch': 0.66} {'loss': 2.3426, 'grad_norm': 1.7153023481369019, 'learning_rate': 1.3863632648645298e-06, 'epoch': 0.66} {'loss': 2.238, 'grad_norm': 1.441388487815857, 'learning_rate': 1.3859743599439329e-06, 'epoch': 0.66} {'loss': 2.0002, 'grad_norm': 1.529159665107727, 'learning_rate': 1.38558548865885e-06, 'epoch': 0.66} {'loss': 2.447, 'grad_norm': 1.7960374355316162, 'learning_rate': 1.3851966510210226e-06, 'epoch': 0.66} {'loss': 2.2176, 'grad_norm': 1.8156102895736694, 'learning_rate': 1.3848078470421925e-06, 'epoch': 0.66} {'loss': 2.0177, 'grad_norm': 1.4698052406311035, 'learning_rate': 1.384419076734097e-06, 'epoch': 0.66} {'loss': 2.2356, 'grad_norm': 2.8342790603637695, 'learning_rate': 1.384030340108475e-06, 'epoch': 0.66} {'loss': 2.1654, 'grad_norm': 2.4149253368377686, 'learning_rate': 1.383641637177062e-06, 'epoch': 0.66} {'loss': 2.372, 'grad_norm': 1.5376824140548706, 'learning_rate': 1.3832529679515948e-06, 'epoch': 0.66} {'loss': 1.9796, 'grad_norm': 1.5601449012756348, 'learning_rate': 1.38286433244381e-06, 'epoch': 0.66} {'loss': 2.4857, 'grad_norm': 1.6129692792892456, 'learning_rate': 1.3824757306654396e-06, 'epoch': 0.66} {'loss': 2.2995, 'grad_norm': 4.012750625610352, 'learning_rate': 1.3820871626282177e-06, 'epoch': 0.66} {'loss': 2.3397, 'grad_norm': 1.6239988803863525, 'learning_rate': 1.381698628343875e-06, 'epoch': 0.66} {'loss': 2.046, 'grad_norm': 1.772964596748352, 'learning_rate': 1.3813101278241442e-06, 'epoch': 0.66} {'loss': 2.4753, 'grad_norm': 1.666617512702942, 'learning_rate': 1.3809216610807543e-06, 'epoch': 0.66} {'loss': 2.204, 'grad_norm': 1.6002955436706543, 'learning_rate': 1.380533228125433e-06, 'epoch': 0.66} {'loss': 2.1512, 'grad_norm': 1.5119684934616089, 'learning_rate': 1.3801448289699104e-06, 'epoch': 0.66} {'loss': 2.275, 'grad_norm': 1.7140663862228394, 'learning_rate': 1.3797564636259114e-06, 'epoch': 0.66} {'loss': 1.8076, 'grad_norm': 1.397498607635498, 'learning_rate': 1.3793681321051633e-06, 'epoch': 0.66} {'loss': 2.0976, 'grad_norm': 1.5684460401535034, 'learning_rate': 1.3789798344193895e-06, 'epoch': 0.66} {'loss': 2.1882, 'grad_norm': 1.560529112815857, 'learning_rate': 1.3785915705803143e-06, 'epoch': 0.66} {'loss': 2.4269, 'grad_norm': 1.7928359508514404, 'learning_rate': 1.3782033405996617e-06, 'epoch': 0.66} {'loss': 2.1196, 'grad_norm': 1.6407806873321533, 'learning_rate': 1.3778151444891514e-06, 'epoch': 0.66} {'loss': 2.4051, 'grad_norm': 1.8825966119766235, 'learning_rate': 1.3774269822605075e-06, 'epoch': 0.66} {'loss': 2.1672, 'grad_norm': 1.7176774740219116, 'learning_rate': 1.3770388539254448e-06, 'epoch': 0.66} {'loss': 2.1989, 'grad_norm': 1.7076531648635864, 'learning_rate': 1.3766507594956848e-06, 'epoch': 0.66} {'loss': 1.965, 'grad_norm': 1.8861128091812134, 'learning_rate': 1.3762626989829458e-06, 'epoch': 0.66} {'loss': 2.4243, 'grad_norm': 1.8027098178863525, 'learning_rate': 1.3758746723989424e-06, 'epoch': 0.66} {'loss': 1.7363, 'grad_norm': 1.2901315689086914, 'learning_rate': 1.3754866797553923e-06, 'epoch': 0.66} {'loss': 2.2579, 'grad_norm': 2.373342752456665, 'learning_rate': 1.3750987210640083e-06, 'epoch': 0.66} {'loss': 2.2019, 'grad_norm': 1.5929718017578125, 'learning_rate': 1.3747107963365054e-06, 'epoch': 0.66} {'loss': 2.2498, 'grad_norm': 1.5346794128417969, 'learning_rate': 1.3743229055845945e-06, 'epoch': 0.66} {'loss': 2.3822, 'grad_norm': 1.7476584911346436, 'learning_rate': 1.3739350488199888e-06, 'epoch': 0.66} {'loss': 2.4172, 'grad_norm': 2.332494020462036, 'learning_rate': 1.373547226054398e-06, 'epoch': 0.66} {'loss': 2.2164, 'grad_norm': 1.6784446239471436, 'learning_rate': 1.3731594372995305e-06, 'epoch': 0.66} {'loss': 2.2531, 'grad_norm': 1.732256531715393, 'learning_rate': 1.372771682567097e-06, 'epoch': 0.66} {'loss': 2.1712, 'grad_norm': 1.4311782121658325, 'learning_rate': 1.3723839618688023e-06, 'epoch': 0.66} {'loss': 2.2405, 'grad_norm': 1.488876223564148, 'learning_rate': 1.3719962752163541e-06, 'epoch': 0.66} {'loss': 2.1924, 'grad_norm': 1.3404392004013062, 'learning_rate': 1.3716086226214586e-06, 'epoch': 0.66} {'loss': 2.253, 'grad_norm': 1.6680731773376465, 'learning_rate': 1.3712210040958185e-06, 'epoch': 0.66} {'loss': 2.1166, 'grad_norm': 1.8689970970153809, 'learning_rate': 1.3708334196511397e-06, 'epoch': 0.66} {'loss': 2.5129, 'grad_norm': 1.609189510345459, 'learning_rate': 1.3704458692991203e-06, 'epoch': 0.66} {'loss': 2.364, 'grad_norm': 1.7262372970581055, 'learning_rate': 1.3700583530514639e-06, 'epoch': 0.66} {'loss': 1.9627, 'grad_norm': 2.3786818981170654, 'learning_rate': 1.3696708709198714e-06, 'epoch': 0.66} {'loss': 2.2689, 'grad_norm': 1.8559209108352661, 'learning_rate': 1.36928342291604e-06, 'epoch': 0.66} {'loss': 2.3004, 'grad_norm': 1.6468998193740845, 'learning_rate': 1.3688960090516704e-06, 'epoch': 0.66} {'loss': 2.4571, 'grad_norm': 1.3654104471206665, 'learning_rate': 1.368508629338457e-06, 'epoch': 0.66} {'loss': 2.1575, 'grad_norm': 1.6468149423599243, 'learning_rate': 1.3681212837880978e-06, 'epoch': 0.66} {'loss': 2.2143, 'grad_norm': 2.280895471572876, 'learning_rate': 1.3677339724122861e-06, 'epoch': 0.66} {'loss': 2.4241, 'grad_norm': 1.6015875339508057, 'learning_rate': 1.3673466952227183e-06, 'epoch': 0.66} {'loss': 2.1869, 'grad_norm': 1.727397084236145, 'learning_rate': 1.3669594522310855e-06, 'epoch': 0.66} {'loss': 2.3864, 'grad_norm': 1.8096400499343872, 'learning_rate': 1.3665722434490795e-06, 'epoch': 0.66} {'loss': 2.4169, 'grad_norm': 1.934124231338501, 'learning_rate': 1.3661850688883927e-06, 'epoch': 0.66} {'loss': 2.2408, 'grad_norm': 1.63797128200531, 'learning_rate': 1.365797928560713e-06, 'epoch': 0.66} {'loss': 2.2122, 'grad_norm': 1.801239013671875, 'learning_rate': 1.3654108224777301e-06, 'epoch': 0.66} {'loss': 1.6454, 'grad_norm': 1.3163176774978638, 'learning_rate': 1.3650237506511333e-06, 'epoch': 0.66} {'loss': 1.3578, 'grad_norm': 3.0466668605804443, 'learning_rate': 1.3646367130926069e-06, 'epoch': 0.66} {'loss': 2.2058, 'grad_norm': 1.6429377794265747, 'learning_rate': 1.364249709813839e-06, 'epoch': 0.66} {'loss': 2.0485, 'grad_norm': 1.724852442741394, 'learning_rate': 1.363862740826513e-06, 'epoch': 0.66} {'loss': 2.3051, 'grad_norm': 1.5557129383087158, 'learning_rate': 1.363475806142312e-06, 'epoch': 0.66} {'loss': 2.4587, 'grad_norm': 1.737853765487671, 'learning_rate': 1.3630889057729201e-06, 'epoch': 0.66} {'loss': 2.4593, 'grad_norm': 1.6991653442382812, 'learning_rate': 1.3627020397300172e-06, 'epoch': 0.66} {'loss': 2.2629, 'grad_norm': 1.6017577648162842, 'learning_rate': 1.3623152080252856e-06, 'epoch': 0.66} {'loss': 2.2335, 'grad_norm': 1.2999303340911865, 'learning_rate': 1.361928410670403e-06, 'epoch': 0.66} {'loss': 2.337, 'grad_norm': 1.7936668395996094, 'learning_rate': 1.36154164767705e-06, 'epoch': 0.66} {'loss': 1.9449, 'grad_norm': 1.8841776847839355, 'learning_rate': 1.3611549190569018e-06, 'epoch': 0.66} {'loss': 2.25, 'grad_norm': 1.7040053606033325, 'learning_rate': 1.3607682248216358e-06, 'epoch': 0.66} {'loss': 2.0367, 'grad_norm': 1.3466732501983643, 'learning_rate': 1.36038156498293e-06, 'epoch': 0.66} {'loss': 2.2166, 'grad_norm': 1.586643934249878, 'learning_rate': 1.3599949395524536e-06, 'epoch': 0.66} {'loss': 2.3609, 'grad_norm': 1.5451258420944214, 'learning_rate': 1.3596083485418837e-06, 'epoch': 0.66} {'loss': 2.1805, 'grad_norm': 1.511741280555725, 'learning_rate': 1.3592217919628905e-06, 'epoch': 0.66} {'loss': 2.4194, 'grad_norm': 1.6120716333389282, 'learning_rate': 1.3588352698271463e-06, 'epoch': 0.66} {'loss': 2.3182, 'grad_norm': 2.089085102081299, 'learning_rate': 1.3584487821463217e-06, 'epoch': 0.66} {'loss': 2.5731, 'grad_norm': 1.5190086364746094, 'learning_rate': 1.358062328932084e-06, 'epoch': 0.66} {'loss': 2.3117, 'grad_norm': 1.5683605670928955, 'learning_rate': 1.3576759101961034e-06, 'epoch': 0.66} {'loss': 2.3795, 'grad_norm': 1.6017658710479736, 'learning_rate': 1.3572895259500456e-06, 'epoch': 0.66} {'loss': 2.2735, 'grad_norm': 1.9745603799819946, 'learning_rate': 1.3569031762055776e-06, 'epoch': 0.66} {'loss': 2.2476, 'grad_norm': 1.5453050136566162, 'learning_rate': 1.356516860974364e-06, 'epoch': 0.66} {'loss': 2.0819, 'grad_norm': 1.6283912658691406, 'learning_rate': 1.3561305802680675e-06, 'epoch': 0.66} {'loss': 2.1686, 'grad_norm': 1.6641708612442017, 'learning_rate': 1.355744334098353e-06, 'epoch': 0.66} {'loss': 2.0886, 'grad_norm': 1.4414933919906616, 'learning_rate': 1.35535812247688e-06, 'epoch': 0.66} {'loss': 2.2511, 'grad_norm': 1.589326024055481, 'learning_rate': 1.3549719454153118e-06, 'epoch': 0.66} {'loss': 2.0836, 'grad_norm': 2.1793649196624756, 'learning_rate': 1.354585802925306e-06, 'epoch': 0.66} {'loss': 2.1608, 'grad_norm': 1.3930386304855347, 'learning_rate': 1.3541996950185226e-06, 'epoch': 0.66} {'loss': 2.3435, 'grad_norm': 1.7380962371826172, 'learning_rate': 1.3538136217066195e-06, 'epoch': 0.66} {'loss': 2.397, 'grad_norm': 1.6562684774398804, 'learning_rate': 1.3534275830012532e-06, 'epoch': 0.66} {'loss': 2.2982, 'grad_norm': 1.6613582372665405, 'learning_rate': 1.3530415789140778e-06, 'epoch': 0.66} {'loss': 2.4622, 'grad_norm': 1.868221402168274, 'learning_rate': 1.3526556094567494e-06, 'epoch': 0.66} {'loss': 2.3451, 'grad_norm': 1.8295494318008423, 'learning_rate': 1.3522696746409207e-06, 'epoch': 0.66} {'loss': 1.989, 'grad_norm': 1.369818925857544, 'learning_rate': 1.351883774478245e-06, 'epoch': 0.66} {'loss': 2.3998, 'grad_norm': 1.9373013973236084, 'learning_rate': 1.351497908980372e-06, 'epoch': 0.66} {'loss': 2.1699, 'grad_norm': 1.8960545063018799, 'learning_rate': 1.3511120781589543e-06, 'epoch': 0.66} {'loss': 2.4317, 'grad_norm': 1.872788429260254, 'learning_rate': 1.350726282025639e-06, 'epoch': 0.66} {'loss': 2.2206, 'grad_norm': 1.5729495286941528, 'learning_rate': 1.3503405205920767e-06, 'epoch': 0.66} {'loss': 2.3448, 'grad_norm': 1.5134401321411133, 'learning_rate': 1.3499547938699132e-06, 'epoch': 0.66} {'loss': 2.3666, 'grad_norm': 1.5773351192474365, 'learning_rate': 1.3495691018707935e-06, 'epoch': 0.66} {'loss': 2.1824, 'grad_norm': 1.7408335208892822, 'learning_rate': 1.349183444606365e-06, 'epoch': 0.66} {'loss': 2.114, 'grad_norm': 1.5896050930023193, 'learning_rate': 1.34879782208827e-06, 'epoch': 0.66} {'loss': 2.2511, 'grad_norm': 1.317054033279419, 'learning_rate': 1.348412234328152e-06, 'epoch': 0.66} {'loss': 2.2892, 'grad_norm': 1.5496346950531006, 'learning_rate': 1.3480266813376544e-06, 'epoch': 0.66} {'loss': 2.0481, 'grad_norm': 1.669026494026184, 'learning_rate': 1.3476411631284159e-06, 'epoch': 0.66} {'loss': 2.1436, 'grad_norm': 1.247623324394226, 'learning_rate': 1.3472556797120784e-06, 'epoch': 0.66} {'loss': 2.3479, 'grad_norm': 1.6693103313446045, 'learning_rate': 1.3468702311002797e-06, 'epoch': 0.66} {'loss': 2.1058, 'grad_norm': 1.5646202564239502, 'learning_rate': 1.3464848173046564e-06, 'epoch': 0.66} {'loss': 2.4601, 'grad_norm': 1.9809954166412354, 'learning_rate': 1.3460994383368472e-06, 'epoch': 0.66} {'loss': 2.2737, 'grad_norm': 1.4619992971420288, 'learning_rate': 1.3457140942084861e-06, 'epoch': 0.66} {'loss': 2.4676, 'grad_norm': 31.859453201293945, 'learning_rate': 1.3453287849312097e-06, 'epoch': 0.66} {'loss': 2.0731, 'grad_norm': 1.6005187034606934, 'learning_rate': 1.3449435105166491e-06, 'epoch': 0.66} {'loss': 2.2908, 'grad_norm': 1.69631826877594, 'learning_rate': 1.3445582709764393e-06, 'epoch': 0.66} {'loss': 2.4378, 'grad_norm': 1.7582629919052124, 'learning_rate': 1.3441730663222093e-06, 'epoch': 0.66} {'loss': 2.2506, 'grad_norm': 1.7293905019760132, 'learning_rate': 1.3437878965655922e-06, 'epoch': 0.66} {'loss': 2.1451, 'grad_norm': 2.2077841758728027, 'learning_rate': 1.3434027617182152e-06, 'epoch': 0.66} {'loss': 2.3561, 'grad_norm': 1.7063101530075073, 'learning_rate': 1.3430176617917066e-06, 'epoch': 0.66} {'loss': 2.1647, 'grad_norm': 1.530839443206787, 'learning_rate': 1.342632596797695e-06, 'epoch': 0.66} {'loss': 2.1869, 'grad_norm': 1.9595099687576294, 'learning_rate': 1.3422475667478052e-06, 'epoch': 0.66} {'loss': 2.1011, 'grad_norm': 1.356022834777832, 'learning_rate': 1.3418625716536626e-06, 'epoch': 0.66} {'loss': 2.1787, 'grad_norm': 1.6523807048797607, 'learning_rate': 1.341477611526893e-06, 'epoch': 0.66} {'loss': 2.2366, 'grad_norm': 1.7044588327407837, 'learning_rate': 1.3410926863791168e-06, 'epoch': 0.66} {'loss': 1.9705, 'grad_norm': 1.326731562614441, 'learning_rate': 1.3407077962219583e-06, 'epoch': 0.66} {'loss': 2.0092, 'grad_norm': 1.5793992280960083, 'learning_rate': 1.3403229410670363e-06, 'epoch': 0.66} {'loss': 2.1471, 'grad_norm': 1.5372389554977417, 'learning_rate': 1.3399381209259727e-06, 'epoch': 0.66} {'loss': 2.0978, 'grad_norm': 1.4672034978866577, 'learning_rate': 1.3395533358103849e-06, 'epoch': 0.66} {'loss': 2.2154, 'grad_norm': 1.8584431409835815, 'learning_rate': 1.3391685857318904e-06, 'epoch': 0.66} {'loss': 2.1665, 'grad_norm': 1.6214197874069214, 'learning_rate': 1.338783870702107e-06, 'epoch': 0.66} {'loss': 2.0436, 'grad_norm': 1.6096309423446655, 'learning_rate': 1.3383991907326488e-06, 'epoch': 0.66} {'loss': 2.1907, 'grad_norm': 2.3428986072540283, 'learning_rate': 1.3380145458351324e-06, 'epoch': 0.66} {'loss': 2.3121, 'grad_norm': 1.5303856134414673, 'learning_rate': 1.3376299360211691e-06, 'epoch': 0.66} {'loss': 2.1162, 'grad_norm': 1.5405611991882324, 'learning_rate': 1.3372453613023728e-06, 'epoch': 0.66} {'loss': 2.3055, 'grad_norm': 1.5085299015045166, 'learning_rate': 1.336860821690355e-06, 'epoch': 0.67} {'loss': 2.1613, 'grad_norm': 1.527307152748108, 'learning_rate': 1.3364763171967257e-06, 'epoch': 0.67} {'loss': 2.2324, 'grad_norm': 1.6035298109054565, 'learning_rate': 1.3360918478330941e-06, 'epoch': 0.67} {'loss': 2.3678, 'grad_norm': 1.7490373849868774, 'learning_rate': 1.335707413611067e-06, 'epoch': 0.67} {'loss': 2.1102, 'grad_norm': 1.5928668975830078, 'learning_rate': 1.335323014542253e-06, 'epoch': 0.67} {'loss': 2.1448, 'grad_norm': 1.701599359512329, 'learning_rate': 1.3349386506382585e-06, 'epoch': 0.67} {'loss': 2.467, 'grad_norm': 4.152755260467529, 'learning_rate': 1.3345543219106874e-06, 'epoch': 0.67} {'loss': 2.0354, 'grad_norm': 2.047081232070923, 'learning_rate': 1.334170028371145e-06, 'epoch': 0.67} {'loss': 2.262, 'grad_norm': 1.7873280048370361, 'learning_rate': 1.3337857700312323e-06, 'epoch': 0.67} {'loss': 2.1245, 'grad_norm': 1.7762762308120728, 'learning_rate': 1.3334015469025535e-06, 'epoch': 0.67} {'loss': 2.4234, 'grad_norm': 1.7019507884979248, 'learning_rate': 1.333017358996708e-06, 'epoch': 0.67} {'loss': 2.07, 'grad_norm': 1.557926893234253, 'learning_rate': 1.3326332063252945e-06, 'epoch': 0.67} {'loss': 1.9442, 'grad_norm': 1.3817776441574097, 'learning_rate': 1.3322490888999138e-06, 'epoch': 0.67} {'loss': 2.2479, 'grad_norm': 1.7094632387161255, 'learning_rate': 1.3318650067321611e-06, 'epoch': 0.67} {'loss': 2.1287, 'grad_norm': 1.5086075067520142, 'learning_rate': 1.3314809598336354e-06, 'epoch': 0.67} {'loss': 2.2498, 'grad_norm': 1.7604241371154785, 'learning_rate': 1.3310969482159297e-06, 'epoch': 0.67} {'loss': 2.1151, 'grad_norm': 1.2923213243484497, 'learning_rate': 1.3307129718906396e-06, 'epoch': 0.67} {'loss': 2.1669, 'grad_norm': 1.6894739866256714, 'learning_rate': 1.3303290308693597e-06, 'epoch': 0.67} {'loss': 2.3066, 'grad_norm': 1.7019041776657104, 'learning_rate': 1.3299451251636807e-06, 'epoch': 0.67} {'loss': 2.3567, 'grad_norm': 1.8631188869476318, 'learning_rate': 1.3295612547851938e-06, 'epoch': 0.67} {'loss': 2.1473, 'grad_norm': 1.7243800163269043, 'learning_rate': 1.3291774197454888e-06, 'epoch': 0.67} {'loss': 2.4245, 'grad_norm': 1.6153192520141602, 'learning_rate': 1.328793620056155e-06, 'epoch': 0.67} {'loss': 2.2491, 'grad_norm': 1.7008888721466064, 'learning_rate': 1.3284098557287818e-06, 'epoch': 0.67} {'loss': 2.2337, 'grad_norm': 1.6535017490386963, 'learning_rate': 1.3280261267749533e-06, 'epoch': 0.67} {'loss': 2.4064, 'grad_norm': 1.49076509475708, 'learning_rate': 1.3276424332062587e-06, 'epoch': 0.67} {'loss': 2.3736, 'grad_norm': 2.026210308074951, 'learning_rate': 1.3272587750342797e-06, 'epoch': 0.67} {'loss': 2.2682, 'grad_norm': 1.5308685302734375, 'learning_rate': 1.3268751522706023e-06, 'epoch': 0.67} {'loss': 1.9798, 'grad_norm': 1.6761975288391113, 'learning_rate': 1.3264915649268082e-06, 'epoch': 0.67} {'loss': 2.3546, 'grad_norm': 1.683581829071045, 'learning_rate': 1.326108013014478e-06, 'epoch': 0.67} {'loss': 2.0341, 'grad_norm': 1.3298094272613525, 'learning_rate': 1.325724496545194e-06, 'epoch': 0.67} {'loss': 2.0789, 'grad_norm': 1.3978266716003418, 'learning_rate': 1.325341015530534e-06, 'epoch': 0.67} {'loss': 2.2835, 'grad_norm': 1.8694924116134644, 'learning_rate': 1.3249575699820777e-06, 'epoch': 0.67} {'loss': 2.1279, 'grad_norm': 1.8368977308273315, 'learning_rate': 1.3245741599114013e-06, 'epoch': 0.67} {'loss': 2.489, 'grad_norm': 1.5254802703857422, 'learning_rate': 1.3241907853300812e-06, 'epoch': 0.67} {'loss': 2.4191, 'grad_norm': 1.5938258171081543, 'learning_rate': 1.323807446249694e-06, 'epoch': 0.67} {'loss': 1.5556, 'grad_norm': 1.6682722568511963, 'learning_rate': 1.3234241426818111e-06, 'epoch': 0.67} {'loss': 2.0973, 'grad_norm': 1.643388271331787, 'learning_rate': 1.3230408746380097e-06, 'epoch': 0.67} {'loss': 1.683, 'grad_norm': 1.4318363666534424, 'learning_rate': 1.3226576421298564e-06, 'epoch': 0.67} {'loss': 2.1032, 'grad_norm': 1.923505187034607, 'learning_rate': 1.322274445168925e-06, 'epoch': 0.67} {'loss': 2.0626, 'grad_norm': 1.635961651802063, 'learning_rate': 1.3218912837667857e-06, 'epoch': 0.67} {'loss': 2.4776, 'grad_norm': 1.7771360874176025, 'learning_rate': 1.3215081579350058e-06, 'epoch': 0.67} {'loss': 1.8962, 'grad_norm': 1.4289634227752686, 'learning_rate': 1.3211250676851545e-06, 'epoch': 0.67} {'loss': 2.3853, 'grad_norm': 1.660004734992981, 'learning_rate': 1.3207420130287963e-06, 'epoch': 0.67} {'loss': 1.7555, 'grad_norm': 1.6594445705413818, 'learning_rate': 1.3203589939774988e-06, 'epoch': 0.67} {'loss': 2.3029, 'grad_norm': 1.446005940437317, 'learning_rate': 1.3199760105428245e-06, 'epoch': 0.67} {'loss': 2.1767, 'grad_norm': 2.9838781356811523, 'learning_rate': 1.3195930627363385e-06, 'epoch': 0.67} {'loss': 2.5123, 'grad_norm': 1.9509798288345337, 'learning_rate': 1.3192101505696025e-06, 'epoch': 0.67} {'loss': 2.1863, 'grad_norm': 1.635059118270874, 'learning_rate': 1.318827274054176e-06, 'epoch': 0.67} {'loss': 2.2032, 'grad_norm': 1.5125625133514404, 'learning_rate': 1.3184444332016217e-06, 'epoch': 0.67} {'loss': 2.2682, 'grad_norm': 1.6325989961624146, 'learning_rate': 1.3180616280234961e-06, 'epoch': 0.67} {'loss': 2.4358, 'grad_norm': 1.5573463439941406, 'learning_rate': 1.3176788585313589e-06, 'epoch': 0.67} {'loss': 2.2011, 'grad_norm': 1.7692065238952637, 'learning_rate': 1.3172961247367672e-06, 'epoch': 0.67} {'loss': 2.2076, 'grad_norm': 1.6040114164352417, 'learning_rate': 1.316913426651275e-06, 'epoch': 0.67} {'loss': 1.8212, 'grad_norm': 1.3820184469223022, 'learning_rate': 1.3165307642864395e-06, 'epoch': 0.67} {'loss': 2.0491, 'grad_norm': 1.4234731197357178, 'learning_rate': 1.3161481376538127e-06, 'epoch': 0.67} {'loss': 2.2425, 'grad_norm': 1.6208118200302124, 'learning_rate': 1.3157655467649463e-06, 'epoch': 0.67} {'loss': 2.4275, 'grad_norm': 1.7990806102752686, 'learning_rate': 1.3153829916313942e-06, 'epoch': 0.67} {'loss': 2.675, 'grad_norm': 1.6190614700317383, 'learning_rate': 1.315000472264704e-06, 'epoch': 0.67} {'loss': 1.8862, 'grad_norm': 1.2357274293899536, 'learning_rate': 1.314617988676428e-06, 'epoch': 0.67} {'loss': 2.2613, 'grad_norm': 3.147149085998535, 'learning_rate': 1.3142355408781117e-06, 'epoch': 0.67} {'loss': 2.3395, 'grad_norm': 1.5540823936462402, 'learning_rate': 1.3138531288813044e-06, 'epoch': 0.67} {'loss': 2.3296, 'grad_norm': 1.779234528541565, 'learning_rate': 1.3134707526975505e-06, 'epoch': 0.67} {'loss': 2.1717, 'grad_norm': 1.5859179496765137, 'learning_rate': 1.3130884123383959e-06, 'epoch': 0.67} {'loss': 2.3799, 'grad_norm': 1.8606092929840088, 'learning_rate': 1.3127061078153859e-06, 'epoch': 0.67} {'loss': 2.1372, 'grad_norm': 2.192866802215576, 'learning_rate': 1.31232383914006e-06, 'epoch': 0.67} {'loss': 2.4439, 'grad_norm': 1.6431435346603394, 'learning_rate': 1.311941606323962e-06, 'epoch': 0.67} {'loss': 2.1778, 'grad_norm': 1.5322269201278687, 'learning_rate': 1.311559409378633e-06, 'epoch': 0.67} {'loss': 2.1795, 'grad_norm': 1.6687648296356201, 'learning_rate': 1.311177248315611e-06, 'epoch': 0.67} {'loss': 2.1366, 'grad_norm': 1.7339764833450317, 'learning_rate': 1.3107951231464363e-06, 'epoch': 0.67} {'loss': 2.1995, 'grad_norm': 1.7069820165634155, 'learning_rate': 1.310413033882645e-06, 'epoch': 0.67} {'loss': 2.31, 'grad_norm': 1.7258172035217285, 'learning_rate': 1.310030980535774e-06, 'epoch': 0.67} {'loss': 2.2595, 'grad_norm': 1.7511309385299683, 'learning_rate': 1.3096489631173587e-06, 'epoch': 0.67} {'loss': 2.0786, 'grad_norm': 1.6229346990585327, 'learning_rate': 1.3092669816389323e-06, 'epoch': 0.67} {'loss': 2.3469, 'grad_norm': 1.7359309196472168, 'learning_rate': 1.3088850361120292e-06, 'epoch': 0.67} {'loss': 2.3872, 'grad_norm': 1.8950999975204468, 'learning_rate': 1.3085031265481798e-06, 'epoch': 0.67} {'loss': 2.227, 'grad_norm': 1.690438985824585, 'learning_rate': 1.308121252958917e-06, 'epoch': 0.67} {'loss': 2.2119, 'grad_norm': 1.7196680307388306, 'learning_rate': 1.3077394153557686e-06, 'epoch': 0.67} {'loss': 2.1246, 'grad_norm': 1.6404069662094116, 'learning_rate': 1.307357613750265e-06, 'epoch': 0.67} {'loss': 2.3347, 'grad_norm': 1.662611961364746, 'learning_rate': 1.3069758481539324e-06, 'epoch': 0.67} {'loss': 2.1533, 'grad_norm': 1.4773151874542236, 'learning_rate': 1.306594118578298e-06, 'epoch': 0.67} {'loss': 2.1874, 'grad_norm': 1.5694899559020996, 'learning_rate': 1.3062124250348892e-06, 'epoch': 0.67} {'loss': 2.5621, 'grad_norm': 1.7522401809692383, 'learning_rate': 1.3058307675352267e-06, 'epoch': 0.67} {'loss': 2.2361, 'grad_norm': 1.4604109525680542, 'learning_rate': 1.3054491460908358e-06, 'epoch': 0.67} {'loss': 2.2179, 'grad_norm': 1.4988573789596558, 'learning_rate': 1.3050675607132393e-06, 'epoch': 0.67} {'loss': 2.0503, 'grad_norm': 1.553442358970642, 'learning_rate': 1.3046860114139568e-06, 'epoch': 0.67} {'loss': 2.0532, 'grad_norm': 1.3728017807006836, 'learning_rate': 1.30430449820451e-06, 'epoch': 0.67} {'loss': 2.0041, 'grad_norm': 1.6879316568374634, 'learning_rate': 1.303923021096416e-06, 'epoch': 0.67} {'loss': 2.3405, 'grad_norm': 1.4215021133422852, 'learning_rate': 1.3035415801011941e-06, 'epoch': 0.67} {'loss': 2.4515, 'grad_norm': 1.7377269268035889, 'learning_rate': 1.3031601752303603e-06, 'epoch': 0.67} {'loss': 2.1104, 'grad_norm': 1.667080044746399, 'learning_rate': 1.302778806495431e-06, 'epoch': 0.67} {'loss': 2.0749, 'grad_norm': 1.640591025352478, 'learning_rate': 1.3023974739079203e-06, 'epoch': 0.67} {'loss': 2.3671, 'grad_norm': 1.6368476152420044, 'learning_rate': 1.3020161774793407e-06, 'epoch': 0.67} {'loss': 2.1275, 'grad_norm': 1.8666194677352905, 'learning_rate': 1.3016349172212068e-06, 'epoch': 0.67} {'loss': 2.2917, 'grad_norm': 6.094418525695801, 'learning_rate': 1.3012536931450275e-06, 'epoch': 0.67} {'loss': 2.1147, 'grad_norm': 1.5427392721176147, 'learning_rate': 1.3008725052623143e-06, 'epoch': 0.67} {'loss': 2.0645, 'grad_norm': 1.5443840026855469, 'learning_rate': 1.300491353584577e-06, 'epoch': 0.67} {'loss': 2.2814, 'grad_norm': 1.621779203414917, 'learning_rate': 1.3001102381233218e-06, 'epoch': 0.67} {'loss': 2.4351, 'grad_norm': 1.436232089996338, 'learning_rate': 1.299729158890058e-06, 'epoch': 0.67} {'loss': 2.1402, 'grad_norm': 3.3622636795043945, 'learning_rate': 1.2993481158962895e-06, 'epoch': 0.67} {'loss': 2.2671, 'grad_norm': 2.3382396697998047, 'learning_rate': 1.2989671091535211e-06, 'epoch': 0.67} {'loss': 2.2022, 'grad_norm': 1.4879755973815918, 'learning_rate': 1.2985861386732578e-06, 'epoch': 0.67} {'loss': 2.3319, 'grad_norm': 1.6296547651290894, 'learning_rate': 1.2982052044670003e-06, 'epoch': 0.67} {'loss': 2.4596, 'grad_norm': 1.4743894338607788, 'learning_rate': 1.297824306546252e-06, 'epoch': 0.67} {'loss': 2.2788, 'grad_norm': 1.4439598321914673, 'learning_rate': 1.2974434449225115e-06, 'epoch': 0.67} {'loss': 2.0788, 'grad_norm': 1.6316319704055786, 'learning_rate': 1.29706261960728e-06, 'epoch': 0.67} {'loss': 2.313, 'grad_norm': 1.8447556495666504, 'learning_rate': 1.2966818306120535e-06, 'epoch': 0.67} {'loss': 2.434, 'grad_norm': 1.6226750612258911, 'learning_rate': 1.29630107794833e-06, 'epoch': 0.67} {'loss': 2.067, 'grad_norm': 1.3565940856933594, 'learning_rate': 1.2959203616276078e-06, 'epoch': 0.67} {'loss': 2.1091, 'grad_norm': 1.4116920232772827, 'learning_rate': 1.2955396816613775e-06, 'epoch': 0.67} {'loss': 2.347, 'grad_norm': 1.5629634857177734, 'learning_rate': 1.2951590380611358e-06, 'epoch': 0.67} {'loss': 2.1278, 'grad_norm': 1.740918755531311, 'learning_rate': 1.2947784308383737e-06, 'epoch': 0.67} {'loss': 2.4494, 'grad_norm': 1.8221635818481445, 'learning_rate': 1.294397860004584e-06, 'epoch': 0.67} {'loss': 2.1838, 'grad_norm': 1.63309907913208, 'learning_rate': 1.2940173255712573e-06, 'epoch': 0.67} {'loss': 2.1748, 'grad_norm': 1.5653563737869263, 'learning_rate': 1.293636827549882e-06, 'epoch': 0.67} {'loss': 1.9794, 'grad_norm': 3.102067232131958, 'learning_rate': 1.2932563659519477e-06, 'epoch': 0.67} {'loss': 2.4607, 'grad_norm': 1.5390535593032837, 'learning_rate': 1.2928759407889397e-06, 'epoch': 0.67} {'loss': 2.261, 'grad_norm': 3.950671434402466, 'learning_rate': 1.2924955520723464e-06, 'epoch': 0.67} {'loss': 2.2181, 'grad_norm': 3.3446877002716064, 'learning_rate': 1.2921151998136514e-06, 'epoch': 0.67} {'loss': 2.191, 'grad_norm': 1.8087154626846313, 'learning_rate': 1.2917348840243378e-06, 'epoch': 0.67} {'loss': 2.3764, 'grad_norm': 1.9134411811828613, 'learning_rate': 1.2913546047158903e-06, 'epoch': 0.67} {'loss': 2.0525, 'grad_norm': 1.576753854751587, 'learning_rate': 1.2909743618997888e-06, 'epoch': 0.67} {'loss': 2.4293, 'grad_norm': 1.896827220916748, 'learning_rate': 1.2905941555875157e-06, 'epoch': 0.67} {'loss': 2.1559, 'grad_norm': 1.389150857925415, 'learning_rate': 1.2902139857905483e-06, 'epoch': 0.67} {'loss': 2.033, 'grad_norm': 1.523896336555481, 'learning_rate': 1.2898338525203663e-06, 'epoch': 0.67} {'loss': 2.3748, 'grad_norm': 1.6188428401947021, 'learning_rate': 1.2894537557884485e-06, 'epoch': 0.67} {'loss': 2.2268, 'grad_norm': 1.776848554611206, 'learning_rate': 1.2890736956062677e-06, 'epoch': 0.67} {'loss': 2.3634, 'grad_norm': 2.1359457969665527, 'learning_rate': 1.2886936719853016e-06, 'epoch': 0.67} {'loss': 2.5694, 'grad_norm': 1.6341718435287476, 'learning_rate': 1.2883136849370227e-06, 'epoch': 0.67} {'loss': 2.3977, 'grad_norm': 4.55642557144165, 'learning_rate': 1.2879337344729037e-06, 'epoch': 0.67} {'loss': 2.203, 'grad_norm': 1.5929430723190308, 'learning_rate': 1.2875538206044185e-06, 'epoch': 0.67} {'loss': 2.264, 'grad_norm': 1.6580784320831299, 'learning_rate': 1.2871739433430352e-06, 'epoch': 0.67} {'loss': 2.2904, 'grad_norm': 1.664541482925415, 'learning_rate': 1.2867941027002257e-06, 'epoch': 0.67} {'loss': 1.9718, 'grad_norm': 1.774946928024292, 'learning_rate': 1.2864142986874558e-06, 'epoch': 0.67} {'loss': 2.3167, 'grad_norm': 1.3444451093673706, 'learning_rate': 1.2860345313161953e-06, 'epoch': 0.67} {'loss': 2.4453, 'grad_norm': 1.8584777116775513, 'learning_rate': 1.2856548005979097e-06, 'epoch': 0.67} {'loss': 2.0726, 'grad_norm': 1.6361898183822632, 'learning_rate': 1.2852751065440625e-06, 'epoch': 0.67} {'loss': 2.5572, 'grad_norm': 1.9876551628112793, 'learning_rate': 1.28489544916612e-06, 'epoch': 0.67} {'loss': 2.2255, 'grad_norm': 1.6247878074645996, 'learning_rate': 1.2845158284755433e-06, 'epoch': 0.67} {'loss': 2.3802, 'grad_norm': 1.6457457542419434, 'learning_rate': 1.2841362444837957e-06, 'epoch': 0.67} {'loss': 2.3139, 'grad_norm': 1.5490975379943848, 'learning_rate': 1.2837566972023363e-06, 'epoch': 0.67} {'loss': 2.5658, 'grad_norm': 1.6136198043823242, 'learning_rate': 1.2833771866426256e-06, 'epoch': 0.67} {'loss': 2.3649, 'grad_norm': 1.3966604471206665, 'learning_rate': 1.282997712816123e-06, 'epoch': 0.67} {'loss': 2.2141, 'grad_norm': 1.5926392078399658, 'learning_rate': 1.2826182757342847e-06, 'epoch': 0.67} {'loss': 2.2567, 'grad_norm': 1.6278208494186401, 'learning_rate': 1.2822388754085675e-06, 'epoch': 0.67} {'loss': 2.0672, 'grad_norm': 1.6514416933059692, 'learning_rate': 1.281859511850425e-06, 'epoch': 0.67} {'loss': 2.2757, 'grad_norm': 1.558861255645752, 'learning_rate': 1.2814801850713127e-06, 'epoch': 0.67} {'loss': 2.5021, 'grad_norm': 1.734858512878418, 'learning_rate': 1.2811008950826843e-06, 'epoch': 0.67} {'loss': 2.205, 'grad_norm': 1.4146275520324707, 'learning_rate': 1.2807216418959892e-06, 'epoch': 0.67} {'loss': 2.444, 'grad_norm': 1.6514408588409424, 'learning_rate': 1.2803424255226806e-06, 'epoch': 0.67} {'loss': 2.2229, 'grad_norm': 1.6231064796447754, 'learning_rate': 1.2799632459742063e-06, 'epoch': 0.67} {'loss': 2.1671, 'grad_norm': 1.6341755390167236, 'learning_rate': 1.279584103262016e-06, 'epoch': 0.67} {'loss': 2.3183, 'grad_norm': 1.5074700117111206, 'learning_rate': 1.2792049973975568e-06, 'epoch': 0.67} {'loss': 2.3435, 'grad_norm': 1.6874198913574219, 'learning_rate': 1.2788259283922732e-06, 'epoch': 0.67} {'loss': 2.2451, 'grad_norm': 2.1752407550811768, 'learning_rate': 1.2784468962576136e-06, 'epoch': 0.67} {'loss': 1.9693, 'grad_norm': 2.0362563133239746, 'learning_rate': 1.2780679010050187e-06, 'epoch': 0.67} {'loss': 2.0728, 'grad_norm': 1.636841058731079, 'learning_rate': 1.2776889426459342e-06, 'epoch': 0.67} {'loss': 2.2467, 'grad_norm': 1.2852734327316284, 'learning_rate': 1.2773100211917995e-06, 'epoch': 0.67} {'loss': 2.4331, 'grad_norm': 1.6677080392837524, 'learning_rate': 1.2769311366540565e-06, 'epoch': 0.67} {'loss': 2.2609, 'grad_norm': 1.5975486040115356, 'learning_rate': 1.2765522890441457e-06, 'epoch': 0.67} {'loss': 2.0238, 'grad_norm': 1.987459659576416, 'learning_rate': 1.2761734783735035e-06, 'epoch': 0.67} {'loss': 1.3598, 'grad_norm': 1.765647292137146, 'learning_rate': 1.2757947046535693e-06, 'epoch': 0.67} {'loss': 2.3199, 'grad_norm': 1.604727864265442, 'learning_rate': 1.2754159678957783e-06, 'epoch': 0.67} {'loss': 2.3665, 'grad_norm': 1.6139063835144043, 'learning_rate': 1.275037268111565e-06, 'epoch': 0.67} {'loss': 2.0563, 'grad_norm': 1.4478232860565186, 'learning_rate': 1.274658605312365e-06, 'epoch': 0.67} {'loss': 2.2947, 'grad_norm': 1.6728692054748535, 'learning_rate': 1.2742799795096088e-06, 'epoch': 0.67} {'loss': 2.1914, 'grad_norm': 1.4835256338119507, 'learning_rate': 1.2739013907147308e-06, 'epoch': 0.67} {'loss': 2.137, 'grad_norm': 1.5390182733535767, 'learning_rate': 1.2735228389391596e-06, 'epoch': 0.67} {'loss': 1.4892, 'grad_norm': 1.2545380592346191, 'learning_rate': 1.2731443241943265e-06, 'epoch': 0.67} {'loss': 1.9535, 'grad_norm': 1.8103258609771729, 'learning_rate': 1.2727658464916576e-06, 'epoch': 0.67} {'loss': 2.151, 'grad_norm': 1.351135015487671, 'learning_rate': 1.2723874058425829e-06, 'epoch': 0.67} {'loss': 2.3989, 'grad_norm': 2.0381672382354736, 'learning_rate': 1.272009002258527e-06, 'epoch': 0.67} {'loss': 2.2275, 'grad_norm': 1.5333526134490967, 'learning_rate': 1.2716306357509145e-06, 'epoch': 0.67} {'loss': 2.4201, 'grad_norm': 1.7318451404571533, 'learning_rate': 1.27125230633117e-06, 'epoch': 0.67} {'loss': 2.2185, 'grad_norm': 1.6116307973861694, 'learning_rate': 1.2708740140107168e-06, 'epoch': 0.67} {'loss': 2.1433, 'grad_norm': 1.4254350662231445, 'learning_rate': 1.2704957588009753e-06, 'epoch': 0.67} {'loss': 2.1381, 'grad_norm': 1.1753034591674805, 'learning_rate': 1.2701175407133682e-06, 'epoch': 0.67} {'loss': 2.4418, 'grad_norm': 1.7830678224563599, 'learning_rate': 1.2697393597593121e-06, 'epoch': 0.67} {'loss': 1.9944, 'grad_norm': 1.723859429359436, 'learning_rate': 1.2693612159502283e-06, 'epoch': 0.67} {'loss': 2.1912, 'grad_norm': 1.6155232191085815, 'learning_rate': 1.2689831092975325e-06, 'epoch': 0.67} {'loss': 2.532, 'grad_norm': 1.8243693113327026, 'learning_rate': 1.2686050398126396e-06, 'epoch': 0.67} {'loss': 2.1344, 'grad_norm': 2.105550527572632, 'learning_rate': 1.268227007506967e-06, 'epoch': 0.67} {'loss': 2.3318, 'grad_norm': 1.7599868774414062, 'learning_rate': 1.2678490123919263e-06, 'epoch': 0.67} {'loss': 2.2247, 'grad_norm': 2.3163158893585205, 'learning_rate': 1.267471054478932e-06, 'epoch': 0.67} {'loss': 2.4485, 'grad_norm': 1.6162687540054321, 'learning_rate': 1.2670931337793943e-06, 'epoch': 0.67} {'loss': 2.1822, 'grad_norm': 1.861290693283081, 'learning_rate': 1.2667152503047253e-06, 'epoch': 0.67} {'loss': 2.2841, 'grad_norm': 1.4553942680358887, 'learning_rate': 1.2663374040663324e-06, 'epoch': 0.67} {'loss': 2.2624, 'grad_norm': 1.5023998022079468, 'learning_rate': 1.2659595950756253e-06, 'epoch': 0.68} {'loss': 1.9752, 'grad_norm': 3.447333812713623, 'learning_rate': 1.2655818233440114e-06, 'epoch': 0.68} {'loss': 2.3059, 'grad_norm': 1.5931261777877808, 'learning_rate': 1.2652040888828942e-06, 'epoch': 0.68} {'loss': 2.324, 'grad_norm': 1.7215123176574707, 'learning_rate': 1.2648263917036807e-06, 'epoch': 0.68} {'loss': 2.2234, 'grad_norm': 1.7623194456100464, 'learning_rate': 1.2644487318177751e-06, 'epoch': 0.68} {'loss': 2.2985, 'grad_norm': 1.620746374130249, 'learning_rate': 1.2640711092365776e-06, 'epoch': 0.68} {'loss': 2.236, 'grad_norm': 1.5376758575439453, 'learning_rate': 1.2636935239714926e-06, 'epoch': 0.68} {'loss': 2.3015, 'grad_norm': 1.6987286806106567, 'learning_rate': 1.2633159760339175e-06, 'epoch': 0.68} {'loss': 2.3057, 'grad_norm': 2.0212275981903076, 'learning_rate': 1.2629384654352545e-06, 'epoch': 0.68} {'loss': 2.1713, 'grad_norm': 1.5451996326446533, 'learning_rate': 1.2625609921868997e-06, 'epoch': 0.68} {'loss': 2.2311, 'grad_norm': 1.580767035484314, 'learning_rate': 1.2621835563002493e-06, 'epoch': 0.68} {'loss': 2.362, 'grad_norm': 1.8365275859832764, 'learning_rate': 1.2618061577867019e-06, 'epoch': 0.68} {'loss': 1.8776, 'grad_norm': 1.37975013256073, 'learning_rate': 1.2614287966576495e-06, 'epoch': 0.68} {'loss': 2.5248, 'grad_norm': 3.695409059524536, 'learning_rate': 1.2610514729244878e-06, 'epoch': 0.68} {'loss': 2.1929, 'grad_norm': 1.507259488105774, 'learning_rate': 1.260674186598607e-06, 'epoch': 0.68} {'loss': 1.9548, 'grad_norm': 1.4643527269363403, 'learning_rate': 1.2602969376914004e-06, 'epoch': 0.68} {'loss': 2.1428, 'grad_norm': 1.7154854536056519, 'learning_rate': 1.2599197262142578e-06, 'epoch': 0.68} {'loss': 2.2365, 'grad_norm': 1.5961962938308716, 'learning_rate': 1.2595425521785672e-06, 'epoch': 0.68} {'loss': 2.1716, 'grad_norm': 2.0299954414367676, 'learning_rate': 1.2591654155957195e-06, 'epoch': 0.68} {'loss': 2.1034, 'grad_norm': 1.7714121341705322, 'learning_rate': 1.258788316477097e-06, 'epoch': 0.68} {'loss': 2.4075, 'grad_norm': 1.790831208229065, 'learning_rate': 1.2584112548340876e-06, 'epoch': 0.68} {'loss': 2.5382, 'grad_norm': 1.6628986597061157, 'learning_rate': 1.258034230678077e-06, 'epoch': 0.68} {'loss': 2.6148, 'grad_norm': 1.6969126462936401, 'learning_rate': 1.2576572440204463e-06, 'epoch': 0.68} {'loss': 1.7329, 'grad_norm': 1.3581664562225342, 'learning_rate': 1.2572802948725798e-06, 'epoch': 0.68} {'loss': 2.2105, 'grad_norm': 1.624055027961731, 'learning_rate': 1.2569033832458571e-06, 'epoch': 0.68} {'loss': 2.4509, 'grad_norm': 1.3612358570098877, 'learning_rate': 1.2565265091516599e-06, 'epoch': 0.68} {'loss': 2.3831, 'grad_norm': 1.8691247701644897, 'learning_rate': 1.256149672601365e-06, 'epoch': 0.68} {'loss': 2.4026, 'grad_norm': 1.7996046543121338, 'learning_rate': 1.2557728736063518e-06, 'epoch': 0.68} {'loss': 2.2666, 'grad_norm': 1.466870665550232, 'learning_rate': 1.2553961121779967e-06, 'epoch': 0.68} {'loss': 1.4544, 'grad_norm': 2.5918262004852295, 'learning_rate': 1.2550193883276735e-06, 'epoch': 0.68} {'loss': 2.1544, 'grad_norm': 1.7884286642074585, 'learning_rate': 1.254642702066759e-06, 'epoch': 0.68} {'loss': 2.3404, 'grad_norm': 1.6102732419967651, 'learning_rate': 1.2542660534066243e-06, 'epoch': 0.68} {'loss': 2.1627, 'grad_norm': 1.8561716079711914, 'learning_rate': 1.2538894423586422e-06, 'epoch': 0.68} {'loss': 2.363, 'grad_norm': 1.716820240020752, 'learning_rate': 1.2535128689341846e-06, 'epoch': 0.68} {'loss': 2.1847, 'grad_norm': 1.829576849937439, 'learning_rate': 1.2531363331446198e-06, 'epoch': 0.68} {'loss': 2.4504, 'grad_norm': 1.682030200958252, 'learning_rate': 1.2527598350013186e-06, 'epoch': 0.68} {'loss': 2.2527, 'grad_norm': 1.571486473083496, 'learning_rate': 1.2523833745156456e-06, 'epoch': 0.68} {'loss': 2.0659, 'grad_norm': 1.6443017721176147, 'learning_rate': 1.2520069516989686e-06, 'epoch': 0.68} {'loss': 2.2, 'grad_norm': 1.4484150409698486, 'learning_rate': 1.2516305665626538e-06, 'epoch': 0.68} {'loss': 2.006, 'grad_norm': 1.7282270193099976, 'learning_rate': 1.2512542191180633e-06, 'epoch': 0.68} {'loss': 2.3425, 'grad_norm': 1.8017829656600952, 'learning_rate': 1.2508779093765622e-06, 'epoch': 0.68} {'loss': 2.0735, 'grad_norm': 2.431185007095337, 'learning_rate': 1.2505016373495104e-06, 'epoch': 0.68} {'loss': 2.3134, 'grad_norm': 1.380465030670166, 'learning_rate': 1.2501254030482701e-06, 'epoch': 0.68} {'loss': 2.3544, 'grad_norm': 1.5349164009094238, 'learning_rate': 1.2497492064841999e-06, 'epoch': 0.68} {'loss': 2.4906, 'grad_norm': 1.6878169775009155, 'learning_rate': 1.249373047668659e-06, 'epoch': 0.68} {'loss': 2.2437, 'grad_norm': 1.8383244276046753, 'learning_rate': 1.2489969266130044e-06, 'epoch': 0.68} {'loss': 2.5396, 'grad_norm': 1.7150546312332153, 'learning_rate': 1.2486208433285913e-06, 'epoch': 0.68} {'loss': 2.1221, 'grad_norm': 1.4599981307983398, 'learning_rate': 1.248244797826776e-06, 'epoch': 0.68} {'loss': 2.3447, 'grad_norm': 1.5879029035568237, 'learning_rate': 1.2478687901189112e-06, 'epoch': 0.68} {'loss': 2.2865, 'grad_norm': 1.7265584468841553, 'learning_rate': 1.2474928202163503e-06, 'epoch': 0.68} {'loss': 2.383, 'grad_norm': 1.4363656044006348, 'learning_rate': 1.2471168881304456e-06, 'epoch': 0.68} {'loss': 1.4754, 'grad_norm': 1.6415977478027344, 'learning_rate': 1.2467409938725456e-06, 'epoch': 0.68} {'loss': 1.9773, 'grad_norm': 1.657173991203308, 'learning_rate': 1.2463651374540017e-06, 'epoch': 0.68} {'loss': 2.0622, 'grad_norm': 1.6059811115264893, 'learning_rate': 1.2459893188861612e-06, 'epoch': 0.68} {'loss': 2.2731, 'grad_norm': 1.795676350593567, 'learning_rate': 1.24561353818037e-06, 'epoch': 0.68} {'loss': 2.2639, 'grad_norm': 1.7095212936401367, 'learning_rate': 1.2452377953479757e-06, 'epoch': 0.68} {'loss': 1.7994, 'grad_norm': 1.4024872779846191, 'learning_rate': 1.2448620904003216e-06, 'epoch': 0.68} {'loss': 2.2033, 'grad_norm': 2.8399007320404053, 'learning_rate': 1.2444864233487528e-06, 'epoch': 0.68} {'loss': 1.4598, 'grad_norm': 1.353635311126709, 'learning_rate': 1.2441107942046096e-06, 'epoch': 0.68} {'loss': 2.4508, 'grad_norm': 2.039609909057617, 'learning_rate': 1.2437352029792358e-06, 'epoch': 0.68} {'loss': 2.2369, 'grad_norm': 1.700922966003418, 'learning_rate': 1.243359649683969e-06, 'epoch': 0.68} {'loss': 2.2191, 'grad_norm': 1.77061927318573, 'learning_rate': 1.2429841343301496e-06, 'epoch': 0.68} {'loss': 2.3871, 'grad_norm': 1.70289945602417, 'learning_rate': 1.242608656929117e-06, 'epoch': 0.68} {'loss': 2.2913, 'grad_norm': 1.5266391038894653, 'learning_rate': 1.2422332174922048e-06, 'epoch': 0.68} {'loss': 2.2188, 'grad_norm': 1.7290096282958984, 'learning_rate': 1.2418578160307505e-06, 'epoch': 0.68} {'loss': 2.3714, 'grad_norm': 1.6566575765609741, 'learning_rate': 1.241482452556087e-06, 'epoch': 0.68} {'loss': 2.3419, 'grad_norm': 1.8871811628341675, 'learning_rate': 1.2411071270795487e-06, 'epoch': 0.68} {'loss': 2.3376, 'grad_norm': 2.008978843688965, 'learning_rate': 1.2407318396124682e-06, 'epoch': 0.68} {'loss': 2.2472, 'grad_norm': 1.5227231979370117, 'learning_rate': 1.2403565901661753e-06, 'epoch': 0.68} {'loss': 2.2506, 'grad_norm': 1.542448878288269, 'learning_rate': 1.2399813787520007e-06, 'epoch': 0.68} {'loss': 2.3436, 'grad_norm': 1.4789198637008667, 'learning_rate': 1.239606205381272e-06, 'epoch': 0.68} {'loss': 2.1999, 'grad_norm': 1.3960011005401611, 'learning_rate': 1.2392310700653185e-06, 'epoch': 0.68} {'loss': 2.1373, 'grad_norm': 2.0677061080932617, 'learning_rate': 1.2388559728154654e-06, 'epoch': 0.68} {'loss': 2.2917, 'grad_norm': 1.4473705291748047, 'learning_rate': 1.2384809136430371e-06, 'epoch': 0.68} {'loss': 2.2076, 'grad_norm': 1.55850088596344, 'learning_rate': 1.2381058925593592e-06, 'epoch': 0.68} {'loss': 2.3678, 'grad_norm': 1.710361361503601, 'learning_rate': 1.2377309095757533e-06, 'epoch': 0.68} {'loss': 2.3474, 'grad_norm': 1.9603025913238525, 'learning_rate': 1.237355964703543e-06, 'epoch': 0.68} {'loss': 1.9732, 'grad_norm': 1.4895530939102173, 'learning_rate': 1.2369810579540464e-06, 'epoch': 0.68} {'loss': 2.2691, 'grad_norm': 1.6838761568069458, 'learning_rate': 1.2366061893385847e-06, 'epoch': 0.68} {'loss': 2.4105, 'grad_norm': 1.7355087995529175, 'learning_rate': 1.2362313588684768e-06, 'epoch': 0.68} {'loss': 2.3065, 'grad_norm': 1.7609708309173584, 'learning_rate': 1.235856566555039e-06, 'epoch': 0.68} {'loss': 2.3581, 'grad_norm': 1.6054762601852417, 'learning_rate': 1.2354818124095863e-06, 'epoch': 0.68} {'loss': 2.4699, 'grad_norm': 1.6684212684631348, 'learning_rate': 1.2351070964434352e-06, 'epoch': 0.68} {'loss': 2.1068, 'grad_norm': 1.5639795064926147, 'learning_rate': 1.2347324186678983e-06, 'epoch': 0.68} {'loss': 2.1217, 'grad_norm': 1.5529279708862305, 'learning_rate': 1.2343577790942892e-06, 'epoch': 0.68} {'loss': 2.2213, 'grad_norm': 1.8057934045791626, 'learning_rate': 1.2339831777339179e-06, 'epoch': 0.68} {'loss': 2.5351, 'grad_norm': 1.7031395435333252, 'learning_rate': 1.2336086145980964e-06, 'epoch': 0.68} {'loss': 1.9697, 'grad_norm': 1.6423712968826294, 'learning_rate': 1.2332340896981318e-06, 'epoch': 0.68} {'loss': 2.2127, 'grad_norm': 1.6366872787475586, 'learning_rate': 1.2328596030453345e-06, 'epoch': 0.68} {'loss': 2.084, 'grad_norm': 1.7644269466400146, 'learning_rate': 1.2324851546510094e-06, 'epoch': 0.68} {'loss': 2.3309, 'grad_norm': 2.030111074447632, 'learning_rate': 1.2321107445264615e-06, 'epoch': 0.68} {'loss': 2.3543, 'grad_norm': 1.5830588340759277, 'learning_rate': 1.2317363726829978e-06, 'epoch': 0.68} {'loss': 2.2004, 'grad_norm': 1.6732889413833618, 'learning_rate': 1.2313620391319193e-06, 'epoch': 0.68} {'loss': 2.3923, 'grad_norm': 1.596469759941101, 'learning_rate': 1.2309877438845297e-06, 'epoch': 0.68} {'loss': 2.1895, 'grad_norm': 1.598872423171997, 'learning_rate': 1.2306134869521285e-06, 'epoch': 0.68} {'loss': 2.435, 'grad_norm': 1.6987372636795044, 'learning_rate': 1.2302392683460168e-06, 'epoch': 0.68} {'loss': 2.1114, 'grad_norm': 2.2112276554107666, 'learning_rate': 1.2298650880774934e-06, 'epoch': 0.68} {'loss': 2.2266, 'grad_norm': 1.946692943572998, 'learning_rate': 1.2294909461578558e-06, 'epoch': 0.68} {'loss': 2.2248, 'grad_norm': 1.6255970001220703, 'learning_rate': 1.2291168425983988e-06, 'epoch': 0.68} {'loss': 1.4021, 'grad_norm': 16.869504928588867, 'learning_rate': 1.2287427774104197e-06, 'epoch': 0.68} {'loss': 2.4032, 'grad_norm': 2.4742136001586914, 'learning_rate': 1.2283687506052109e-06, 'epoch': 0.68} {'loss': 2.2814, 'grad_norm': 1.7175754308700562, 'learning_rate': 1.2279947621940667e-06, 'epoch': 0.68} {'loss': 1.9057, 'grad_norm': 1.1175848245620728, 'learning_rate': 1.2276208121882774e-06, 'epoch': 0.68} {'loss': 2.0432, 'grad_norm': 1.721983790397644, 'learning_rate': 1.2272469005991352e-06, 'epoch': 0.68} {'loss': 2.4429, 'grad_norm': 1.6762968301773071, 'learning_rate': 1.2268730274379278e-06, 'epoch': 0.68} {'loss': 2.2504, 'grad_norm': 1.8276206254959106, 'learning_rate': 1.2264991927159456e-06, 'epoch': 0.68} {'loss': 2.172, 'grad_norm': 1.5811601877212524, 'learning_rate': 1.2261253964444742e-06, 'epoch': 0.68} {'loss': 1.674, 'grad_norm': 1.6691529750823975, 'learning_rate': 1.2257516386347988e-06, 'epoch': 0.68} {'loss': 2.2064, 'grad_norm': 1.8462027311325073, 'learning_rate': 1.2253779192982062e-06, 'epoch': 0.68} {'loss': 2.4173, 'grad_norm': 1.7025858163833618, 'learning_rate': 1.2250042384459781e-06, 'epoch': 0.68} {'loss': 2.3958, 'grad_norm': 1.60659921169281, 'learning_rate': 1.2246305960893979e-06, 'epoch': 0.68} {'loss': 1.9466, 'grad_norm': 1.3352891206741333, 'learning_rate': 1.2242569922397477e-06, 'epoch': 0.68} {'loss': 2.451, 'grad_norm': 1.6845349073410034, 'learning_rate': 1.223883426908306e-06, 'epoch': 0.68} {'loss': 2.2974, 'grad_norm': 1.7748901844024658, 'learning_rate': 1.2235099001063536e-06, 'epoch': 0.68} {'loss': 2.2757, 'grad_norm': 1.5214072465896606, 'learning_rate': 1.2231364118451661e-06, 'epoch': 0.68} {'loss': 2.4099, 'grad_norm': 1.5114922523498535, 'learning_rate': 1.2227629621360223e-06, 'epoch': 0.68} {'loss': 1.6993, 'grad_norm': 1.3963741064071655, 'learning_rate': 1.2223895509901967e-06, 'epoch': 0.68} {'loss': 2.3538, 'grad_norm': 1.521465539932251, 'learning_rate': 1.2220161784189628e-06, 'epoch': 0.68} {'loss': 2.2722, 'grad_norm': 1.3788026571273804, 'learning_rate': 1.2216428444335954e-06, 'epoch': 0.68} {'loss': 2.1501, 'grad_norm': 2.717195749282837, 'learning_rate': 1.2212695490453646e-06, 'epoch': 0.68} {'loss': 2.1443, 'grad_norm': 1.6112035512924194, 'learning_rate': 1.2208962922655435e-06, 'epoch': 0.68} {'loss': 2.2659, 'grad_norm': 1.7373452186584473, 'learning_rate': 1.2205230741053995e-06, 'epoch': 0.68} {'loss': 2.3522, 'grad_norm': 1.615571141242981, 'learning_rate': 1.220149894576202e-06, 'epoch': 0.68} {'loss': 2.4274, 'grad_norm': 1.801268219947815, 'learning_rate': 1.2197767536892193e-06, 'epoch': 0.68} {'loss': 2.0864, 'grad_norm': 1.2957805395126343, 'learning_rate': 1.2194036514557168e-06, 'epoch': 0.68} {'loss': 2.4823, 'grad_norm': 1.489295482635498, 'learning_rate': 1.2190305878869593e-06, 'epoch': 0.68} {'loss': 2.256, 'grad_norm': 16.012649536132812, 'learning_rate': 1.2186575629942099e-06, 'epoch': 0.68} {'loss': 2.4978, 'grad_norm': 1.6138372421264648, 'learning_rate': 1.2182845767887319e-06, 'epoch': 0.68} {'loss': 2.1624, 'grad_norm': 1.5095041990280151, 'learning_rate': 1.2179116292817881e-06, 'epoch': 0.68} {'loss': 2.2291, 'grad_norm': 2.516113042831421, 'learning_rate': 1.2175387204846365e-06, 'epoch': 0.68} {'loss': 2.2102, 'grad_norm': 2.5976622104644775, 'learning_rate': 1.2171658504085386e-06, 'epoch': 0.68} {'loss': 2.1019, 'grad_norm': 1.7657620906829834, 'learning_rate': 1.21679301906475e-06, 'epoch': 0.68} {'loss': 2.3645, 'grad_norm': 1.6355093717575073, 'learning_rate': 1.2164202264645298e-06, 'epoch': 0.68} {'loss': 2.1609, 'grad_norm': 1.415000557899475, 'learning_rate': 1.2160474726191323e-06, 'epoch': 0.68} {'loss': 2.1227, 'grad_norm': 1.8523536920547485, 'learning_rate': 1.2156747575398114e-06, 'epoch': 0.68} {'loss': 2.179, 'grad_norm': 1.8380377292633057, 'learning_rate': 1.2153020812378221e-06, 'epoch': 0.68} {'loss': 2.1318, 'grad_norm': 1.9041352272033691, 'learning_rate': 1.2149294437244147e-06, 'epoch': 0.68} {'loss': 2.4414, 'grad_norm': 1.782193899154663, 'learning_rate': 1.2145568450108423e-06, 'epoch': 0.68} {'loss': 2.3866, 'grad_norm': 1.6787047386169434, 'learning_rate': 1.214184285108352e-06, 'epoch': 0.68} {'loss': 2.2545, 'grad_norm': 2.0634992122650146, 'learning_rate': 1.2138117640281944e-06, 'epoch': 0.68} {'loss': 2.3808, 'grad_norm': 1.4684805870056152, 'learning_rate': 1.213439281781617e-06, 'epoch': 0.68} {'loss': 2.2386, 'grad_norm': 1.5059480667114258, 'learning_rate': 1.2130668383798655e-06, 'epoch': 0.68} {'loss': 2.1407, 'grad_norm': 1.7007255554199219, 'learning_rate': 1.212694433834185e-06, 'epoch': 0.68} {'loss': 2.2414, 'grad_norm': 1.776202917098999, 'learning_rate': 1.2123220681558187e-06, 'epoch': 0.68} {'loss': 2.3119, 'grad_norm': 1.6983531713485718, 'learning_rate': 1.21194974135601e-06, 'epoch': 0.68} {'loss': 2.4859, 'grad_norm': 1.5200166702270508, 'learning_rate': 1.2115774534460014e-06, 'epoch': 0.68} {'loss': 2.1952, 'grad_norm': 1.3730623722076416, 'learning_rate': 1.2112052044370315e-06, 'epoch': 0.68} {'loss': 2.4211, 'grad_norm': 1.690712571144104, 'learning_rate': 1.2108329943403414e-06, 'epoch': 0.68} {'loss': 2.4273, 'grad_norm': 1.5628371238708496, 'learning_rate': 1.2104608231671672e-06, 'epoch': 0.68} {'loss': 2.1768, 'grad_norm': 1.7463003396987915, 'learning_rate': 1.2100886909287478e-06, 'epoch': 0.68} {'loss': 2.0848, 'grad_norm': 1.8532155752182007, 'learning_rate': 1.2097165976363183e-06, 'epoch': 0.68} {'loss': 2.1738, 'grad_norm': 1.7529982328414917, 'learning_rate': 1.2093445433011114e-06, 'epoch': 0.68} {'loss': 2.3468, 'grad_norm': 1.7273601293563843, 'learning_rate': 1.2089725279343629e-06, 'epoch': 0.68} {'loss': 2.151, 'grad_norm': 1.4661686420440674, 'learning_rate': 1.2086005515473029e-06, 'epoch': 0.68} {'loss': 2.4368, 'grad_norm': 1.5694422721862793, 'learning_rate': 1.2082286141511646e-06, 'epoch': 0.68} {'loss': 2.4712, 'grad_norm': 1.2774697542190552, 'learning_rate': 1.2078567157571756e-06, 'epoch': 0.68} {'loss': 2.3925, 'grad_norm': 1.5494023561477661, 'learning_rate': 1.2074848563765656e-06, 'epoch': 0.68} {'loss': 2.383, 'grad_norm': 1.5297495126724243, 'learning_rate': 1.207113036020563e-06, 'epoch': 0.68} {'loss': 2.1063, 'grad_norm': 2.3957741260528564, 'learning_rate': 1.2067412547003922e-06, 'epoch': 0.68} {'loss': 2.3868, 'grad_norm': 1.6757937669754028, 'learning_rate': 1.2063695124272813e-06, 'epoch': 0.68} {'loss': 2.3505, 'grad_norm': 1.785111427307129, 'learning_rate': 1.20599780921245e-06, 'epoch': 0.68} {'loss': 1.8792, 'grad_norm': 5.047365665435791, 'learning_rate': 1.2056261450671234e-06, 'epoch': 0.68} {'loss': 2.0639, 'grad_norm': 1.198965072631836, 'learning_rate': 1.205254520002524e-06, 'epoch': 0.68} {'loss': 2.2908, 'grad_norm': 1.602159023284912, 'learning_rate': 1.2048829340298698e-06, 'epoch': 0.68} {'loss': 2.3369, 'grad_norm': 1.601388692855835, 'learning_rate': 1.2045113871603825e-06, 'epoch': 0.68} {'loss': 2.3619, 'grad_norm': 1.606031894683838, 'learning_rate': 1.2041398794052777e-06, 'epoch': 0.68} {'loss': 2.2038, 'grad_norm': 2.405710220336914, 'learning_rate': 1.2037684107757746e-06, 'epoch': 0.68} {'loss': 2.322, 'grad_norm': 1.5662732124328613, 'learning_rate': 1.203396981283087e-06, 'epoch': 0.68} {'loss': 2.3821, 'grad_norm': 1.621745228767395, 'learning_rate': 1.2030255909384308e-06, 'epoch': 0.68} {'loss': 2.2609, 'grad_norm': 1.8442728519439697, 'learning_rate': 1.2026542397530185e-06, 'epoch': 0.68} {'loss': 1.927, 'grad_norm': 1.6695724725723267, 'learning_rate': 1.2022829277380619e-06, 'epoch': 0.68} {'loss': 2.1228, 'grad_norm': 1.7114465236663818, 'learning_rate': 1.2019116549047727e-06, 'epoch': 0.68} {'loss': 2.2244, 'grad_norm': 1.6392065286636353, 'learning_rate': 1.2015404212643597e-06, 'epoch': 0.68} {'loss': 2.336, 'grad_norm': 1.9536714553833008, 'learning_rate': 1.201169226828032e-06, 'epoch': 0.68} {'loss': 2.3846, 'grad_norm': 1.9003241062164307, 'learning_rate': 1.200798071606998e-06, 'epoch': 0.68} {'loss': 2.4197, 'grad_norm': 1.7377206087112427, 'learning_rate': 1.2004269556124622e-06, 'epoch': 0.68} {'loss': 2.416, 'grad_norm': 1.7458685636520386, 'learning_rate': 1.2000558788556314e-06, 'epoch': 0.68} {'loss': 2.0797, 'grad_norm': 1.6636028289794922, 'learning_rate': 1.1996848413477084e-06, 'epoch': 0.68} {'loss': 2.1439, 'grad_norm': 1.6758192777633667, 'learning_rate': 1.1993138430998946e-06, 'epoch': 0.68} {'loss': 1.9259, 'grad_norm': 1.3646939992904663, 'learning_rate': 1.198942884123394e-06, 'epoch': 0.68} {'loss': 2.3705, 'grad_norm': 1.6427170038223267, 'learning_rate': 1.1985719644294046e-06, 'epoch': 0.68} {'loss': 2.3923, 'grad_norm': 1.685370922088623, 'learning_rate': 1.1982010840291275e-06, 'epoch': 0.68} {'loss': 2.478, 'grad_norm': 1.7508431673049927, 'learning_rate': 1.1978302429337587e-06, 'epoch': 0.68} {'loss': 2.0565, 'grad_norm': 1.6746001243591309, 'learning_rate': 1.1974594411544968e-06, 'epoch': 0.68} {'loss': 2.316, 'grad_norm': 1.5039077997207642, 'learning_rate': 1.1970886787025354e-06, 'epoch': 0.68} {'loss': 1.7997, 'grad_norm': 1.2447110414505005, 'learning_rate': 1.1967179555890698e-06, 'epoch': 0.68} {'loss': 2.0925, 'grad_norm': 2.0693440437316895, 'learning_rate': 1.196347271825295e-06, 'epoch': 0.68} {'loss': 2.37, 'grad_norm': 1.8592332601547241, 'learning_rate': 1.1959766274223993e-06, 'epoch': 0.69} {'loss': 2.1385, 'grad_norm': 1.6303077936172485, 'learning_rate': 1.1956060223915764e-06, 'epoch': 0.69} {'loss': 2.4301, 'grad_norm': 1.554875373840332, 'learning_rate': 1.1952354567440135e-06, 'epoch': 0.69} {'loss': 2.1692, 'grad_norm': 3.150379180908203, 'learning_rate': 1.1948649304909007e-06, 'epoch': 0.69} {'loss': 2.0574, 'grad_norm': 1.6845030784606934, 'learning_rate': 1.1944944436434255e-06, 'epoch': 0.69} {'loss': 2.2378, 'grad_norm': 1.480098009109497, 'learning_rate': 1.1941239962127723e-06, 'epoch': 0.69} {'loss': 2.5327, 'grad_norm': 1.7271682024002075, 'learning_rate': 1.193753588210128e-06, 'epoch': 0.69} {'loss': 2.3149, 'grad_norm': 2.0531976222991943, 'learning_rate': 1.1933832196466752e-06, 'epoch': 0.69} {'loss': 2.3077, 'grad_norm': 1.6601943969726562, 'learning_rate': 1.1930128905335952e-06, 'epoch': 0.69} {'loss': 2.1984, 'grad_norm': 1.55403470993042, 'learning_rate': 1.1926426008820713e-06, 'epoch': 0.69} {'loss': 2.2746, 'grad_norm': 1.8988548517227173, 'learning_rate': 1.1922723507032816e-06, 'epoch': 0.69} {'loss': 2.1492, 'grad_norm': 1.5546486377716064, 'learning_rate': 1.191902140008407e-06, 'epoch': 0.69} {'loss': 2.2451, 'grad_norm': 1.767217993736267, 'learning_rate': 1.191531968808623e-06, 'epoch': 0.69} {'loss': 2.2097, 'grad_norm': 1.7021095752716064, 'learning_rate': 1.1911618371151085e-06, 'epoch': 0.69} {'loss': 2.5059, 'grad_norm': 1.7500925064086914, 'learning_rate': 1.1907917449390364e-06, 'epoch': 0.69} {'loss': 2.2419, 'grad_norm': 1.63558828830719, 'learning_rate': 1.190421692291582e-06, 'epoch': 0.69} {'loss': 2.1444, 'grad_norm': 1.6468130350112915, 'learning_rate': 1.19005167918392e-06, 'epoch': 0.69} {'loss': 2.2164, 'grad_norm': 1.7863273620605469, 'learning_rate': 1.1896817056272186e-06, 'epoch': 0.69} {'loss': 2.0818, 'grad_norm': 3.3424603939056396, 'learning_rate': 1.18931177163265e-06, 'epoch': 0.69} {'loss': 2.2194, 'grad_norm': 1.778525948524475, 'learning_rate': 1.1889418772113842e-06, 'epoch': 0.69} {'loss': 2.543, 'grad_norm': 1.5928103923797607, 'learning_rate': 1.1885720223745877e-06, 'epoch': 0.69} {'loss': 2.4437, 'grad_norm': 1.959253191947937, 'learning_rate': 1.18820220713343e-06, 'epoch': 0.69} {'loss': 2.2274, 'grad_norm': 1.6057624816894531, 'learning_rate': 1.1878324314990738e-06, 'epoch': 0.69} {'loss': 2.0294, 'grad_norm': 1.6862753629684448, 'learning_rate': 1.1874626954826861e-06, 'epoch': 0.69} {'loss': 2.302, 'grad_norm': 1.9064981937408447, 'learning_rate': 1.1870929990954284e-06, 'epoch': 0.69} {'loss': 2.2335, 'grad_norm': 1.2646758556365967, 'learning_rate': 1.1867233423484647e-06, 'epoch': 0.69} {'loss': 2.2911, 'grad_norm': 1.3250811100006104, 'learning_rate': 1.186353725252955e-06, 'epoch': 0.69} {'loss': 2.2498, 'grad_norm': 1.696452260017395, 'learning_rate': 1.1859841478200579e-06, 'epoch': 0.69} {'loss': 2.3787, 'grad_norm': 1.6228407621383667, 'learning_rate': 1.1856146100609343e-06, 'epoch': 0.69} {'loss': 2.3403, 'grad_norm': 1.987869381904602, 'learning_rate': 1.1852451119867391e-06, 'epoch': 0.69} {'loss': 2.3151, 'grad_norm': 1.928475022315979, 'learning_rate': 1.18487565360863e-06, 'epoch': 0.69} {'loss': 1.9577, 'grad_norm': 1.5828884840011597, 'learning_rate': 1.1845062349377629e-06, 'epoch': 0.69} {'loss': 2.4735, 'grad_norm': 1.5838725566864014, 'learning_rate': 1.1841368559852893e-06, 'epoch': 0.69} {'loss': 2.3803, 'grad_norm': 2.3320021629333496, 'learning_rate': 1.1837675167623636e-06, 'epoch': 0.69} {'loss': 2.1341, 'grad_norm': 2.508148193359375, 'learning_rate': 1.1833982172801364e-06, 'epoch': 0.69} {'loss': 2.3133, 'grad_norm': 1.6358859539031982, 'learning_rate': 1.1830289575497573e-06, 'epoch': 0.69} {'loss': 2.1083, 'grad_norm': 1.9023874998092651, 'learning_rate': 1.1826597375823765e-06, 'epoch': 0.69} {'loss': 2.275, 'grad_norm': 1.8392078876495361, 'learning_rate': 1.1822905573891403e-06, 'epoch': 0.69} {'loss': 2.2112, 'grad_norm': 1.5221055746078491, 'learning_rate': 1.181921416981197e-06, 'epoch': 0.69} {'loss': 2.3224, 'grad_norm': 1.2971938848495483, 'learning_rate': 1.1815523163696901e-06, 'epoch': 0.69} {'loss': 2.2856, 'grad_norm': 1.660638451576233, 'learning_rate': 1.1811832555657659e-06, 'epoch': 0.69} {'loss': 1.5102, 'grad_norm': 1.5886881351470947, 'learning_rate': 1.1808142345805654e-06, 'epoch': 0.69} {'loss': 2.3255, 'grad_norm': 1.5355347394943237, 'learning_rate': 1.180445253425232e-06, 'epoch': 0.69} {'loss': 2.1849, 'grad_norm': 1.7295863628387451, 'learning_rate': 1.1800763121109052e-06, 'epoch': 0.69} {'loss': 2.1346, 'grad_norm': 1.5593034029006958, 'learning_rate': 1.1797074106487238e-06, 'epoch': 0.69} {'loss': 2.2082, 'grad_norm': 1.9803392887115479, 'learning_rate': 1.179338549049828e-06, 'epoch': 0.69} {'loss': 2.2721, 'grad_norm': 1.7306740283966064, 'learning_rate': 1.1789697273253522e-06, 'epoch': 0.69} {'loss': 2.283, 'grad_norm': 1.6935157775878906, 'learning_rate': 1.1786009454864336e-06, 'epoch': 0.69} {'loss': 2.2691, 'grad_norm': 1.467026710510254, 'learning_rate': 1.1782322035442077e-06, 'epoch': 0.69} {'loss': 2.2531, 'grad_norm': 1.624755620956421, 'learning_rate': 1.1778635015098054e-06, 'epoch': 0.69} {'loss': 2.166, 'grad_norm': 1.8994311094284058, 'learning_rate': 1.1774948393943614e-06, 'epoch': 0.69} {'loss': 2.2466, 'grad_norm': 1.6836738586425781, 'learning_rate': 1.1771262172090046e-06, 'epoch': 0.69} {'loss': 2.2477, 'grad_norm': 1.71431565284729, 'learning_rate': 1.1767576349648662e-06, 'epoch': 0.69} {'loss': 2.4676, 'grad_norm': 1.7317172288894653, 'learning_rate': 1.1763890926730743e-06, 'epoch': 0.69} {'loss': 1.9362, 'grad_norm': 1.5790365934371948, 'learning_rate': 1.1760205903447547e-06, 'epoch': 0.69} {'loss': 2.3405, 'grad_norm': 1.5167659521102905, 'learning_rate': 1.175652127991036e-06, 'epoch': 0.69} {'loss': 2.2546, 'grad_norm': 1.746883749961853, 'learning_rate': 1.1752837056230407e-06, 'epoch': 0.69} {'loss': 2.1718, 'grad_norm': 1.5359828472137451, 'learning_rate': 1.1749153232518949e-06, 'epoch': 0.69} {'loss': 2.2033, 'grad_norm': 1.5915926694869995, 'learning_rate': 1.1745469808887185e-06, 'epoch': 0.69} {'loss': 2.0619, 'grad_norm': 1.6050958633422852, 'learning_rate': 1.1741786785446344e-06, 'epoch': 0.69} {'loss': 2.2742, 'grad_norm': 1.727568507194519, 'learning_rate': 1.173810416230764e-06, 'epoch': 0.69} {'loss': 2.3161, 'grad_norm': 1.7568645477294922, 'learning_rate': 1.1734421939582227e-06, 'epoch': 0.69} {'loss': 2.3307, 'grad_norm': 1.494565725326538, 'learning_rate': 1.173074011738131e-06, 'epoch': 0.69} {'loss': 2.3869, 'grad_norm': 1.853708267211914, 'learning_rate': 1.1727058695816035e-06, 'epoch': 0.69} {'loss': 2.0355, 'grad_norm': 1.328141450881958, 'learning_rate': 1.1723377674997563e-06, 'epoch': 0.69} {'loss': 1.7819, 'grad_norm': 1.2867629528045654, 'learning_rate': 1.171969705503704e-06, 'epoch': 0.69} {'loss': 2.34, 'grad_norm': 1.7502648830413818, 'learning_rate': 1.1716016836045583e-06, 'epoch': 0.69} {'loss': 2.1044, 'grad_norm': 1.6893949508666992, 'learning_rate': 1.1712337018134319e-06, 'epoch': 0.69} {'loss': 2.4112, 'grad_norm': 1.7482364177703857, 'learning_rate': 1.1708657601414335e-06, 'epoch': 0.69} {'loss': 2.3862, 'grad_norm': 1.6853864192962646, 'learning_rate': 1.1704978585996743e-06, 'epoch': 0.69} {'loss': 2.1728, 'grad_norm': 1.6770530939102173, 'learning_rate': 1.1701299971992616e-06, 'epoch': 0.69} {'loss': 2.2548, 'grad_norm': 2.1474192142486572, 'learning_rate': 1.1697621759513005e-06, 'epoch': 0.69} {'loss': 2.093, 'grad_norm': 1.552438735961914, 'learning_rate': 1.1693943948668992e-06, 'epoch': 0.69} {'loss': 2.3919, 'grad_norm': 1.6977158784866333, 'learning_rate': 1.16902665395716e-06, 'epoch': 0.69} {'loss': 2.0266, 'grad_norm': 1.7041516304016113, 'learning_rate': 1.1686589532331871e-06, 'epoch': 0.69} {'loss': 2.3767, 'grad_norm': 1.6599969863891602, 'learning_rate': 1.1682912927060817e-06, 'epoch': 0.69} {'loss': 2.2449, 'grad_norm': 1.7198673486709595, 'learning_rate': 1.1679236723869445e-06, 'epoch': 0.69} {'loss': 2.0508, 'grad_norm': 1.2924655675888062, 'learning_rate': 1.167556092286876e-06, 'epoch': 0.69} {'loss': 2.4998, 'grad_norm': 1.6856229305267334, 'learning_rate': 1.167188552416974e-06, 'epoch': 0.69} {'loss': 2.3258, 'grad_norm': 1.6066908836364746, 'learning_rate': 1.1668210527883356e-06, 'epoch': 0.69} {'loss': 2.1189, 'grad_norm': 1.840088129043579, 'learning_rate': 1.166453593412055e-06, 'epoch': 0.69} {'loss': 1.957, 'grad_norm': 1.250592589378357, 'learning_rate': 1.1660861742992283e-06, 'epoch': 0.69} {'loss': 2.2546, 'grad_norm': 1.6034157276153564, 'learning_rate': 1.1657187954609498e-06, 'epoch': 0.69} {'loss': 2.1865, 'grad_norm': 1.7220196723937988, 'learning_rate': 1.1653514569083096e-06, 'epoch': 0.69} {'loss': 2.2877, 'grad_norm': 1.608666181564331, 'learning_rate': 1.1649841586524004e-06, 'epoch': 0.69} {'loss': 2.3931, 'grad_norm': 1.5993690490722656, 'learning_rate': 1.1646169007043106e-06, 'epoch': 0.69} {'loss': 2.3066, 'grad_norm': 1.6972070932388306, 'learning_rate': 1.1642496830751305e-06, 'epoch': 0.69} {'loss': 1.7851, 'grad_norm': 1.392090916633606, 'learning_rate': 1.1638825057759459e-06, 'epoch': 0.69} {'loss': 2.4936, 'grad_norm': 1.7829095125198364, 'learning_rate': 1.1635153688178427e-06, 'epoch': 0.69} {'loss': 2.5751, 'grad_norm': 1.708088994026184, 'learning_rate': 1.1631482722119072e-06, 'epoch': 0.69} {'loss': 1.9906, 'grad_norm': 1.8959457874298096, 'learning_rate': 1.162781215969221e-06, 'epoch': 0.69} {'loss': 2.2697, 'grad_norm': 1.7307939529418945, 'learning_rate': 1.1624142001008693e-06, 'epoch': 0.69} {'loss': 2.1674, 'grad_norm': 1.7412153482437134, 'learning_rate': 1.1620472246179307e-06, 'epoch': 0.69} {'loss': 2.5148, 'grad_norm': 1.614267349243164, 'learning_rate': 1.161680289531486e-06, 'epoch': 0.69} {'loss': 2.2714, 'grad_norm': 1.4487712383270264, 'learning_rate': 1.1613133948526156e-06, 'epoch': 0.69} {'loss': 2.2239, 'grad_norm': 1.528070092201233, 'learning_rate': 1.1609465405923948e-06, 'epoch': 0.69} {'loss': 2.0844, 'grad_norm': 1.4625595808029175, 'learning_rate': 1.1605797267619026e-06, 'epoch': 0.69} {'loss': 2.1217, 'grad_norm': 1.461303472518921, 'learning_rate': 1.1602129533722106e-06, 'epoch': 0.69} {'loss': 1.4765, 'grad_norm': 1.607196569442749, 'learning_rate': 1.1598462204343943e-06, 'epoch': 0.69} {'loss': 2.0817, 'grad_norm': 1.575468897819519, 'learning_rate': 1.159479527959528e-06, 'epoch': 0.69} {'loss': 2.1875, 'grad_norm': 1.740767002105713, 'learning_rate': 1.1591128759586806e-06, 'epoch': 0.69} {'loss': 2.2322, 'grad_norm': 1.6763898134231567, 'learning_rate': 1.1587462644429245e-06, 'epoch': 0.69} {'loss': 2.1091, 'grad_norm': 1.6943905353546143, 'learning_rate': 1.1583796934233269e-06, 'epoch': 0.69} {'loss': 2.3213, 'grad_norm': 1.3477205038070679, 'learning_rate': 1.1580131629109573e-06, 'epoch': 0.69} {'loss': 2.1875, 'grad_norm': 1.6078369617462158, 'learning_rate': 1.1576466729168814e-06, 'epoch': 0.69} {'loss': 2.2799, 'grad_norm': 1.6722140312194824, 'learning_rate': 1.1572802234521634e-06, 'epoch': 0.69} {'loss': 1.9304, 'grad_norm': 1.268310308456421, 'learning_rate': 1.1569138145278697e-06, 'epoch': 0.69} {'loss': 1.9779, 'grad_norm': 1.6496710777282715, 'learning_rate': 1.1565474461550613e-06, 'epoch': 0.69} {'loss': 2.5308, 'grad_norm': 1.626328706741333, 'learning_rate': 1.1561811183448012e-06, 'epoch': 0.69} {'loss': 2.301, 'grad_norm': 1.593495488166809, 'learning_rate': 1.1558148311081485e-06, 'epoch': 0.69} {'loss': 2.2658, 'grad_norm': 2.115790367126465, 'learning_rate': 1.1554485844561633e-06, 'epoch': 0.69} {'loss': 2.4024, 'grad_norm': 2.1814677715301514, 'learning_rate': 1.1550823783999044e-06, 'epoch': 0.69} {'loss': 2.0402, 'grad_norm': 1.626914143562317, 'learning_rate': 1.154716212950427e-06, 'epoch': 0.69} {'loss': 2.3746, 'grad_norm': 1.563187837600708, 'learning_rate': 1.1543500881187878e-06, 'epoch': 0.69} {'loss': 2.2779, 'grad_norm': 2.1481997966766357, 'learning_rate': 1.1539840039160407e-06, 'epoch': 0.69} {'loss': 2.2731, 'grad_norm': 1.6960303783416748, 'learning_rate': 1.153617960353238e-06, 'epoch': 0.69} {'loss': 2.0245, 'grad_norm': 1.4333391189575195, 'learning_rate': 1.1532519574414333e-06, 'epoch': 0.69} {'loss': 2.2357, 'grad_norm': 1.8753626346588135, 'learning_rate': 1.1528859951916752e-06, 'epoch': 0.69} {'loss': 2.1708, 'grad_norm': 1.6865549087524414, 'learning_rate': 1.1525200736150152e-06, 'epoch': 0.69} {'loss': 2.2599, 'grad_norm': 1.8412374258041382, 'learning_rate': 1.1521541927224994e-06, 'epoch': 0.69} {'loss': 2.2923, 'grad_norm': 2.13181734085083, 'learning_rate': 1.151788352525177e-06, 'epoch': 0.69} {'loss': 2.6099, 'grad_norm': 1.595159649848938, 'learning_rate': 1.1514225530340915e-06, 'epoch': 0.69} {'loss': 2.2203, 'grad_norm': 1.7272294759750366, 'learning_rate': 1.151056794260289e-06, 'epoch': 0.69} {'loss': 2.0417, 'grad_norm': 1.670852541923523, 'learning_rate': 1.1506910762148125e-06, 'epoch': 0.69} {'loss': 2.4555, 'grad_norm': 1.6266849040985107, 'learning_rate': 1.1503253989087027e-06, 'epoch': 0.69} {'loss': 2.2557, 'grad_norm': 1.7979211807250977, 'learning_rate': 1.1499597623530016e-06, 'epoch': 0.69} {'loss': 2.3124, 'grad_norm': 1.7420672178268433, 'learning_rate': 1.1495941665587495e-06, 'epoch': 0.69} {'loss': 2.3769, 'grad_norm': 1.5658193826675415, 'learning_rate': 1.149228611536983e-06, 'epoch': 0.69} {'loss': 1.8399, 'grad_norm': 1.4932554960250854, 'learning_rate': 1.1488630972987409e-06, 'epoch': 0.69} {'loss': 2.449, 'grad_norm': 1.5548747777938843, 'learning_rate': 1.1484976238550574e-06, 'epoch': 0.69} {'loss': 2.2282, 'grad_norm': 1.5022222995758057, 'learning_rate': 1.148132191216969e-06, 'epoch': 0.69} {'loss': 2.0725, 'grad_norm': 2.1911442279815674, 'learning_rate': 1.147766799395508e-06, 'epoch': 0.69} {'loss': 2.1838, 'grad_norm': 2.2354202270507812, 'learning_rate': 1.147401448401706e-06, 'epoch': 0.69} {'loss': 2.2582, 'grad_norm': 1.9617449045181274, 'learning_rate': 1.1470361382465956e-06, 'epoch': 0.69} {'loss': 1.7541, 'grad_norm': 1.6680521965026855, 'learning_rate': 1.1466708689412045e-06, 'epoch': 0.69} {'loss': 2.2343, 'grad_norm': 1.912689447402954, 'learning_rate': 1.1463056404965636e-06, 'epoch': 0.69} {'loss': 1.6381, 'grad_norm': 2.085893154144287, 'learning_rate': 1.1459404529236978e-06, 'epoch': 0.69} {'loss': 2.2137, 'grad_norm': 1.6155314445495605, 'learning_rate': 1.145575306233635e-06, 'epoch': 0.69} {'loss': 2.2789, 'grad_norm': 1.6709811687469482, 'learning_rate': 1.1452102004373983e-06, 'epoch': 0.69} {'loss': 2.4658, 'grad_norm': 1.5923551321029663, 'learning_rate': 1.1448451355460122e-06, 'epoch': 0.69} {'loss': 2.0231, 'grad_norm': 1.4481889009475708, 'learning_rate': 1.144480111570501e-06, 'epoch': 0.69} {'loss': 2.1257, 'grad_norm': 1.291212797164917, 'learning_rate': 1.1441151285218816e-06, 'epoch': 0.69} {'loss': 2.5271, 'grad_norm': 1.9263215065002441, 'learning_rate': 1.1437501864111757e-06, 'epoch': 0.69} {'loss': 2.4596, 'grad_norm': 1.6811487674713135, 'learning_rate': 1.1433852852494038e-06, 'epoch': 0.69} {'loss': 2.3316, 'grad_norm': 1.405676245689392, 'learning_rate': 1.1430204250475804e-06, 'epoch': 0.69} {'loss': 2.0834, 'grad_norm': 1.6615664958953857, 'learning_rate': 1.1426556058167237e-06, 'epoch': 0.69} {'loss': 2.3279, 'grad_norm': 1.6860840320587158, 'learning_rate': 1.142290827567847e-06, 'epoch': 0.69} {'loss': 2.2721, 'grad_norm': 1.504014015197754, 'learning_rate': 1.1419260903119658e-06, 'epoch': 0.69} {'loss': 2.1346, 'grad_norm': 1.748528003692627, 'learning_rate': 1.1415613940600906e-06, 'epoch': 0.69} {'loss': 2.5188, 'grad_norm': 1.7482315301895142, 'learning_rate': 1.1411967388232345e-06, 'epoch': 0.69} {'loss': 2.2212, 'grad_norm': 1.664862871170044, 'learning_rate': 1.1408321246124063e-06, 'epoch': 0.69} {'loss': 2.4776, 'grad_norm': 1.6916730403900146, 'learning_rate': 1.1404675514386138e-06, 'epoch': 0.69} {'loss': 2.2049, 'grad_norm': 1.6264140605926514, 'learning_rate': 1.1401030193128666e-06, 'epoch': 0.69} {'loss': 2.381, 'grad_norm': 1.6555428504943848, 'learning_rate': 1.139738528246169e-06, 'epoch': 0.69} {'loss': 2.516, 'grad_norm': 2.923044204711914, 'learning_rate': 1.1393740782495266e-06, 'epoch': 0.69} {'loss': 2.323, 'grad_norm': 1.7769261598587036, 'learning_rate': 1.1390096693339445e-06, 'epoch': 0.69} {'loss': 2.2989, 'grad_norm': 1.7599540948867798, 'learning_rate': 1.1386453015104232e-06, 'epoch': 0.69} {'loss': 2.3384, 'grad_norm': 1.5635006427764893, 'learning_rate': 1.1382809747899668e-06, 'epoch': 0.69} {'loss': 2.3447, 'grad_norm': 1.7215726375579834, 'learning_rate': 1.1379166891835713e-06, 'epoch': 0.69} {'loss': 2.185, 'grad_norm': 1.647609829902649, 'learning_rate': 1.137552444702238e-06, 'epoch': 0.69} {'loss': 2.2793, 'grad_norm': 2.2348546981811523, 'learning_rate': 1.1371882413569648e-06, 'epoch': 0.69} {'loss': 2.2913, 'grad_norm': 1.5432326793670654, 'learning_rate': 1.1368240791587461e-06, 'epoch': 0.69} {'loss': 1.8021, 'grad_norm': 1.5371965169906616, 'learning_rate': 1.1364599581185796e-06, 'epoch': 0.69} {'loss': 2.4598, 'grad_norm': 1.5584628582000732, 'learning_rate': 1.1360958782474563e-06, 'epoch': 0.69} {'loss': 2.0205, 'grad_norm': 1.477624773979187, 'learning_rate': 1.135731839556371e-06, 'epoch': 0.69} {'loss': 2.4174, 'grad_norm': 1.6816141605377197, 'learning_rate': 1.1353678420563135e-06, 'epoch': 0.69} {'loss': 1.5836, 'grad_norm': 1.6484522819519043, 'learning_rate': 1.1350038857582755e-06, 'epoch': 0.69} {'loss': 2.3493, 'grad_norm': 1.5063755512237549, 'learning_rate': 1.1346399706732447e-06, 'epoch': 0.69} {'loss': 2.4145, 'grad_norm': 1.9998620748519897, 'learning_rate': 1.134276096812208e-06, 'epoch': 0.69} {'loss': 2.1377, 'grad_norm': 1.6374866962432861, 'learning_rate': 1.1339122641861536e-06, 'epoch': 0.69} {'loss': 2.1174, 'grad_norm': 1.806899905204773, 'learning_rate': 1.133548472806065e-06, 'epoch': 0.69} {'loss': 2.2741, 'grad_norm': 1.3683255910873413, 'learning_rate': 1.1331847226829265e-06, 'epoch': 0.69} {'loss': 2.2591, 'grad_norm': 4.878411293029785, 'learning_rate': 1.1328210138277217e-06, 'epoch': 0.69} {'loss': 2.2995, 'grad_norm': 1.8916274309158325, 'learning_rate': 1.1324573462514307e-06, 'epoch': 0.69} {'loss': 2.2241, 'grad_norm': 1.753007173538208, 'learning_rate': 1.1320937199650351e-06, 'epoch': 0.69} {'loss': 2.2605, 'grad_norm': 1.5444759130477905, 'learning_rate': 1.1317301349795127e-06, 'epoch': 0.69} {'loss': 2.3141, 'grad_norm': 1.9221057891845703, 'learning_rate': 1.1313665913058402e-06, 'epoch': 0.69} {'loss': 1.1979, 'grad_norm': 1.556298851966858, 'learning_rate': 1.131003088954996e-06, 'epoch': 0.69} {'loss': 2.5055, 'grad_norm': 1.587158441543579, 'learning_rate': 1.130639627937954e-06, 'epoch': 0.69} {'loss': 2.0283, 'grad_norm': 1.3657923936843872, 'learning_rate': 1.1302762082656887e-06, 'epoch': 0.69} {'loss': 2.417, 'grad_norm': 1.7931199073791504, 'learning_rate': 1.1299128299491718e-06, 'epoch': 0.69} {'loss': 2.1181, 'grad_norm': 1.5165764093399048, 'learning_rate': 1.1295494929993762e-06, 'epoch': 0.69} {'loss': 1.9049, 'grad_norm': 1.5826995372772217, 'learning_rate': 1.1291861974272702e-06, 'epoch': 0.69} {'loss': 2.2468, 'grad_norm': 1.715092420578003, 'learning_rate': 1.128822943243824e-06, 'epoch': 0.69} {'loss': 1.9845, 'grad_norm': 1.2466638088226318, 'learning_rate': 1.1284597304600066e-06, 'epoch': 0.69} {'loss': 2.1408, 'grad_norm': 1.8390110731124878, 'learning_rate': 1.1280965590867806e-06, 'epoch': 0.69} {'loss': 2.1045, 'grad_norm': 1.7512468099594116, 'learning_rate': 1.1277334291351147e-06, 'epoch': 0.7} {'loss': 2.1881, 'grad_norm': 1.7183351516723633, 'learning_rate': 1.1273703406159704e-06, 'epoch': 0.7} {'loss': 2.2225, 'grad_norm': 1.645222783088684, 'learning_rate': 1.1270072935403112e-06, 'epoch': 0.7} {'loss': 2.5384, 'grad_norm': 1.7488676309585571, 'learning_rate': 1.1266442879190995e-06, 'epoch': 0.7} {'loss': 2.1023, 'grad_norm': 1.9082067012786865, 'learning_rate': 1.1262813237632936e-06, 'epoch': 0.7} {'loss': 2.2026, 'grad_norm': 1.7640995979309082, 'learning_rate': 1.1259184010838544e-06, 'epoch': 0.7} {'loss': 2.4132, 'grad_norm': 1.512723684310913, 'learning_rate': 1.1255555198917378e-06, 'epoch': 0.7} {'loss': 1.7198, 'grad_norm': 3.1282639503479004, 'learning_rate': 1.1251926801979016e-06, 'epoch': 0.7} {'loss': 2.2497, 'grad_norm': 3.3904707431793213, 'learning_rate': 1.1248298820133003e-06, 'epoch': 0.7} {'loss': 2.2914, 'grad_norm': 1.7480303049087524, 'learning_rate': 1.1244671253488868e-06, 'epoch': 0.7} {'loss': 2.489, 'grad_norm': 1.852347493171692, 'learning_rate': 1.1241044102156155e-06, 'epoch': 0.7} {'loss': 2.1409, 'grad_norm': 1.679431676864624, 'learning_rate': 1.1237417366244358e-06, 'epoch': 0.7} {'loss': 2.1836, 'grad_norm': 1.5906373262405396, 'learning_rate': 1.1233791045863002e-06, 'epoch': 0.7} {'loss': 2.2612, 'grad_norm': 1.5919748544692993, 'learning_rate': 1.1230165141121553e-06, 'epoch': 0.7} {'loss': 2.3425, 'grad_norm': 1.7968213558197021, 'learning_rate': 1.1226539652129494e-06, 'epoch': 0.7} {'loss': 2.1358, 'grad_norm': 1.5300358533859253, 'learning_rate': 1.1222914578996302e-06, 'epoch': 0.7} {'loss': 2.3623, 'grad_norm': 1.3981890678405762, 'learning_rate': 1.121928992183142e-06, 'epoch': 0.7} {'loss': 2.3906, 'grad_norm': 1.5014643669128418, 'learning_rate': 1.1215665680744282e-06, 'epoch': 0.7} {'loss': 2.035, 'grad_norm': 1.5277957916259766, 'learning_rate': 1.1212041855844307e-06, 'epoch': 0.7} {'loss': 2.2358, 'grad_norm': 1.716269850730896, 'learning_rate': 1.1208418447240917e-06, 'epoch': 0.7} {'loss': 2.3579, 'grad_norm': 1.8010210990905762, 'learning_rate': 1.1204795455043521e-06, 'epoch': 0.7} {'loss': 2.1425, 'grad_norm': 1.6118788719177246, 'learning_rate': 1.120117287936149e-06, 'epoch': 0.7} {'loss': 2.108, 'grad_norm': 1.5440778732299805, 'learning_rate': 1.119755072030422e-06, 'epoch': 0.7} {'loss': 2.0532, 'grad_norm': 1.3610990047454834, 'learning_rate': 1.1193928977981054e-06, 'epoch': 0.7} {'loss': 2.1794, 'grad_norm': 1.4572534561157227, 'learning_rate': 1.1190307652501355e-06, 'epoch': 0.7} {'loss': 1.9318, 'grad_norm': 1.4020761251449585, 'learning_rate': 1.1186686743974461e-06, 'epoch': 0.7} {'loss': 2.2494, 'grad_norm': 1.7469888925552368, 'learning_rate': 1.1183066252509684e-06, 'epoch': 0.7} {'loss': 2.0892, 'grad_norm': 1.750711441040039, 'learning_rate': 1.1179446178216354e-06, 'epoch': 0.7} {'loss': 1.7529, 'grad_norm': 1.3888262510299683, 'learning_rate': 1.1175826521203753e-06, 'epoch': 0.7} {'loss': 1.9883, 'grad_norm': 1.3580368757247925, 'learning_rate': 1.1172207281581187e-06, 'epoch': 0.7} {'loss': 2.4692, 'grad_norm': 1.546836495399475, 'learning_rate': 1.1168588459457916e-06, 'epoch': 0.7} {'loss': 2.2425, 'grad_norm': 1.288716197013855, 'learning_rate': 1.1164970054943204e-06, 'epoch': 0.7} {'loss': 2.3352, 'grad_norm': 1.7310702800750732, 'learning_rate': 1.1161352068146316e-06, 'epoch': 0.7} {'loss': 2.2067, 'grad_norm': 1.5410352945327759, 'learning_rate': 1.1157734499176479e-06, 'epoch': 0.7} {'loss': 2.1498, 'grad_norm': 4.354746341705322, 'learning_rate': 1.1154117348142906e-06, 'epoch': 0.7} {'loss': 2.444, 'grad_norm': 1.4351967573165894, 'learning_rate': 1.115050061515483e-06, 'epoch': 0.7} {'loss': 2.3532, 'grad_norm': 1.7925293445587158, 'learning_rate': 1.1146884300321428e-06, 'epoch': 0.7} {'loss': 2.2044, 'grad_norm': 1.6582249402999878, 'learning_rate': 1.114326840375191e-06, 'epoch': 0.7} {'loss': 2.3701, 'grad_norm': 1.8032121658325195, 'learning_rate': 1.1139652925555426e-06, 'epoch': 0.7} {'loss': 2.2923, 'grad_norm': 1.7236104011535645, 'learning_rate': 1.1136037865841156e-06, 'epoch': 0.7} {'loss': 2.2154, 'grad_norm': 1.6750128269195557, 'learning_rate': 1.1132423224718236e-06, 'epoch': 0.7} {'loss': 2.3823, 'grad_norm': 1.636255145072937, 'learning_rate': 1.1128809002295819e-06, 'epoch': 0.7} {'loss': 2.2921, 'grad_norm': 1.682944655418396, 'learning_rate': 1.1125195198683012e-06, 'epoch': 0.7} {'loss': 2.2944, 'grad_norm': 1.245842456817627, 'learning_rate': 1.1121581813988923e-06, 'epoch': 0.7} {'loss': 2.285, 'grad_norm': 1.786007046699524, 'learning_rate': 1.1117968848322668e-06, 'epoch': 0.7} {'loss': 2.4708, 'grad_norm': 1.6193405389785767, 'learning_rate': 1.1114356301793314e-06, 'epoch': 0.7} {'loss': 1.7753, 'grad_norm': 1.2795629501342773, 'learning_rate': 1.1110744174509952e-06, 'epoch': 0.7} {'loss': 2.1286, 'grad_norm': 1.5333613157272339, 'learning_rate': 1.1107132466581622e-06, 'epoch': 0.7} {'loss': 2.3409, 'grad_norm': 1.8047007322311401, 'learning_rate': 1.110352117811738e-06, 'epoch': 0.7} {'loss': 2.0514, 'grad_norm': 1.597499966621399, 'learning_rate': 1.1099910309226275e-06, 'epoch': 0.7} {'loss': 2.2911, 'grad_norm': 1.8477840423583984, 'learning_rate': 1.1096299860017303e-06, 'epoch': 0.7} {'loss': 2.2379, 'grad_norm': 1.6525386571884155, 'learning_rate': 1.1092689830599502e-06, 'epoch': 0.7} {'loss': 2.1829, 'grad_norm': 1.689220666885376, 'learning_rate': 1.108908022108185e-06, 'epoch': 0.7} {'loss': 1.5155, 'grad_norm': 1.6309829950332642, 'learning_rate': 1.1085471031573325e-06, 'epoch': 0.7} {'loss': 1.4231, 'grad_norm': 1.6362026929855347, 'learning_rate': 1.1081862262182919e-06, 'epoch': 0.7} {'loss': 2.3662, 'grad_norm': 1.787942886352539, 'learning_rate': 1.1078253913019572e-06, 'epoch': 0.7} {'loss': 2.2596, 'grad_norm': 2.096130609512329, 'learning_rate': 1.1074645984192244e-06, 'epoch': 0.7} {'loss': 2.3455, 'grad_norm': 1.5598276853561401, 'learning_rate': 1.1071038475809857e-06, 'epoch': 0.7} {'loss': 2.2189, 'grad_norm': 1.876879096031189, 'learning_rate': 1.1067431387981343e-06, 'epoch': 0.7} {'loss': 2.2621, 'grad_norm': 2.211984872817993, 'learning_rate': 1.1063824720815596e-06, 'epoch': 0.7} {'loss': 2.1426, 'grad_norm': 1.5239053964614868, 'learning_rate': 1.1060218474421527e-06, 'epoch': 0.7} {'loss': 2.4402, 'grad_norm': 1.445371389389038, 'learning_rate': 1.1056612648908014e-06, 'epoch': 0.7} {'loss': 1.7091, 'grad_norm': 1.823710560798645, 'learning_rate': 1.1053007244383911e-06, 'epoch': 0.7} {'loss': 2.1395, 'grad_norm': 92.49246215820312, 'learning_rate': 1.1049402260958092e-06, 'epoch': 0.7} {'loss': 2.2711, 'grad_norm': 1.97292160987854, 'learning_rate': 1.1045797698739404e-06, 'epoch': 0.7} {'loss': 2.1422, 'grad_norm': 1.4693262577056885, 'learning_rate': 1.1042193557836664e-06, 'epoch': 0.7} {'loss': 2.3275, 'grad_norm': 1.7745476961135864, 'learning_rate': 1.1038589838358706e-06, 'epoch': 0.7} {'loss': 2.0824, 'grad_norm': 1.8031113147735596, 'learning_rate': 1.1034986540414323e-06, 'epoch': 0.7} {'loss': 2.0822, 'grad_norm': 2.2435808181762695, 'learning_rate': 1.103138366411232e-06, 'epoch': 0.7} {'loss': 2.5053, 'grad_norm': 1.6149994134902954, 'learning_rate': 1.1027781209561474e-06, 'epoch': 0.7} {'loss': 2.3811, 'grad_norm': 1.6061530113220215, 'learning_rate': 1.1024179176870544e-06, 'epoch': 0.7} {'loss': 2.787, 'grad_norm': 1.902011513710022, 'learning_rate': 1.1020577566148302e-06, 'epoch': 0.7} {'loss': 2.2499, 'grad_norm': 1.7461013793945312, 'learning_rate': 1.101697637750347e-06, 'epoch': 0.7} {'loss': 2.32, 'grad_norm': 1.8218623399734497, 'learning_rate': 1.10133756110448e-06, 'epoch': 0.7} {'loss': 2.2848, 'grad_norm': 1.6010816097259521, 'learning_rate': 1.100977526688099e-06, 'epoch': 0.7} {'loss': 2.1606, 'grad_norm': 1.7030396461486816, 'learning_rate': 1.100617534512075e-06, 'epoch': 0.7} {'loss': 2.225, 'grad_norm': 2.9163830280303955, 'learning_rate': 1.1002575845872788e-06, 'epoch': 0.7} {'loss': 2.0772, 'grad_norm': 1.7686214447021484, 'learning_rate': 1.0998976769245764e-06, 'epoch': 0.7} {'loss': 2.3266, 'grad_norm': 1.5574419498443604, 'learning_rate': 1.0995378115348355e-06, 'epoch': 0.7} {'loss': 2.0883, 'grad_norm': 1.6486473083496094, 'learning_rate': 1.0991779884289195e-06, 'epoch': 0.7} {'loss': 2.1686, 'grad_norm': 1.678856372833252, 'learning_rate': 1.098818207617694e-06, 'epoch': 0.7} {'loss': 2.273, 'grad_norm': 1.7676142454147339, 'learning_rate': 1.0984584691120224e-06, 'epoch': 0.7} {'loss': 2.3042, 'grad_norm': 1.855915904045105, 'learning_rate': 1.0980987729227644e-06, 'epoch': 0.7} {'loss': 2.3195, 'grad_norm': 1.6649240255355835, 'learning_rate': 1.0977391190607823e-06, 'epoch': 0.7} {'loss': 2.3646, 'grad_norm': 1.7360316514968872, 'learning_rate': 1.0973795075369329e-06, 'epoch': 0.7} {'loss': 1.9904, 'grad_norm': 1.8579249382019043, 'learning_rate': 1.097019938362076e-06, 'epoch': 0.7} {'loss': 2.4169, 'grad_norm': 2.139784574508667, 'learning_rate': 1.096660411547067e-06, 'epoch': 0.7} {'loss': 2.2604, 'grad_norm': 1.6482539176940918, 'learning_rate': 1.0963009271027598e-06, 'epoch': 0.7} {'loss': 2.3941, 'grad_norm': 1.2951070070266724, 'learning_rate': 1.0959414850400102e-06, 'epoch': 0.7} {'loss': 2.3392, 'grad_norm': 1.6635916233062744, 'learning_rate': 1.0955820853696692e-06, 'epoch': 0.7} {'loss': 2.4995, 'grad_norm': 1.6195430755615234, 'learning_rate': 1.0952227281025896e-06, 'epoch': 0.7} {'loss': 2.2869, 'grad_norm': 1.9929536581039429, 'learning_rate': 1.0948634132496196e-06, 'epoch': 0.7} {'loss': 2.2749, 'grad_norm': 1.7595999240875244, 'learning_rate': 1.0945041408216089e-06, 'epoch': 0.7} {'loss': 2.278, 'grad_norm': 1.631646990776062, 'learning_rate': 1.0941449108294059e-06, 'epoch': 0.7} {'loss': 2.3074, 'grad_norm': 1.3322186470031738, 'learning_rate': 1.0937857232838547e-06, 'epoch': 0.7} {'loss': 2.2466, 'grad_norm': 1.9176613092422485, 'learning_rate': 1.0934265781958031e-06, 'epoch': 0.7} {'loss': 2.154, 'grad_norm': 1.6132506132125854, 'learning_rate': 1.0930674755760909e-06, 'epoch': 0.7} {'loss': 2.2604, 'grad_norm': 1.6983734369277954, 'learning_rate': 1.0927084154355624e-06, 'epoch': 0.7} {'loss': 2.1787, 'grad_norm': 1.6912574768066406, 'learning_rate': 1.0923493977850594e-06, 'epoch': 0.7} {'loss': 2.341, 'grad_norm': 1.5933290719985962, 'learning_rate': 1.0919904226354196e-06, 'epoch': 0.7} {'loss': 2.2968, 'grad_norm': 1.5754179954528809, 'learning_rate': 1.0916314899974838e-06, 'epoch': 0.7} {'loss': 2.3208, 'grad_norm': 1.4528470039367676, 'learning_rate': 1.0912725998820873e-06, 'epoch': 0.7} {'loss': 2.2875, 'grad_norm': 1.6228500604629517, 'learning_rate': 1.090913752300067e-06, 'epoch': 0.7} {'loss': 2.3889, 'grad_norm': 1.4184212684631348, 'learning_rate': 1.0905549472622566e-06, 'epoch': 0.7} {'loss': 2.3913, 'grad_norm': 1.5917763710021973, 'learning_rate': 1.0901961847794906e-06, 'epoch': 0.7} {'loss': 2.272, 'grad_norm': 1.4969711303710938, 'learning_rate': 1.0898374648626007e-06, 'epoch': 0.7} {'loss': 2.4813, 'grad_norm': 1.660119891166687, 'learning_rate': 1.0894787875224164e-06, 'epoch': 0.7} {'loss': 2.3264, 'grad_norm': 1.6438813209533691, 'learning_rate': 1.089120152769769e-06, 'epoch': 0.7} {'loss': 2.2533, 'grad_norm': 4.978302478790283, 'learning_rate': 1.0887615606154848e-06, 'epoch': 0.7} {'loss': 2.2891, 'grad_norm': 1.7402076721191406, 'learning_rate': 1.0884030110703917e-06, 'epoch': 0.7} {'loss': 2.3238, 'grad_norm': 1.7585028409957886, 'learning_rate': 1.088044504145316e-06, 'epoch': 0.7} {'loss': 2.1339, 'grad_norm': 1.6933563947677612, 'learning_rate': 1.0876860398510808e-06, 'epoch': 0.7} {'loss': 2.4784, 'grad_norm': 1.405342698097229, 'learning_rate': 1.0873276181985102e-06, 'epoch': 0.7} {'loss': 1.9781, 'grad_norm': 1.4714038372039795, 'learning_rate': 1.0869692391984253e-06, 'epoch': 0.7} {'loss': 1.6386, 'grad_norm': 1.6246559619903564, 'learning_rate': 1.0866109028616458e-06, 'epoch': 0.7} {'loss': 1.9736, 'grad_norm': 1.3852559328079224, 'learning_rate': 1.0862526091989928e-06, 'epoch': 0.7} {'loss': 2.2769, 'grad_norm': 12.102824211120605, 'learning_rate': 1.085894358221282e-06, 'epoch': 0.7} {'loss': 2.073, 'grad_norm': 1.8931368589401245, 'learning_rate': 1.0855361499393318e-06, 'epoch': 0.7} {'loss': 2.2115, 'grad_norm': 1.8105993270874023, 'learning_rate': 1.0851779843639563e-06, 'epoch': 0.7} {'loss': 2.0887, 'grad_norm': 1.5279642343521118, 'learning_rate': 1.0848198615059704e-06, 'epoch': 0.7} {'loss': 2.3857, 'grad_norm': 1.7619208097457886, 'learning_rate': 1.0844617813761857e-06, 'epoch': 0.7} {'loss': 2.2407, 'grad_norm': 1.6338480710983276, 'learning_rate': 1.084103743985414e-06, 'epoch': 0.7} {'loss': 2.4283, 'grad_norm': 1.886922836303711, 'learning_rate': 1.083745749344468e-06, 'epoch': 0.7} {'loss': 2.1775, 'grad_norm': 1.5047498941421509, 'learning_rate': 1.0833877974641522e-06, 'epoch': 0.7} {'loss': 1.9098, 'grad_norm': 2.6418099403381348, 'learning_rate': 1.083029888355277e-06, 'epoch': 0.7} {'loss': 2.5314, 'grad_norm': 1.7592757940292358, 'learning_rate': 1.0826720220286475e-06, 'epoch': 0.7} {'loss': 2.134, 'grad_norm': 1.5902024507522583, 'learning_rate': 1.0823141984950686e-06, 'epoch': 0.7} {'loss': 2.5454, 'grad_norm': 1.5567739009857178, 'learning_rate': 1.0819564177653455e-06, 'epoch': 0.7} {'loss': 2.3743, 'grad_norm': 1.82310152053833, 'learning_rate': 1.0815986798502787e-06, 'epoch': 0.7} {'loss': 2.0961, 'grad_norm': 1.9463145732879639, 'learning_rate': 1.081240984760671e-06, 'epoch': 0.7} {'loss': 2.1641, 'grad_norm': 1.5562360286712646, 'learning_rate': 1.0808833325073215e-06, 'epoch': 0.7} {'loss': 2.18, 'grad_norm': 1.7463462352752686, 'learning_rate': 1.0805257231010276e-06, 'epoch': 0.7} {'loss': 2.5347, 'grad_norm': 1.8067235946655273, 'learning_rate': 1.0801681565525884e-06, 'epoch': 0.7} {'loss': 2.2684, 'grad_norm': 1.7724560499191284, 'learning_rate': 1.0798106328727978e-06, 'epoch': 0.7} {'loss': 2.3419, 'grad_norm': 3.216907501220703, 'learning_rate': 1.0794531520724528e-06, 'epoch': 0.7} {'loss': 2.3271, 'grad_norm': 1.7821687459945679, 'learning_rate': 1.0790957141623443e-06, 'epoch': 0.7} {'loss': 2.3117, 'grad_norm': 1.6899827718734741, 'learning_rate': 1.0787383191532665e-06, 'epoch': 0.7} {'loss': 2.2023, 'grad_norm': 1.595691442489624, 'learning_rate': 1.0783809670560084e-06, 'epoch': 0.7} {'loss': 2.1271, 'grad_norm': 1.4666048288345337, 'learning_rate': 1.0780236578813598e-06, 'epoch': 0.7} {'loss': 2.0568, 'grad_norm': 3.0373003482818604, 'learning_rate': 1.0776663916401115e-06, 'epoch': 0.7} {'loss': 2.2325, 'grad_norm': 1.7924420833587646, 'learning_rate': 1.0773091683430459e-06, 'epoch': 0.7} {'loss': 1.9022, 'grad_norm': 1.2736517190933228, 'learning_rate': 1.076951988000951e-06, 'epoch': 0.7} {'loss': 1.966, 'grad_norm': 1.497678279876709, 'learning_rate': 1.0765948506246118e-06, 'epoch': 0.7} {'loss': 2.247, 'grad_norm': 1.5812546014785767, 'learning_rate': 1.0762377562248092e-06, 'epoch': 0.7} {'loss': 1.8411, 'grad_norm': 1.2667129039764404, 'learning_rate': 1.0758807048123269e-06, 'epoch': 0.7} {'loss': 2.2662, 'grad_norm': 1.7728278636932373, 'learning_rate': 1.0755236963979434e-06, 'epoch': 0.7} {'loss': 2.4608, 'grad_norm': 53.102333068847656, 'learning_rate': 1.0751667309924398e-06, 'epoch': 0.7} {'loss': 2.2672, 'grad_norm': 11.992839813232422, 'learning_rate': 1.0748098086065917e-06, 'epoch': 0.7} {'loss': 2.2656, 'grad_norm': 1.6004011631011963, 'learning_rate': 1.0744529292511777e-06, 'epoch': 0.7} {'loss': 2.3688, 'grad_norm': 1.6837072372436523, 'learning_rate': 1.0740960929369718e-06, 'epoch': 0.7} {'loss': 2.5204, 'grad_norm': 1.694794774055481, 'learning_rate': 1.0737392996747472e-06, 'epoch': 0.7} {'loss': 2.236, 'grad_norm': 1.607014536857605, 'learning_rate': 1.073382549475278e-06, 'epoch': 0.7} {'loss': 2.2443, 'grad_norm': 1.3256571292877197, 'learning_rate': 1.0730258423493338e-06, 'epoch': 0.7} {'loss': 2.5238, 'grad_norm': 1.6254409551620483, 'learning_rate': 1.0726691783076867e-06, 'epoch': 0.7} {'loss': 2.3095, 'grad_norm': 1.9271565675735474, 'learning_rate': 1.0723125573611033e-06, 'epoch': 0.7} {'loss': 2.292, 'grad_norm': 1.627713918685913, 'learning_rate': 1.0719559795203516e-06, 'epoch': 0.7} {'loss': 1.5474, 'grad_norm': 1.550622582435608, 'learning_rate': 1.0715994447961993e-06, 'epoch': 0.7} {'loss': 2.187, 'grad_norm': 1.6441420316696167, 'learning_rate': 1.0712429531994092e-06, 'epoch': 0.7} {'loss': 2.1234, 'grad_norm': 1.8226851224899292, 'learning_rate': 1.0708865047407449e-06, 'epoch': 0.7} {'loss': 2.0209, 'grad_norm': 1.5968396663665771, 'learning_rate': 1.0705300994309697e-06, 'epoch': 0.7} {'loss': 2.182, 'grad_norm': 1.8238540887832642, 'learning_rate': 1.0701737372808432e-06, 'epoch': 0.7} {'loss': 1.9007, 'grad_norm': 1.4328384399414062, 'learning_rate': 1.0698174183011261e-06, 'epoch': 0.7} {'loss': 1.8486, 'grad_norm': 1.41201913356781, 'learning_rate': 1.0694611425025755e-06, 'epoch': 0.7} {'loss': 2.2382, 'grad_norm': 1.6397264003753662, 'learning_rate': 1.06910490989595e-06, 'epoch': 0.7} {'loss': 2.2169, 'grad_norm': 1.4238063097000122, 'learning_rate': 1.068748720492003e-06, 'epoch': 0.7} {'loss': 2.204, 'grad_norm': 1.6881409883499146, 'learning_rate': 1.0683925743014908e-06, 'epoch': 0.7} {'loss': 2.1051, 'grad_norm': 1.6075034141540527, 'learning_rate': 1.0680364713351663e-06, 'epoch': 0.7} {'loss': 2.2208, 'grad_norm': 1.6998335123062134, 'learning_rate': 1.0676804116037792e-06, 'epoch': 0.7} {'loss': 2.3232, 'grad_norm': 1.7138859033584595, 'learning_rate': 1.0673243951180825e-06, 'epoch': 0.7} {'loss': 2.3453, 'grad_norm': 1.5912811756134033, 'learning_rate': 1.0669684218888232e-06, 'epoch': 0.7} {'loss': 1.9702, 'grad_norm': 1.26889967918396, 'learning_rate': 1.0666124919267502e-06, 'epoch': 0.7} {'loss': 2.2679, 'grad_norm': 1.5095945596694946, 'learning_rate': 1.0662566052426107e-06, 'epoch': 0.7} {'loss': 2.3072, 'grad_norm': 1.700068473815918, 'learning_rate': 1.065900761847148e-06, 'epoch': 0.7} {'loss': 2.0566, 'grad_norm': 1.954350471496582, 'learning_rate': 1.0655449617511085e-06, 'epoch': 0.7} {'loss': 2.4454, 'grad_norm': 1.9519374370574951, 'learning_rate': 1.0651892049652322e-06, 'epoch': 0.7} {'loss': 2.2253, 'grad_norm': 1.6683299541473389, 'learning_rate': 1.0648334915002625e-06, 'epoch': 0.7} {'loss': 2.1629, 'grad_norm': 1.7307666540145874, 'learning_rate': 1.0644778213669385e-06, 'epoch': 0.7} {'loss': 2.5215, 'grad_norm': 1.5049337148666382, 'learning_rate': 1.064122194575998e-06, 'epoch': 0.7} {'loss': 2.3293, 'grad_norm': 1.656086802482605, 'learning_rate': 1.06376661113818e-06, 'epoch': 0.7} {'loss': 2.0044, 'grad_norm': 1.5716168880462646, 'learning_rate': 1.0634110710642187e-06, 'epoch': 0.7} {'loss': 1.774, 'grad_norm': 1.7000935077667236, 'learning_rate': 1.0630555743648508e-06, 'epoch': 0.7} {'loss': 2.2667, 'grad_norm': 1.6421757936477661, 'learning_rate': 1.0627001210508081e-06, 'epoch': 0.7} {'loss': 2.0914, 'grad_norm': 1.6708663702011108, 'learning_rate': 1.062344711132823e-06, 'epoch': 0.7} {'loss': 2.5081, 'grad_norm': 1.5698657035827637, 'learning_rate': 1.0619893446216288e-06, 'epoch': 0.7} {'loss': 2.2489, 'grad_norm': 1.737369418144226, 'learning_rate': 1.0616340215279512e-06, 'epoch': 0.7} {'loss': 2.1834, 'grad_norm': 1.9027429819107056, 'learning_rate': 1.061278741862521e-06, 'epoch': 0.7} {'loss': 1.9883, 'grad_norm': 1.5300862789154053, 'learning_rate': 1.0609235056360628e-06, 'epoch': 0.7} {'loss': 2.4491, 'grad_norm': 1.686586856842041, 'learning_rate': 1.0605683128593038e-06, 'epoch': 0.71} {'loss': 2.4589, 'grad_norm': 1.6451681852340698, 'learning_rate': 1.0602131635429691e-06, 'epoch': 0.71} {'loss': 1.9059, 'grad_norm': 2.1105263233184814, 'learning_rate': 1.0598580576977796e-06, 'epoch': 0.71} {'loss': 2.4027, 'grad_norm': 1.5471843481063843, 'learning_rate': 1.0595029953344585e-06, 'epoch': 0.71} {'loss': 2.2719, 'grad_norm': 1.7520183324813843, 'learning_rate': 1.0591479764637246e-06, 'epoch': 0.71} {'loss': 1.361, 'grad_norm': 1.680022120475769, 'learning_rate': 1.058793001096299e-06, 'epoch': 0.71} {'loss': 1.5978, 'grad_norm': 1.5704519748687744, 'learning_rate': 1.058438069242898e-06, 'epoch': 0.71} {'loss': 2.3336, 'grad_norm': 1.8138933181762695, 'learning_rate': 1.0580831809142372e-06, 'epoch': 0.71} {'loss': 2.2867, 'grad_norm': 1.8032770156860352, 'learning_rate': 1.0577283361210333e-06, 'epoch': 0.71} {'loss': 2.367, 'grad_norm': 1.6457586288452148, 'learning_rate': 1.0573735348739988e-06, 'epoch': 0.71} {'loss': 2.1439, 'grad_norm': 2.054763078689575, 'learning_rate': 1.0570187771838473e-06, 'epoch': 0.71} {'loss': 2.4392, 'grad_norm': 1.573377251625061, 'learning_rate': 1.0566640630612885e-06, 'epoch': 0.71} {'loss': 2.2328, 'grad_norm': 1.6951032876968384, 'learning_rate': 1.0563093925170329e-06, 'epoch': 0.71} {'loss': 2.4531, 'grad_norm': 1.1768978834152222, 'learning_rate': 1.05595476556179e-06, 'epoch': 0.71} {'loss': 2.2346, 'grad_norm': 2.3675241470336914, 'learning_rate': 1.0556001822062662e-06, 'epoch': 0.71} {'loss': 2.1865, 'grad_norm': 1.6962181329727173, 'learning_rate': 1.0552456424611671e-06, 'epoch': 0.71} {'loss': 1.7758, 'grad_norm': 1.3659477233886719, 'learning_rate': 1.0548911463371963e-06, 'epoch': 0.71} {'loss': 2.0634, 'grad_norm': 1.298661470413208, 'learning_rate': 1.0545366938450583e-06, 'epoch': 0.71} {'loss': 2.2689, 'grad_norm': 2.0331406593322754, 'learning_rate': 1.0541822849954553e-06, 'epoch': 0.71} {'loss': 2.3358, 'grad_norm': 1.711195945739746, 'learning_rate': 1.0538279197990866e-06, 'epoch': 0.71} {'loss': 2.5492, 'grad_norm': 1.734521508216858, 'learning_rate': 1.0534735982666533e-06, 'epoch': 0.71} {'loss': 2.4321, 'grad_norm': 1.5865144729614258, 'learning_rate': 1.053119320408851e-06, 'epoch': 0.71} {'loss': 2.1749, 'grad_norm': 1.808122158050537, 'learning_rate': 1.0527650862363786e-06, 'epoch': 0.71} {'loss': 2.1272, 'grad_norm': 1.5325571298599243, 'learning_rate': 1.0524108957599305e-06, 'epoch': 0.71} {'loss': 2.0542, 'grad_norm': 1.6381237506866455, 'learning_rate': 1.0520567489901996e-06, 'epoch': 0.71} {'loss': 2.3071, 'grad_norm': 1.644676923751831, 'learning_rate': 1.0517026459378804e-06, 'epoch': 0.71} {'loss': 2.2984, 'grad_norm': 1.673045039176941, 'learning_rate': 1.0513485866136625e-06, 'epoch': 0.71} {'loss': 2.2131, 'grad_norm': 1.5246354341506958, 'learning_rate': 1.0509945710282376e-06, 'epoch': 0.71} {'loss': 2.2154, 'grad_norm': 1.222246766090393, 'learning_rate': 1.050640599192293e-06, 'epoch': 0.71} {'loss': 2.0646, 'grad_norm': 1.6176495552062988, 'learning_rate': 1.0502866711165163e-06, 'epoch': 0.71} {'loss': 2.1276, 'grad_norm': 1.4500370025634766, 'learning_rate': 1.0499327868115952e-06, 'epoch': 0.71} {'loss': 2.1077, 'grad_norm': 1.6260019540786743, 'learning_rate': 1.0495789462882124e-06, 'epoch': 0.71} {'loss': 1.9413, 'grad_norm': 1.3943232297897339, 'learning_rate': 1.0492251495570539e-06, 'epoch': 0.71} {'loss': 2.3178, 'grad_norm': 1.5853110551834106, 'learning_rate': 1.0488713966287981e-06, 'epoch': 0.71} {'loss': 2.222, 'grad_norm': 4.285523891448975, 'learning_rate': 1.048517687514128e-06, 'epoch': 0.71} {'loss': 2.2443, 'grad_norm': 1.918606162071228, 'learning_rate': 1.0481640222237235e-06, 'epoch': 0.71} {'loss': 1.409, 'grad_norm': 1.5251004695892334, 'learning_rate': 1.047810400768261e-06, 'epoch': 0.71} {'loss': 2.2482, 'grad_norm': 1.6024279594421387, 'learning_rate': 1.0474568231584194e-06, 'epoch': 0.71} {'loss': 2.1303, 'grad_norm': 1.595329999923706, 'learning_rate': 1.047103289404872e-06, 'epoch': 0.71} {'loss': 2.2271, 'grad_norm': 1.6175079345703125, 'learning_rate': 1.0467497995182954e-06, 'epoch': 0.71} {'loss': 2.3161, 'grad_norm': 1.5904220342636108, 'learning_rate': 1.046396353509361e-06, 'epoch': 0.71} {'loss': 1.8713, 'grad_norm': 1.7226747274398804, 'learning_rate': 1.0460429513887393e-06, 'epoch': 0.71} {'loss': 2.3328, 'grad_norm': 1.6587103605270386, 'learning_rate': 1.0456895931671027e-06, 'epoch': 0.71} {'loss': 2.2356, 'grad_norm': 1.647918701171875, 'learning_rate': 1.045336278855118e-06, 'epoch': 0.71} {'loss': 2.2773, 'grad_norm': 1.4677350521087646, 'learning_rate': 1.0449830084634549e-06, 'epoch': 0.71} {'loss': 2.0926, 'grad_norm': 1.3956334590911865, 'learning_rate': 1.0446297820027774e-06, 'epoch': 0.71} {'loss': 2.2643, 'grad_norm': 1.9282944202423096, 'learning_rate': 1.0442765994837511e-06, 'epoch': 0.71} {'loss': 2.0155, 'grad_norm': 1.6915762424468994, 'learning_rate': 1.043923460917041e-06, 'epoch': 0.71} {'loss': 2.1532, 'grad_norm': 1.528550386428833, 'learning_rate': 1.0435703663133072e-06, 'epoch': 0.71} {'loss': 2.0915, 'grad_norm': 1.874492883682251, 'learning_rate': 1.0432173156832126e-06, 'epoch': 0.71} {'loss': 2.3143, 'grad_norm': 2.1598267555236816, 'learning_rate': 1.0428643090374158e-06, 'epoch': 0.71} {'loss': 2.3989, 'grad_norm': 1.8185573816299438, 'learning_rate': 1.042511346386574e-06, 'epoch': 0.71} {'loss': 2.1211, 'grad_norm': 1.8784698247909546, 'learning_rate': 1.0421584277413463e-06, 'epoch': 0.71} {'loss': 2.1158, 'grad_norm': 1.5936195850372314, 'learning_rate': 1.0418055531123859e-06, 'epoch': 0.71} {'loss': 2.0404, 'grad_norm': 1.6007400751113892, 'learning_rate': 1.0414527225103493e-06, 'epoch': 0.71} {'loss': 2.4004, 'grad_norm': 1.7409948110580444, 'learning_rate': 1.0410999359458876e-06, 'epoch': 0.71} {'loss': 2.2638, 'grad_norm': 1.454012393951416, 'learning_rate': 1.040747193429654e-06, 'epoch': 0.71} {'loss': 2.3119, 'grad_norm': 5.39058780670166, 'learning_rate': 1.0403944949722972e-06, 'epoch': 0.71} {'loss': 2.2329, 'grad_norm': 1.9749751091003418, 'learning_rate': 1.040041840584468e-06, 'epoch': 0.71} {'loss': 2.1977, 'grad_norm': 1.6986820697784424, 'learning_rate': 1.0396892302768128e-06, 'epoch': 0.71} {'loss': 2.2312, 'grad_norm': 1.6145622730255127, 'learning_rate': 1.0393366640599769e-06, 'epoch': 0.71} {'loss': 2.2783, 'grad_norm': 1.845630168914795, 'learning_rate': 1.0389841419446076e-06, 'epoch': 0.71} {'loss': 2.013, 'grad_norm': 1.1599345207214355, 'learning_rate': 1.0386316639413463e-06, 'epoch': 0.71} {'loss': 2.1663, 'grad_norm': 1.4220608472824097, 'learning_rate': 1.038279230060836e-06, 'epoch': 0.71} {'loss': 1.5242, 'grad_norm': 1.5950074195861816, 'learning_rate': 1.0379268403137192e-06, 'epoch': 0.71} {'loss': 2.3082, 'grad_norm': 1.408125638961792, 'learning_rate': 1.0375744947106334e-06, 'epoch': 0.71} {'loss': 2.3042, 'grad_norm': 1.6864337921142578, 'learning_rate': 1.0372221932622185e-06, 'epoch': 0.71} {'loss': 2.2198, 'grad_norm': 1.6740928888320923, 'learning_rate': 1.0368699359791107e-06, 'epoch': 0.71} {'loss': 2.1198, 'grad_norm': 1.73906672000885, 'learning_rate': 1.0365177228719445e-06, 'epoch': 0.71} {'loss': 2.3067, 'grad_norm': 1.684098243713379, 'learning_rate': 1.0361655539513565e-06, 'epoch': 0.71} {'loss': 2.3935, 'grad_norm': 1.5247950553894043, 'learning_rate': 1.0358134292279777e-06, 'epoch': 0.71} {'loss': 2.2276, 'grad_norm': 1.7733497619628906, 'learning_rate': 1.035461348712441e-06, 'epoch': 0.71} {'loss': 2.3117, 'grad_norm': 1.656057357788086, 'learning_rate': 1.0351093124153756e-06, 'epoch': 0.71} {'loss': 2.1529, 'grad_norm': 1.5175554752349854, 'learning_rate': 1.0347573203474114e-06, 'epoch': 0.71} {'loss': 2.254, 'grad_norm': 2.1124982833862305, 'learning_rate': 1.0344053725191753e-06, 'epoch': 0.71} {'loss': 2.2412, 'grad_norm': 1.603523850440979, 'learning_rate': 1.0340534689412937e-06, 'epoch': 0.71} {'loss': 2.2599, 'grad_norm': 1.6044893264770508, 'learning_rate': 1.0337016096243935e-06, 'epoch': 0.71} {'loss': 2.3673, 'grad_norm': 1.9083372354507446, 'learning_rate': 1.033349794579095e-06, 'epoch': 0.71} {'loss': 2.0938, 'grad_norm': 1.6719545125961304, 'learning_rate': 1.0329980238160216e-06, 'epoch': 0.71} {'loss': 2.2924, 'grad_norm': 1.7234501838684082, 'learning_rate': 1.0326462973457957e-06, 'epoch': 0.71} {'loss': 2.2607, 'grad_norm': 1.817234754562378, 'learning_rate': 1.032294615179035e-06, 'epoch': 0.71} {'loss': 2.1532, 'grad_norm': 1.6956377029418945, 'learning_rate': 1.0319429773263598e-06, 'epoch': 0.71} {'loss': 1.866, 'grad_norm': 1.3565258979797363, 'learning_rate': 1.0315913837983846e-06, 'epoch': 0.71} {'loss': 2.0972, 'grad_norm': 1.5621250867843628, 'learning_rate': 1.031239834605727e-06, 'epoch': 0.71} {'loss': 2.0893, 'grad_norm': 1.6549502611160278, 'learning_rate': 1.0308883297589998e-06, 'epoch': 0.71} {'loss': 2.3432, 'grad_norm': 1.9097529649734497, 'learning_rate': 1.0305368692688175e-06, 'epoch': 0.71} {'loss': 2.1801, 'grad_norm': 1.4619221687316895, 'learning_rate': 1.0301854531457906e-06, 'epoch': 0.71} {'loss': 2.1199, 'grad_norm': 1.7705563306808472, 'learning_rate': 1.0298340814005284e-06, 'epoch': 0.71} {'loss': 2.3421, 'grad_norm': 1.7643451690673828, 'learning_rate': 1.0294827540436419e-06, 'epoch': 0.71} {'loss': 2.2093, 'grad_norm': 1.7254486083984375, 'learning_rate': 1.0291314710857366e-06, 'epoch': 0.71} {'loss': 2.1616, 'grad_norm': 1.3513089418411255, 'learning_rate': 1.02878023253742e-06, 'epoch': 0.71} {'loss': 2.3855, 'grad_norm': 1.5127323865890503, 'learning_rate': 1.0284290384092972e-06, 'epoch': 0.71} {'loss': 2.0225, 'grad_norm': 1.6593576669692993, 'learning_rate': 1.0280778887119701e-06, 'epoch': 0.71} {'loss': 2.3759, 'grad_norm': 1.60959792137146, 'learning_rate': 1.0277267834560442e-06, 'epoch': 0.71} {'loss': 2.1954, 'grad_norm': 1.8426936864852905, 'learning_rate': 1.0273757226521158e-06, 'epoch': 0.71} {'loss': 2.6513, 'grad_norm': 1.416579008102417, 'learning_rate': 1.027024706310787e-06, 'epoch': 0.71} {'loss': 2.3994, 'grad_norm': 1.4863415956497192, 'learning_rate': 1.0266737344426563e-06, 'epoch': 0.71} {'loss': 2.0744, 'grad_norm': 1.347847819328308, 'learning_rate': 1.0263228070583191e-06, 'epoch': 0.71} {'loss': 2.0281, 'grad_norm': 1.3061292171478271, 'learning_rate': 1.0259719241683728e-06, 'epoch': 0.71} {'loss': 2.4737, 'grad_norm': 1.8423125743865967, 'learning_rate': 1.025621085783409e-06, 'epoch': 0.71} {'loss': 2.4874, 'grad_norm': 2.7014732360839844, 'learning_rate': 1.0252702919140227e-06, 'epoch': 0.71} {'loss': 1.9468, 'grad_norm': 1.797450304031372, 'learning_rate': 1.024919542570804e-06, 'epoch': 0.71} {'loss': 2.1387, 'grad_norm': 1.7571072578430176, 'learning_rate': 1.024568837764344e-06, 'epoch': 0.71} {'loss': 1.625, 'grad_norm': 1.4507173299789429, 'learning_rate': 1.0242181775052309e-06, 'epoch': 0.71} {'loss': 2.1399, 'grad_norm': 1.697406530380249, 'learning_rate': 1.0238675618040513e-06, 'epoch': 0.71} {'loss': 2.2555, 'grad_norm': 1.7016774415969849, 'learning_rate': 1.0235169906713929e-06, 'epoch': 0.71} {'loss': 2.4825, 'grad_norm': 1.6369526386260986, 'learning_rate': 1.0231664641178387e-06, 'epoch': 0.71} {'loss': 2.3146, 'grad_norm': 1.7055038213729858, 'learning_rate': 1.022815982153973e-06, 'epoch': 0.71} {'loss': 2.4232, 'grad_norm': 1.595940113067627, 'learning_rate': 1.0224655447903784e-06, 'epoch': 0.71} {'loss': 2.1467, 'grad_norm': 1.807673692703247, 'learning_rate': 1.0221151520376343e-06, 'epoch': 0.71} {'loss': 2.4526, 'grad_norm': 1.953956961631775, 'learning_rate': 1.0217648039063212e-06, 'epoch': 0.71} {'loss': 2.2679, 'grad_norm': 1.6193172931671143, 'learning_rate': 1.0214145004070169e-06, 'epoch': 0.71} {'loss': 2.0736, 'grad_norm': 1.5952731370925903, 'learning_rate': 1.0210642415502966e-06, 'epoch': 0.71} {'loss': 2.166, 'grad_norm': 1.5814799070358276, 'learning_rate': 1.0207140273467376e-06, 'epoch': 0.71} {'loss': 2.149, 'grad_norm': 1.6656551361083984, 'learning_rate': 1.020363857806912e-06, 'epoch': 0.71} {'loss': 1.7666, 'grad_norm': 1.6760048866271973, 'learning_rate': 1.020013732941394e-06, 'epoch': 0.71} {'loss': 2.168, 'grad_norm': 1.4116264581680298, 'learning_rate': 1.0196636527607533e-06, 'epoch': 0.71} {'loss': 2.4333, 'grad_norm': 2.0918920040130615, 'learning_rate': 1.0193136172755615e-06, 'epoch': 0.71} {'loss': 1.9145, 'grad_norm': 1.5025862455368042, 'learning_rate': 1.0189636264963853e-06, 'epoch': 0.71} {'loss': 2.1802, 'grad_norm': 1.5931082963943481, 'learning_rate': 1.0186136804337928e-06, 'epoch': 0.71} {'loss': 2.3584, 'grad_norm': 1.7297303676605225, 'learning_rate': 1.0182637790983518e-06, 'epoch': 0.71} {'loss': 2.3234, 'grad_norm': 1.9211127758026123, 'learning_rate': 1.0179139225006233e-06, 'epoch': 0.71} {'loss': 2.213, 'grad_norm': 1.8109031915664673, 'learning_rate': 1.0175641106511725e-06, 'epoch': 0.71} {'loss': 2.4575, 'grad_norm': 1.7879114151000977, 'learning_rate': 1.0172143435605596e-06, 'epoch': 0.71} {'loss': 2.1004, 'grad_norm': 1.6309438943862915, 'learning_rate': 1.0168646212393466e-06, 'epoch': 0.71} {'loss': 2.3409, 'grad_norm': 1.6761034727096558, 'learning_rate': 1.0165149436980926e-06, 'epoch': 0.71} {'loss': 2.1726, 'grad_norm': 1.74293851852417, 'learning_rate': 1.0161653109473541e-06, 'epoch': 0.71} {'loss': 2.359, 'grad_norm': 1.575188398361206, 'learning_rate': 1.0158157229976891e-06, 'epoch': 0.71} {'loss': 2.3276, 'grad_norm': 1.4890146255493164, 'learning_rate': 1.0154661798596507e-06, 'epoch': 0.71} {'loss': 2.2189, 'grad_norm': 1.637580394744873, 'learning_rate': 1.0151166815437948e-06, 'epoch': 0.71} {'loss': 2.2335, 'grad_norm': 1.5670219659805298, 'learning_rate': 1.0147672280606725e-06, 'epoch': 0.71} {'loss': 2.4053, 'grad_norm': 1.6711164712905884, 'learning_rate': 1.0144178194208334e-06, 'epoch': 0.71} {'loss': 1.9605, 'grad_norm': 1.3472957611083984, 'learning_rate': 1.0140684556348298e-06, 'epoch': 0.71} {'loss': 2.333, 'grad_norm': 1.9425486326217651, 'learning_rate': 1.013719136713208e-06, 'epoch': 0.71} {'loss': 2.3482, 'grad_norm': 1.901516079902649, 'learning_rate': 1.013369862666516e-06, 'epoch': 0.71} {'loss': 2.0743, 'grad_norm': 1.2509821653366089, 'learning_rate': 1.0130206335052984e-06, 'epoch': 0.71} {'loss': 2.2487, 'grad_norm': 1.5813885927200317, 'learning_rate': 1.0126714492400997e-06, 'epoch': 0.71} {'loss': 2.278, 'grad_norm': 1.6014384031295776, 'learning_rate': 1.012322309881464e-06, 'epoch': 0.71} {'loss': 2.1737, 'grad_norm': 1.623510479927063, 'learning_rate': 1.0119732154399315e-06, 'epoch': 0.71} {'loss': 2.2134, 'grad_norm': 1.6152609586715698, 'learning_rate': 1.0116241659260426e-06, 'epoch': 0.71} {'loss': 2.2515, 'grad_norm': 1.4666091203689575, 'learning_rate': 1.0112751613503351e-06, 'epoch': 0.71} {'loss': 2.0985, 'grad_norm': 1.5660905838012695, 'learning_rate': 1.0109262017233475e-06, 'epoch': 0.71} {'loss': 1.5348, 'grad_norm': 2.013782501220703, 'learning_rate': 1.0105772870556168e-06, 'epoch': 0.71} {'loss': 2.4389, 'grad_norm': 1.9828519821166992, 'learning_rate': 1.0102284173576755e-06, 'epoch': 0.71} {'loss': 2.2419, 'grad_norm': 1.743075966835022, 'learning_rate': 1.009879592640059e-06, 'epoch': 0.71} {'loss': 2.1611, 'grad_norm': 1.7927329540252686, 'learning_rate': 1.0095308129132972e-06, 'epoch': 0.71} {'loss': 2.437, 'grad_norm': 1.6797327995300293, 'learning_rate': 1.009182078187923e-06, 'epoch': 0.71} {'loss': 2.2595, 'grad_norm': 1.5960897207260132, 'learning_rate': 1.0088333884744642e-06, 'epoch': 0.71} {'loss': 2.0572, 'grad_norm': 1.9183725118637085, 'learning_rate': 1.0084847437834485e-06, 'epoch': 0.71} {'loss': 2.0971, 'grad_norm': 1.6868170499801636, 'learning_rate': 1.0081361441254036e-06, 'epoch': 0.71} {'loss': 2.3448, 'grad_norm': 1.3855805397033691, 'learning_rate': 1.0077875895108533e-06, 'epoch': 0.71} {'loss': 2.4102, 'grad_norm': 1.7758663892745972, 'learning_rate': 1.0074390799503232e-06, 'epoch': 0.71} {'loss': 2.1379, 'grad_norm': 1.4154947996139526, 'learning_rate': 1.0070906154543337e-06, 'epoch': 0.71} {'loss': 2.3954, 'grad_norm': 1.563723087310791, 'learning_rate': 1.0067421960334068e-06, 'epoch': 0.71} {'loss': 2.2335, 'grad_norm': 8.160460472106934, 'learning_rate': 1.0063938216980635e-06, 'epoch': 0.71} {'loss': 2.2146, 'grad_norm': 1.4473636150360107, 'learning_rate': 1.0060454924588209e-06, 'epoch': 0.71} {'loss': 2.2174, 'grad_norm': 1.876969337463379, 'learning_rate': 1.0056972083261964e-06, 'epoch': 0.71} {'loss': 2.1378, 'grad_norm': 1.6606723070144653, 'learning_rate': 1.0053489693107046e-06, 'epoch': 0.71} {'loss': 1.9304, 'grad_norm': 1.3990530967712402, 'learning_rate': 1.0050007754228605e-06, 'epoch': 0.71} {'loss': 2.0643, 'grad_norm': 1.897652506828308, 'learning_rate': 1.0046526266731781e-06, 'epoch': 0.71} {'loss': 2.2772, 'grad_norm': 2.280444622039795, 'learning_rate': 1.0043045230721677e-06, 'epoch': 0.71} {'loss': 2.5019, 'grad_norm': 1.7333533763885498, 'learning_rate': 1.0039564646303402e-06, 'epoch': 0.71} {'loss': 2.1006, 'grad_norm': 1.9889737367630005, 'learning_rate': 1.0036084513582033e-06, 'epoch': 0.71} {'loss': 2.2811, 'grad_norm': 1.6957447528839111, 'learning_rate': 1.0032604832662666e-06, 'epoch': 0.71} {'loss': 2.3583, 'grad_norm': 1.6017751693725586, 'learning_rate': 1.0029125603650348e-06, 'epoch': 0.71} {'loss': 2.3552, 'grad_norm': 1.7660354375839233, 'learning_rate': 1.0025646826650114e-06, 'epoch': 0.71} {'loss': 2.1745, 'grad_norm': 1.5385384559631348, 'learning_rate': 1.0022168501767028e-06, 'epoch': 0.71} {'loss': 2.0972, 'grad_norm': 2.7813074588775635, 'learning_rate': 1.0018690629106082e-06, 'epoch': 0.71} {'loss': 2.1834, 'grad_norm': 1.7188986539840698, 'learning_rate': 1.00152132087723e-06, 'epoch': 0.71} {'loss': 2.5086, 'grad_norm': 1.6670805215835571, 'learning_rate': 1.0011736240870668e-06, 'epoch': 0.71} {'loss': 1.7868, 'grad_norm': 1.4096423387527466, 'learning_rate': 1.000825972550616e-06, 'epoch': 0.71} {'loss': 2.193, 'grad_norm': 1.936859130859375, 'learning_rate': 1.0004783662783762e-06, 'epoch': 0.71} {'loss': 2.3164, 'grad_norm': 1.9273371696472168, 'learning_rate': 1.0001308052808403e-06, 'epoch': 0.71} {'loss': 2.3003, 'grad_norm': 1.6853857040405273, 'learning_rate': 9.99783289568504e-07, 'epoch': 0.71} {'loss': 2.1036, 'grad_norm': 1.9177638292312622, 'learning_rate': 9.994358191518585e-07, 'epoch': 0.71} {'loss': 2.5629, 'grad_norm': 1.6738368272781372, 'learning_rate': 9.990883940413944e-07, 'epoch': 0.71} {'loss': 2.4507, 'grad_norm': 1.7744426727294922, 'learning_rate': 9.987410142476034e-07, 'epoch': 0.71} {'loss': 2.2782, 'grad_norm': 1.5843541622161865, 'learning_rate': 9.983936797809719e-07, 'epoch': 0.71} {'loss': 2.3955, 'grad_norm': 1.5022573471069336, 'learning_rate': 9.980463906519883e-07, 'epoch': 0.71} {'loss': 2.4444, 'grad_norm': 1.4804338216781616, 'learning_rate': 9.97699146871137e-07, 'epoch': 0.71} {'loss': 1.658, 'grad_norm': 1.29953134059906, 'learning_rate': 9.973519484489033e-07, 'epoch': 0.71} {'loss': 2.0318, 'grad_norm': 1.5949132442474365, 'learning_rate': 9.970047953957692e-07, 'epoch': 0.71} {'loss': 2.1459, 'grad_norm': 1.5480730533599854, 'learning_rate': 9.966576877222172e-07, 'epoch': 0.71} {'loss': 2.1994, 'grad_norm': 1.8409003019332886, 'learning_rate': 9.963106254387273e-07, 'epoch': 0.71} {'loss': 2.0204, 'grad_norm': 1.6174437999725342, 'learning_rate': 9.959636085557766e-07, 'epoch': 0.71} {'loss': 1.9467, 'grad_norm': 1.3859132528305054, 'learning_rate': 9.956166370838441e-07, 'epoch': 0.71} {'loss': 2.3274, 'grad_norm': 1.7236534357070923, 'learning_rate': 9.95269711033406e-07, 'epoch': 0.72} {'loss': 2.3388, 'grad_norm': 1.7057554721832275, 'learning_rate': 9.949228304149358e-07, 'epoch': 0.72} {'loss': 2.2872, 'grad_norm': 1.9243016242980957, 'learning_rate': 9.945759952389084e-07, 'epoch': 0.72} {'loss': 2.1414, 'grad_norm': 1.719719648361206, 'learning_rate': 9.942292055157936e-07, 'epoch': 0.72} {'loss': 2.0958, 'grad_norm': 1.886082410812378, 'learning_rate': 9.938824612560643e-07, 'epoch': 0.72} {'loss': 2.4503, 'grad_norm': 1.6132436990737915, 'learning_rate': 9.935357624701882e-07, 'epoch': 0.72} {'loss': 2.1705, 'grad_norm': 1.735641598701477, 'learning_rate': 9.931891091686327e-07, 'epoch': 0.72} {'loss': 2.0915, 'grad_norm': 1.5183067321777344, 'learning_rate': 9.928425013618656e-07, 'epoch': 0.72} {'loss': 2.2943, 'grad_norm': 1.944667100906372, 'learning_rate': 9.924959390603505e-07, 'epoch': 0.72} {'loss': 2.2791, 'grad_norm': 1.656855821609497, 'learning_rate': 9.921494222745525e-07, 'epoch': 0.72} {'loss': 2.1963, 'grad_norm': 1.6037155389785767, 'learning_rate': 9.918029510149323e-07, 'epoch': 0.72} {'loss': 2.2185, 'grad_norm': 1.709151029586792, 'learning_rate': 9.914565252919529e-07, 'epoch': 0.72} {'loss': 2.049, 'grad_norm': 1.7206956148147583, 'learning_rate': 9.911101451160714e-07, 'epoch': 0.72} {'loss': 2.233, 'grad_norm': 1.656825304031372, 'learning_rate': 9.907638104977484e-07, 'epoch': 0.72} {'loss': 2.5056, 'grad_norm': 2.0791687965393066, 'learning_rate': 9.904175214474397e-07, 'epoch': 0.72} {'loss': 2.2094, 'grad_norm': 1.3037962913513184, 'learning_rate': 9.900712779755992e-07, 'epoch': 0.72} {'loss': 2.3152, 'grad_norm': 1.816622018814087, 'learning_rate': 9.897250800926825e-07, 'epoch': 0.72} {'loss': 2.3297, 'grad_norm': 1.486782193183899, 'learning_rate': 9.893789278091432e-07, 'epoch': 0.72} {'loss': 2.1044, 'grad_norm': 1.5632872581481934, 'learning_rate': 9.890328211354305e-07, 'epoch': 0.72} {'loss': 1.8648, 'grad_norm': 1.1864235401153564, 'learning_rate': 9.88686760081996e-07, 'epoch': 0.72} {'loss': 2.2695, 'grad_norm': 1.7350009679794312, 'learning_rate': 9.88340744659287e-07, 'epoch': 0.72} {'loss': 2.2062, 'grad_norm': 1.4052081108093262, 'learning_rate': 9.879947748777519e-07, 'epoch': 0.72} {'loss': 2.4953, 'grad_norm': 1.5788730382919312, 'learning_rate': 9.876488507478357e-07, 'epoch': 0.72} {'loss': 2.1384, 'grad_norm': 1.606863021850586, 'learning_rate': 9.873029722799821e-07, 'epoch': 0.72} {'loss': 1.982, 'grad_norm': 1.8948838710784912, 'learning_rate': 9.86957139484636e-07, 'epoch': 0.72} {'loss': 2.3018, 'grad_norm': 1.8065743446350098, 'learning_rate': 9.866113523722368e-07, 'epoch': 0.72} {'loss': 2.2288, 'grad_norm': 1.865108609199524, 'learning_rate': 9.862656109532267e-07, 'epoch': 0.72} {'loss': 2.3343, 'grad_norm': 1.7274549007415771, 'learning_rate': 9.859199152380432e-07, 'epoch': 0.72} {'loss': 2.3312, 'grad_norm': 1.6106904745101929, 'learning_rate': 9.855742652371244e-07, 'epoch': 0.72} {'loss': 2.4009, 'grad_norm': 1.7724417448043823, 'learning_rate': 9.852286609609073e-07, 'epoch': 0.72} {'loss': 2.4125, 'grad_norm': 1.6719903945922852, 'learning_rate': 9.848831024198253e-07, 'epoch': 0.72} {'loss': 1.9139, 'grad_norm': 1.7767596244812012, 'learning_rate': 9.845375896243136e-07, 'epoch': 0.72} {'loss': 2.2722, 'grad_norm': 1.5067355632781982, 'learning_rate': 9.841921225848013e-07, 'epoch': 0.72} {'loss': 2.3067, 'grad_norm': 1.695371389389038, 'learning_rate': 9.838467013117205e-07, 'epoch': 0.72} {'loss': 2.0634, 'grad_norm': 1.5852224826812744, 'learning_rate': 9.835013258155015e-07, 'epoch': 0.72} {'loss': 2.2966, 'grad_norm': 1.7498137950897217, 'learning_rate': 9.831559961065703e-07, 'epoch': 0.72} {'loss': 2.0306, 'grad_norm': 1.6534483432769775, 'learning_rate': 9.82810712195355e-07, 'epoch': 0.72} {'loss': 2.2779, 'grad_norm': 1.7172023057937622, 'learning_rate': 9.82465474092279e-07, 'epoch': 0.72} {'loss': 2.0247, 'grad_norm': 1.6410117149353027, 'learning_rate': 9.82120281807768e-07, 'epoch': 0.72} {'loss': 2.1043, 'grad_norm': 2.04189133644104, 'learning_rate': 9.81775135352242e-07, 'epoch': 0.72} {'loss': 2.2717, 'grad_norm': 1.4385830163955688, 'learning_rate': 9.81430034736124e-07, 'epoch': 0.72} {'loss': 2.2736, 'grad_norm': 1.7252424955368042, 'learning_rate': 9.810849799698327e-07, 'epoch': 0.72} {'loss': 2.2341, 'grad_norm': 1.7896933555603027, 'learning_rate': 9.807399710637854e-07, 'epoch': 0.72} {'loss': 2.3407, 'grad_norm': 1.7641234397888184, 'learning_rate': 9.803950080284004e-07, 'epoch': 0.72} {'loss': 1.7029, 'grad_norm': 1.532314658164978, 'learning_rate': 9.800500908740918e-07, 'epoch': 0.72} {'loss': 2.2851, 'grad_norm': 1.7642022371292114, 'learning_rate': 9.79705219611274e-07, 'epoch': 0.72} {'loss': 2.1764, 'grad_norm': 2.1447269916534424, 'learning_rate': 9.793603942503605e-07, 'epoch': 0.72} {'loss': 2.1294, 'grad_norm': 1.8479738235473633, 'learning_rate': 9.79015614801761e-07, 'epoch': 0.72} {'loss': 1.0914, 'grad_norm': 1.827121615409851, 'learning_rate': 9.78670881275887e-07, 'epoch': 0.72} {'loss': 2.4214, 'grad_norm': 1.3318873643875122, 'learning_rate': 9.783261936831465e-07, 'epoch': 0.72} {'loss': 2.4036, 'grad_norm': 1.6663272380828857, 'learning_rate': 9.77981552033945e-07, 'epoch': 0.72} {'loss': 2.1039, 'grad_norm': 4.206426620483398, 'learning_rate': 9.776369563386903e-07, 'epoch': 0.72} {'loss': 2.0137, 'grad_norm': 1.559187650680542, 'learning_rate': 9.772924066077848e-07, 'epoch': 0.72} {'loss': 2.0644, 'grad_norm': 1.9775246381759644, 'learning_rate': 9.769479028516334e-07, 'epoch': 0.72} {'loss': 2.0955, 'grad_norm': 1.5972093343734741, 'learning_rate': 9.766034450806358e-07, 'epoch': 0.72} {'loss': 2.327, 'grad_norm': 1.52053701877594, 'learning_rate': 9.762590333051938e-07, 'epoch': 0.72} {'loss': 2.4525, 'grad_norm': 1.827425479888916, 'learning_rate': 9.759146675357043e-07, 'epoch': 0.72} {'loss': 2.311, 'grad_norm': 1.6869516372680664, 'learning_rate': 9.755703477825656e-07, 'epoch': 0.72} {'loss': 1.9103, 'grad_norm': 1.5038954019546509, 'learning_rate': 9.752260740561756e-07, 'epoch': 0.72} {'loss': 1.5068, 'grad_norm': 1.57069730758667, 'learning_rate': 9.748818463669251e-07, 'epoch': 0.72} {'loss': 2.0319, 'grad_norm': 1.3948854207992554, 'learning_rate': 9.745376647252103e-07, 'epoch': 0.72} {'loss': 2.3218, 'grad_norm': 1.6163214445114136, 'learning_rate': 9.741935291414209e-07, 'epoch': 0.72} {'loss': 1.9694, 'grad_norm': 1.5934134721755981, 'learning_rate': 9.73849439625948e-07, 'epoch': 0.72} {'loss': 2.3282, 'grad_norm': 1.6093553304672241, 'learning_rate': 9.735053961891818e-07, 'epoch': 0.72} {'loss': 2.1036, 'grad_norm': 1.5333808660507202, 'learning_rate': 9.731613988415084e-07, 'epoch': 0.72} {'loss': 2.2019, 'grad_norm': 1.7105475664138794, 'learning_rate': 9.728174475933153e-07, 'epoch': 0.72} {'loss': 2.2173, 'grad_norm': 1.8419528007507324, 'learning_rate': 9.724735424549869e-07, 'epoch': 0.72} {'loss': 1.994, 'grad_norm': 1.5500503778457642, 'learning_rate': 9.721296834369055e-07, 'epoch': 0.72} {'loss': 2.4405, 'grad_norm': 1.6116838455200195, 'learning_rate': 9.717858705494545e-07, 'epoch': 0.72} {'loss': 2.2772, 'grad_norm': 2.1038827896118164, 'learning_rate': 9.714421038030136e-07, 'epoch': 0.72} {'loss': 2.3052, 'grad_norm': 1.913238763809204, 'learning_rate': 9.710983832079638e-07, 'epoch': 0.72} {'loss': 2.2563, 'grad_norm': 1.5262181758880615, 'learning_rate': 9.707547087746806e-07, 'epoch': 0.72} {'loss': 2.2487, 'grad_norm': 1.8828433752059937, 'learning_rate': 9.704110805135425e-07, 'epoch': 0.72} {'loss': 2.3031, 'grad_norm': 1.68618643283844, 'learning_rate': 9.70067498434923e-07, 'epoch': 0.72} {'loss': 2.1775, 'grad_norm': 1.7333561182022095, 'learning_rate': 9.697239625491962e-07, 'epoch': 0.72} {'loss': 2.3235, 'grad_norm': 1.7993675470352173, 'learning_rate': 9.693804728667367e-07, 'epoch': 0.72} {'loss': 2.4873, 'grad_norm': 1.7402900457382202, 'learning_rate': 9.690370293979119e-07, 'epoch': 0.72} {'loss': 1.9529, 'grad_norm': 1.423268437385559, 'learning_rate': 9.686936321530935e-07, 'epoch': 0.72} {'loss': 2.2207, 'grad_norm': 1.9857475757598877, 'learning_rate': 9.683502811426483e-07, 'epoch': 0.72} {'loss': 2.1285, 'grad_norm': 1.782705545425415, 'learning_rate': 9.680069763769434e-07, 'epoch': 0.72} {'loss': 2.0209, 'grad_norm': 1.4101264476776123, 'learning_rate': 9.676637178663454e-07, 'epoch': 0.72} {'loss': 2.1842, 'grad_norm': 2.479642868041992, 'learning_rate': 9.673205056212165e-07, 'epoch': 0.72} {'loss': 2.4476, 'grad_norm': 1.939288854598999, 'learning_rate': 9.669773396519205e-07, 'epoch': 0.72} {'loss': 2.4108, 'grad_norm': 1.7546199560165405, 'learning_rate': 9.666342199688171e-07, 'epoch': 0.72} {'loss': 1.9844, 'grad_norm': 1.9450230598449707, 'learning_rate': 9.662911465822683e-07, 'epoch': 0.72} {'loss': 2.3305, 'grad_norm': 1.4368069171905518, 'learning_rate': 9.659481195026307e-07, 'epoch': 0.72} {'loss': 2.0329, 'grad_norm': 1.6537367105484009, 'learning_rate': 9.656051387402608e-07, 'epoch': 0.72} {'loss': 2.2313, 'grad_norm': 1.6693559885025024, 'learning_rate': 9.652622043055157e-07, 'epoch': 0.72} {'loss': 2.2811, 'grad_norm': 1.7489796876907349, 'learning_rate': 9.649193162087481e-07, 'epoch': 0.72} {'loss': 2.303, 'grad_norm': 1.7005895376205444, 'learning_rate': 9.64576474460312e-07, 'epoch': 0.72} {'loss': 2.1011, 'grad_norm': 1.705428957939148, 'learning_rate': 9.642336790705573e-07, 'epoch': 0.72} {'loss': 2.0007, 'grad_norm': 1.4421225786209106, 'learning_rate': 9.63890930049835e-07, 'epoch': 0.72} {'loss': 2.2387, 'grad_norm': 1.5915879011154175, 'learning_rate': 9.635482274084942e-07, 'epoch': 0.72} {'loss': 2.36, 'grad_norm': 1.635748267173767, 'learning_rate': 9.63205571156881e-07, 'epoch': 0.72} {'loss': 2.0473, 'grad_norm': 1.6806972026824951, 'learning_rate': 9.62862961305341e-07, 'epoch': 0.72} {'loss': 2.222, 'grad_norm': 1.4549552202224731, 'learning_rate': 9.625203978642195e-07, 'epoch': 0.72} {'loss': 2.3048, 'grad_norm': 1.6591644287109375, 'learning_rate': 9.621778808438582e-07, 'epoch': 0.72} {'loss': 2.267, 'grad_norm': 1.7663167715072632, 'learning_rate': 9.618354102546e-07, 'epoch': 0.72} {'loss': 2.338, 'grad_norm': 2.479940891265869, 'learning_rate': 9.614929861067837e-07, 'epoch': 0.72} {'loss': 2.2034, 'grad_norm': 1.7488800287246704, 'learning_rate': 9.611506084107493e-07, 'epoch': 0.72} {'loss': 2.3895, 'grad_norm': 1.5859686136245728, 'learning_rate': 9.608082771768326e-07, 'epoch': 0.72} {'loss': 2.1089, 'grad_norm': 1.4678804874420166, 'learning_rate': 9.604659924153717e-07, 'epoch': 0.72} {'loss': 1.9349, 'grad_norm': 1.5756306648254395, 'learning_rate': 9.601237541366996e-07, 'epoch': 0.72} {'loss': 2.2096, 'grad_norm': 1.7619761228561401, 'learning_rate': 9.597815623511489e-07, 'epoch': 0.72} {'loss': 2.4473, 'grad_norm': 1.629286289215088, 'learning_rate': 9.594394170690527e-07, 'epoch': 0.72} {'loss': 2.4956, 'grad_norm': 1.7420278787612915, 'learning_rate': 9.590973183007402e-07, 'epoch': 0.72} {'loss': 2.3178, 'grad_norm': 1.7088857889175415, 'learning_rate': 9.587552660565415e-07, 'epoch': 0.72} {'loss': 2.3964, 'grad_norm': 1.8775800466537476, 'learning_rate': 9.584132603467827e-07, 'epoch': 0.72} {'loss': 2.3238, 'grad_norm': 1.6713451147079468, 'learning_rate': 9.580713011817904e-07, 'epoch': 0.72} {'loss': 2.1515, 'grad_norm': 1.4432839155197144, 'learning_rate': 9.577293885718904e-07, 'epoch': 0.72} {'loss': 2.291, 'grad_norm': 1.9533575773239136, 'learning_rate': 9.573875225274055e-07, 'epoch': 0.72} {'loss': 2.2875, 'grad_norm': 2.7596230506896973, 'learning_rate': 9.570457030586557e-07, 'epoch': 0.72} {'loss': 2.3588, 'grad_norm': 2.0629332065582275, 'learning_rate': 9.567039301759643e-07, 'epoch': 0.72} {'loss': 2.1379, 'grad_norm': 2.058253526687622, 'learning_rate': 9.56362203889648e-07, 'epoch': 0.72} {'loss': 2.2914, 'grad_norm': 1.2869269847869873, 'learning_rate': 9.560205242100262e-07, 'epoch': 0.72} {'loss': 2.2908, 'grad_norm': 1.7520211935043335, 'learning_rate': 9.556788911474138e-07, 'epoch': 0.72} {'loss': 2.391, 'grad_norm': 1.5058674812316895, 'learning_rate': 9.55337304712127e-07, 'epoch': 0.72} {'loss': 2.3163, 'grad_norm': 2.1499881744384766, 'learning_rate': 9.549957649144778e-07, 'epoch': 0.72} {'loss': 2.0295, 'grad_norm': 1.3258417844772339, 'learning_rate': 9.546542717647797e-07, 'epoch': 0.72} {'loss': 2.1383, 'grad_norm': 1.4395012855529785, 'learning_rate': 9.543128252733428e-07, 'epoch': 0.72} {'loss': 2.224, 'grad_norm': 1.522682547569275, 'learning_rate': 9.53971425450475e-07, 'epoch': 0.72} {'loss': 2.0814, 'grad_norm': 3.4919302463531494, 'learning_rate': 9.536300723064862e-07, 'epoch': 0.72} {'loss': 2.1856, 'grad_norm': 1.339492917060852, 'learning_rate': 9.53288765851681e-07, 'epoch': 0.72} {'loss': 2.1406, 'grad_norm': 1.9711054563522339, 'learning_rate': 9.52947506096365e-07, 'epoch': 0.72} {'loss': 2.2428, 'grad_norm': 1.586548924446106, 'learning_rate': 9.526062930508429e-07, 'epoch': 0.72} {'loss': 2.3075, 'grad_norm': 1.646143913269043, 'learning_rate': 9.522651267254149e-07, 'epoch': 0.72} {'loss': 2.1219, 'grad_norm': 1.383291244506836, 'learning_rate': 9.519240071303837e-07, 'epoch': 0.72} {'loss': 2.1677, 'grad_norm': 1.6046364307403564, 'learning_rate': 9.515829342760468e-07, 'epoch': 0.72} {'loss': 2.3612, 'grad_norm': 1.8934605121612549, 'learning_rate': 9.512419081727043e-07, 'epoch': 0.72} {'loss': 2.282, 'grad_norm': 1.671269416809082, 'learning_rate': 9.509009288306512e-07, 'epoch': 0.72} {'loss': 2.1745, 'grad_norm': 1.4209626913070679, 'learning_rate': 9.505599962601819e-07, 'epoch': 0.72} {'loss': 2.1373, 'grad_norm': 1.7035869359970093, 'learning_rate': 9.502191104715922e-07, 'epoch': 0.72} {'loss': 2.41, 'grad_norm': 1.7530118227005005, 'learning_rate': 9.498782714751722e-07, 'epoch': 0.72} {'loss': 2.3559, 'grad_norm': 1.7787325382232666, 'learning_rate': 9.495374792812148e-07, 'epoch': 0.72} {'loss': 2.2404, 'grad_norm': 2.0072181224823, 'learning_rate': 9.491967339000074e-07, 'epoch': 0.72} {'loss': 2.4003, 'grad_norm': 1.8302383422851562, 'learning_rate': 9.488560353418394e-07, 'epoch': 0.72} {'loss': 2.3289, 'grad_norm': 1.9890285730361938, 'learning_rate': 9.48515383616998e-07, 'epoch': 0.72} {'loss': 2.3985, 'grad_norm': 1.865230679512024, 'learning_rate': 9.481747787357676e-07, 'epoch': 0.72} {'loss': 2.1974, 'grad_norm': 3.1597838401794434, 'learning_rate': 9.478342207084321e-07, 'epoch': 0.72} {'loss': 2.2926, 'grad_norm': 1.7617405652999878, 'learning_rate': 9.474937095452727e-07, 'epoch': 0.72} {'loss': 2.5302, 'grad_norm': 1.4455864429473877, 'learning_rate': 9.471532452565715e-07, 'epoch': 0.72} {'loss': 2.2694, 'grad_norm': 1.803713083267212, 'learning_rate': 9.46812827852609e-07, 'epoch': 0.72} {'loss': 2.3581, 'grad_norm': 1.6666998863220215, 'learning_rate': 9.464724573436615e-07, 'epoch': 0.72} {'loss': 1.4562, 'grad_norm': 1.6541184186935425, 'learning_rate': 9.461321337400073e-07, 'epoch': 0.72} {'loss': 1.7945, 'grad_norm': 1.5941739082336426, 'learning_rate': 9.457918570519201e-07, 'epoch': 0.72} {'loss': 2.4459, 'grad_norm': 1.9037635326385498, 'learning_rate': 9.454516272896758e-07, 'epoch': 0.72} {'loss': 2.277, 'grad_norm': 1.6214572191238403, 'learning_rate': 9.451114444635453e-07, 'epoch': 0.72} {'loss': 2.3928, 'grad_norm': 2.581681728363037, 'learning_rate': 9.447713085837998e-07, 'epoch': 0.72} {'loss': 2.3903, 'grad_norm': 1.633526086807251, 'learning_rate': 9.444312196607097e-07, 'epoch': 0.72} {'loss': 2.1712, 'grad_norm': 1.3486604690551758, 'learning_rate': 9.440911777045423e-07, 'epoch': 0.72} {'loss': 2.2292, 'grad_norm': 1.850462555885315, 'learning_rate': 9.437511827255655e-07, 'epoch': 0.72} {'loss': 1.9358, 'grad_norm': 3.06368088722229, 'learning_rate': 9.434112347340435e-07, 'epoch': 0.72} {'loss': 2.3708, 'grad_norm': 1.8282476663589478, 'learning_rate': 9.430713337402405e-07, 'epoch': 0.72} {'loss': 1.955, 'grad_norm': 1.3296235799789429, 'learning_rate': 9.427314797544204e-07, 'epoch': 0.72} {'loss': 2.3302, 'grad_norm': 1.5587807893753052, 'learning_rate': 9.423916727868426e-07, 'epoch': 0.72} {'loss': 2.0452, 'grad_norm': 2.3296360969543457, 'learning_rate': 9.420519128477692e-07, 'epoch': 0.72} {'loss': 2.3487, 'grad_norm': 1.766556739807129, 'learning_rate': 9.417121999474552e-07, 'epoch': 0.72} {'loss': 2.4193, 'grad_norm': 1.8708686828613281, 'learning_rate': 9.413725340961591e-07, 'epoch': 0.72} {'loss': 2.3089, 'grad_norm': 1.6156986951828003, 'learning_rate': 9.410329153041373e-07, 'epoch': 0.72} {'loss': 1.8804, 'grad_norm': 1.2909256219863892, 'learning_rate': 9.406933435816418e-07, 'epoch': 0.72} {'loss': 2.1716, 'grad_norm': 1.8261715173721313, 'learning_rate': 9.403538189389275e-07, 'epoch': 0.72} {'loss': 2.2924, 'grad_norm': 2.2031049728393555, 'learning_rate': 9.400143413862431e-07, 'epoch': 0.72} {'loss': 2.0978, 'grad_norm': 1.7856730222702026, 'learning_rate': 9.396749109338407e-07, 'epoch': 0.72} {'loss': 2.0927, 'grad_norm': 1.462656021118164, 'learning_rate': 9.393355275919677e-07, 'epoch': 0.72} {'loss': 2.4004, 'grad_norm': 1.6734169721603394, 'learning_rate': 9.389961913708701e-07, 'epoch': 0.72} {'loss': 1.9616, 'grad_norm': 1.5910476446151733, 'learning_rate': 9.386569022807951e-07, 'epoch': 0.72} {'loss': 2.2191, 'grad_norm': 1.7415611743927002, 'learning_rate': 9.383176603319849e-07, 'epoch': 0.72} {'loss': 2.3049, 'grad_norm': 1.6042710542678833, 'learning_rate': 9.379784655346841e-07, 'epoch': 0.72} {'loss': 2.035, 'grad_norm': 1.4900823831558228, 'learning_rate': 9.376393178991322e-07, 'epoch': 0.72} {'loss': 2.3335, 'grad_norm': 1.6460636854171753, 'learning_rate': 9.373002174355697e-07, 'epoch': 0.72} {'loss': 2.0951, 'grad_norm': 1.3826204538345337, 'learning_rate': 9.369611641542358e-07, 'epoch': 0.72} {'loss': 1.9746, 'grad_norm': 1.4254579544067383, 'learning_rate': 9.366221580653661e-07, 'epoch': 0.72} {'loss': 2.1891, 'grad_norm': 1.892874002456665, 'learning_rate': 9.362831991791985e-07, 'epoch': 0.72} {'loss': 1.8615, 'grad_norm': 1.400542974472046, 'learning_rate': 9.359442875059632e-07, 'epoch': 0.72} {'loss': 2.4317, 'grad_norm': 1.9109591245651245, 'learning_rate': 9.356054230558956e-07, 'epoch': 0.72} {'loss': 2.3125, 'grad_norm': 1.5329376459121704, 'learning_rate': 9.352666058392271e-07, 'epoch': 0.72} {'loss': 2.1606, 'grad_norm': 1.520228385925293, 'learning_rate': 9.349278358661856e-07, 'epoch': 0.72} {'loss': 2.3368, 'grad_norm': 1.73985755443573, 'learning_rate': 9.34589113147002e-07, 'epoch': 0.72} {'loss': 2.4471, 'grad_norm': 1.749720811843872, 'learning_rate': 9.34250437691901e-07, 'epoch': 0.72} {'loss': 2.1276, 'grad_norm': 1.9221806526184082, 'learning_rate': 9.339118095111102e-07, 'epoch': 0.72} {'loss': 2.1977, 'grad_norm': 1.7978171110153198, 'learning_rate': 9.335732286148516e-07, 'epoch': 0.72} {'loss': 2.2699, 'grad_norm': 1.715646505355835, 'learning_rate': 9.3323469501335e-07, 'epoch': 0.72} {'loss': 2.4649, 'grad_norm': 1.503858208656311, 'learning_rate': 9.328962087168252e-07, 'epoch': 0.72} {'loss': 2.0179, 'grad_norm': 1.56887686252594, 'learning_rate': 9.32557769735497e-07, 'epoch': 0.72} {'loss': 2.4898, 'grad_norm': 1.9558719396591187, 'learning_rate': 9.322193780795851e-07, 'epoch': 0.72} {'loss': 2.1852, 'grad_norm': 1.9561235904693604, 'learning_rate': 9.318810337593048e-07, 'epoch': 0.72} {'loss': 2.1344, 'grad_norm': 1.647850513458252, 'learning_rate': 9.315427367848726e-07, 'epoch': 0.72} {'loss': 2.3432, 'grad_norm': 1.6965289115905762, 'learning_rate': 9.312044871665032e-07, 'epoch': 0.73} {'loss': 2.1302, 'grad_norm': 1.734555721282959, 'learning_rate': 9.308662849144079e-07, 'epoch': 0.73} {'loss': 1.993, 'grad_norm': 1.691087245941162, 'learning_rate': 9.305281300387997e-07, 'epoch': 0.73} {'loss': 2.1943, 'grad_norm': 1.9394218921661377, 'learning_rate': 9.301900225498872e-07, 'epoch': 0.73} {'loss': 2.1683, 'grad_norm': 1.6520745754241943, 'learning_rate': 9.298519624578781e-07, 'epoch': 0.73} {'loss': 2.1538, 'grad_norm': 1.9200705289840698, 'learning_rate': 9.295139497729814e-07, 'epoch': 0.73} {'loss': 1.8484, 'grad_norm': 1.7643157243728638, 'learning_rate': 9.291759845054002e-07, 'epoch': 0.73} {'loss': 2.3136, 'grad_norm': 1.7564609050750732, 'learning_rate': 9.288380666653412e-07, 'epoch': 0.73} {'loss': 2.1442, 'grad_norm': 1.6373952627182007, 'learning_rate': 9.285001962630047e-07, 'epoch': 0.73} {'loss': 2.2741, 'grad_norm': 1.7211953401565552, 'learning_rate': 9.281623733085943e-07, 'epoch': 0.73} {'loss': 2.0386, 'grad_norm': 1.5338865518569946, 'learning_rate': 9.278245978123074e-07, 'epoch': 0.73} {'loss': 2.0818, 'grad_norm': 1.6002687215805054, 'learning_rate': 9.274868697843434e-07, 'epoch': 0.73} {'loss': 2.2369, 'grad_norm': 1.510024070739746, 'learning_rate': 9.271491892349013e-07, 'epoch': 0.73} {'loss': 2.1801, 'grad_norm': 1.4815106391906738, 'learning_rate': 9.268115561741728e-07, 'epoch': 0.73} {'loss': 2.4245, 'grad_norm': 1.5428142547607422, 'learning_rate': 9.264739706123541e-07, 'epoch': 0.73} {'loss': 2.2803, 'grad_norm': 1.700022578239441, 'learning_rate': 9.261364325596384e-07, 'epoch': 0.73} {'loss': 2.1423, 'grad_norm': 1.685779333114624, 'learning_rate': 9.257989420262151e-07, 'epoch': 0.73} {'loss': 2.1875, 'grad_norm': 1.7832297086715698, 'learning_rate': 9.25461499022276e-07, 'epoch': 0.73} {'loss': 2.4714, 'grad_norm': 12.463007926940918, 'learning_rate': 9.251241035580074e-07, 'epoch': 0.73} {'loss': 2.2822, 'grad_norm': 1.6890159845352173, 'learning_rate': 9.247867556435982e-07, 'epoch': 0.73} {'loss': 2.0365, 'grad_norm': 1.3355985879898071, 'learning_rate': 9.244494552892319e-07, 'epoch': 0.73} {'loss': 2.1134, 'grad_norm': 1.8031412363052368, 'learning_rate': 9.241122025050944e-07, 'epoch': 0.73} {'loss': 2.1607, 'grad_norm': 1.469443917274475, 'learning_rate': 9.237749973013676e-07, 'epoch': 0.73} {'loss': 2.0085, 'grad_norm': 1.2938213348388672, 'learning_rate': 9.234378396882315e-07, 'epoch': 0.73} {'loss': 2.3325, 'grad_norm': 1.7652872800827026, 'learning_rate': 9.231007296758676e-07, 'epoch': 0.73} {'loss': 2.2302, 'grad_norm': 1.6986792087554932, 'learning_rate': 9.227636672744524e-07, 'epoch': 0.73} {'loss': 2.2826, 'grad_norm': 1.543351650238037, 'learning_rate': 9.22426652494165e-07, 'epoch': 0.73} {'loss': 2.0444, 'grad_norm': 1.622354507446289, 'learning_rate': 9.220896853451783e-07, 'epoch': 0.73} {'loss': 2.2536, 'grad_norm': 1.5627410411834717, 'learning_rate': 9.217527658376677e-07, 'epoch': 0.73} {'loss': 2.2307, 'grad_norm': 1.7372547388076782, 'learning_rate': 9.214158939818068e-07, 'epoch': 0.73} {'loss': 2.1063, 'grad_norm': 1.7007522583007812, 'learning_rate': 9.210790697877642e-07, 'epoch': 0.73} {'loss': 2.1489, 'grad_norm': 1.520126223564148, 'learning_rate': 9.207422932657107e-07, 'epoch': 0.73} {'loss': 2.3008, 'grad_norm': 1.717577338218689, 'learning_rate': 9.204055644258153e-07, 'epoch': 0.73} {'loss': 2.1082, 'grad_norm': 1.3644109964370728, 'learning_rate': 9.200688832782434e-07, 'epoch': 0.73} {'loss': 2.1477, 'grad_norm': 1.7028770446777344, 'learning_rate': 9.197322498331618e-07, 'epoch': 0.73} {'loss': 1.6772, 'grad_norm': 1.541455864906311, 'learning_rate': 9.193956641007326e-07, 'epoch': 0.73} {'loss': 2.3406, 'grad_norm': 1.5895514488220215, 'learning_rate': 9.190591260911203e-07, 'epoch': 0.73} {'loss': 1.6552, 'grad_norm': 1.723236083984375, 'learning_rate': 9.187226358144838e-07, 'epoch': 0.73} {'loss': 2.5135, 'grad_norm': 1.9052107334136963, 'learning_rate': 9.183861932809845e-07, 'epoch': 0.73} {'loss': 2.184, 'grad_norm': 1.4115476608276367, 'learning_rate': 9.1804979850078e-07, 'epoch': 0.73} {'loss': 2.0446, 'grad_norm': 1.4482290744781494, 'learning_rate': 9.177134514840258e-07, 'epoch': 0.73} {'loss': 2.2028, 'grad_norm': 1.693829894065857, 'learning_rate': 9.173771522408789e-07, 'epoch': 0.73} {'loss': 2.4552, 'grad_norm': 1.92447030544281, 'learning_rate': 9.170409007814918e-07, 'epoch': 0.73} {'loss': 2.267, 'grad_norm': 1.7121944427490234, 'learning_rate': 9.167046971160171e-07, 'epoch': 0.73} {'loss': 2.2934, 'grad_norm': 1.6701915264129639, 'learning_rate': 9.163685412546067e-07, 'epoch': 0.73} {'loss': 1.3558, 'grad_norm': 1.5058343410491943, 'learning_rate': 9.160324332074086e-07, 'epoch': 0.73} {'loss': 2.2548, 'grad_norm': 1.8052808046340942, 'learning_rate': 9.156963729845725e-07, 'epoch': 0.73} {'loss': 2.1096, 'grad_norm': 2.928823232650757, 'learning_rate': 9.153603605962441e-07, 'epoch': 0.73} {'loss': 2.2148, 'grad_norm': 1.8548808097839355, 'learning_rate': 9.150243960525676e-07, 'epoch': 0.73} {'loss': 2.0437, 'grad_norm': 1.3086793422698975, 'learning_rate': 9.146884793636887e-07, 'epoch': 0.73} {'loss': 1.9179, 'grad_norm': 1.7154674530029297, 'learning_rate': 9.143526105397474e-07, 'epoch': 0.73} {'loss': 2.0017, 'grad_norm': 1.5493688583374023, 'learning_rate': 9.140167895908867e-07, 'epoch': 0.73} {'loss': 2.1215, 'grad_norm': 1.8353869915008545, 'learning_rate': 9.136810165272441e-07, 'epoch': 0.73} {'loss': 2.12, 'grad_norm': 1.3805229663848877, 'learning_rate': 9.133452913589591e-07, 'epoch': 0.73} {'loss': 2.5116, 'grad_norm': 1.8536683320999146, 'learning_rate': 9.130096140961666e-07, 'epoch': 0.73} {'loss': 2.1958, 'grad_norm': 1.582387089729309, 'learning_rate': 9.126739847490027e-07, 'epoch': 0.73} {'loss': 1.4842, 'grad_norm': 1.3775291442871094, 'learning_rate': 9.123384033276023e-07, 'epoch': 0.73} {'loss': 2.1885, 'grad_norm': 1.5445821285247803, 'learning_rate': 9.12002869842094e-07, 'epoch': 0.73} {'loss': 2.3263, 'grad_norm': 1.9583989381790161, 'learning_rate': 9.116673843026117e-07, 'epoch': 0.73} {'loss': 1.6835, 'grad_norm': 1.5841622352600098, 'learning_rate': 9.113319467192822e-07, 'epoch': 0.73} {'loss': 2.2521, 'grad_norm': 1.6695308685302734, 'learning_rate': 9.109965571022347e-07, 'epoch': 0.73} {'loss': 2.3007, 'grad_norm': 1.7174807786941528, 'learning_rate': 9.106612154615959e-07, 'epoch': 0.73} {'loss': 2.014, 'grad_norm': 1.3872487545013428, 'learning_rate': 9.103259218074897e-07, 'epoch': 0.73} {'loss': 2.4519, 'grad_norm': 1.7761316299438477, 'learning_rate': 9.099906761500405e-07, 'epoch': 0.73} {'loss': 2.1953, 'grad_norm': 1.6709399223327637, 'learning_rate': 9.096554784993688e-07, 'epoch': 0.73} {'loss': 1.7356, 'grad_norm': 1.3907276391983032, 'learning_rate': 9.093203288655972e-07, 'epoch': 0.73} {'loss': 2.3636, 'grad_norm': 1.7014483213424683, 'learning_rate': 9.089852272588437e-07, 'epoch': 0.73} {'loss': 2.3727, 'grad_norm': 1.6052110195159912, 'learning_rate': 9.086501736892247e-07, 'epoch': 0.73} {'loss': 2.2412, 'grad_norm': 1.9839248657226562, 'learning_rate': 9.083151681668589e-07, 'epoch': 0.73} {'loss': 2.2216, 'grad_norm': 7.906700611114502, 'learning_rate': 9.079802107018587e-07, 'epoch': 0.73} {'loss': 2.2319, 'grad_norm': 1.9276453256607056, 'learning_rate': 9.076453013043393e-07, 'epoch': 0.73} {'loss': 2.3191, 'grad_norm': 1.829772710800171, 'learning_rate': 9.073104399844109e-07, 'epoch': 0.73} {'loss': 2.1223, 'grad_norm': 1.6046847105026245, 'learning_rate': 9.069756267521848e-07, 'epoch': 0.73} {'loss': 2.2396, 'grad_norm': 1.8354822397232056, 'learning_rate': 9.066408616177705e-07, 'epoch': 0.73} {'loss': 2.1761, 'grad_norm': 1.5857096910476685, 'learning_rate': 9.063061445912746e-07, 'epoch': 0.73} {'loss': 2.1191, 'grad_norm': 6.159242153167725, 'learning_rate': 9.059714756828036e-07, 'epoch': 0.73} {'loss': 2.3826, 'grad_norm': 1.9229780435562134, 'learning_rate': 9.05636854902461e-07, 'epoch': 0.73} {'loss': 2.0101, 'grad_norm': 1.3916683197021484, 'learning_rate': 9.053022822603508e-07, 'epoch': 0.73} {'loss': 1.9682, 'grad_norm': 1.6708852052688599, 'learning_rate': 9.049677577665752e-07, 'epoch': 0.73} {'loss': 2.3862, 'grad_norm': 1.8827645778656006, 'learning_rate': 9.046332814312334e-07, 'epoch': 0.73} {'loss': 2.1266, 'grad_norm': 1.6662468910217285, 'learning_rate': 9.042988532644251e-07, 'epoch': 0.73} {'loss': 2.3858, 'grad_norm': 1.6584817171096802, 'learning_rate': 9.039644732762465e-07, 'epoch': 0.73} {'loss': 2.3429, 'grad_norm': 1.533669114112854, 'learning_rate': 9.036301414767948e-07, 'epoch': 0.73} {'loss': 2.276, 'grad_norm': 1.8055216073989868, 'learning_rate': 9.032958578761636e-07, 'epoch': 0.73} {'loss': 1.7683, 'grad_norm': 1.3739709854125977, 'learning_rate': 9.029616224844451e-07, 'epoch': 0.73} {'loss': 2.2022, 'grad_norm': 1.7027969360351562, 'learning_rate': 9.026274353117326e-07, 'epoch': 0.73} {'loss': 2.2082, 'grad_norm': 1.7897586822509766, 'learning_rate': 9.022932963681141e-07, 'epoch': 0.73} {'loss': 2.1165, 'grad_norm': 1.7208547592163086, 'learning_rate': 9.019592056636803e-07, 'epoch': 0.73} {'loss': 2.3833, 'grad_norm': 1.5398048162460327, 'learning_rate': 9.016251632085163e-07, 'epoch': 0.73} {'loss': 1.9595, 'grad_norm': 1.283623456954956, 'learning_rate': 9.012911690127086e-07, 'epoch': 0.73} {'loss': 2.241, 'grad_norm': 1.6989688873291016, 'learning_rate': 9.009572230863425e-07, 'epoch': 0.73} {'loss': 2.1959, 'grad_norm': 1.5631755590438843, 'learning_rate': 9.006233254394997e-07, 'epoch': 0.73} {'loss': 2.149, 'grad_norm': 1.792894721031189, 'learning_rate': 9.002894760822616e-07, 'epoch': 0.73} {'loss': 2.3244, 'grad_norm': 1.5591477155685425, 'learning_rate': 8.999556750247071e-07, 'epoch': 0.73} {'loss': 2.3948, 'grad_norm': 1.5585849285125732, 'learning_rate': 8.996219222769157e-07, 'epoch': 0.73} {'loss': 2.2007, 'grad_norm': 1.7191412448883057, 'learning_rate': 8.992882178489648e-07, 'epoch': 0.73} {'loss': 2.2944, 'grad_norm': 1.6784422397613525, 'learning_rate': 8.989545617509282e-07, 'epoch': 0.73} {'loss': 2.06, 'grad_norm': 1.7722516059875488, 'learning_rate': 8.986209539928817e-07, 'epoch': 0.73} {'loss': 2.4103, 'grad_norm': 1.8692312240600586, 'learning_rate': 8.982873945848963e-07, 'epoch': 0.73} {'loss': 2.2285, 'grad_norm': 1.7647476196289062, 'learning_rate': 8.979538835370446e-07, 'epoch': 0.73} {'loss': 2.3231, 'grad_norm': 1.74514639377594, 'learning_rate': 8.976204208593952e-07, 'epoch': 0.73} {'loss': 2.1196, 'grad_norm': 1.7734284400939941, 'learning_rate': 8.972870065620159e-07, 'epoch': 0.73} {'loss': 2.0429, 'grad_norm': 1.4489496946334839, 'learning_rate': 8.969536406549748e-07, 'epoch': 0.73} {'loss': 2.1342, 'grad_norm': 1.9600129127502441, 'learning_rate': 8.966203231483353e-07, 'epoch': 0.73} {'loss': 2.2412, 'grad_norm': 1.785334587097168, 'learning_rate': 8.962870540521629e-07, 'epoch': 0.73} {'loss': 2.2266, 'grad_norm': 1.2657880783081055, 'learning_rate': 8.959538333765185e-07, 'epoch': 0.73} {'loss': 2.3785, 'grad_norm': 1.7346452474594116, 'learning_rate': 8.956206611314636e-07, 'epoch': 0.73} {'loss': 2.2955, 'grad_norm': 1.4219938516616821, 'learning_rate': 8.952875373270586e-07, 'epoch': 0.73} {'loss': 2.1771, 'grad_norm': 1.492943525314331, 'learning_rate': 8.949544619733594e-07, 'epoch': 0.73} {'loss': 2.1274, 'grad_norm': 1.726824164390564, 'learning_rate': 8.946214350804247e-07, 'epoch': 0.73} {'loss': 2.3452, 'grad_norm': 1.7295916080474854, 'learning_rate': 8.94288456658308e-07, 'epoch': 0.73} {'loss': 2.4373, 'grad_norm': 1.7202900648117065, 'learning_rate': 8.939555267170624e-07, 'epoch': 0.73} {'loss': 2.0816, 'grad_norm': 1.7294840812683105, 'learning_rate': 8.936226452667418e-07, 'epoch': 0.73} {'loss': 1.6497, 'grad_norm': 1.3944486379623413, 'learning_rate': 8.932898123173947e-07, 'epoch': 0.73} {'loss': 2.6412, 'grad_norm': 1.7522114515304565, 'learning_rate': 8.929570278790722e-07, 'epoch': 0.73} {'loss': 2.1731, 'grad_norm': 2.5853829383850098, 'learning_rate': 8.926242919618203e-07, 'epoch': 0.73} {'loss': 2.3339, 'grad_norm': 2.3700790405273438, 'learning_rate': 8.922916045756868e-07, 'epoch': 0.73} {'loss': 2.2953, 'grad_norm': 1.8625763654708862, 'learning_rate': 8.919589657307148e-07, 'epoch': 0.73} {'loss': 2.2178, 'grad_norm': 1.9321156740188599, 'learning_rate': 8.916263754369495e-07, 'epoch': 0.73} {'loss': 2.2162, 'grad_norm': 1.7479459047317505, 'learning_rate': 8.912938337044314e-07, 'epoch': 0.73} {'loss': 2.3447, 'grad_norm': 1.5897061824798584, 'learning_rate': 8.909613405432005e-07, 'epoch': 0.73} {'loss': 2.2085, 'grad_norm': 1.9403457641601562, 'learning_rate': 8.906288959632969e-07, 'epoch': 0.73} {'loss': 2.2775, 'grad_norm': 1.680906891822815, 'learning_rate': 8.902964999747568e-07, 'epoch': 0.73} {'loss': 2.302, 'grad_norm': 10.407520294189453, 'learning_rate': 8.899641525876165e-07, 'epoch': 0.73} {'loss': 2.1498, 'grad_norm': 1.4234400987625122, 'learning_rate': 8.89631853811912e-07, 'epoch': 0.73} {'loss': 2.1806, 'grad_norm': 1.6248455047607422, 'learning_rate': 8.89299603657674e-07, 'epoch': 0.73} {'loss': 2.3165, 'grad_norm': 1.753124713897705, 'learning_rate': 8.889674021349359e-07, 'epoch': 0.73} {'loss': 2.1681, 'grad_norm': 1.5559097528457642, 'learning_rate': 8.886352492537273e-07, 'epoch': 0.73} {'loss': 2.1836, 'grad_norm': 1.679071068763733, 'learning_rate': 8.883031450240756e-07, 'epoch': 0.73} {'loss': 2.2146, 'grad_norm': 1.4123218059539795, 'learning_rate': 8.879710894560096e-07, 'epoch': 0.73} {'loss': 2.3546, 'grad_norm': 1.6137462854385376, 'learning_rate': 8.876390825595535e-07, 'epoch': 0.73} {'loss': 2.1874, 'grad_norm': 1.7338143587112427, 'learning_rate': 8.873071243447332e-07, 'epoch': 0.73} {'loss': 2.3136, 'grad_norm': 1.7367527484893799, 'learning_rate': 8.869752148215694e-07, 'epoch': 0.73} {'loss': 2.2013, 'grad_norm': 1.6584316492080688, 'learning_rate': 8.866433540000855e-07, 'epoch': 0.73} {'loss': 2.2887, 'grad_norm': 1.816781997680664, 'learning_rate': 8.863115418902995e-07, 'epoch': 0.73} {'loss': 2.0538, 'grad_norm': 1.3760476112365723, 'learning_rate': 8.859797785022311e-07, 'epoch': 0.73} {'loss': 2.2646, 'grad_norm': 1.973993182182312, 'learning_rate': 8.856480638458967e-07, 'epoch': 0.73} {'loss': 2.2999, 'grad_norm': 1.7889457941055298, 'learning_rate': 8.853163979313106e-07, 'epoch': 0.73} {'loss': 2.2207, 'grad_norm': 1.8075093030929565, 'learning_rate': 8.849847807684877e-07, 'epoch': 0.73} {'loss': 1.9667, 'grad_norm': 1.4208654165267944, 'learning_rate': 8.846532123674412e-07, 'epoch': 0.73} {'loss': 2.3055, 'grad_norm': 1.7333537340164185, 'learning_rate': 8.843216927381804e-07, 'epoch': 0.73} {'loss': 2.363, 'grad_norm': 1.7209521532058716, 'learning_rate': 8.839902218907165e-07, 'epoch': 0.73} {'loss': 2.234, 'grad_norm': 1.7242684364318848, 'learning_rate': 8.836587998350557e-07, 'epoch': 0.73} {'loss': 2.3627, 'grad_norm': 1.7344132661819458, 'learning_rate': 8.833274265812064e-07, 'epoch': 0.73} {'loss': 2.351, 'grad_norm': 1.9641447067260742, 'learning_rate': 8.829961021391731e-07, 'epoch': 0.73} {'loss': 2.2767, 'grad_norm': 2.0007503032684326, 'learning_rate': 8.826648265189577e-07, 'epoch': 0.73} {'loss': 2.2496, 'grad_norm': 1.6556264162063599, 'learning_rate': 8.823335997305649e-07, 'epoch': 0.73} {'loss': 2.1095, 'grad_norm': 1.7086682319641113, 'learning_rate': 8.820024217839931e-07, 'epoch': 0.73} {'loss': 2.3311, 'grad_norm': 2.3233988285064697, 'learning_rate': 8.816712926892437e-07, 'epoch': 0.73} {'loss': 2.222, 'grad_norm': 1.763602614402771, 'learning_rate': 8.813402124563122e-07, 'epoch': 0.73} {'loss': 2.1464, 'grad_norm': 1.524552583694458, 'learning_rate': 8.81009181095196e-07, 'epoch': 0.73} {'loss': 2.3538, 'grad_norm': 4.32981014251709, 'learning_rate': 8.806781986158903e-07, 'epoch': 0.73} {'loss': 2.3408, 'grad_norm': 1.7402946949005127, 'learning_rate': 8.80347265028387e-07, 'epoch': 0.73} {'loss': 2.4489, 'grad_norm': 1.5472239255905151, 'learning_rate': 8.800163803426806e-07, 'epoch': 0.73} {'loss': 2.2117, 'grad_norm': 1.448301911354065, 'learning_rate': 8.796855445687577e-07, 'epoch': 0.73} {'loss': 2.4289, 'grad_norm': 1.6325868368148804, 'learning_rate': 8.793547577166092e-07, 'epoch': 0.73} {'loss': 2.2937, 'grad_norm': 1.6577301025390625, 'learning_rate': 8.790240197962227e-07, 'epoch': 0.73} {'loss': 2.2067, 'grad_norm': 3.5720760822296143, 'learning_rate': 8.78693330817583e-07, 'epoch': 0.73} {'loss': 2.4408, 'grad_norm': 2.1678974628448486, 'learning_rate': 8.783626907906761e-07, 'epoch': 0.73} {'loss': 1.8216, 'grad_norm': 1.6686997413635254, 'learning_rate': 8.78032099725483e-07, 'epoch': 0.73} {'loss': 2.3612, 'grad_norm': 1.6610885858535767, 'learning_rate': 8.77701557631987e-07, 'epoch': 0.73} {'loss': 2.2293, 'grad_norm': 1.7604830265045166, 'learning_rate': 8.773710645201663e-07, 'epoch': 0.73} {'loss': 2.2481, 'grad_norm': 1.8887172937393188, 'learning_rate': 8.770406204000012e-07, 'epoch': 0.73} {'loss': 2.1215, 'grad_norm': 1.7184993028640747, 'learning_rate': 8.76710225281468e-07, 'epoch': 0.73} {'loss': 1.7574, 'grad_norm': 1.4630405902862549, 'learning_rate': 8.763798791745413e-07, 'epoch': 0.73} {'loss': 2.1314, 'grad_norm': 1.5501233339309692, 'learning_rate': 8.760495820891965e-07, 'epoch': 0.73} {'loss': 2.0941, 'grad_norm': 2.5621323585510254, 'learning_rate': 8.757193340354048e-07, 'epoch': 0.73} {'loss': 2.2402, 'grad_norm': 1.603078842163086, 'learning_rate': 8.753891350231383e-07, 'epoch': 0.73} {'loss': 2.483, 'grad_norm': 1.641959547996521, 'learning_rate': 8.750589850623672e-07, 'epoch': 0.73} {'loss': 2.3346, 'grad_norm': 1.4778659343719482, 'learning_rate': 8.747288841630583e-07, 'epoch': 0.73} {'loss': 2.2326, 'grad_norm': 1.8825215101242065, 'learning_rate': 8.743988323351793e-07, 'epoch': 0.73} {'loss': 2.1371, 'grad_norm': 1.6586552858352661, 'learning_rate': 8.740688295886951e-07, 'epoch': 0.73} {'loss': 2.3799, 'grad_norm': 1.79165518283844, 'learning_rate': 8.737388759335686e-07, 'epoch': 0.73} {'loss': 2.4205, 'grad_norm': 1.8588552474975586, 'learning_rate': 8.734089713797633e-07, 'epoch': 0.73} {'loss': 2.312, 'grad_norm': 1.6298857927322388, 'learning_rate': 8.730791159372385e-07, 'epoch': 0.73} {'loss': 2.3956, 'grad_norm': 1.9703288078308105, 'learning_rate': 8.727493096159548e-07, 'epoch': 0.73} {'loss': 2.2786, 'grad_norm': 1.8432178497314453, 'learning_rate': 8.724195524258689e-07, 'epoch': 0.73} {'loss': 2.3539, 'grad_norm': 1.565024733543396, 'learning_rate': 8.720898443769382e-07, 'epoch': 0.73} {'loss': 2.0825, 'grad_norm': 1.68220853805542, 'learning_rate': 8.717601854791161e-07, 'epoch': 0.73} {'loss': 2.374, 'grad_norm': 1.8376506567001343, 'learning_rate': 8.714305757423566e-07, 'epoch': 0.73} {'loss': 2.447, 'grad_norm': 1.5599662065505981, 'learning_rate': 8.711010151766133e-07, 'epoch': 0.73} {'loss': 1.4208, 'grad_norm': 1.5076290369033813, 'learning_rate': 8.707715037918332e-07, 'epoch': 0.73} {'loss': 2.0098, 'grad_norm': 1.9719053506851196, 'learning_rate': 8.704420415979676e-07, 'epoch': 0.73} {'loss': 2.2082, 'grad_norm': 1.510750412940979, 'learning_rate': 8.701126286049625e-07, 'epoch': 0.73} {'loss': 2.013, 'grad_norm': 1.7945475578308105, 'learning_rate': 8.697832648227642e-07, 'epoch': 0.73} {'loss': 2.0732, 'grad_norm': 1.6620508432388306, 'learning_rate': 8.694539502613181e-07, 'epoch': 0.73} {'loss': 2.4024, 'grad_norm': 1.7968699932098389, 'learning_rate': 8.691246849305654e-07, 'epoch': 0.74} {'loss': 1.1363, 'grad_norm': 1.8347508907318115, 'learning_rate': 8.687954688404493e-07, 'epoch': 0.74} {'loss': 1.9938, 'grad_norm': 1.3072606325149536, 'learning_rate': 8.684663020009087e-07, 'epoch': 0.74} {'loss': 1.9154, 'grad_norm': 1.7025651931762695, 'learning_rate': 8.681371844218817e-07, 'epoch': 0.74} {'loss': 2.2589, 'grad_norm': 1.3901432752609253, 'learning_rate': 8.678081161133064e-07, 'epoch': 0.74} {'loss': 2.3283, 'grad_norm': 1.572356939315796, 'learning_rate': 8.674790970851171e-07, 'epoch': 0.74} {'loss': 2.3922, 'grad_norm': 1.7063087224960327, 'learning_rate': 8.671501273472491e-07, 'epoch': 0.74} {'loss': 2.3813, 'grad_norm': 1.8782153129577637, 'learning_rate': 8.668212069096332e-07, 'epoch': 0.74} {'loss': 2.2684, 'grad_norm': 1.755300521850586, 'learning_rate': 8.664923357822024e-07, 'epoch': 0.74} {'loss': 2.2879, 'grad_norm': 1.5684438943862915, 'learning_rate': 8.661635139748845e-07, 'epoch': 0.74} {'loss': 2.1783, 'grad_norm': 2.9106900691986084, 'learning_rate': 8.658347414976082e-07, 'epoch': 0.74} {'loss': 1.6813, 'grad_norm': 1.584836483001709, 'learning_rate': 8.655060183603015e-07, 'epoch': 0.74} {'loss': 2.1954, 'grad_norm': 1.752017855644226, 'learning_rate': 8.651773445728867e-07, 'epoch': 0.74} {'loss': 2.0381, 'grad_norm': 1.5785837173461914, 'learning_rate': 8.648487201452896e-07, 'epoch': 0.74} {'loss': 2.271, 'grad_norm': 1.578550934791565, 'learning_rate': 8.645201450874305e-07, 'epoch': 0.74} {'loss': 2.1654, 'grad_norm': 1.4633409976959229, 'learning_rate': 8.64191619409231e-07, 'epoch': 0.74} {'loss': 2.2763, 'grad_norm': 1.77278733253479, 'learning_rate': 8.638631431206107e-07, 'epoch': 0.74} {'loss': 2.1702, 'grad_norm': 1.752441167831421, 'learning_rate': 8.635347162314859e-07, 'epoch': 0.74} {'loss': 2.2474, 'grad_norm': 1.4803595542907715, 'learning_rate': 8.632063387517744e-07, 'epoch': 0.74} {'loss': 2.3234, 'grad_norm': 1.6429771184921265, 'learning_rate': 8.628780106913889e-07, 'epoch': 0.74} {'loss': 1.8488, 'grad_norm': 1.4535789489746094, 'learning_rate': 8.625497320602444e-07, 'epoch': 0.74} {'loss': 2.3341, 'grad_norm': 1.731867790222168, 'learning_rate': 8.622215028682518e-07, 'epoch': 0.74} {'loss': 2.2769, 'grad_norm': 1.5576220750808716, 'learning_rate': 8.618933231253199e-07, 'epoch': 0.74} {'loss': 2.1871, 'grad_norm': 1.6710227727890015, 'learning_rate': 8.615651928413596e-07, 'epoch': 0.74} {'loss': 2.1682, 'grad_norm': 2.1734044551849365, 'learning_rate': 8.612371120262761e-07, 'epoch': 0.74} {'loss': 2.2834, 'grad_norm': 1.4974168539047241, 'learning_rate': 8.609090806899769e-07, 'epoch': 0.74} {'loss': 2.3572, 'grad_norm': 1.54289710521698, 'learning_rate': 8.605810988423643e-07, 'epoch': 0.74} {'loss': 2.2712, 'grad_norm': 1.6930253505706787, 'learning_rate': 8.602531664933419e-07, 'epoch': 0.74} {'loss': 2.3805, 'grad_norm': 2.1565611362457275, 'learning_rate': 8.599252836528118e-07, 'epoch': 0.74} {'loss': 2.4834, 'grad_norm': 1.3337323665618896, 'learning_rate': 8.595974503306728e-07, 'epoch': 0.74} {'loss': 2.2488, 'grad_norm': 1.4484244585037231, 'learning_rate': 8.592696665368231e-07, 'epoch': 0.74} {'loss': 2.067, 'grad_norm': 1.586779236793518, 'learning_rate': 8.589419322811585e-07, 'epoch': 0.74} {'loss': 2.5204, 'grad_norm': 1.4031274318695068, 'learning_rate': 8.586142475735751e-07, 'epoch': 0.74} {'loss': 2.1104, 'grad_norm': 1.6450577974319458, 'learning_rate': 8.582866124239674e-07, 'epoch': 0.74} {'loss': 2.3529, 'grad_norm': 1.6161634922027588, 'learning_rate': 8.579590268422261e-07, 'epoch': 0.74} {'loss': 2.3083, 'grad_norm': 2.7107467651367188, 'learning_rate': 8.576314908382432e-07, 'epoch': 0.74} {'loss': 1.469, 'grad_norm': 1.4916939735412598, 'learning_rate': 8.573040044219066e-07, 'epoch': 0.74} {'loss': 2.1575, 'grad_norm': 1.5938470363616943, 'learning_rate': 8.569765676031058e-07, 'epoch': 0.74} {'loss': 2.493, 'grad_norm': 1.7427738904953003, 'learning_rate': 8.566491803917257e-07, 'epoch': 0.74} {'loss': 2.3354, 'grad_norm': 1.6715058088302612, 'learning_rate': 8.563218427976508e-07, 'epoch': 0.74} {'loss': 2.5601, 'grad_norm': 1.7408543825149536, 'learning_rate': 8.559945548307654e-07, 'epoch': 0.74} {'loss': 2.1549, 'grad_norm': 1.6255697011947632, 'learning_rate': 8.556673165009499e-07, 'epoch': 0.74} {'loss': 1.8252, 'grad_norm': 1.5953587293624878, 'learning_rate': 8.553401278180862e-07, 'epoch': 0.74} {'loss': 2.5559, 'grad_norm': 1.7121816873550415, 'learning_rate': 8.550129887920514e-07, 'epoch': 0.74} {'loss': 2.1643, 'grad_norm': 1.6469331979751587, 'learning_rate': 8.546858994327231e-07, 'epoch': 0.74} {'loss': 2.2289, 'grad_norm': 1.600804328918457, 'learning_rate': 8.543588597499786e-07, 'epoch': 0.74} {'loss': 2.2864, 'grad_norm': 3.3212907314300537, 'learning_rate': 8.540318697536906e-07, 'epoch': 0.74} {'loss': 2.2007, 'grad_norm': 1.621851921081543, 'learning_rate': 8.537049294537314e-07, 'epoch': 0.74} {'loss': 2.2265, 'grad_norm': 2.513143539428711, 'learning_rate': 8.533780388599738e-07, 'epoch': 0.74} {'loss': 2.1003, 'grad_norm': 1.4232168197631836, 'learning_rate': 8.530511979822861e-07, 'epoch': 0.74} {'loss': 2.3065, 'grad_norm': 1.7439483404159546, 'learning_rate': 8.52724406830538e-07, 'epoch': 0.74} {'loss': 1.883, 'grad_norm': 2.041651487350464, 'learning_rate': 8.523976654145943e-07, 'epoch': 0.74} {'loss': 2.2689, 'grad_norm': 3.1514265537261963, 'learning_rate': 8.520709737443223e-07, 'epoch': 0.74} {'loss': 2.2456, 'grad_norm': 1.6471821069717407, 'learning_rate': 8.517443318295838e-07, 'epoch': 0.74} {'loss': 1.9612, 'grad_norm': 1.5194597244262695, 'learning_rate': 8.514177396802428e-07, 'epoch': 0.74} {'loss': 2.1609, 'grad_norm': 2.1973721981048584, 'learning_rate': 8.510911973061591e-07, 'epoch': 0.74} {'loss': 2.3512, 'grad_norm': 1.8834534883499146, 'learning_rate': 8.507647047171913e-07, 'epoch': 0.74} {'loss': 2.3936, 'grad_norm': 1.4761264324188232, 'learning_rate': 8.504382619231985e-07, 'epoch': 0.74} {'loss': 2.1736, 'grad_norm': 1.3180186748504639, 'learning_rate': 8.501118689340354e-07, 'epoch': 0.74} {'loss': 2.1425, 'grad_norm': 1.7842122316360474, 'learning_rate': 8.497855257595577e-07, 'epoch': 0.74} {'loss': 2.2726, 'grad_norm': 1.6844370365142822, 'learning_rate': 8.49459232409619e-07, 'epoch': 0.74} {'loss': 2.1588, 'grad_norm': 1.783706784248352, 'learning_rate': 8.491329888940699e-07, 'epoch': 0.74} {'loss': 2.39, 'grad_norm': 1.7929421663284302, 'learning_rate': 8.488067952227616e-07, 'epoch': 0.74} {'loss': 2.1888, 'grad_norm': 1.67425537109375, 'learning_rate': 8.484806514055418e-07, 'epoch': 0.74} {'loss': 2.5402, 'grad_norm': 1.667170763015747, 'learning_rate': 8.481545574522587e-07, 'epoch': 0.74} {'loss': 2.4082, 'grad_norm': 1.7003731727600098, 'learning_rate': 8.478285133727576e-07, 'epoch': 0.74} {'loss': 2.2073, 'grad_norm': 1.614999532699585, 'learning_rate': 8.475025191768818e-07, 'epoch': 0.74} {'loss': 2.0979, 'grad_norm': 1.4232138395309448, 'learning_rate': 8.471765748744756e-07, 'epoch': 0.74} {'loss': 2.2992, 'grad_norm': 1.7471444606781006, 'learning_rate': 8.468506804753782e-07, 'epoch': 0.74} {'loss': 2.1811, 'grad_norm': 1.8587361574172974, 'learning_rate': 8.465248359894312e-07, 'epoch': 0.74} {'loss': 2.3895, 'grad_norm': 1.8516796827316284, 'learning_rate': 8.461990414264712e-07, 'epoch': 0.74} {'loss': 2.3946, 'grad_norm': 1.4610116481781006, 'learning_rate': 8.458732967963363e-07, 'epoch': 0.74} {'loss': 2.2597, 'grad_norm': 3.4600393772125244, 'learning_rate': 8.455476021088599e-07, 'epoch': 0.74} {'loss': 2.3094, 'grad_norm': 2.083608865737915, 'learning_rate': 8.452219573738774e-07, 'epoch': 0.74} {'loss': 2.2422, 'grad_norm': 1.7945034503936768, 'learning_rate': 8.4489636260122e-07, 'epoch': 0.74} {'loss': 2.3385, 'grad_norm': 1.4961401224136353, 'learning_rate': 8.445708178007176e-07, 'epoch': 0.74} {'loss': 2.2567, 'grad_norm': 1.8071171045303345, 'learning_rate': 8.442453229822001e-07, 'epoch': 0.74} {'loss': 2.4289, 'grad_norm': 1.3086603879928589, 'learning_rate': 8.439198781554959e-07, 'epoch': 0.74} {'loss': 2.3621, 'grad_norm': 1.5535928010940552, 'learning_rate': 8.435944833304294e-07, 'epoch': 0.74} {'loss': 2.1221, 'grad_norm': 1.6037074327468872, 'learning_rate': 8.432691385168268e-07, 'epoch': 0.74} {'loss': 2.1548, 'grad_norm': 1.4961636066436768, 'learning_rate': 8.429438437245097e-07, 'epoch': 0.74} {'loss': 2.1833, 'grad_norm': 1.3004804849624634, 'learning_rate': 8.426185989633012e-07, 'epoch': 0.74} {'loss': 2.1489, 'grad_norm': 2.5614705085754395, 'learning_rate': 8.422934042430203e-07, 'epoch': 0.74} {'loss': 2.0841, 'grad_norm': 1.5637476444244385, 'learning_rate': 8.419682595734849e-07, 'epoch': 0.74} {'loss': 2.2929, 'grad_norm': 1.6447688341140747, 'learning_rate': 8.416431649645135e-07, 'epoch': 0.74} {'loss': 2.4517, 'grad_norm': 1.5646235942840576, 'learning_rate': 8.413181204259202e-07, 'epoch': 0.74} {'loss': 2.1061, 'grad_norm': 1.7846342325210571, 'learning_rate': 8.409931259675205e-07, 'epoch': 0.74} {'loss': 2.4223, 'grad_norm': 1.6462633609771729, 'learning_rate': 8.406681815991252e-07, 'epoch': 0.74} {'loss': 2.2157, 'grad_norm': 1.848058819770813, 'learning_rate': 8.403432873305464e-07, 'epoch': 0.74} {'loss': 1.9676, 'grad_norm': 1.3652493953704834, 'learning_rate': 8.40018443171594e-07, 'epoch': 0.74} {'loss': 2.1266, 'grad_norm': 1.5349349975585938, 'learning_rate': 8.396936491320745e-07, 'epoch': 0.74} {'loss': 2.2135, 'grad_norm': 2.082908868789673, 'learning_rate': 8.393689052217966e-07, 'epoch': 0.74} {'loss': 2.196, 'grad_norm': 1.6940449476242065, 'learning_rate': 8.39044211450562e-07, 'epoch': 0.74} {'loss': 2.3441, 'grad_norm': 1.5690052509307861, 'learning_rate': 8.387195678281759e-07, 'epoch': 0.74} {'loss': 2.0311, 'grad_norm': 1.7368087768554688, 'learning_rate': 8.38394974364441e-07, 'epoch': 0.74} {'loss': 2.2961, 'grad_norm': 1.6413347721099854, 'learning_rate': 8.38070431069156e-07, 'epoch': 0.74} {'loss': 2.1023, 'grad_norm': 1.594630479812622, 'learning_rate': 8.377459379521211e-07, 'epoch': 0.74} {'loss': 2.1251, 'grad_norm': 1.5474262237548828, 'learning_rate': 8.374214950231324e-07, 'epoch': 0.74} {'loss': 1.5119, 'grad_norm': 1.706275224685669, 'learning_rate': 8.370971022919872e-07, 'epoch': 0.74} {'loss': 2.3644, 'grad_norm': 1.4974815845489502, 'learning_rate': 8.367727597684791e-07, 'epoch': 0.74} {'loss': 2.4631, 'grad_norm': 1.5658479928970337, 'learning_rate': 8.364484674623998e-07, 'epoch': 0.74} {'loss': 2.5928, 'grad_norm': 1.7642602920532227, 'learning_rate': 8.361242253835425e-07, 'epoch': 0.74} {'loss': 2.3321, 'grad_norm': 1.7780838012695312, 'learning_rate': 8.358000335416952e-07, 'epoch': 0.74} {'loss': 2.1667, 'grad_norm': 1.5517936944961548, 'learning_rate': 8.354758919466479e-07, 'epoch': 0.74} {'loss': 2.3256, 'grad_norm': 2.634507179260254, 'learning_rate': 8.351518006081858e-07, 'epoch': 0.74} {'loss': 2.2748, 'grad_norm': 1.607872724533081, 'learning_rate': 8.348277595360946e-07, 'epoch': 0.74} {'loss': 2.4315, 'grad_norm': 1.6040053367614746, 'learning_rate': 8.345037687401589e-07, 'epoch': 0.74} {'loss': 2.2888, 'grad_norm': 1.8280518054962158, 'learning_rate': 8.341798282301592e-07, 'epoch': 0.74} {'loss': 2.0822, 'grad_norm': 1.6406276226043701, 'learning_rate': 8.338559380158789e-07, 'epoch': 0.74} {'loss': 2.1671, 'grad_norm': 1.4398777484893799, 'learning_rate': 8.335320981070938e-07, 'epoch': 0.74} {'loss': 1.7871, 'grad_norm': 1.5591721534729004, 'learning_rate': 8.332083085135828e-07, 'epoch': 0.74} {'loss': 2.3641, 'grad_norm': 3.9855475425720215, 'learning_rate': 8.328845692451232e-07, 'epoch': 0.74} {'loss': 2.3131, 'grad_norm': 1.7135981321334839, 'learning_rate': 8.325608803114876e-07, 'epoch': 0.74} {'loss': 2.2411, 'grad_norm': 5.488886833190918, 'learning_rate': 8.322372417224512e-07, 'epoch': 0.74} {'loss': 1.4362, 'grad_norm': 1.5537426471710205, 'learning_rate': 8.319136534877836e-07, 'epoch': 0.74} {'loss': 2.2949, 'grad_norm': 1.7342056035995483, 'learning_rate': 8.315901156172565e-07, 'epoch': 0.74} {'loss': 2.2674, 'grad_norm': 1.5868055820465088, 'learning_rate': 8.312666281206366e-07, 'epoch': 0.74} {'loss': 2.294, 'grad_norm': 1.5977728366851807, 'learning_rate': 8.309431910076929e-07, 'epoch': 0.74} {'loss': 2.2893, 'grad_norm': 1.7939836978912354, 'learning_rate': 8.306198042881897e-07, 'epoch': 0.74} {'loss': 2.3686, 'grad_norm': 1.6798046827316284, 'learning_rate': 8.3029646797189e-07, 'epoch': 0.74} {'loss': 2.1945, 'grad_norm': 2.2853219509124756, 'learning_rate': 8.299731820685583e-07, 'epoch': 0.74} {'loss': 2.201, 'grad_norm': 1.7132452726364136, 'learning_rate': 8.296499465879537e-07, 'epoch': 0.74} {'loss': 2.2292, 'grad_norm': 1.9406580924987793, 'learning_rate': 8.293267615398363e-07, 'epoch': 0.74} {'loss': 2.2918, 'grad_norm': 1.743945837020874, 'learning_rate': 8.290036269339649e-07, 'epoch': 0.74} {'loss': 2.1177, 'grad_norm': 1.6175380945205688, 'learning_rate': 8.28680542780094e-07, 'epoch': 0.74} {'loss': 2.2355, 'grad_norm': 1.6719304323196411, 'learning_rate': 8.2835750908798e-07, 'epoch': 0.74} {'loss': 2.2339, 'grad_norm': 1.1970773935317993, 'learning_rate': 8.280345258673755e-07, 'epoch': 0.74} {'loss': 2.4522, 'grad_norm': 2.0450973510742188, 'learning_rate': 8.277115931280316e-07, 'epoch': 0.74} {'loss': 2.134, 'grad_norm': 1.9969780445098877, 'learning_rate': 8.273887108797002e-07, 'epoch': 0.74} {'loss': 2.2269, 'grad_norm': 1.5920847654342651, 'learning_rate': 8.270658791321279e-07, 'epoch': 0.74} {'loss': 2.1548, 'grad_norm': 1.88010573387146, 'learning_rate': 8.267430978950639e-07, 'epoch': 0.74} {'loss': 2.4693, 'grad_norm': 1.723807692527771, 'learning_rate': 8.26420367178252e-07, 'epoch': 0.74} {'loss': 2.3355, 'grad_norm': 1.9632251262664795, 'learning_rate': 8.260976869914383e-07, 'epoch': 0.74} {'loss': 2.2775, 'grad_norm': 1.620600938796997, 'learning_rate': 8.257750573443635e-07, 'epoch': 0.74} {'loss': 2.3545, 'grad_norm': 1.8027287721633911, 'learning_rate': 8.254524782467693e-07, 'epoch': 0.74} {'loss': 2.1878, 'grad_norm': 1.668623685836792, 'learning_rate': 8.251299497083975e-07, 'epoch': 0.74} {'loss': 2.0721, 'grad_norm': 1.6577990055084229, 'learning_rate': 8.248074717389823e-07, 'epoch': 0.74} {'loss': 2.507, 'grad_norm': 1.9395625591278076, 'learning_rate': 8.24485044348263e-07, 'epoch': 0.74} {'loss': 2.2964, 'grad_norm': 1.664315938949585, 'learning_rate': 8.241626675459726e-07, 'epoch': 0.74} {'loss': 2.2768, 'grad_norm': 1.6220221519470215, 'learning_rate': 8.238403413418458e-07, 'epoch': 0.74} {'loss': 1.6704, 'grad_norm': 1.248735785484314, 'learning_rate': 8.235180657456152e-07, 'epoch': 0.74} {'loss': 2.2722, 'grad_norm': 1.5496106147766113, 'learning_rate': 8.23195840767009e-07, 'epoch': 0.74} {'loss': 2.3916, 'grad_norm': 1.5133583545684814, 'learning_rate': 8.228736664157586e-07, 'epoch': 0.74} {'loss': 2.3182, 'grad_norm': 1.7225756645202637, 'learning_rate': 8.22551542701589e-07, 'epoch': 0.74} {'loss': 2.2321, 'grad_norm': 1.7852030992507935, 'learning_rate': 8.222294696342281e-07, 'epoch': 0.74} {'loss': 2.2395, 'grad_norm': 1.7294262647628784, 'learning_rate': 8.219074472233989e-07, 'epoch': 0.74} {'loss': 2.2572, 'grad_norm': 1.7050679922103882, 'learning_rate': 8.215854754788238e-07, 'epoch': 0.74} {'loss': 2.2213, 'grad_norm': 1.6444766521453857, 'learning_rate': 8.212635544102255e-07, 'epoch': 0.74} {'loss': 2.1944, 'grad_norm': 1.4225584268569946, 'learning_rate': 8.209416840273219e-07, 'epoch': 0.74} {'loss': 2.1175, 'grad_norm': 1.4554738998413086, 'learning_rate': 8.206198643398328e-07, 'epoch': 0.74} {'loss': 2.2558, 'grad_norm': 3.065500497817993, 'learning_rate': 8.202980953574735e-07, 'epoch': 0.74} {'loss': 2.1962, 'grad_norm': 1.7707194089889526, 'learning_rate': 8.199763770899594e-07, 'epoch': 0.74} {'loss': 2.1962, 'grad_norm': 1.5906531810760498, 'learning_rate': 8.196547095470061e-07, 'epoch': 0.74} {'loss': 2.4143, 'grad_norm': 2.0793142318725586, 'learning_rate': 8.193330927383225e-07, 'epoch': 0.74} {'loss': 2.0673, 'grad_norm': 1.6072574853897095, 'learning_rate': 8.190115266736201e-07, 'epoch': 0.74} {'loss': 2.2624, 'grad_norm': 1.7092221975326538, 'learning_rate': 8.186900113626093e-07, 'epoch': 0.74} {'loss': 2.2816, 'grad_norm': 54.44622039794922, 'learning_rate': 8.183685468149957e-07, 'epoch': 0.74} {'loss': 2.2235, 'grad_norm': 1.5864441394805908, 'learning_rate': 8.180471330404865e-07, 'epoch': 0.74} {'loss': 2.2953, 'grad_norm': 1.5384867191314697, 'learning_rate': 8.177257700487851e-07, 'epoch': 0.74} {'loss': 2.4298, 'grad_norm': 1.7053672075271606, 'learning_rate': 8.174044578495954e-07, 'epoch': 0.74} {'loss': 2.367, 'grad_norm': 1.746866226196289, 'learning_rate': 8.170831964526175e-07, 'epoch': 0.74} {'loss': 2.1967, 'grad_norm': 1.5735942125320435, 'learning_rate': 8.167619858675524e-07, 'epoch': 0.74} {'loss': 2.2213, 'grad_norm': 1.7048518657684326, 'learning_rate': 8.164408261040979e-07, 'epoch': 0.74} {'loss': 2.2933, 'grad_norm': 2.563312292098999, 'learning_rate': 8.161197171719496e-07, 'epoch': 0.74} {'loss': 2.1773, 'grad_norm': 1.7789055109024048, 'learning_rate': 8.157986590808045e-07, 'epoch': 0.74} {'loss': 2.3866, 'grad_norm': 1.4849166870117188, 'learning_rate': 8.154776518403543e-07, 'epoch': 0.74} {'loss': 2.279, 'grad_norm': 1.7710782289505005, 'learning_rate': 8.151566954602929e-07, 'epoch': 0.74} {'loss': 2.3653, 'grad_norm': 2.1043789386749268, 'learning_rate': 8.148357899503096e-07, 'epoch': 0.74} {'loss': 2.7278, 'grad_norm': 1.7422658205032349, 'learning_rate': 8.145149353200937e-07, 'epoch': 0.74} {'loss': 2.2471, 'grad_norm': 1.6940362453460693, 'learning_rate': 8.141941315793337e-07, 'epoch': 0.74} {'loss': 1.9601, 'grad_norm': 1.6947280168533325, 'learning_rate': 8.138733787377145e-07, 'epoch': 0.74} {'loss': 2.2867, 'grad_norm': 1.7027448415756226, 'learning_rate': 8.135526768049204e-07, 'epoch': 0.74} {'loss': 2.0984, 'grad_norm': 1.477178931236267, 'learning_rate': 8.132320257906351e-07, 'epoch': 0.74} {'loss': 2.1591, 'grad_norm': 2.366894483566284, 'learning_rate': 8.129114257045386e-07, 'epoch': 0.74} {'loss': 2.1237, 'grad_norm': 1.5900216102600098, 'learning_rate': 8.125908765563126e-07, 'epoch': 0.74} {'loss': 1.7327, 'grad_norm': 1.137997031211853, 'learning_rate': 8.122703783556335e-07, 'epoch': 0.74} {'loss': 1.9296, 'grad_norm': 1.4380167722702026, 'learning_rate': 8.119499311121797e-07, 'epoch': 0.74} {'loss': 2.1586, 'grad_norm': 1.7399150133132935, 'learning_rate': 8.116295348356246e-07, 'epoch': 0.74} {'loss': 1.9946, 'grad_norm': 1.6221392154693604, 'learning_rate': 8.113091895356437e-07, 'epoch': 0.74} {'loss': 2.0785, 'grad_norm': 1.4088854789733887, 'learning_rate': 8.109888952219083e-07, 'epoch': 0.74} {'loss': 2.2875, 'grad_norm': 1.8075838088989258, 'learning_rate': 8.103484595918534e-07, 'epoch': 0.74} {'loss': 2.3271, 'grad_norm': 1.6975877285003662, 'learning_rate': 8.100283182948707e-07, 'epoch': 0.74} {'loss': 2.2746, 'grad_norm': 1.534686803817749, 'learning_rate': 8.097082280228063e-07, 'epoch': 0.74} {'loss': 2.4235, 'grad_norm': 2.110473394393921, 'learning_rate': 8.093881887853258e-07, 'epoch': 0.74} {'loss': 2.2046, 'grad_norm': 1.4957677125930786, 'learning_rate': 8.0906820059209e-07, 'epoch': 0.74} {'loss': 2.0741, 'grad_norm': 1.644205927848816, 'learning_rate': 8.087482634527621e-07, 'epoch': 0.75} {'loss': 2.2589, 'grad_norm': 1.8340840339660645, 'learning_rate': 8.084283773770005e-07, 'epoch': 0.75} {'loss': 2.0274, 'grad_norm': 1.4361194372177124, 'learning_rate': 8.081085423744647e-07, 'epoch': 0.75} {'loss': 2.0999, 'grad_norm': 1.5872901678085327, 'learning_rate': 8.077887584548105e-07, 'epoch': 0.75} {'loss': 1.9095, 'grad_norm': 1.764752984046936, 'learning_rate': 8.074690256276927e-07, 'epoch': 0.75} {'loss': 2.2474, 'grad_norm': 1.8142706155776978, 'learning_rate': 8.071493439027662e-07, 'epoch': 0.75} {'loss': 2.1346, 'grad_norm': 1.5912835597991943, 'learning_rate': 8.068297132896813e-07, 'epoch': 0.75} {'loss': 2.4594, 'grad_norm': 1.7038286924362183, 'learning_rate': 8.065101337980907e-07, 'epoch': 0.75} {'loss': 2.1055, 'grad_norm': 1.2636703252792358, 'learning_rate': 8.061906054376414e-07, 'epoch': 0.75} {'loss': 2.2618, 'grad_norm': 1.371963381767273, 'learning_rate': 8.058711282179818e-07, 'epoch': 0.75} {'loss': 2.0084, 'grad_norm': 1.535086989402771, 'learning_rate': 8.055517021487582e-07, 'epoch': 0.75} {'loss': 2.2609, 'grad_norm': 1.637930989265442, 'learning_rate': 8.052323272396148e-07, 'epoch': 0.75} {'loss': 2.2045, 'grad_norm': 1.745332956314087, 'learning_rate': 8.049130035001942e-07, 'epoch': 0.75} {'loss': 2.3301, 'grad_norm': 3.3197641372680664, 'learning_rate': 8.045937309401364e-07, 'epoch': 0.75} {'loss': 2.1138, 'grad_norm': 1.884528636932373, 'learning_rate': 8.042745095690826e-07, 'epoch': 0.75} {'loss': 2.2298, 'grad_norm': 1.4919378757476807, 'learning_rate': 8.039553393966712e-07, 'epoch': 0.75} {'loss': 2.1258, 'grad_norm': 1.7735285758972168, 'learning_rate': 8.036362204325376e-07, 'epoch': 0.75} {'loss': 2.1528, 'grad_norm': 1.62798011302948, 'learning_rate': 8.033171526863185e-07, 'epoch': 0.75} {'loss': 2.3847, 'grad_norm': 1.6867856979370117, 'learning_rate': 8.029981361676456e-07, 'epoch': 0.75} {'loss': 2.3011, 'grad_norm': 1.6647131443023682, 'learning_rate': 8.026791708861525e-07, 'epoch': 0.75} {'loss': 2.2143, 'grad_norm': 1.6339337825775146, 'learning_rate': 8.02360256851469e-07, 'epoch': 0.75} {'loss': 2.1801, 'grad_norm': 1.3383712768554688, 'learning_rate': 8.020413940732231e-07, 'epoch': 0.75} {'loss': 2.2791, 'grad_norm': 1.888844609260559, 'learning_rate': 8.017225825610439e-07, 'epoch': 0.75} {'loss': 2.2292, 'grad_norm': 1.474092960357666, 'learning_rate': 8.014038223245555e-07, 'epoch': 0.75} {'loss': 2.1998, 'grad_norm': 1.7902945280075073, 'learning_rate': 8.010851133733835e-07, 'epoch': 0.75} {'loss': 2.2808, 'grad_norm': 2.015415906906128, 'learning_rate': 8.007664557171497e-07, 'epoch': 0.75} {'loss': 1.6059, 'grad_norm': 1.64661705493927, 'learning_rate': 8.004478493654752e-07, 'epoch': 0.75} {'loss': 2.209, 'grad_norm': 2.0688838958740234, 'learning_rate': 8.001292943279809e-07, 'epoch': 0.75} {'loss': 2.227, 'grad_norm': 1.80010187625885, 'learning_rate': 7.998107906142841e-07, 'epoch': 0.75} {'loss': 2.4784, 'grad_norm': 1.8133755922317505, 'learning_rate': 7.994923382340009e-07, 'epoch': 0.75} {'loss': 2.3535, 'grad_norm': 1.8122128248214722, 'learning_rate': 7.991739371967461e-07, 'epoch': 0.75} {'loss': 2.365, 'grad_norm': 1.6632318496704102, 'learning_rate': 7.988555875121332e-07, 'epoch': 0.75} {'loss': 2.1841, 'grad_norm': 1.8578829765319824, 'learning_rate': 7.985372891897752e-07, 'epoch': 0.75} {'loss': 2.281, 'grad_norm': 1.6215912103652954, 'learning_rate': 7.982190422392811e-07, 'epoch': 0.75} {'loss': 1.9423, 'grad_norm': 1.7834023237228394, 'learning_rate': 7.979008466702609e-07, 'epoch': 0.75} {'loss': 2.0484, 'grad_norm': 1.7819187641143799, 'learning_rate': 7.975827024923203e-07, 'epoch': 0.75} {'loss': 2.2332, 'grad_norm': 1.7734135389328003, 'learning_rate': 7.972646097150663e-07, 'epoch': 0.75} {'loss': 2.4918, 'grad_norm': 1.9371527433395386, 'learning_rate': 7.969465683481026e-07, 'epoch': 0.75} {'loss': 2.2823, 'grad_norm': 1.7486027479171753, 'learning_rate': 7.966285784010305e-07, 'epoch': 0.75} {'loss': 2.2757, 'grad_norm': 1.7712295055389404, 'learning_rate': 7.96310639883453e-07, 'epoch': 0.75} {'loss': 2.2598, 'grad_norm': 1.5353790521621704, 'learning_rate': 7.95992752804968e-07, 'epoch': 0.75} {'loss': 2.0943, 'grad_norm': 1.7073792219161987, 'learning_rate': 7.956749171751746e-07, 'epoch': 0.75} {'loss': 2.3166, 'grad_norm': 1.5802700519561768, 'learning_rate': 7.953571330036677e-07, 'epoch': 0.75} {'loss': 1.9128, 'grad_norm': 1.327968955039978, 'learning_rate': 7.950394003000431e-07, 'epoch': 0.75} {'loss': 2.1969, 'grad_norm': 2.243760108947754, 'learning_rate': 7.947217190738945e-07, 'epoch': 0.75} {'loss': 1.922, 'grad_norm': 1.5232537984848022, 'learning_rate': 7.944040893348121e-07, 'epoch': 0.75} {'loss': 2.5953, 'grad_norm': 2.4528887271881104, 'learning_rate': 7.940865110923885e-07, 'epoch': 0.75} {'loss': 2.2969, 'grad_norm': 1.846914291381836, 'learning_rate': 7.937689843562091e-07, 'epoch': 0.75} {'loss': 1.9335, 'grad_norm': 1.3267964124679565, 'learning_rate': 7.934515091358621e-07, 'epoch': 0.75} {'loss': 2.2214, 'grad_norm': 1.5485235452651978, 'learning_rate': 7.931340854409345e-07, 'epoch': 0.75} {'loss': 2.5297, 'grad_norm': 1.7299377918243408, 'learning_rate': 7.928167132810077e-07, 'epoch': 0.75} {'loss': 2.2122, 'grad_norm': 1.7679424285888672, 'learning_rate': 7.924993926656665e-07, 'epoch': 0.75} {'loss': 2.1699, 'grad_norm': 1.7273205518722534, 'learning_rate': 7.921821236044897e-07, 'epoch': 0.75} {'loss': 2.3172, 'grad_norm': 2.0614190101623535, 'learning_rate': 7.918649061070579e-07, 'epoch': 0.75} {'loss': 2.2397, 'grad_norm': 1.5599563121795654, 'learning_rate': 7.915477401829475e-07, 'epoch': 0.75} {'loss': 2.4177, 'grad_norm': 1.5764809846878052, 'learning_rate': 7.91230625841736e-07, 'epoch': 0.75} {'loss': 2.0435, 'grad_norm': 1.7213280200958252, 'learning_rate': 7.909135630929973e-07, 'epoch': 0.75} {'loss': 2.4988, 'grad_norm': 1.7768176794052124, 'learning_rate': 7.905965519463038e-07, 'epoch': 0.75} {'loss': 2.5287, 'grad_norm': 1.8757507801055908, 'learning_rate': 7.90279592411228e-07, 'epoch': 0.75} {'loss': 1.9449, 'grad_norm': 1.517301082611084, 'learning_rate': 7.899626844973388e-07, 'epoch': 0.75} {'loss': 2.223, 'grad_norm': 1.5873186588287354, 'learning_rate': 7.89645828214205e-07, 'epoch': 0.75} {'loss': 2.2288, 'grad_norm': 1.5614956617355347, 'learning_rate': 7.893290235713941e-07, 'epoch': 0.75} {'loss': 2.4224, 'grad_norm': 1.660054087638855, 'learning_rate': 7.890122705784697e-07, 'epoch': 0.75} {'loss': 2.2028, 'grad_norm': 4.071425437927246, 'learning_rate': 7.886955692449974e-07, 'epoch': 0.75} {'loss': 2.3605, 'grad_norm': 1.569865345954895, 'learning_rate': 7.88378919580538e-07, 'epoch': 0.75} {'loss': 2.3393, 'grad_norm': 1.401206374168396, 'learning_rate': 7.880623215946518e-07, 'epoch': 0.75} {'loss': 2.4674, 'grad_norm': 1.535638451576233, 'learning_rate': 7.877457752968989e-07, 'epoch': 0.75} {'loss': 2.4209, 'grad_norm': 1.6687450408935547, 'learning_rate': 7.87429280696835e-07, 'epoch': 0.75} {'loss': 2.4469, 'grad_norm': 1.786460041999817, 'learning_rate': 7.87112837804018e-07, 'epoch': 0.75} {'loss': 2.6863, 'grad_norm': 1.7642103433609009, 'learning_rate': 7.867964466280003e-07, 'epoch': 0.75} {'loss': 2.1909, 'grad_norm': 1.3933385610580444, 'learning_rate': 7.864801071783365e-07, 'epoch': 0.75} {'loss': 1.6361, 'grad_norm': 1.939931869506836, 'learning_rate': 7.86163819464576e-07, 'epoch': 0.75} {'loss': 2.2824, 'grad_norm': 1.9704002141952515, 'learning_rate': 7.858475834962698e-07, 'epoch': 0.75} {'loss': 2.4589, 'grad_norm': 1.3199071884155273, 'learning_rate': 7.855313992829652e-07, 'epoch': 0.75} {'loss': 2.2277, 'grad_norm': 1.5333393812179565, 'learning_rate': 7.852152668342084e-07, 'epoch': 0.75} {'loss': 1.5416, 'grad_norm': 3.6629226207733154, 'learning_rate': 7.848991861595443e-07, 'epoch': 0.75} {'loss': 2.2044, 'grad_norm': 1.6399157047271729, 'learning_rate': 7.845831572685176e-07, 'epoch': 0.75} {'loss': 2.2515, 'grad_norm': 2.586674928665161, 'learning_rate': 7.842671801706684e-07, 'epoch': 0.75} {'loss': 2.4283, 'grad_norm': 2.351071357727051, 'learning_rate': 7.839512548755385e-07, 'epoch': 0.75} {'loss': 2.2184, 'grad_norm': 1.6681874990463257, 'learning_rate': 7.836353813926648e-07, 'epoch': 0.75} {'loss': 1.8251, 'grad_norm': 1.3244930505752563, 'learning_rate': 7.83319559731586e-07, 'epoch': 0.75} {'loss': 2.1821, 'grad_norm': 1.7862166166305542, 'learning_rate': 7.83003789901837e-07, 'epoch': 0.75} {'loss': 2.3411, 'grad_norm': 1.4628691673278809, 'learning_rate': 7.826880719129509e-07, 'epoch': 0.75} {'loss': 2.3305, 'grad_norm': 1.7757319211959839, 'learning_rate': 7.823724057744619e-07, 'epoch': 0.75} {'loss': 2.3016, 'grad_norm': 1.6783168315887451, 'learning_rate': 7.820567914958988e-07, 'epoch': 0.75} {'loss': 2.2751, 'grad_norm': 1.563618779182434, 'learning_rate': 7.817412290867929e-07, 'epoch': 0.75} {'loss': 2.5051, 'grad_norm': 1.7191969156265259, 'learning_rate': 7.814257185566698e-07, 'epoch': 0.75} {'loss': 2.4276, 'grad_norm': 1.723690390586853, 'learning_rate': 7.81110259915058e-07, 'epoch': 0.75} {'loss': 2.3534, 'grad_norm': 1.6718512773513794, 'learning_rate': 7.807948531714796e-07, 'epoch': 0.75} {'loss': 2.2091, 'grad_norm': 1.7585117816925049, 'learning_rate': 7.804794983354591e-07, 'epoch': 0.75} {'loss': 2.0066, 'grad_norm': 1.4285215139389038, 'learning_rate': 7.80164195416519e-07, 'epoch': 0.75} {'loss': 1.7364, 'grad_norm': 1.3729195594787598, 'learning_rate': 7.798489444241763e-07, 'epoch': 0.75} {'loss': 2.2674, 'grad_norm': 1.6365833282470703, 'learning_rate': 7.79533745367951e-07, 'epoch': 0.75} {'loss': 2.1623, 'grad_norm': 1.8558729887008667, 'learning_rate': 7.792185982573603e-07, 'epoch': 0.75} {'loss': 2.3643, 'grad_norm': 11.425905227661133, 'learning_rate': 7.789035031019179e-07, 'epoch': 0.75} {'loss': 2.2681, 'grad_norm': 1.4464582204818726, 'learning_rate': 7.785884599111391e-07, 'epoch': 0.75} {'loss': 2.1966, 'grad_norm': 1.8397598266601562, 'learning_rate': 7.78273468694534e-07, 'epoch': 0.75} {'loss': 2.2909, 'grad_norm': 1.4916362762451172, 'learning_rate': 7.779585294616149e-07, 'epoch': 0.75} {'loss': 2.1464, 'grad_norm': 1.5707794427871704, 'learning_rate': 7.776436422218892e-07, 'epoch': 0.75} {'loss': 2.0344, 'grad_norm': 1.563894510269165, 'learning_rate': 7.773288069848658e-07, 'epoch': 0.75} {'loss': 2.338, 'grad_norm': 1.5922242403030396, 'learning_rate': 7.770140237600493e-07, 'epoch': 0.75} {'loss': 2.5285, 'grad_norm': 1.934959053993225, 'learning_rate': 7.766992925569436e-07, 'epoch': 0.75} {'loss': 2.1726, 'grad_norm': 1.6314221620559692, 'learning_rate': 7.763846133850523e-07, 'epoch': 0.75} {'loss': 2.3829, 'grad_norm': 2.3123152256011963, 'learning_rate': 7.760699862538754e-07, 'epoch': 0.75} {'loss': 1.8034, 'grad_norm': 1.616400957107544, 'learning_rate': 7.757554111729127e-07, 'epoch': 0.75} {'loss': 2.2728, 'grad_norm': 1.700917363166809, 'learning_rate': 7.754408881516632e-07, 'epoch': 0.75} {'loss': 2.3193, 'grad_norm': 1.4866949319839478, 'learning_rate': 7.751264171996214e-07, 'epoch': 0.75} {'loss': 2.3803, 'grad_norm': 2.6020519733428955, 'learning_rate': 7.748119983262839e-07, 'epoch': 0.75} {'loss': 2.0296, 'grad_norm': 1.4112886190414429, 'learning_rate': 7.744976315411429e-07, 'epoch': 0.75} {'loss': 2.2547, 'grad_norm': 1.6924065351486206, 'learning_rate': 7.741833168536894e-07, 'epoch': 0.75} {'loss': 2.3373, 'grad_norm': 1.8050711154937744, 'learning_rate': 7.738690542734145e-07, 'epoch': 0.75} {'loss': 2.2924, 'grad_norm': 1.6173745393753052, 'learning_rate': 7.735548438098059e-07, 'epoch': 0.75} {'loss': 2.5065, 'grad_norm': 1.9918973445892334, 'learning_rate': 7.732406854723512e-07, 'epoch': 0.75} {'loss': 2.2136, 'grad_norm': 1.6662547588348389, 'learning_rate': 7.729265792705348e-07, 'epoch': 0.75} {'loss': 2.2917, 'grad_norm': 1.7543548345565796, 'learning_rate': 7.726125252138417e-07, 'epoch': 0.75} {'loss': 2.1977, 'grad_norm': 1.2947615385055542, 'learning_rate': 7.722985233117525e-07, 'epoch': 0.75} {'loss': 2.1157, 'grad_norm': 1.5512640476226807, 'learning_rate': 7.719845735737494e-07, 'epoch': 0.75} {'loss': 2.2808, 'grad_norm': 2.099318504333496, 'learning_rate': 7.716706760093107e-07, 'epoch': 0.75} {'loss': 2.3851, 'grad_norm': 1.6396915912628174, 'learning_rate': 7.713568306279129e-07, 'epoch': 0.75} {'loss': 2.3273, 'grad_norm': 1.4986438751220703, 'learning_rate': 7.710430374390334e-07, 'epoch': 0.75} {'loss': 2.4907, 'grad_norm': 2.4349515438079834, 'learning_rate': 7.707292964521451e-07, 'epoch': 0.75} {'loss': 2.3832, 'grad_norm': 1.664171576499939, 'learning_rate': 7.704156076767213e-07, 'epoch': 0.75} {'loss': 2.2371, 'grad_norm': 1.5993034839630127, 'learning_rate': 7.701019711222344e-07, 'epoch': 0.75} {'loss': 2.2414, 'grad_norm': 1.7162209749221802, 'learning_rate': 7.697883867981515e-07, 'epoch': 0.75} {'loss': 2.4689, 'grad_norm': 1.7550618648529053, 'learning_rate': 7.694748547139431e-07, 'epoch': 0.75} {'loss': 2.0641, 'grad_norm': 1.5542670488357544, 'learning_rate': 7.691613748790741e-07, 'epoch': 0.75} {'loss': 2.3829, 'grad_norm': 1.735304594039917, 'learning_rate': 7.688479473030089e-07, 'epoch': 0.75} {'loss': 2.1269, 'grad_norm': 1.7207998037338257, 'learning_rate': 7.685345719952122e-07, 'epoch': 0.75} {'loss': 2.3227, 'grad_norm': 1.7612260580062866, 'learning_rate': 7.682212489651439e-07, 'epoch': 0.75} {'loss': 2.0486, 'grad_norm': 1.6822500228881836, 'learning_rate': 7.679079782222662e-07, 'epoch': 0.75} {'loss': 2.0969, 'grad_norm': 1.6175386905670166, 'learning_rate': 7.675947597760355e-07, 'epoch': 0.75} {'loss': 1.9883, 'grad_norm': 10.614896774291992, 'learning_rate': 7.672815936359107e-07, 'epoch': 0.75} {'loss': 2.1046, 'grad_norm': 1.9680752754211426, 'learning_rate': 7.669684798113453e-07, 'epoch': 0.75} {'loss': 2.2068, 'grad_norm': 1.980653166770935, 'learning_rate': 7.666554183117942e-07, 'epoch': 0.75} {'loss': 2.1962, 'grad_norm': 1.5610716342926025, 'learning_rate': 7.663424091467106e-07, 'epoch': 0.75} {'loss': 2.3727, 'grad_norm': 1.7568328380584717, 'learning_rate': 7.660294523255424e-07, 'epoch': 0.75} {'loss': 2.5555, 'grad_norm': 1.710723876953125, 'learning_rate': 7.657165478577408e-07, 'epoch': 0.75} {'loss': 1.8101, 'grad_norm': 1.552213430404663, 'learning_rate': 7.654036957527519e-07, 'epoch': 0.75} {'loss': 2.4525, 'grad_norm': 2.0051677227020264, 'learning_rate': 7.650908960200221e-07, 'epoch': 0.75} {'loss': 2.2139, 'grad_norm': 1.886099100112915, 'learning_rate': 7.647781486689968e-07, 'epoch': 0.75} {'loss': 2.2566, 'grad_norm': 1.3739445209503174, 'learning_rate': 7.644654537091167e-07, 'epoch': 0.75} {'loss': 2.1912, 'grad_norm': 1.94839608669281, 'learning_rate': 7.641528111498247e-07, 'epoch': 0.75} {'loss': 2.1536, 'grad_norm': 1.6505786180496216, 'learning_rate': 7.638402210005591e-07, 'epoch': 0.75} {'loss': 1.8999, 'grad_norm': 1.8417167663574219, 'learning_rate': 7.635276832707589e-07, 'epoch': 0.75} {'loss': 2.3999, 'grad_norm': 1.7557226419448853, 'learning_rate': 7.632151979698598e-07, 'epoch': 0.75} {'loss': 2.4912, 'grad_norm': 1.5158394575119019, 'learning_rate': 7.629027651072962e-07, 'epoch': 0.75} {'loss': 2.4057, 'grad_norm': 1.8284934759140015, 'learning_rate': 7.625903846925026e-07, 'epoch': 0.75} {'loss': 2.1026, 'grad_norm': 3.2555017471313477, 'learning_rate': 7.622780567349089e-07, 'epoch': 0.75} {'loss': 2.4146, 'grad_norm': 1.7241054773330688, 'learning_rate': 7.619657812439471e-07, 'epoch': 0.75} {'loss': 2.5024, 'grad_norm': 1.5970532894134521, 'learning_rate': 7.616535582290436e-07, 'epoch': 0.75} {'loss': 2.4092, 'grad_norm': 1.534481406211853, 'learning_rate': 7.613413876996265e-07, 'epoch': 0.75} {'loss': 2.4558, 'grad_norm': 2.0462634563446045, 'learning_rate': 7.610292696651217e-07, 'epoch': 0.75} {'loss': 2.3216, 'grad_norm': 1.6935614347457886, 'learning_rate': 7.607172041349523e-07, 'epoch': 0.75} {'loss': 1.9391, 'grad_norm': 1.612481951713562, 'learning_rate': 7.604051911185401e-07, 'epoch': 0.75} {'loss': 2.5821, 'grad_norm': 1.6092700958251953, 'learning_rate': 7.600932306253048e-07, 'epoch': 0.75} {'loss': 2.2965, 'grad_norm': 1.5539796352386475, 'learning_rate': 7.597813226646667e-07, 'epoch': 0.75} {'loss': 2.1769, 'grad_norm': 1.7879323959350586, 'learning_rate': 7.594694672460435e-07, 'epoch': 0.75} {'loss': 2.229, 'grad_norm': 1.5336052179336548, 'learning_rate': 7.591576643788493e-07, 'epoch': 0.75} {'loss': 2.1234, 'grad_norm': 1.58218252658844, 'learning_rate': 7.588459140725001e-07, 'epoch': 0.75} {'loss': 2.0087, 'grad_norm': 1.6625393629074097, 'learning_rate': 7.58534216336407e-07, 'epoch': 0.75} {'loss': 2.3959, 'grad_norm': 1.7306153774261475, 'learning_rate': 7.582225711799826e-07, 'epoch': 0.75} {'loss': 2.3239, 'grad_norm': 1.5182901620864868, 'learning_rate': 7.579109786126354e-07, 'epoch': 0.75} {'loss': 2.2161, 'grad_norm': 1.718902587890625, 'learning_rate': 7.575994386437724e-07, 'epoch': 0.75} {'loss': 2.1952, 'grad_norm': 1.8580212593078613, 'learning_rate': 7.572879512828016e-07, 'epoch': 0.75} {'loss': 2.3306, 'grad_norm': 2.181401014328003, 'learning_rate': 7.569765165391257e-07, 'epoch': 0.75} {'loss': 2.4676, 'grad_norm': 1.61935555934906, 'learning_rate': 7.566651344221498e-07, 'epoch': 0.75} {'loss': 2.3401, 'grad_norm': 2.4867961406707764, 'learning_rate': 7.563538049412738e-07, 'epoch': 0.75} {'loss': 2.23, 'grad_norm': 2.1269397735595703, 'learning_rate': 7.560425281058983e-07, 'epoch': 0.75} {'loss': 1.9758, 'grad_norm': 1.5382159948349, 'learning_rate': 7.557313039254221e-07, 'epoch': 0.75} {'loss': 1.6993, 'grad_norm': 1.6274898052215576, 'learning_rate': 7.554201324092414e-07, 'epoch': 0.75} {'loss': 1.8351, 'grad_norm': 1.4256912469863892, 'learning_rate': 7.551090135667508e-07, 'epoch': 0.75} {'loss': 2.3431, 'grad_norm': 2.3359899520874023, 'learning_rate': 7.547979474073447e-07, 'epoch': 0.75} {'loss': 2.1555, 'grad_norm': 1.5605146884918213, 'learning_rate': 7.544869339404143e-07, 'epoch': 0.75} {'loss': 1.5622, 'grad_norm': 1.311184287071228, 'learning_rate': 7.54175973175351e-07, 'epoch': 0.75} {'loss': 2.2038, 'grad_norm': 1.502037763595581, 'learning_rate': 7.53865065121542e-07, 'epoch': 0.75} {'loss': 2.404, 'grad_norm': 1.7249001264572144, 'learning_rate': 7.535542097883763e-07, 'epoch': 0.75} {'loss': 2.3339, 'grad_norm': 1.7567448616027832, 'learning_rate': 7.532434071852376e-07, 'epoch': 0.75} {'loss': 2.5328, 'grad_norm': 1.7016983032226562, 'learning_rate': 7.529326573215118e-07, 'epoch': 0.75} {'loss': 2.4001, 'grad_norm': 1.6437405347824097, 'learning_rate': 7.526219602065804e-07, 'epoch': 0.75} {'loss': 2.2306, 'grad_norm': 1.6116167306900024, 'learning_rate': 7.523113158498232e-07, 'epoch': 0.75} {'loss': 2.4073, 'grad_norm': 1.7334812879562378, 'learning_rate': 7.520007242606214e-07, 'epoch': 0.75} {'loss': 1.9808, 'grad_norm': 3.8827297687530518, 'learning_rate': 7.516901854483508e-07, 'epoch': 0.75} {'loss': 2.2873, 'grad_norm': 1.6107580661773682, 'learning_rate': 7.513796994223887e-07, 'epoch': 0.75} {'loss': 2.3144, 'grad_norm': 1.6033259630203247, 'learning_rate': 7.510692661921084e-07, 'epoch': 0.75} {'loss': 2.5332, 'grad_norm': 1.6443235874176025, 'learning_rate': 7.507588857668835e-07, 'epoch': 0.75} {'loss': 2.2323, 'grad_norm': 2.016453504562378, 'learning_rate': 7.504485581560858e-07, 'epoch': 0.75} {'loss': 2.4289, 'grad_norm': 1.47275710105896, 'learning_rate': 7.501382833690835e-07, 'epoch': 0.75} {'loss': 2.1901, 'grad_norm': 1.7144337892532349, 'learning_rate': 7.498280614152462e-07, 'epoch': 0.76} {'loss': 2.1714, 'grad_norm': 1.6617971658706665, 'learning_rate': 7.495178923039398e-07, 'epoch': 0.76} {'loss': 2.1891, 'grad_norm': 1.350773811340332, 'learning_rate': 7.492077760445279e-07, 'epoch': 0.76} {'loss': 2.2029, 'grad_norm': 1.7928248643875122, 'learning_rate': 7.488977126463756e-07, 'epoch': 0.76} {'loss': 2.0251, 'grad_norm': 1.5065900087356567, 'learning_rate': 7.485877021188432e-07, 'epoch': 0.76} {'loss': 2.3309, 'grad_norm': 1.601199984550476, 'learning_rate': 7.482777444712921e-07, 'epoch': 0.76} {'loss': 2.3646, 'grad_norm': 1.7453700304031372, 'learning_rate': 7.479678397130793e-07, 'epoch': 0.76} {'loss': 2.3148, 'grad_norm': 1.6281592845916748, 'learning_rate': 7.476579878535631e-07, 'epoch': 0.76} {'loss': 2.5845, 'grad_norm': 1.6865135431289673, 'learning_rate': 7.473481889020973e-07, 'epoch': 0.76} {'loss': 2.4882, 'grad_norm': 1.5066256523132324, 'learning_rate': 7.470384428680372e-07, 'epoch': 0.76} {'loss': 2.0982, 'grad_norm': 1.193774700164795, 'learning_rate': 7.467287497607342e-07, 'epoch': 0.76} {'loss': 2.1758, 'grad_norm': 2.103680372238159, 'learning_rate': 7.464191095895379e-07, 'epoch': 0.76} {'loss': 2.1663, 'grad_norm': 1.9037050008773804, 'learning_rate': 7.461095223637979e-07, 'epoch': 0.76} {'loss': 2.31, 'grad_norm': 13.089126586914062, 'learning_rate': 7.457999880928623e-07, 'epoch': 0.76} {'loss': 2.3192, 'grad_norm': 2.1213595867156982, 'learning_rate': 7.454905067860754e-07, 'epoch': 0.76} {'loss': 2.1255, 'grad_norm': 2.3657143115997314, 'learning_rate': 7.451810784527827e-07, 'epoch': 0.76} {'loss': 2.2732, 'grad_norm': 1.7683533430099487, 'learning_rate': 7.448717031023251e-07, 'epoch': 0.76} {'loss': 2.0416, 'grad_norm': 1.6612132787704468, 'learning_rate': 7.445623807440452e-07, 'epoch': 0.76} {'loss': 2.1939, 'grad_norm': 1.5941492319107056, 'learning_rate': 7.442531113872814e-07, 'epoch': 0.76} {'loss': 2.3158, 'grad_norm': 1.6482914686203003, 'learning_rate': 7.439438950413708e-07, 'epoch': 0.76} {'loss': 2.1052, 'grad_norm': 1.4109584093093872, 'learning_rate': 7.436347317156509e-07, 'epoch': 0.76} {'loss': 2.0599, 'grad_norm': 1.4067461490631104, 'learning_rate': 7.433256214194546e-07, 'epoch': 0.76} {'loss': 2.3296, 'grad_norm': 1.728938102722168, 'learning_rate': 7.430165641621163e-07, 'epoch': 0.76} {'loss': 2.4314, 'grad_norm': 1.3071534633636475, 'learning_rate': 7.42707559952966e-07, 'epoch': 0.76} {'loss': 2.2461, 'grad_norm': 1.9740939140319824, 'learning_rate': 7.42398608801334e-07, 'epoch': 0.76} {'loss': 2.2329, 'grad_norm': 1.7440450191497803, 'learning_rate': 7.420897107165492e-07, 'epoch': 0.76} {'loss': 2.2332, 'grad_norm': 1.7979193925857544, 'learning_rate': 7.417808657079365e-07, 'epoch': 0.76} {'loss': 2.4323, 'grad_norm': 1.7514610290527344, 'learning_rate': 7.41472073784823e-07, 'epoch': 0.76} {'loss': 2.0099, 'grad_norm': 1.2539798021316528, 'learning_rate': 7.411633349565292e-07, 'epoch': 0.76} {'loss': 2.1471, 'grad_norm': 1.3543177843093872, 'learning_rate': 7.408546492323782e-07, 'epoch': 0.76} {'loss': 2.2827, 'grad_norm': 1.6923531293869019, 'learning_rate': 7.405460166216904e-07, 'epoch': 0.76} {'loss': 2.1888, 'grad_norm': 1.641640305519104, 'learning_rate': 7.402374371337836e-07, 'epoch': 0.76} {'loss': 2.3348, 'grad_norm': 1.7468024492263794, 'learning_rate': 7.399289107779756e-07, 'epoch': 0.76} {'loss': 2.2395, 'grad_norm': 1.6987088918685913, 'learning_rate': 7.396204375635801e-07, 'epoch': 0.76} {'loss': 2.2586, 'grad_norm': 1.6558828353881836, 'learning_rate': 7.393120174999124e-07, 'epoch': 0.76} {'loss': 2.3809, 'grad_norm': 2.2849855422973633, 'learning_rate': 7.390036505962841e-07, 'epoch': 0.76} {'loss': 2.331, 'grad_norm': 1.5383398532867432, 'learning_rate': 7.386953368620045e-07, 'epoch': 0.76} {'loss': 2.3307, 'grad_norm': 1.4120104312896729, 'learning_rate': 7.383870763063841e-07, 'epoch': 0.76} {'loss': 2.3472, 'grad_norm': 1.6616917848587036, 'learning_rate': 7.380788689387286e-07, 'epoch': 0.76} {'loss': 2.4223, 'grad_norm': 1.8525879383087158, 'learning_rate': 7.37770714768345e-07, 'epoch': 0.76} {'loss': 2.2881, 'grad_norm': 1.6370247602462769, 'learning_rate': 7.374626138045363e-07, 'epoch': 0.76} {'loss': 2.0853, 'grad_norm': 1.7184876203536987, 'learning_rate': 7.371545660566051e-07, 'epoch': 0.76} {'loss': 2.331, 'grad_norm': 1.57194983959198, 'learning_rate': 7.368465715338532e-07, 'epoch': 0.76} {'loss': 2.1564, 'grad_norm': 1.8328300714492798, 'learning_rate': 7.365386302455785e-07, 'epoch': 0.76} {'loss': 2.2389, 'grad_norm': 1.949434757232666, 'learning_rate': 7.362307422010806e-07, 'epoch': 0.76} {'loss': 2.4728, 'grad_norm': 1.7683885097503662, 'learning_rate': 7.359229074096524e-07, 'epoch': 0.76} {'loss': 2.259, 'grad_norm': 1.8673949241638184, 'learning_rate': 7.356151258805902e-07, 'epoch': 0.76} {'loss': 2.1105, 'grad_norm': 1.4027272462844849, 'learning_rate': 7.353073976231869e-07, 'epoch': 0.76} {'loss': 2.2149, 'grad_norm': 1.6860804557800293, 'learning_rate': 7.349997226467328e-07, 'epoch': 0.76} {'loss': 2.4466, 'grad_norm': 1.6219910383224487, 'learning_rate': 7.346921009605187e-07, 'epoch': 0.76} {'loss': 2.1466, 'grad_norm': 2.141726016998291, 'learning_rate': 7.343845325738311e-07, 'epoch': 0.76} {'loss': 1.8197, 'grad_norm': 1.2473758459091187, 'learning_rate': 7.340770174959577e-07, 'epoch': 0.76} {'loss': 2.0753, 'grad_norm': 1.6215661764144897, 'learning_rate': 7.337695557361818e-07, 'epoch': 0.76} {'loss': 1.9469, 'grad_norm': 1.7891062498092651, 'learning_rate': 7.334621473037881e-07, 'epoch': 0.76} {'loss': 2.5048, 'grad_norm': 1.6382180452346802, 'learning_rate': 7.331547922080573e-07, 'epoch': 0.76} {'loss': 2.3014, 'grad_norm': 1.6310985088348389, 'learning_rate': 7.328474904582683e-07, 'epoch': 0.76} {'loss': 2.3037, 'grad_norm': 1.6950781345367432, 'learning_rate': 7.325402420637015e-07, 'epoch': 0.76} {'loss': 2.2878, 'grad_norm': 1.2252655029296875, 'learning_rate': 7.322330470336314e-07, 'epoch': 0.76} {'loss': 2.306, 'grad_norm': 1.7029727697372437, 'learning_rate': 7.319259053773342e-07, 'epoch': 0.76} {'loss': 2.4208, 'grad_norm': 1.8185746669769287, 'learning_rate': 7.316188171040841e-07, 'epoch': 0.76} {'loss': 2.1189, 'grad_norm': 1.2509938478469849, 'learning_rate': 7.313117822231513e-07, 'epoch': 0.76} {'loss': 2.3076, 'grad_norm': 1.524680256843567, 'learning_rate': 7.310048007438078e-07, 'epoch': 0.76} {'loss': 2.5612, 'grad_norm': 2.1308071613311768, 'learning_rate': 7.306978726753211e-07, 'epoch': 0.76} {'loss': 2.2611, 'grad_norm': 1.8240517377853394, 'learning_rate': 7.303909980269578e-07, 'epoch': 0.76} {'loss': 2.2985, 'grad_norm': 1.6781291961669922, 'learning_rate': 7.300841768079847e-07, 'epoch': 0.76} {'loss': 2.3009, 'grad_norm': 1.4412944316864014, 'learning_rate': 7.297774090276638e-07, 'epoch': 0.76} {'loss': 2.1481, 'grad_norm': 2.095294713973999, 'learning_rate': 7.29470694695259e-07, 'epoch': 0.76} {'loss': 2.185, 'grad_norm': 1.666771650314331, 'learning_rate': 7.291640338200296e-07, 'epoch': 0.76} {'loss': 2.2113, 'grad_norm': 1.7946985960006714, 'learning_rate': 7.288574264112355e-07, 'epoch': 0.76} {'loss': 2.3337, 'grad_norm': 1.5076615810394287, 'learning_rate': 7.285508724781326e-07, 'epoch': 0.76} {'loss': 2.589, 'grad_norm': 2.4287939071655273, 'learning_rate': 7.282443720299779e-07, 'epoch': 0.76} {'loss': 2.2868, 'grad_norm': 1.8200873136520386, 'learning_rate': 7.279379250760266e-07, 'epoch': 0.76} {'loss': 2.3843, 'grad_norm': 1.6797168254852295, 'learning_rate': 7.276315316255284e-07, 'epoch': 0.76} {'loss': 2.2866, 'grad_norm': 1.7092097997665405, 'learning_rate': 7.27325191687736e-07, 'epoch': 0.76} {'loss': 2.2292, 'grad_norm': 1.7073372602462769, 'learning_rate': 7.270189052718976e-07, 'epoch': 0.76} {'loss': 2.1237, 'grad_norm': 1.9042291641235352, 'learning_rate': 7.267126723872611e-07, 'epoch': 0.76} {'loss': 2.2994, 'grad_norm': 1.9306730031967163, 'learning_rate': 7.264064930430739e-07, 'epoch': 0.76} {'loss': 2.3521, 'grad_norm': 1.5069698095321655, 'learning_rate': 7.261003672485783e-07, 'epoch': 0.76} {'loss': 2.338, 'grad_norm': 2.0698537826538086, 'learning_rate': 7.25794295013019e-07, 'epoch': 0.76} {'loss': 2.0459, 'grad_norm': 1.7144290208816528, 'learning_rate': 7.254882763456353e-07, 'epoch': 0.76} {'loss': 2.2407, 'grad_norm': 2.5780932903289795, 'learning_rate': 7.251823112556688e-07, 'epoch': 0.76} {'loss': 2.1153, 'grad_norm': 2.9714505672454834, 'learning_rate': 7.248763997523561e-07, 'epoch': 0.76} {'loss': 2.1906, 'grad_norm': 1.787060260772705, 'learning_rate': 7.24570541844933e-07, 'epoch': 0.76} {'loss': 2.1091, 'grad_norm': 1.9088910818099976, 'learning_rate': 7.24264737542636e-07, 'epoch': 0.76} {'loss': 2.3576, 'grad_norm': 1.6074421405792236, 'learning_rate': 7.239589868546959e-07, 'epoch': 0.76} {'loss': 1.7958, 'grad_norm': 1.4992296695709229, 'learning_rate': 7.236532897903464e-07, 'epoch': 0.76} {'loss': 2.7246, 'grad_norm': 1.6682813167572021, 'learning_rate': 7.233476463588157e-07, 'epoch': 0.76} {'loss': 2.0713, 'grad_norm': 1.5980879068374634, 'learning_rate': 7.230420565693324e-07, 'epoch': 0.76} {'loss': 2.3585, 'grad_norm': 1.7857774496078491, 'learning_rate': 7.227365204311252e-07, 'epoch': 0.76} {'loss': 1.9934, 'grad_norm': 1.348372220993042, 'learning_rate': 7.224310379534152e-07, 'epoch': 0.76} {'loss': 2.1381, 'grad_norm': 1.5500524044036865, 'learning_rate': 7.22125609145429e-07, 'epoch': 0.76} {'loss': 2.0203, 'grad_norm': 1.4809235334396362, 'learning_rate': 7.21820234016386e-07, 'epoch': 0.76} {'loss': 2.2551, 'grad_norm': 2.255965232849121, 'learning_rate': 7.215149125755077e-07, 'epoch': 0.76} {'loss': 2.158, 'grad_norm': 1.8735312223434448, 'learning_rate': 7.212096448320133e-07, 'epoch': 0.76} {'loss': 2.3903, 'grad_norm': 1.787471890449524, 'learning_rate': 7.209044307951177e-07, 'epoch': 0.76} {'loss': 2.0721, 'grad_norm': 1.6591213941574097, 'learning_rate': 7.205992704740378e-07, 'epoch': 0.76} {'loss': 2.2486, 'grad_norm': 1.919358253479004, 'learning_rate': 7.202941638779862e-07, 'epoch': 0.76} {'loss': 2.1966, 'grad_norm': 1.7533258199691772, 'learning_rate': 7.199891110161758e-07, 'epoch': 0.76} {'loss': 2.2686, 'grad_norm': 7.587890148162842, 'learning_rate': 7.196841118978167e-07, 'epoch': 0.76} {'loss': 2.3662, 'grad_norm': 1.6370493173599243, 'learning_rate': 7.193791665321168e-07, 'epoch': 0.76} {'loss': 2.3894, 'grad_norm': 2.370290994644165, 'learning_rate': 7.190742749282845e-07, 'epoch': 0.76} {'loss': 1.3774, 'grad_norm': 1.6213096380233765, 'learning_rate': 7.187694370955239e-07, 'epoch': 0.76} {'loss': 1.997, 'grad_norm': 1.4222806692123413, 'learning_rate': 7.184646530430409e-07, 'epoch': 0.76} {'loss': 1.9248, 'grad_norm': 1.913301944732666, 'learning_rate': 7.181599227800353e-07, 'epoch': 0.76} {'loss': 2.2401, 'grad_norm': 1.9240413904190063, 'learning_rate': 7.178552463157096e-07, 'epoch': 0.76} {'loss': 2.3836, 'grad_norm': 1.6253916025161743, 'learning_rate': 7.175506236592627e-07, 'epoch': 0.76} {'loss': 2.1988, 'grad_norm': 1.8419150114059448, 'learning_rate': 7.172460548198918e-07, 'epoch': 0.76} {'loss': 2.426, 'grad_norm': 3.1830945014953613, 'learning_rate': 7.169415398067917e-07, 'epoch': 0.76} {'loss': 2.5165, 'grad_norm': 1.8254896402359009, 'learning_rate': 7.166370786291579e-07, 'epoch': 0.76} {'loss': 2.1177, 'grad_norm': 1.397189736366272, 'learning_rate': 7.163326712961819e-07, 'epoch': 0.76} {'loss': 2.5129, 'grad_norm': 1.7807555198669434, 'learning_rate': 7.160283178170554e-07, 'epoch': 0.76} {'loss': 2.3184, 'grad_norm': 1.65217125415802, 'learning_rate': 7.15724018200967e-07, 'epoch': 0.76} {'loss': 2.1608, 'grad_norm': 1.747314691543579, 'learning_rate': 7.154197724571053e-07, 'epoch': 0.76} {'loss': 2.3184, 'grad_norm': 4.395207405090332, 'learning_rate': 7.151155805946547e-07, 'epoch': 0.76} {'loss': 2.3226, 'grad_norm': 1.6690086126327515, 'learning_rate': 7.148114426228014e-07, 'epoch': 0.76} {'loss': 2.08, 'grad_norm': 1.5953896045684814, 'learning_rate': 7.145073585507276e-07, 'epoch': 0.76} {'loss': 2.2981, 'grad_norm': 3.6704933643341064, 'learning_rate': 7.142033283876132e-07, 'epoch': 0.76} {'loss': 2.4625, 'grad_norm': 1.693588137626648, 'learning_rate': 7.138993521426393e-07, 'epoch': 0.76} {'loss': 2.5257, 'grad_norm': 1.5772123336791992, 'learning_rate': 7.135954298249829e-07, 'epoch': 0.76} {'loss': 2.2333, 'grad_norm': 1.741962194442749, 'learning_rate': 7.132915614438199e-07, 'epoch': 0.76} {'loss': 2.3672, 'grad_norm': 1.7517714500427246, 'learning_rate': 7.129877470083269e-07, 'epoch': 0.76} {'loss': 2.1848, 'grad_norm': 1.6595441102981567, 'learning_rate': 7.126839865276744e-07, 'epoch': 0.76} {'loss': 2.1476, 'grad_norm': 1.6165876388549805, 'learning_rate': 7.123802800110361e-07, 'epoch': 0.76} {'loss': 2.2683, 'grad_norm': 1.5040078163146973, 'learning_rate': 7.120766274675794e-07, 'epoch': 0.76} {'loss': 1.8188, 'grad_norm': 2.5893540382385254, 'learning_rate': 7.117730289064744e-07, 'epoch': 0.76} {'loss': 2.4207, 'grad_norm': 1.7879022359848022, 'learning_rate': 7.114694843368869e-07, 'epoch': 0.76} {'loss': 2.3382, 'grad_norm': 1.4362995624542236, 'learning_rate': 7.111659937679807e-07, 'epoch': 0.76} {'loss': 2.1731, 'grad_norm': 1.6458308696746826, 'learning_rate': 7.108625572089208e-07, 'epoch': 0.76} {'loss': 2.2375, 'grad_norm': 1.748714566230774, 'learning_rate': 7.105591746688672e-07, 'epoch': 0.76} {'loss': 2.1958, 'grad_norm': 1.3585314750671387, 'learning_rate': 7.102558461569814e-07, 'epoch': 0.76} {'loss': 2.1131, 'grad_norm': 1.6882381439208984, 'learning_rate': 7.099525716824199e-07, 'epoch': 0.76} {'loss': 2.2282, 'grad_norm': 1.816031575202942, 'learning_rate': 7.096493512543415e-07, 'epoch': 0.76} {'loss': 2.1701, 'grad_norm': 1.6591755151748657, 'learning_rate': 7.093461848818991e-07, 'epoch': 0.76} {'loss': 2.1299, 'grad_norm': 1.440680742263794, 'learning_rate': 7.090430725742481e-07, 'epoch': 0.76} {'loss': 2.2687, 'grad_norm': 1.584839940071106, 'learning_rate': 7.087400143405393e-07, 'epoch': 0.76} {'loss': 2.1806, 'grad_norm': 1.6278249025344849, 'learning_rate': 7.084370101899221e-07, 'epoch': 0.76} {'loss': 2.2252, 'grad_norm': 1.7173746824264526, 'learning_rate': 7.081340601315462e-07, 'epoch': 0.76} {'loss': 2.4651, 'grad_norm': 1.7434189319610596, 'learning_rate': 7.078311641745586e-07, 'epoch': 0.76} {'loss': 2.3866, 'grad_norm': 1.7073501348495483, 'learning_rate': 7.075283223281034e-07, 'epoch': 0.76} {'loss': 2.3665, 'grad_norm': 1.6270115375518799, 'learning_rate': 7.07225534601326e-07, 'epoch': 0.76} {'loss': 2.2197, 'grad_norm': 1.6927590370178223, 'learning_rate': 7.069228010033666e-07, 'epoch': 0.76} {'loss': 2.2604, 'grad_norm': 2.8947856426239014, 'learning_rate': 7.066201215433672e-07, 'epoch': 0.76} {'loss': 2.2175, 'grad_norm': 1.7884961366653442, 'learning_rate': 7.063174962304653e-07, 'epoch': 0.76} {'loss': 2.4859, 'grad_norm': 1.6071959733963013, 'learning_rate': 7.060149250737977e-07, 'epoch': 0.76} {'loss': 2.3517, 'grad_norm': 1.79472815990448, 'learning_rate': 7.057124080825014e-07, 'epoch': 0.76} {'loss': 2.1649, 'grad_norm': 1.6874191761016846, 'learning_rate': 7.054099452657088e-07, 'epoch': 0.76} {'loss': 2.2458, 'grad_norm': 2.4214978218078613, 'learning_rate': 7.051075366325532e-07, 'epoch': 0.76} {'loss': 2.1069, 'grad_norm': 1.366711974143982, 'learning_rate': 7.048051821921639e-07, 'epoch': 0.76} {'loss': 2.2244, 'grad_norm': 1.2507318258285522, 'learning_rate': 7.045028819536703e-07, 'epoch': 0.76} {'loss': 2.2578, 'grad_norm': 1.965153694152832, 'learning_rate': 7.04200635926201e-07, 'epoch': 0.76} {'loss': 2.3945, 'grad_norm': 1.9187825918197632, 'learning_rate': 7.038984441188803e-07, 'epoch': 0.76} {'loss': 2.3876, 'grad_norm': 1.7061920166015625, 'learning_rate': 7.035963065408327e-07, 'epoch': 0.76} {'loss': 2.1696, 'grad_norm': 1.3982456922531128, 'learning_rate': 7.032942232011794e-07, 'epoch': 0.76} {'loss': 2.3784, 'grad_norm': 1.752129316329956, 'learning_rate': 7.02992194109042e-07, 'epoch': 0.76} {'loss': 2.4151, 'grad_norm': 1.7663365602493286, 'learning_rate': 7.026902192735405e-07, 'epoch': 0.76} {'loss': 2.2715, 'grad_norm': 1.6982123851776123, 'learning_rate': 7.023882987037905e-07, 'epoch': 0.76} {'loss': 2.4041, 'grad_norm': 1.9078216552734375, 'learning_rate': 7.0208643240891e-07, 'epoch': 0.76} {'loss': 2.1735, 'grad_norm': 1.305087924003601, 'learning_rate': 7.017846203980108e-07, 'epoch': 0.76} {'loss': 2.4241, 'grad_norm': 1.5796263217926025, 'learning_rate': 7.014828626802079e-07, 'epoch': 0.76} {'loss': 2.6189, 'grad_norm': 1.7264994382858276, 'learning_rate': 7.011811592646103e-07, 'epoch': 0.76} {'loss': 2.4881, 'grad_norm': 1.5488325357437134, 'learning_rate': 7.008795101603275e-07, 'epoch': 0.76} {'loss': 2.2493, 'grad_norm': 2.1084718704223633, 'learning_rate': 7.005779153764683e-07, 'epoch': 0.76} {'loss': 2.2482, 'grad_norm': 1.6784299612045288, 'learning_rate': 7.00276374922137e-07, 'epoch': 0.76} {'loss': 2.2944, 'grad_norm': 1.6835821866989136, 'learning_rate': 6.999748888064398e-07, 'epoch': 0.76} {'loss': 2.3608, 'grad_norm': 1.6064977645874023, 'learning_rate': 6.996734570384775e-07, 'epoch': 0.76} {'loss': 2.1505, 'grad_norm': 1.518913984298706, 'learning_rate': 6.993720796273521e-07, 'epoch': 0.76} {'loss': 2.324, 'grad_norm': 2.188689708709717, 'learning_rate': 6.990707565821639e-07, 'epoch': 0.76} {'loss': 2.0093, 'grad_norm': 1.3936560153961182, 'learning_rate': 6.987694879120088e-07, 'epoch': 0.76} {'loss': 2.4127, 'grad_norm': 1.4634640216827393, 'learning_rate': 6.984682736259857e-07, 'epoch': 0.76} {'loss': 2.4171, 'grad_norm': 1.7513116598129272, 'learning_rate': 6.981671137331855e-07, 'epoch': 0.76} {'loss': 1.9503, 'grad_norm': 1.631744384765625, 'learning_rate': 6.97866008242703e-07, 'epoch': 0.76} {'loss': 2.3364, 'grad_norm': 1.4684087038040161, 'learning_rate': 6.975649571636301e-07, 'epoch': 0.76} {'loss': 2.4064, 'grad_norm': 1.8992748260498047, 'learning_rate': 6.972639605050546e-07, 'epoch': 0.76} {'loss': 2.2718, 'grad_norm': 1.658337950706482, 'learning_rate': 6.969630182760664e-07, 'epoch': 0.76} {'loss': 2.1947, 'grad_norm': 1.5117179155349731, 'learning_rate': 6.966621304857496e-07, 'epoch': 0.76} {'loss': 2.4259, 'grad_norm': 1.5668889284133911, 'learning_rate': 6.96361297143191e-07, 'epoch': 0.76} {'loss': 1.9367, 'grad_norm': 1.4516328573226929, 'learning_rate': 6.960605182574717e-07, 'epoch': 0.76} {'loss': 2.3375, 'grad_norm': 1.9113413095474243, 'learning_rate': 6.957597938376747e-07, 'epoch': 0.76} {'loss': 1.5794, 'grad_norm': 1.6388945579528809, 'learning_rate': 6.95459123892879e-07, 'epoch': 0.76} {'loss': 1.9447, 'grad_norm': 2.119960069656372, 'learning_rate': 6.951585084321616e-07, 'epoch': 0.76} {'loss': 2.2755, 'grad_norm': 1.6031774282455444, 'learning_rate': 6.948579474646009e-07, 'epoch': 0.76} {'loss': 2.3201, 'grad_norm': 1.5676403045654297, 'learning_rate': 6.945574409992697e-07, 'epoch': 0.76} {'loss': 2.354, 'grad_norm': 1.7438675165176392, 'learning_rate': 6.942569890452422e-07, 'epoch': 0.76} {'loss': 1.8296, 'grad_norm': 1.3704942464828491, 'learning_rate': 6.939565916115903e-07, 'epoch': 0.76} {'loss': 1.9299, 'grad_norm': 3.7609846591949463, 'learning_rate': 6.936562487073825e-07, 'epoch': 0.76} {'loss': 2.4587, 'grad_norm': 1.4410780668258667, 'learning_rate': 6.933559603416887e-07, 'epoch': 0.76} {'loss': 2.1856, 'grad_norm': 1.7287342548370361, 'learning_rate': 6.930557265235744e-07, 'epoch': 0.77} {'loss': 2.3168, 'grad_norm': 1.7551634311676025, 'learning_rate': 6.927555472621039e-07, 'epoch': 0.77} {'loss': 2.1389, 'grad_norm': 1.7364332675933838, 'learning_rate': 6.924554225663418e-07, 'epoch': 0.77} {'loss': 2.203, 'grad_norm': 1.5748751163482666, 'learning_rate': 6.921553524453481e-07, 'epoch': 0.77} {'loss': 2.3883, 'grad_norm': 1.7157312631607056, 'learning_rate': 6.918553369081846e-07, 'epoch': 0.77} {'loss': 2.5872, 'grad_norm': 2.405844211578369, 'learning_rate': 6.915553759639079e-07, 'epoch': 0.77} {'loss': 2.4046, 'grad_norm': 1.7659251689910889, 'learning_rate': 6.912554696215762e-07, 'epoch': 0.77} {'loss': 2.1457, 'grad_norm': 2.046447992324829, 'learning_rate': 6.909556178902429e-07, 'epoch': 0.77} {'loss': 2.1227, 'grad_norm': 1.5246621370315552, 'learning_rate': 6.906558207789629e-07, 'epoch': 0.77} {'loss': 2.3944, 'grad_norm': 1.492642879486084, 'learning_rate': 6.903560782967872e-07, 'epoch': 0.77} {'loss': 2.2988, 'grad_norm': 1.7722424268722534, 'learning_rate': 6.900563904527649e-07, 'epoch': 0.77} {'loss': 2.2752, 'grad_norm': 1.5417827367782593, 'learning_rate': 6.897567572559463e-07, 'epoch': 0.77} {'loss': 1.9955, 'grad_norm': 1.762243390083313, 'learning_rate': 6.894571787153764e-07, 'epoch': 0.77} {'loss': 2.2877, 'grad_norm': 1.8390907049179077, 'learning_rate': 6.891576548401011e-07, 'epoch': 0.77} {'loss': 2.1062, 'grad_norm': 1.857452392578125, 'learning_rate': 6.888581856391643e-07, 'epoch': 0.77} {'loss': 2.2464, 'grad_norm': 1.649344563484192, 'learning_rate': 6.885587711216068e-07, 'epoch': 0.77} {'loss': 2.2053, 'grad_norm': 1.7436203956604004, 'learning_rate': 6.882594112964702e-07, 'epoch': 0.77} {'loss': 2.12, 'grad_norm': 1.5135726928710938, 'learning_rate': 6.87960106172792e-07, 'epoch': 0.77} {'loss': 2.1637, 'grad_norm': 1.2726653814315796, 'learning_rate': 6.876608557596084e-07, 'epoch': 0.77} {'loss': 2.1471, 'grad_norm': 1.6757851839065552, 'learning_rate': 6.87361660065956e-07, 'epoch': 0.77} {'loss': 2.2545, 'grad_norm': 1.5361191034317017, 'learning_rate': 6.870625191008671e-07, 'epoch': 0.77} {'loss': 2.5472, 'grad_norm': 1.7368818521499634, 'learning_rate': 6.86763432873375e-07, 'epoch': 0.77} {'loss': 2.4904, 'grad_norm': 1.710200548171997, 'learning_rate': 6.864644013925081e-07, 'epoch': 0.77} {'loss': 2.1697, 'grad_norm': 1.673352599143982, 'learning_rate': 6.861654246672969e-07, 'epoch': 0.77} {'loss': 2.2411, 'grad_norm': 1.7471922636032104, 'learning_rate': 6.858665027067665e-07, 'epoch': 0.77} {'loss': 2.1601, 'grad_norm': 1.7022773027420044, 'learning_rate': 6.855676355199434e-07, 'epoch': 0.77} {'loss': 1.9313, 'grad_norm': 1.7587006092071533, 'learning_rate': 6.852688231158522e-07, 'epoch': 0.77} {'loss': 2.0285, 'grad_norm': 1.4289028644561768, 'learning_rate': 6.849700655035124e-07, 'epoch': 0.77} {'loss': 2.3278, 'grad_norm': 1.6334439516067505, 'learning_rate': 6.846713626919454e-07, 'epoch': 0.77} {'loss': 2.2027, 'grad_norm': 1.5510408878326416, 'learning_rate': 6.843727146901708e-07, 'epoch': 0.77} {'loss': 2.2771, 'grad_norm': 1.644627571105957, 'learning_rate': 6.840741215072038e-07, 'epoch': 0.77} {'loss': 2.2482, 'grad_norm': 1.8538743257522583, 'learning_rate': 6.837755831520618e-07, 'epoch': 0.77} {'loss': 2.2191, 'grad_norm': 1.6426242589950562, 'learning_rate': 6.834770996337567e-07, 'epoch': 0.77} {'loss': 2.3566, 'grad_norm': 1.6054205894470215, 'learning_rate': 6.831786709613019e-07, 'epoch': 0.77} {'loss': 2.0444, 'grad_norm': 4.172479152679443, 'learning_rate': 6.828802971437068e-07, 'epoch': 0.77} {'loss': 2.2426, 'grad_norm': 5.137370586395264, 'learning_rate': 6.825819781899809e-07, 'epoch': 0.77} {'loss': 2.0664, 'grad_norm': 1.7886587381362915, 'learning_rate': 6.822837141091312e-07, 'epoch': 0.77} {'loss': 2.1248, 'grad_norm': 2.609165668487549, 'learning_rate': 6.81985504910162e-07, 'epoch': 0.77} {'loss': 2.3128, 'grad_norm': 1.789415717124939, 'learning_rate': 6.816873506020786e-07, 'epoch': 0.77} {'loss': 2.6123, 'grad_norm': 1.8175524473190308, 'learning_rate': 6.813892511938816e-07, 'epoch': 0.77} {'loss': 2.1558, 'grad_norm': 1.228761911392212, 'learning_rate': 6.810912066945729e-07, 'epoch': 0.77} {'loss': 2.239, 'grad_norm': 1.7929829359054565, 'learning_rate': 6.807932171131498e-07, 'epoch': 0.77} {'loss': 2.1391, 'grad_norm': 1.7267704010009766, 'learning_rate': 6.804952824586106e-07, 'epoch': 0.77} {'loss': 2.4173, 'grad_norm': 1.8114553689956665, 'learning_rate': 6.801974027399508e-07, 'epoch': 0.77} {'loss': 2.3776, 'grad_norm': 1.646740198135376, 'learning_rate': 6.798995779661641e-07, 'epoch': 0.77} {'loss': 2.3401, 'grad_norm': 1.5962306261062622, 'learning_rate': 6.796018081462413e-07, 'epoch': 0.77} {'loss': 2.3912, 'grad_norm': 1.4836106300354004, 'learning_rate': 6.793040932891751e-07, 'epoch': 0.77} {'loss': 2.1631, 'grad_norm': 4.052956581115723, 'learning_rate': 6.790064334039523e-07, 'epoch': 0.77} {'loss': 2.1105, 'grad_norm': 1.9686954021453857, 'learning_rate': 6.787088284995616e-07, 'epoch': 0.77} {'loss': 2.3335, 'grad_norm': 1.7876583337783813, 'learning_rate': 6.784112785849875e-07, 'epoch': 0.77} {'loss': 2.22, 'grad_norm': 1.3515321016311646, 'learning_rate': 6.781137836692147e-07, 'epoch': 0.77} {'loss': 2.403, 'grad_norm': 1.643202543258667, 'learning_rate': 6.778163437612243e-07, 'epoch': 0.77} {'loss': 2.2864, 'grad_norm': 1.8301304578781128, 'learning_rate': 6.775189588699982e-07, 'epoch': 0.77} {'loss': 2.215, 'grad_norm': 1.5480594635009766, 'learning_rate': 6.772216290045147e-07, 'epoch': 0.77} {'loss': 2.3382, 'grad_norm': 1.6299073696136475, 'learning_rate': 6.769243541737499e-07, 'epoch': 0.77} {'loss': 2.0901, 'grad_norm': 4.5906219482421875, 'learning_rate': 6.766271343866812e-07, 'epoch': 0.77} {'loss': 1.9596, 'grad_norm': 1.5726834535598755, 'learning_rate': 6.76329969652281e-07, 'epoch': 0.77} {'loss': 2.0448, 'grad_norm': 1.5908209085464478, 'learning_rate': 6.760328599795219e-07, 'epoch': 0.77} {'loss': 2.2829, 'grad_norm': 1.5902011394500732, 'learning_rate': 6.757358053773755e-07, 'epoch': 0.77} {'loss': 1.9427, 'grad_norm': 1.3509389162063599, 'learning_rate': 6.754388058548092e-07, 'epoch': 0.77} {'loss': 2.1064, 'grad_norm': 1.6336209774017334, 'learning_rate': 6.751418614207916e-07, 'epoch': 0.77} {'loss': 2.3337, 'grad_norm': 1.8275718688964844, 'learning_rate': 6.748449720842876e-07, 'epoch': 0.77} {'loss': 2.4243, 'grad_norm': 1.7094967365264893, 'learning_rate': 6.745481378542603e-07, 'epoch': 0.77} {'loss': 2.2915, 'grad_norm': 1.7832428216934204, 'learning_rate': 6.742513587396737e-07, 'epoch': 0.77} {'loss': 2.3765, 'grad_norm': 1.8430986404418945, 'learning_rate': 6.739546347494866e-07, 'epoch': 0.77} {'loss': 2.2755, 'grad_norm': 1.811477780342102, 'learning_rate': 6.736579658926595e-07, 'epoch': 0.77} {'loss': 2.1786, 'grad_norm': 1.8693833351135254, 'learning_rate': 6.733613521781482e-07, 'epoch': 0.77} {'loss': 2.1974, 'grad_norm': 1.48610258102417, 'learning_rate': 6.730647936149099e-07, 'epoch': 0.77} {'loss': 2.248, 'grad_norm': 1.7775198221206665, 'learning_rate': 6.727682902118965e-07, 'epoch': 0.77} {'loss': 2.0622, 'grad_norm': 1.6661579608917236, 'learning_rate': 6.724718419780616e-07, 'epoch': 0.77} {'loss': 2.4614, 'grad_norm': 1.6463810205459595, 'learning_rate': 6.72175448922357e-07, 'epoch': 0.77} {'loss': 2.3434, 'grad_norm': 2.090130090713501, 'learning_rate': 6.718791110537287e-07, 'epoch': 0.77} {'loss': 2.1461, 'grad_norm': 1.6928150653839111, 'learning_rate': 6.715828283811263e-07, 'epoch': 0.77} {'loss': 2.4739, 'grad_norm': 1.6635842323303223, 'learning_rate': 6.712866009134938e-07, 'epoch': 0.77} {'loss': 2.5186, 'grad_norm': 2.018673896789551, 'learning_rate': 6.70990428659776e-07, 'epoch': 0.77} {'loss': 2.3681, 'grad_norm': 1.5794578790664673, 'learning_rate': 6.706943116289155e-07, 'epoch': 0.77} {'loss': 2.207, 'grad_norm': 1.8748975992202759, 'learning_rate': 6.703982498298517e-07, 'epoch': 0.77} {'loss': 2.2295, 'grad_norm': 1.628524661064148, 'learning_rate': 6.701022432715251e-07, 'epoch': 0.77} {'loss': 2.2873, 'grad_norm': 1.8381898403167725, 'learning_rate': 6.698062919628715e-07, 'epoch': 0.77} {'loss': 2.3239, 'grad_norm': 1.393972635269165, 'learning_rate': 6.695103959128277e-07, 'epoch': 0.77} {'loss': 2.1603, 'grad_norm': 1.5457881689071655, 'learning_rate': 6.69214555130327e-07, 'epoch': 0.77} {'loss': 2.422, 'grad_norm': 1.4874305725097656, 'learning_rate': 6.68918769624301e-07, 'epoch': 0.77} {'loss': 2.1982, 'grad_norm': 1.7364091873168945, 'learning_rate': 6.686230394036816e-07, 'epoch': 0.77} {'loss': 2.1523, 'grad_norm': 1.398722767829895, 'learning_rate': 6.683273644773966e-07, 'epoch': 0.77} {'loss': 2.2526, 'grad_norm': 1.7256851196289062, 'learning_rate': 6.680317448543741e-07, 'epoch': 0.77} {'loss': 2.3844, 'grad_norm': 1.8164459466934204, 'learning_rate': 6.677361805435386e-07, 'epoch': 0.77} {'loss': 2.548, 'grad_norm': 1.6503971815109253, 'learning_rate': 6.674406715538148e-07, 'epoch': 0.77} {'loss': 2.3369, 'grad_norm': 1.5861378908157349, 'learning_rate': 6.671452178941257e-07, 'epoch': 0.77} {'loss': 2.382, 'grad_norm': 1.7140125036239624, 'learning_rate': 6.668498195733908e-07, 'epoch': 0.77} {'loss': 2.4847, 'grad_norm': 1.6357147693634033, 'learning_rate': 6.665544766005291e-07, 'epoch': 0.77} {'loss': 2.2686, 'grad_norm': 1.753366231918335, 'learning_rate': 6.662591889844572e-07, 'epoch': 0.77} {'loss': 2.1979, 'grad_norm': 1.397918939590454, 'learning_rate': 6.659639567340914e-07, 'epoch': 0.77} {'loss': 2.2317, 'grad_norm': 1.4744782447814941, 'learning_rate': 6.656687798583464e-07, 'epoch': 0.77} {'loss': 2.2894, 'grad_norm': 1.8100295066833496, 'learning_rate': 6.653736583661327e-07, 'epoch': 0.77} {'loss': 2.163, 'grad_norm': 1.5522260665893555, 'learning_rate': 6.650785922663622e-07, 'epoch': 0.77} {'loss': 2.3553, 'grad_norm': 1.82072114944458, 'learning_rate': 6.647835815679426e-07, 'epoch': 0.77} {'loss': 2.1295, 'grad_norm': 1.7029578685760498, 'learning_rate': 6.644886262797826e-07, 'epoch': 0.77} {'loss': 2.2644, 'grad_norm': 1.706932544708252, 'learning_rate': 6.641937264107868e-07, 'epoch': 0.77} {'loss': 2.1933, 'grad_norm': 1.6762981414794922, 'learning_rate': 6.638988819698583e-07, 'epoch': 0.77} {'loss': 2.1803, 'grad_norm': 1.7076507806777954, 'learning_rate': 6.636040929659007e-07, 'epoch': 0.77} {'loss': 1.8754, 'grad_norm': 1.4032517671585083, 'learning_rate': 6.63309359407813e-07, 'epoch': 0.77} {'loss': 2.3596, 'grad_norm': 1.7603483200073242, 'learning_rate': 6.630146813044958e-07, 'epoch': 0.77} {'loss': 2.0841, 'grad_norm': 6.048698902130127, 'learning_rate': 6.627200586648447e-07, 'epoch': 0.77} {'loss': 2.3234, 'grad_norm': 1.4784103631973267, 'learning_rate': 6.624254914977555e-07, 'epoch': 0.77} {'loss': 2.3857, 'grad_norm': 1.6712294816970825, 'learning_rate': 6.621309798121231e-07, 'epoch': 0.77} {'loss': 2.2421, 'grad_norm': 1.8976424932479858, 'learning_rate': 6.618365236168389e-07, 'epoch': 0.77} {'loss': 1.9621, 'grad_norm': 1.800450325012207, 'learning_rate': 6.615421229207931e-07, 'epoch': 0.77} {'loss': 2.4413, 'grad_norm': 1.5442880392074585, 'learning_rate': 6.612477777328738e-07, 'epoch': 0.77} {'loss': 2.3198, 'grad_norm': 1.7273074388504028, 'learning_rate': 6.609534880619692e-07, 'epoch': 0.77} {'loss': 2.3161, 'grad_norm': 1.7924972772598267, 'learning_rate': 6.606592539169648e-07, 'epoch': 0.77} {'loss': 2.3042, 'grad_norm': 1.7033374309539795, 'learning_rate': 6.603650753067437e-07, 'epoch': 0.77} {'loss': 2.3697, 'grad_norm': 1.6808665990829468, 'learning_rate': 6.600709522401885e-07, 'epoch': 0.77} {'loss': 1.9692, 'grad_norm': 1.2201869487762451, 'learning_rate': 6.59776884726179e-07, 'epoch': 0.77} {'loss': 2.114, 'grad_norm': 1.6670337915420532, 'learning_rate': 6.594828727735947e-07, 'epoch': 0.77} {'loss': 2.3097, 'grad_norm': 1.5343025922775269, 'learning_rate': 6.591889163913123e-07, 'epoch': 0.77} {'loss': 2.297, 'grad_norm': 1.7326970100402832, 'learning_rate': 6.588950155882062e-07, 'epoch': 0.77} {'loss': 2.2281, 'grad_norm': 1.5075026750564575, 'learning_rate': 6.586011703731518e-07, 'epoch': 0.77} {'loss': 2.429, 'grad_norm': 1.845097303390503, 'learning_rate': 6.583073807550194e-07, 'epoch': 0.77} {'loss': 2.3816, 'grad_norm': 4.647090911865234, 'learning_rate': 6.58013646742681e-07, 'epoch': 0.77} {'loss': 2.07, 'grad_norm': 1.6329072713851929, 'learning_rate': 6.577199683450034e-07, 'epoch': 0.77} {'loss': 2.335, 'grad_norm': 1.7446740865707397, 'learning_rate': 6.574263455708544e-07, 'epoch': 0.77} {'loss': 2.2696, 'grad_norm': 1.4739654064178467, 'learning_rate': 6.571327784291004e-07, 'epoch': 0.77} {'loss': 2.1258, 'grad_norm': 1.6912750005722046, 'learning_rate': 6.568392669286033e-07, 'epoch': 0.77} {'loss': 2.263, 'grad_norm': 1.6418758630752563, 'learning_rate': 6.565458110782264e-07, 'epoch': 0.77} {'loss': 2.4108, 'grad_norm': 1.7086920738220215, 'learning_rate': 6.562524108868293e-07, 'epoch': 0.77} {'loss': 2.1507, 'grad_norm': 1.2934497594833374, 'learning_rate': 6.559590663632698e-07, 'epoch': 0.77} {'loss': 2.2774, 'grad_norm': 1.5985162258148193, 'learning_rate': 6.556657775164063e-07, 'epoch': 0.77} {'loss': 2.4727, 'grad_norm': 1.8296637535095215, 'learning_rate': 6.553725443550923e-07, 'epoch': 0.77} {'loss': 2.326, 'grad_norm': 1.5314782857894897, 'learning_rate': 6.550793668881833e-07, 'epoch': 0.77} {'loss': 2.5566, 'grad_norm': 1.6352654695510864, 'learning_rate': 6.547862451245293e-07, 'epoch': 0.77} {'loss': 2.47, 'grad_norm': 1.5348023176193237, 'learning_rate': 6.544931790729819e-07, 'epoch': 0.77} {'loss': 2.1142, 'grad_norm': 1.8276475667953491, 'learning_rate': 6.542001687423883e-07, 'epoch': 0.77} {'loss': 2.2839, 'grad_norm': 1.7015175819396973, 'learning_rate': 6.539072141415964e-07, 'epoch': 0.77} {'loss': 2.3113, 'grad_norm': 1.7543939352035522, 'learning_rate': 6.536143152794511e-07, 'epoch': 0.77} {'loss': 2.4031, 'grad_norm': 1.8500328063964844, 'learning_rate': 6.533214721647946e-07, 'epoch': 0.77} {'loss': 1.9097, 'grad_norm': 1.3480063676834106, 'learning_rate': 6.530286848064698e-07, 'epoch': 0.77} {'loss': 2.3668, 'grad_norm': 1.4805822372436523, 'learning_rate': 6.527359532133171e-07, 'epoch': 0.77} {'loss': 2.2982, 'grad_norm': 2.060122489929199, 'learning_rate': 6.524432773941738e-07, 'epoch': 0.77} {'loss': 2.2924, 'grad_norm': 1.4928585290908813, 'learning_rate': 6.521506573578776e-07, 'epoch': 0.77} {'loss': 2.1014, 'grad_norm': 1.7359917163848877, 'learning_rate': 6.518580931132626e-07, 'epoch': 0.77} {'loss': 2.4793, 'grad_norm': 14.260222434997559, 'learning_rate': 6.515655846691629e-07, 'epoch': 0.77} {'loss': 2.3413, 'grad_norm': 1.643043875694275, 'learning_rate': 6.512731320344101e-07, 'epoch': 0.77} {'loss': 2.2885, 'grad_norm': 1.902823567390442, 'learning_rate': 6.509807352178333e-07, 'epoch': 0.77} {'loss': 2.3779, 'grad_norm': 1.7574025392532349, 'learning_rate': 6.506883942282616e-07, 'epoch': 0.77} {'loss': 2.0985, 'grad_norm': 1.5907557010650635, 'learning_rate': 6.503961090745209e-07, 'epoch': 0.77} {'loss': 2.0629, 'grad_norm': 1.9578691720962524, 'learning_rate': 6.501038797654369e-07, 'epoch': 0.77} {'loss': 2.0628, 'grad_norm': 3.048128366470337, 'learning_rate': 6.49811706309832e-07, 'epoch': 0.77} {'loss': 2.332, 'grad_norm': 1.6913633346557617, 'learning_rate': 6.495195887165287e-07, 'epoch': 0.77} {'loss': 2.1275, 'grad_norm': 1.5796161890029907, 'learning_rate': 6.492275269943454e-07, 'epoch': 0.77} {'loss': 2.0138, 'grad_norm': 1.9292213916778564, 'learning_rate': 6.489355211521014e-07, 'epoch': 0.77} {'loss': 2.2045, 'grad_norm': 1.675445318222046, 'learning_rate': 6.486435711986142e-07, 'epoch': 0.77} {'loss': 2.2726, 'grad_norm': 1.7172197103500366, 'learning_rate': 6.483516771426959e-07, 'epoch': 0.77} {'loss': 2.2767, 'grad_norm': 1.8811455965042114, 'learning_rate': 6.480598389931608e-07, 'epoch': 0.77} {'loss': 2.4486, 'grad_norm': 1.5073747634887695, 'learning_rate': 6.477680567588213e-07, 'epoch': 0.77} {'loss': 2.1973, 'grad_norm': 1.8401459455490112, 'learning_rate': 6.474763304484855e-07, 'epoch': 0.77} {'loss': 2.1391, 'grad_norm': 1.766623854637146, 'learning_rate': 6.47184660070963e-07, 'epoch': 0.77} {'loss': 2.1592, 'grad_norm': 1.605016827583313, 'learning_rate': 6.468930456350586e-07, 'epoch': 0.77} {'loss': 2.2818, 'grad_norm': 1.3751020431518555, 'learning_rate': 6.466014871495783e-07, 'epoch': 0.77} {'loss': 2.2124, 'grad_norm': 2.0074825286865234, 'learning_rate': 6.463099846233245e-07, 'epoch': 0.77} {'loss': 2.0864, 'grad_norm': 1.827323079109192, 'learning_rate': 6.460185380650974e-07, 'epoch': 0.77} {'loss': 1.4938, 'grad_norm': 2.3549139499664307, 'learning_rate': 6.457271474836987e-07, 'epoch': 0.77} {'loss': 2.2795, 'grad_norm': 1.6927568912506104, 'learning_rate': 6.454358128879243e-07, 'epoch': 0.77} {'loss': 2.162, 'grad_norm': 1.7132337093353271, 'learning_rate': 6.451445342865717e-07, 'epoch': 0.77} {'loss': 2.2731, 'grad_norm': 1.6620134115219116, 'learning_rate': 6.448533116884345e-07, 'epoch': 0.77} {'loss': 2.4334, 'grad_norm': 1.5360325574874878, 'learning_rate': 6.44562145102306e-07, 'epoch': 0.77} {'loss': 1.9923, 'grad_norm': 1.6943029165267944, 'learning_rate': 6.442710345369779e-07, 'epoch': 0.77} {'loss': 2.2078, 'grad_norm': 1.463173508644104, 'learning_rate': 6.439799800012384e-07, 'epoch': 0.77} {'loss': 1.9066, 'grad_norm': 1.435968041419983, 'learning_rate': 6.436889815038775e-07, 'epoch': 0.77} {'loss': 2.2598, 'grad_norm': 6.0713396072387695, 'learning_rate': 6.433980390536779e-07, 'epoch': 0.77} {'loss': 2.2309, 'grad_norm': 1.4857558012008667, 'learning_rate': 6.431071526594257e-07, 'epoch': 0.77} {'loss': 2.2581, 'grad_norm': 1.7492927312850952, 'learning_rate': 6.428163223299044e-07, 'epoch': 0.77} {'loss': 1.9945, 'grad_norm': 1.592864751815796, 'learning_rate': 6.425255480738932e-07, 'epoch': 0.77} {'loss': 2.0854, 'grad_norm': 1.66531503200531, 'learning_rate': 6.422348299001732e-07, 'epoch': 0.77} {'loss': 2.1759, 'grad_norm': 1.678931713104248, 'learning_rate': 6.419441678175204e-07, 'epoch': 0.77} {'loss': 2.2751, 'grad_norm': 1.67257821559906, 'learning_rate': 6.416535618347119e-07, 'epoch': 0.77} {'loss': 2.3142, 'grad_norm': 1.521714210510254, 'learning_rate': 6.413630119605207e-07, 'epoch': 0.77} {'loss': 2.3869, 'grad_norm': 1.6888673305511475, 'learning_rate': 6.410725182037209e-07, 'epoch': 0.77} {'loss': 2.158, 'grad_norm': 1.860747218132019, 'learning_rate': 6.407820805730821e-07, 'epoch': 0.77} {'loss': 2.4644, 'grad_norm': 1.8821160793304443, 'learning_rate': 6.404916990773733e-07, 'epoch': 0.77} {'loss': 2.1622, 'grad_norm': 1.6239196062088013, 'learning_rate': 6.402013737253629e-07, 'epoch': 0.77} {'loss': 2.221, 'grad_norm': 2.4385764598846436, 'learning_rate': 6.399111045258152e-07, 'epoch': 0.77} {'loss': 1.5059, 'grad_norm': 1.5792592763900757, 'learning_rate': 6.396208914874952e-07, 'epoch': 0.77} {'loss': 2.2163, 'grad_norm': 1.6528087854385376, 'learning_rate': 6.39330734619166e-07, 'epoch': 0.77} {'loss': 2.2676, 'grad_norm': 1.5085008144378662, 'learning_rate': 6.390406339295862e-07, 'epoch': 0.77} {'loss': 2.3072, 'grad_norm': 1.5688693523406982, 'learning_rate': 6.38750589427517e-07, 'epoch': 0.77} {'loss': 2.3297, 'grad_norm': 1.5105359554290771, 'learning_rate': 6.384606011217145e-07, 'epoch': 0.77} {'loss': 2.2867, 'grad_norm': 1.679889440536499, 'learning_rate': 6.381706690209332e-07, 'epoch': 0.78} {'loss': 1.954, 'grad_norm': 1.354051947593689, 'learning_rate': 6.378807931339292e-07, 'epoch': 0.78} {'loss': 2.1814, 'grad_norm': 1.688220500946045, 'learning_rate': 6.375909734694527e-07, 'epoch': 0.78} {'loss': 2.0922, 'grad_norm': 1.6505018472671509, 'learning_rate': 6.373012100362555e-07, 'epoch': 0.78} {'loss': 2.1485, 'grad_norm': 2.0241711139678955, 'learning_rate': 6.370115028430851e-07, 'epoch': 0.78} {'loss': 2.1111, 'grad_norm': 1.7109159231185913, 'learning_rate': 6.3672185189869e-07, 'epoch': 0.78} {'loss': 2.0928, 'grad_norm': 1.6198793649673462, 'learning_rate': 6.364322572118145e-07, 'epoch': 0.78} {'loss': 2.2072, 'grad_norm': 1.525012493133545, 'learning_rate': 6.361427187912022e-07, 'epoch': 0.78} {'loss': 2.2706, 'grad_norm': 1.5938020944595337, 'learning_rate': 6.358532366455969e-07, 'epoch': 0.78} {'loss': 2.2901, 'grad_norm': 1.585105299949646, 'learning_rate': 6.355638107837361e-07, 'epoch': 0.78} {'loss': 2.1348, 'grad_norm': 2.22121000289917, 'learning_rate': 6.352744412143604e-07, 'epoch': 0.78} {'loss': 2.1091, 'grad_norm': 1.6021121740341187, 'learning_rate': 6.349851279462052e-07, 'epoch': 0.78} {'loss': 2.4566, 'grad_norm': 1.771941900253296, 'learning_rate': 6.346958709880066e-07, 'epoch': 0.78} {'loss': 2.0822, 'grad_norm': 1.5967130661010742, 'learning_rate': 6.344066703484985e-07, 'epoch': 0.78} {'loss': 2.4448, 'grad_norm': 1.7113022804260254, 'learning_rate': 6.341175260364113e-07, 'epoch': 0.78} {'loss': 2.2192, 'grad_norm': 1.6242738962173462, 'learning_rate': 6.338284380604767e-07, 'epoch': 0.78} {'loss': 2.5847, 'grad_norm': 1.3796958923339844, 'learning_rate': 6.335394064294214e-07, 'epoch': 0.78} {'loss': 1.9841, 'grad_norm': 1.5313396453857422, 'learning_rate': 6.332504311519735e-07, 'epoch': 0.78} {'loss': 2.4218, 'grad_norm': 1.9493963718414307, 'learning_rate': 6.329615122368574e-07, 'epoch': 0.78} {'loss': 2.4441, 'grad_norm': 1.708793044090271, 'learning_rate': 6.326726496927956e-07, 'epoch': 0.78} {'loss': 2.3765, 'grad_norm': 1.7288131713867188, 'learning_rate': 6.32383843528511e-07, 'epoch': 0.78} {'loss': 2.1549, 'grad_norm': 1.7929195165634155, 'learning_rate': 6.32095093752722e-07, 'epoch': 0.78} {'loss': 2.0095, 'grad_norm': 1.8162375688552856, 'learning_rate': 6.318064003741486e-07, 'epoch': 0.78} {'loss': 2.3493, 'grad_norm': 1.5845534801483154, 'learning_rate': 6.315177634015051e-07, 'epoch': 0.78} {'loss': 2.3678, 'grad_norm': 1.706339955329895, 'learning_rate': 6.312291828435077e-07, 'epoch': 0.78} {'loss': 2.2266, 'grad_norm': 1.3963969945907593, 'learning_rate': 6.309406587088704e-07, 'epoch': 0.78} {'loss': 2.2119, 'grad_norm': 1.5003650188446045, 'learning_rate': 6.306521910063018e-07, 'epoch': 0.78} {'loss': 2.1464, 'grad_norm': 1.3017960786819458, 'learning_rate': 6.303637797445136e-07, 'epoch': 0.78} {'loss': 2.2869, 'grad_norm': 2.191762685775757, 'learning_rate': 6.300754249322127e-07, 'epoch': 0.78} {'loss': 2.5017, 'grad_norm': 1.6441688537597656, 'learning_rate': 6.297871265781056e-07, 'epoch': 0.78} {'loss': 2.2393, 'grad_norm': 1.6347233057022095, 'learning_rate': 6.294988846908975e-07, 'epoch': 0.78} {'loss': 2.3803, 'grad_norm': 1.7111337184906006, 'learning_rate': 6.292106992792902e-07, 'epoch': 0.78} {'loss': 1.9777, 'grad_norm': 1.6931544542312622, 'learning_rate': 6.289225703519858e-07, 'epoch': 0.78} {'loss': 2.118, 'grad_norm': 1.7081105709075928, 'learning_rate': 6.286344979176826e-07, 'epoch': 0.78} {'loss': 2.3431, 'grad_norm': 1.6883411407470703, 'learning_rate': 6.283464819850799e-07, 'epoch': 0.78} {'loss': 2.4362, 'grad_norm': 1.6258400678634644, 'learning_rate': 6.280585225628724e-07, 'epoch': 0.78} {'loss': 2.3179, 'grad_norm': 1.6323254108428955, 'learning_rate': 6.277706196597538e-07, 'epoch': 0.78} {'loss': 2.0337, 'grad_norm': 1.6222916841506958, 'learning_rate': 6.274827732844188e-07, 'epoch': 0.78} {'loss': 2.234, 'grad_norm': 1.6383882761001587, 'learning_rate': 6.27194983445556e-07, 'epoch': 0.78} {'loss': 2.3216, 'grad_norm': 1.474463701248169, 'learning_rate': 6.269072501518566e-07, 'epoch': 0.78} {'loss': 2.3523, 'grad_norm': 1.8673738241195679, 'learning_rate': 6.266195734120062e-07, 'epoch': 0.78} {'loss': 2.0347, 'grad_norm': 1.6810147762298584, 'learning_rate': 6.263319532346915e-07, 'epoch': 0.78} {'loss': 2.1103, 'grad_norm': 1.7934244871139526, 'learning_rate': 6.260443896285972e-07, 'epoch': 0.78} {'loss': 1.4716, 'grad_norm': 1.6767346858978271, 'learning_rate': 6.257568826024052e-07, 'epoch': 0.78} {'loss': 2.3588, 'grad_norm': 5.199430465698242, 'learning_rate': 6.254694321647948e-07, 'epoch': 0.78} {'loss': 2.1669, 'grad_norm': 1.7461256980895996, 'learning_rate': 6.25182038324447e-07, 'epoch': 0.78} {'loss': 2.3008, 'grad_norm': 1.8447476625442505, 'learning_rate': 6.248947010900372e-07, 'epoch': 0.78} {'loss': 1.9604, 'grad_norm': 2.4504482746124268, 'learning_rate': 6.246074204702423e-07, 'epoch': 0.78} {'loss': 2.5701, 'grad_norm': 1.9373703002929688, 'learning_rate': 6.24320196473735e-07, 'epoch': 0.78} {'loss': 2.3058, 'grad_norm': 3.156378984451294, 'learning_rate': 6.240330291091884e-07, 'epoch': 0.78} {'loss': 2.2183, 'grad_norm': 2.0618679523468018, 'learning_rate': 6.237459183852721e-07, 'epoch': 0.78} {'loss': 2.3137, 'grad_norm': 1.7160972356796265, 'learning_rate': 6.234588643106554e-07, 'epoch': 0.78} {'loss': 2.175, 'grad_norm': 1.4899173974990845, 'learning_rate': 6.231718668940049e-07, 'epoch': 0.78} {'loss': 2.1849, 'grad_norm': 1.4761810302734375, 'learning_rate': 6.228849261439854e-07, 'epoch': 0.78} {'loss': 2.0533, 'grad_norm': 1.5900391340255737, 'learning_rate': 6.225980420692612e-07, 'epoch': 0.78} {'loss': 2.1166, 'grad_norm': 1.5882928371429443, 'learning_rate': 6.223112146784935e-07, 'epoch': 0.78} {'loss': 2.2486, 'grad_norm': 1.4217761754989624, 'learning_rate': 6.220244439803433e-07, 'epoch': 0.78} {'loss': 2.3404, 'grad_norm': 1.530533790588379, 'learning_rate': 6.217377299834676e-07, 'epoch': 0.78} {'loss': 2.2093, 'grad_norm': 1.67503821849823, 'learning_rate': 6.21451072696524e-07, 'epoch': 0.78} {'loss': 2.5251, 'grad_norm': 1.598226547241211, 'learning_rate': 6.211644721281681e-07, 'epoch': 0.78} {'loss': 2.1886, 'grad_norm': 1.4659942388534546, 'learning_rate': 6.208779282870517e-07, 'epoch': 0.78} {'loss': 2.2706, 'grad_norm': 1.7602262496948242, 'learning_rate': 6.205914411818278e-07, 'epoch': 0.78} {'loss': 2.0367, 'grad_norm': 1.4755626916885376, 'learning_rate': 6.203050108211456e-07, 'epoch': 0.78} {'loss': 2.2202, 'grad_norm': 1.8177417516708374, 'learning_rate': 6.200186372136527e-07, 'epoch': 0.78} {'loss': 2.2847, 'grad_norm': 1.6074206829071045, 'learning_rate': 6.197323203679964e-07, 'epoch': 0.78} {'loss': 2.1122, 'grad_norm': 1.7512224912643433, 'learning_rate': 6.194460602928201e-07, 'epoch': 0.78} {'loss': 2.5146, 'grad_norm': 1.7251969575881958, 'learning_rate': 6.191598569967686e-07, 'epoch': 0.78} {'loss': 1.3318, 'grad_norm': 1.5457185506820679, 'learning_rate': 6.188737104884815e-07, 'epoch': 0.78} {'loss': 2.3548, 'grad_norm': 1.8916594982147217, 'learning_rate': 6.185876207765998e-07, 'epoch': 0.78} {'loss': 2.0937, 'grad_norm': 1.5984113216400146, 'learning_rate': 6.183015878697598e-07, 'epoch': 0.78} {'loss': 2.448, 'grad_norm': 1.811370611190796, 'learning_rate': 6.180156117765995e-07, 'epoch': 0.78} {'loss': 2.0972, 'grad_norm': 1.7005659341812134, 'learning_rate': 6.177296925057519e-07, 'epoch': 0.78} {'loss': 2.5432, 'grad_norm': 1.7765657901763916, 'learning_rate': 6.174438300658495e-07, 'epoch': 0.78} {'loss': 2.3149, 'grad_norm': 2.0687670707702637, 'learning_rate': 6.171580244655237e-07, 'epoch': 0.78} {'loss': 2.158, 'grad_norm': 1.5644859075546265, 'learning_rate': 6.168722757134046e-07, 'epoch': 0.78} {'loss': 2.2637, 'grad_norm': 1.802483081817627, 'learning_rate': 6.165865838181184e-07, 'epoch': 0.78} {'loss': 2.4686, 'grad_norm': 1.64876127243042, 'learning_rate': 6.163009487882924e-07, 'epoch': 0.78} {'loss': 2.2086, 'grad_norm': 1.6148179769515991, 'learning_rate': 6.160153706325489e-07, 'epoch': 0.78} {'loss': 1.9586, 'grad_norm': 1.4271100759506226, 'learning_rate': 6.157298493595121e-07, 'epoch': 0.78} {'loss': 2.2282, 'grad_norm': 1.6738978624343872, 'learning_rate': 6.15444384977802e-07, 'epoch': 0.78} {'loss': 2.2546, 'grad_norm': 1.7974811792373657, 'learning_rate': 6.151589774960365e-07, 'epoch': 0.78} {'loss': 2.3954, 'grad_norm': 1.8041349649429321, 'learning_rate': 6.148736269228344e-07, 'epoch': 0.78} {'loss': 2.2541, 'grad_norm': 1.86636221408844, 'learning_rate': 6.145883332668098e-07, 'epoch': 0.78} {'loss': 2.2001, 'grad_norm': 2.0603389739990234, 'learning_rate': 6.143030965365781e-07, 'epoch': 0.78} {'loss': 2.4447, 'grad_norm': 1.852613925933838, 'learning_rate': 6.140179167407501e-07, 'epoch': 0.78} {'loss': 2.19, 'grad_norm': 1.8356282711029053, 'learning_rate': 6.137327938879365e-07, 'epoch': 0.78} {'loss': 2.1368, 'grad_norm': 1.6321607828140259, 'learning_rate': 6.134477279867465e-07, 'epoch': 0.78} {'loss': 2.2313, 'grad_norm': 1.5663479566574097, 'learning_rate': 6.131627190457868e-07, 'epoch': 0.78} {'loss': 1.9597, 'grad_norm': 1.9169553518295288, 'learning_rate': 6.128777670736625e-07, 'epoch': 0.78} {'loss': 2.1688, 'grad_norm': 1.780690312385559, 'learning_rate': 6.125928720789759e-07, 'epoch': 0.78} {'loss': 2.2055, 'grad_norm': 1.5098251104354858, 'learning_rate': 6.123080340703303e-07, 'epoch': 0.78} {'loss': 2.4072, 'grad_norm': 1.8345483541488647, 'learning_rate': 6.120232530563258e-07, 'epoch': 0.78} {'loss': 2.1254, 'grad_norm': 1.7641983032226562, 'learning_rate': 6.117385290455594e-07, 'epoch': 0.78} {'loss': 2.2734, 'grad_norm': 2.666992425918579, 'learning_rate': 6.114538620466295e-07, 'epoch': 0.78} {'loss': 2.3477, 'grad_norm': 1.8763364553451538, 'learning_rate': 6.111692520681292e-07, 'epoch': 0.78} {'loss': 2.4683, 'grad_norm': 2.0533459186553955, 'learning_rate': 6.108846991186531e-07, 'epoch': 0.78} {'loss': 2.2823, 'grad_norm': 1.7150100469589233, 'learning_rate': 6.106002032067923e-07, 'epoch': 0.78} {'loss': 2.4144, 'grad_norm': 8.962705612182617, 'learning_rate': 6.103157643411353e-07, 'epoch': 0.78} {'loss': 2.3285, 'grad_norm': 1.6441643238067627, 'learning_rate': 6.10031382530272e-07, 'epoch': 0.78} {'loss': 2.0793, 'grad_norm': 1.7156847715377808, 'learning_rate': 6.097470577827869e-07, 'epoch': 0.78} {'loss': 2.4146, 'grad_norm': 1.6303470134735107, 'learning_rate': 6.094627901072659e-07, 'epoch': 0.78} {'loss': 2.0219, 'grad_norm': 1.814987301826477, 'learning_rate': 6.091785795122906e-07, 'epoch': 0.78} {'loss': 2.2207, 'grad_norm': 1.6362717151641846, 'learning_rate': 6.088944260064431e-07, 'epoch': 0.78} {'loss': 2.2811, 'grad_norm': 1.6406277418136597, 'learning_rate': 6.086103295983029e-07, 'epoch': 0.78} {'loss': 2.3331, 'grad_norm': 1.7397865056991577, 'learning_rate': 6.083262902964465e-07, 'epoch': 0.78} {'loss': 2.5692, 'grad_norm': 2.3021953105926514, 'learning_rate': 6.080423081094522e-07, 'epoch': 0.78} {'loss': 2.4989, 'grad_norm': 1.7397805452346802, 'learning_rate': 6.077583830458911e-07, 'epoch': 0.78} {'loss': 2.3228, 'grad_norm': 1.3658777475357056, 'learning_rate': 6.074745151143372e-07, 'epoch': 0.78} {'loss': 2.2964, 'grad_norm': 1.5903512239456177, 'learning_rate': 6.071907043233615e-07, 'epoch': 0.78} {'loss': 2.2617, 'grad_norm': 1.6417633295059204, 'learning_rate': 6.069069506815325e-07, 'epoch': 0.78} {'loss': 2.3072, 'grad_norm': 1.503791332244873, 'learning_rate': 6.066232541974182e-07, 'epoch': 0.78} {'loss': 1.9707, 'grad_norm': 1.5686472654342651, 'learning_rate': 6.063396148795833e-07, 'epoch': 0.78} {'loss': 2.4118, 'grad_norm': 1.7463828325271606, 'learning_rate': 6.060560327365924e-07, 'epoch': 0.78} {'loss': 2.3541, 'grad_norm': 1.7698466777801514, 'learning_rate': 6.057725077770071e-07, 'epoch': 0.78} {'loss': 2.2152, 'grad_norm': 16.322649002075195, 'learning_rate': 6.054890400093885e-07, 'epoch': 0.78} {'loss': 2.2562, 'grad_norm': 1.8649723529815674, 'learning_rate': 6.052056294422948e-07, 'epoch': 0.78} {'loss': 2.4935, 'grad_norm': 1.831505537033081, 'learning_rate': 6.049222760842822e-07, 'epoch': 0.78} {'loss': 2.3722, 'grad_norm': 1.7764958143234253, 'learning_rate': 6.046389799439073e-07, 'epoch': 0.78} {'loss': 2.3003, 'grad_norm': 1.7903165817260742, 'learning_rate': 6.043557410297223e-07, 'epoch': 0.78} {'loss': 2.235, 'grad_norm': 1.809882640838623, 'learning_rate': 6.040725593502797e-07, 'epoch': 0.78} {'loss': 2.1239, 'grad_norm': 2.055861473083496, 'learning_rate': 6.037894349141302e-07, 'epoch': 0.78} {'loss': 2.1718, 'grad_norm': 1.6559325456619263, 'learning_rate': 6.035063677298206e-07, 'epoch': 0.78} {'loss': 2.3588, 'grad_norm': 1.533337950706482, 'learning_rate': 6.032233578058997e-07, 'epoch': 0.78} {'loss': 2.1912, 'grad_norm': 2.021244764328003, 'learning_rate': 6.029404051509094e-07, 'epoch': 0.78} {'loss': 2.107, 'grad_norm': 1.8550755977630615, 'learning_rate': 6.026575097733944e-07, 'epoch': 0.78} {'loss': 2.1904, 'grad_norm': 1.5529056787490845, 'learning_rate': 6.023746716818967e-07, 'epoch': 0.78} {'loss': 2.2516, 'grad_norm': 1.8149975538253784, 'learning_rate': 6.020918908849547e-07, 'epoch': 0.78} {'loss': 2.4625, 'grad_norm': 2.260603666305542, 'learning_rate': 6.018091673911075e-07, 'epoch': 0.78} {'loss': 2.1626, 'grad_norm': 1.5804040431976318, 'learning_rate': 6.0152650120889e-07, 'epoch': 0.78} {'loss': 2.2549, 'grad_norm': 1.743773341178894, 'learning_rate': 6.012438923468383e-07, 'epoch': 0.78} {'loss': 1.9827, 'grad_norm': 1.513943076133728, 'learning_rate': 6.009613408134834e-07, 'epoch': 0.78} {'loss': 1.9212, 'grad_norm': 1.8457016944885254, 'learning_rate': 6.006788466173577e-07, 'epoch': 0.78} {'loss': 2.3965, 'grad_norm': 1.938960313796997, 'learning_rate': 6.003964097669903e-07, 'epoch': 0.78} {'loss': 2.369, 'grad_norm': 1.7761486768722534, 'learning_rate': 6.001140302709074e-07, 'epoch': 0.78} {'loss': 2.3522, 'grad_norm': 1.7920820713043213, 'learning_rate': 5.998317081376367e-07, 'epoch': 0.78} {'loss': 2.2406, 'grad_norm': 1.3807570934295654, 'learning_rate': 5.995494433757004e-07, 'epoch': 0.78} {'loss': 2.4161, 'grad_norm': 1.6328741312026978, 'learning_rate': 5.992672359936222e-07, 'epoch': 0.78} {'loss': 2.2375, 'grad_norm': 1.6750084161758423, 'learning_rate': 5.989850859999227e-07, 'epoch': 0.78} {'loss': 2.0665, 'grad_norm': 1.9589647054672241, 'learning_rate': 5.987029934031202e-07, 'epoch': 0.78} {'loss': 2.169, 'grad_norm': 2.17047381401062, 'learning_rate': 5.984209582117326e-07, 'epoch': 0.78} {'loss': 2.5855, 'grad_norm': 1.7055588960647583, 'learning_rate': 5.981389804342746e-07, 'epoch': 0.78} {'loss': 2.2138, 'grad_norm': 2.230222702026367, 'learning_rate': 5.978570600792596e-07, 'epoch': 0.78} {'loss': 2.0875, 'grad_norm': 1.647591233253479, 'learning_rate': 5.97575197155201e-07, 'epoch': 0.78} {'loss': 2.1899, 'grad_norm': 1.360922932624817, 'learning_rate': 5.972933916706069e-07, 'epoch': 0.78} {'loss': 2.3709, 'grad_norm': 1.5604832172393799, 'learning_rate': 5.970116436339881e-07, 'epoch': 0.78} {'loss': 2.1531, 'grad_norm': 1.3724883794784546, 'learning_rate': 5.967299530538495e-07, 'epoch': 0.78} {'loss': 2.3195, 'grad_norm': 1.568823218345642, 'learning_rate': 5.964483199386975e-07, 'epoch': 0.78} {'loss': 1.8636, 'grad_norm': 2.010983467102051, 'learning_rate': 5.96166744297034e-07, 'epoch': 0.78} {'loss': 2.4683, 'grad_norm': 1.5626778602600098, 'learning_rate': 5.958852261373613e-07, 'epoch': 0.78} {'loss': 2.318, 'grad_norm': 1.8284986019134521, 'learning_rate': 5.956037654681804e-07, 'epoch': 0.78} {'loss': 2.339, 'grad_norm': 1.7921390533447266, 'learning_rate': 5.95322362297987e-07, 'epoch': 0.78} {'loss': 2.3173, 'grad_norm': 1.734968900680542, 'learning_rate': 5.950410166352793e-07, 'epoch': 0.78} {'loss': 2.2419, 'grad_norm': 1.7282356023788452, 'learning_rate': 5.947597284885503e-07, 'epoch': 0.78} {'loss': 2.4919, 'grad_norm': 1.7173142433166504, 'learning_rate': 5.944784978662941e-07, 'epoch': 0.78} {'loss': 2.1947, 'grad_norm': 1.6271249055862427, 'learning_rate': 5.941973247770022e-07, 'epoch': 0.78} {'loss': 2.3662, 'grad_norm': 1.575676679611206, 'learning_rate': 5.939162092291623e-07, 'epoch': 0.78} {'loss': 2.2406, 'grad_norm': 1.6107054948806763, 'learning_rate': 5.936351512312641e-07, 'epoch': 0.78} {'loss': 2.3116, 'grad_norm': 1.305505394935608, 'learning_rate': 5.933541507917914e-07, 'epoch': 0.78} {'loss': 2.2156, 'grad_norm': 3.0653817653656006, 'learning_rate': 5.930732079192305e-07, 'epoch': 0.78} {'loss': 2.2417, 'grad_norm': 1.6241062879562378, 'learning_rate': 5.927923226220628e-07, 'epoch': 0.78} {'loss': 2.1536, 'grad_norm': 1.557921051979065, 'learning_rate': 5.925114949087682e-07, 'epoch': 0.78} {'loss': 1.9858, 'grad_norm': 1.7893110513687134, 'learning_rate': 5.92230724787827e-07, 'epoch': 0.78} {'loss': 2.3738, 'grad_norm': 1.8538466691970825, 'learning_rate': 5.919500122677155e-07, 'epoch': 0.78} {'loss': 2.1448, 'grad_norm': 1.8740323781967163, 'learning_rate': 5.916693573569099e-07, 'epoch': 0.78} {'loss': 2.1925, 'grad_norm': 1.5858869552612305, 'learning_rate': 5.913887600638832e-07, 'epoch': 0.78} {'loss': 2.2945, 'grad_norm': 1.5964598655700684, 'learning_rate': 5.911082203971078e-07, 'epoch': 0.78} {'loss': 2.0982, 'grad_norm': 3.077681541442871, 'learning_rate': 5.908277383650548e-07, 'epoch': 0.78} {'loss': 2.1926, 'grad_norm': 1.8446707725524902, 'learning_rate': 5.905473139761919e-07, 'epoch': 0.78} {'loss': 2.4781, 'grad_norm': 1.5491870641708374, 'learning_rate': 5.902669472389852e-07, 'epoch': 0.78} {'loss': 1.872, 'grad_norm': 1.3971517086029053, 'learning_rate': 5.89986638161901e-07, 'epoch': 0.78} {'loss': 2.1309, 'grad_norm': 1.9587808847427368, 'learning_rate': 5.897063867534017e-07, 'epoch': 0.78} {'loss': 2.1936, 'grad_norm': 1.6801658868789673, 'learning_rate': 5.894261930219497e-07, 'epoch': 0.78} {'loss': 2.4222, 'grad_norm': 3.072523832321167, 'learning_rate': 5.891460569760038e-07, 'epoch': 0.78} {'loss': 2.2196, 'grad_norm': 1.5860042572021484, 'learning_rate': 5.888659786240234e-07, 'epoch': 0.78} {'loss': 2.2036, 'grad_norm': 1.6561795473098755, 'learning_rate': 5.885859579744632e-07, 'epoch': 0.78} {'loss': 2.3302, 'grad_norm': 1.9365743398666382, 'learning_rate': 5.883059950357795e-07, 'epoch': 0.78} {'loss': 2.3146, 'grad_norm': 1.7743396759033203, 'learning_rate': 5.880260898164241e-07, 'epoch': 0.78} {'loss': 2.3239, 'grad_norm': 1.8941962718963623, 'learning_rate': 5.877462423248479e-07, 'epoch': 0.78} {'loss': 2.4241, 'grad_norm': 1.5649964809417725, 'learning_rate': 5.874664525695015e-07, 'epoch': 0.78} {'loss': 2.2848, 'grad_norm': 1.481709361076355, 'learning_rate': 5.871867205588308e-07, 'epoch': 0.78} {'loss': 2.2251, 'grad_norm': 1.5179598331451416, 'learning_rate': 5.869070463012827e-07, 'epoch': 0.78} {'loss': 2.4387, 'grad_norm': 2.1803324222564697, 'learning_rate': 5.866274298053021e-07, 'epoch': 0.78} {'loss': 2.0453, 'grad_norm': 1.715409755706787, 'learning_rate': 5.863478710793299e-07, 'epoch': 0.78} {'loss': 2.0058, 'grad_norm': 1.937382459640503, 'learning_rate': 5.860683701318079e-07, 'epoch': 0.78} {'loss': 2.225, 'grad_norm': 1.7909350395202637, 'learning_rate': 5.857889269711748e-07, 'epoch': 0.78} {'loss': 1.9258, 'grad_norm': 1.4679102897644043, 'learning_rate': 5.855095416058665e-07, 'epoch': 0.78} {'loss': 2.159, 'grad_norm': 1.340829610824585, 'learning_rate': 5.852302140443203e-07, 'epoch': 0.78} {'loss': 2.3587, 'grad_norm': 1.699404001235962, 'learning_rate': 5.849509442949683e-07, 'epoch': 0.79} {'loss': 2.3998, 'grad_norm': 1.768963098526001, 'learning_rate': 5.846717323662437e-07, 'epoch': 0.79} {'loss': 2.2498, 'grad_norm': 1.5989834070205688, 'learning_rate': 5.843925782665755e-07, 'epoch': 0.79} {'loss': 2.152, 'grad_norm': 2.046170473098755, 'learning_rate': 5.841134820043934e-07, 'epoch': 0.79} {'loss': 2.4258, 'grad_norm': 1.977433681488037, 'learning_rate': 5.838344435881224e-07, 'epoch': 0.79} {'loss': 2.0049, 'grad_norm': 1.7091139554977417, 'learning_rate': 5.835554630261894e-07, 'epoch': 0.79} {'loss': 2.3415, 'grad_norm': 1.7391692399978638, 'learning_rate': 5.832765403270166e-07, 'epoch': 0.79} {'loss': 2.2862, 'grad_norm': 1.7802174091339111, 'learning_rate': 5.829976754990249e-07, 'epoch': 0.79} {'loss': 2.3146, 'grad_norm': 1.7830973863601685, 'learning_rate': 5.827188685506353e-07, 'epoch': 0.79} {'loss': 1.9694, 'grad_norm': 1.494194507598877, 'learning_rate': 5.82440119490264e-07, 'epoch': 0.79} {'loss': 2.2342, 'grad_norm': 1.7294621467590332, 'learning_rate': 5.821614283263285e-07, 'epoch': 0.79} {'loss': 2.2658, 'grad_norm': 2.268064022064209, 'learning_rate': 5.818827950672437e-07, 'epoch': 0.79} {'loss': 1.6158, 'grad_norm': 1.5658572912216187, 'learning_rate': 5.816042197214208e-07, 'epoch': 0.79} {'loss': 2.4734, 'grad_norm': 2.290030002593994, 'learning_rate': 5.813257022972724e-07, 'epoch': 0.79} {'loss': 2.2157, 'grad_norm': 1.645188570022583, 'learning_rate': 5.810472428032063e-07, 'epoch': 0.79} {'loss': 2.2133, 'grad_norm': 1.7113171815872192, 'learning_rate': 5.807688412476309e-07, 'epoch': 0.79} {'loss': 2.3247, 'grad_norm': 1.5882738828659058, 'learning_rate': 5.804904976389519e-07, 'epoch': 0.79} {'loss': 2.1654, 'grad_norm': 1.702492117881775, 'learning_rate': 5.802122119855719e-07, 'epoch': 0.79} {'loss': 2.3714, 'grad_norm': 1.7612711191177368, 'learning_rate': 5.799339842958951e-07, 'epoch': 0.79} {'loss': 2.0632, 'grad_norm': 2.0595810413360596, 'learning_rate': 5.796558145783202e-07, 'epoch': 0.79} {'loss': 2.2966, 'grad_norm': 1.7555508613586426, 'learning_rate': 5.793777028412475e-07, 'epoch': 0.79} {'loss': 2.2414, 'grad_norm': 1.8857405185699463, 'learning_rate': 5.790996490930723e-07, 'epoch': 0.79} {'loss': 2.096, 'grad_norm': 1.514449954032898, 'learning_rate': 5.788216533421909e-07, 'epoch': 0.79} {'loss': 2.215, 'grad_norm': 1.580706000328064, 'learning_rate': 5.78543715596997e-07, 'epoch': 0.79} {'loss': 1.8666, 'grad_norm': 1.3175036907196045, 'learning_rate': 5.782658358658818e-07, 'epoch': 0.79} {'loss': 2.3742, 'grad_norm': 1.6545625925064087, 'learning_rate': 5.779880141572355e-07, 'epoch': 0.79} {'loss': 2.3679, 'grad_norm': 1.8899149894714355, 'learning_rate': 5.777102504794454e-07, 'epoch': 0.79} {'loss': 2.1781, 'grad_norm': 1.594079852104187, 'learning_rate': 5.774325448408988e-07, 'epoch': 0.79} {'loss': 2.2458, 'grad_norm': 1.5648292303085327, 'learning_rate': 5.771548972499807e-07, 'epoch': 0.79} {'loss': 1.9305, 'grad_norm': 1.4428600072860718, 'learning_rate': 5.768773077150732e-07, 'epoch': 0.79} {'loss': 2.1006, 'grad_norm': 2.221816301345825, 'learning_rate': 5.765997762445586e-07, 'epoch': 0.79} {'loss': 1.2985, 'grad_norm': 1.6687719821929932, 'learning_rate': 5.763223028468145e-07, 'epoch': 0.79} {'loss': 2.2886, 'grad_norm': 1.9801368713378906, 'learning_rate': 5.76044887530221e-07, 'epoch': 0.79} {'loss': 1.8488, 'grad_norm': 1.3633270263671875, 'learning_rate': 5.757675303031527e-07, 'epoch': 0.79} {'loss': 2.2214, 'grad_norm': 1.8729721307754517, 'learning_rate': 5.75490231173983e-07, 'epoch': 0.79} {'loss': 2.0952, 'grad_norm': 1.3335115909576416, 'learning_rate': 5.752129901510858e-07, 'epoch': 0.79} {'loss': 2.2774, 'grad_norm': 5.3633131980896, 'learning_rate': 5.749358072428308e-07, 'epoch': 0.79} {'loss': 2.1055, 'grad_norm': 1.5784869194030762, 'learning_rate': 5.746586824575875e-07, 'epoch': 0.79} {'loss': 2.1762, 'grad_norm': 1.5529656410217285, 'learning_rate': 5.743816158037224e-07, 'epoch': 0.79} {'loss': 2.0923, 'grad_norm': 1.5443146228790283, 'learning_rate': 5.741046072896014e-07, 'epoch': 0.79} {'loss': 2.3108, 'grad_norm': 1.971008062362671, 'learning_rate': 5.73827656923589e-07, 'epoch': 0.79} {'loss': 2.2036, 'grad_norm': 1.3464521169662476, 'learning_rate': 5.735507647140459e-07, 'epoch': 0.79} {'loss': 2.2858, 'grad_norm': 1.3920347690582275, 'learning_rate': 5.732739306693327e-07, 'epoch': 0.79} {'loss': 2.3992, 'grad_norm': 1.7344114780426025, 'learning_rate': 5.729971547978069e-07, 'epoch': 0.79} {'loss': 2.3055, 'grad_norm': 1.7847720384597778, 'learning_rate': 5.727204371078257e-07, 'epoch': 0.79} {'loss': 2.3119, 'grad_norm': 2.014552593231201, 'learning_rate': 5.724437776077452e-07, 'epoch': 0.79} {'loss': 2.4383, 'grad_norm': 1.6625332832336426, 'learning_rate': 5.721671763059164e-07, 'epoch': 0.79} {'loss': 2.0886, 'grad_norm': 1.3556416034698486, 'learning_rate': 5.718906332106924e-07, 'epoch': 0.79} {'loss': 2.5503, 'grad_norm': 1.7562365531921387, 'learning_rate': 5.716141483304217e-07, 'epoch': 0.79} {'loss': 2.2991, 'grad_norm': 1.5408259630203247, 'learning_rate': 5.713377216734531e-07, 'epoch': 0.79} {'loss': 2.1925, 'grad_norm': 1.4880053997039795, 'learning_rate': 5.710613532481321e-07, 'epoch': 0.79} {'loss': 2.2976, 'grad_norm': 1.3892310857772827, 'learning_rate': 5.707850430628023e-07, 'epoch': 0.79} {'loss': 2.1669, 'grad_norm': 2.254201650619507, 'learning_rate': 5.705087911258081e-07, 'epoch': 0.79} {'loss': 2.2661, 'grad_norm': 1.5050461292266846, 'learning_rate': 5.702325974454881e-07, 'epoch': 0.79} {'loss': 2.2067, 'grad_norm': 1.6855765581130981, 'learning_rate': 5.699564620301834e-07, 'epoch': 0.79} {'loss': 2.2612, 'grad_norm': 2.2878973484039307, 'learning_rate': 5.696803848882296e-07, 'epoch': 0.79} {'loss': 2.2412, 'grad_norm': 1.9535763263702393, 'learning_rate': 5.694043660279633e-07, 'epoch': 0.79} {'loss': 2.4687, 'grad_norm': 1.7952710390090942, 'learning_rate': 5.691284054577184e-07, 'epoch': 0.79} {'loss': 2.2067, 'grad_norm': 1.61435067653656, 'learning_rate': 5.688525031858258e-07, 'epoch': 0.79} {'loss': 2.3364, 'grad_norm': 1.6584898233413696, 'learning_rate': 5.68576659220618e-07, 'epoch': 0.79} {'loss': 2.4581, 'grad_norm': 1.6140661239624023, 'learning_rate': 5.683008735704204e-07, 'epoch': 0.79} {'loss': 2.1814, 'grad_norm': 1.3096033334732056, 'learning_rate': 5.680251462435615e-07, 'epoch': 0.79} {'loss': 2.3108, 'grad_norm': 1.6928709745407104, 'learning_rate': 5.677494772483666e-07, 'epoch': 0.79} {'loss': 2.3037, 'grad_norm': 1.6514064073562622, 'learning_rate': 5.674738665931575e-07, 'epoch': 0.79} {'loss': 2.2949, 'grad_norm': 1.859869360923767, 'learning_rate': 5.671983142862575e-07, 'epoch': 0.79} {'loss': 2.171, 'grad_norm': 2.0120627880096436, 'learning_rate': 5.669228203359844e-07, 'epoch': 0.79} {'loss': 2.3827, 'grad_norm': 1.7807084321975708, 'learning_rate': 5.666473847506579e-07, 'epoch': 0.79} {'loss': 1.9987, 'grad_norm': 1.3583451509475708, 'learning_rate': 5.663720075385926e-07, 'epoch': 0.79} {'loss': 2.2193, 'grad_norm': 1.3635154962539673, 'learning_rate': 5.66096688708104e-07, 'epoch': 0.79} {'loss': 2.2587, 'grad_norm': 2.231217384338379, 'learning_rate': 5.658214282675045e-07, 'epoch': 0.79} {'loss': 2.3493, 'grad_norm': 1.8936312198638916, 'learning_rate': 5.655462262251041e-07, 'epoch': 0.79} {'loss': 1.984, 'grad_norm': 1.8872336149215698, 'learning_rate': 5.652710825892133e-07, 'epoch': 0.79} {'loss': 2.5892, 'grad_norm': 1.8767669200897217, 'learning_rate': 5.64995997368138e-07, 'epoch': 0.79} {'loss': 1.8407, 'grad_norm': 2.0139689445495605, 'learning_rate': 5.647209705701845e-07, 'epoch': 0.79} {'loss': 2.177, 'grad_norm': 2.130074977874756, 'learning_rate': 5.644460022036574e-07, 'epoch': 0.79} {'loss': 1.9823, 'grad_norm': 1.5618846416473389, 'learning_rate': 5.641710922768573e-07, 'epoch': 0.79} {'loss': 2.2783, 'grad_norm': 1.7269463539123535, 'learning_rate': 5.638962407980858e-07, 'epoch': 0.79} {'loss': 2.0334, 'grad_norm': 1.8532476425170898, 'learning_rate': 5.636214477756411e-07, 'epoch': 0.79} {'loss': 2.3075, 'grad_norm': 1.745723843574524, 'learning_rate': 5.633467132178189e-07, 'epoch': 0.79} {'loss': 2.2962, 'grad_norm': 1.9551987648010254, 'learning_rate': 5.630720371329154e-07, 'epoch': 0.79} {'loss': 2.3677, 'grad_norm': 1.9658288955688477, 'learning_rate': 5.62797419529223e-07, 'epoch': 0.79} {'loss': 2.1046, 'grad_norm': 1.5354197025299072, 'learning_rate': 5.62522860415034e-07, 'epoch': 0.79} {'loss': 2.2667, 'grad_norm': 1.8779195547103882, 'learning_rate': 5.622483597986373e-07, 'epoch': 0.79} {'loss': 2.1284, 'grad_norm': 1.6370614767074585, 'learning_rate': 5.619739176883219e-07, 'epoch': 0.79} {'loss': 2.1477, 'grad_norm': 1.7295736074447632, 'learning_rate': 5.616995340923723e-07, 'epoch': 0.79} {'loss': 1.5986, 'grad_norm': 1.516664981842041, 'learning_rate': 5.614252090190739e-07, 'epoch': 0.79} {'loss': 2.2354, 'grad_norm': 1.6139307022094727, 'learning_rate': 5.611509424767108e-07, 'epoch': 0.79} {'loss': 2.1673, 'grad_norm': 2.417124032974243, 'learning_rate': 5.608767344735611e-07, 'epoch': 0.79} {'loss': 2.3091, 'grad_norm': 1.6396386623382568, 'learning_rate': 5.60602585017905e-07, 'epoch': 0.79} {'loss': 1.3773, 'grad_norm': 1.5048516988754272, 'learning_rate': 5.603284941180209e-07, 'epoch': 0.79} {'loss': 2.5542, 'grad_norm': 1.8797821998596191, 'learning_rate': 5.600544617821826e-07, 'epoch': 0.79} {'loss': 2.2794, 'grad_norm': 1.6493808031082153, 'learning_rate': 5.597804880186655e-07, 'epoch': 0.79} {'loss': 2.2751, 'grad_norm': 2.3080012798309326, 'learning_rate': 5.595065728357402e-07, 'epoch': 0.79} {'loss': 2.2915, 'grad_norm': 1.5386710166931152, 'learning_rate': 5.592327162416783e-07, 'epoch': 0.79} {'loss': 2.1285, 'grad_norm': 1.5894850492477417, 'learning_rate': 5.589589182447474e-07, 'epoch': 0.79} {'loss': 2.1386, 'grad_norm': 1.4303025007247925, 'learning_rate': 5.586851788532141e-07, 'epoch': 0.79} {'loss': 2.1115, 'grad_norm': 1.5177589654922485, 'learning_rate': 5.584114980753444e-07, 'epoch': 0.79} {'loss': 2.1143, 'grad_norm': 1.749194860458374, 'learning_rate': 5.581378759193998e-07, 'epoch': 0.79} {'loss': 2.359, 'grad_norm': 1.5004886388778687, 'learning_rate': 5.578643123936437e-07, 'epoch': 0.79} {'loss': 2.1706, 'grad_norm': 2.4215188026428223, 'learning_rate': 5.575908075063338e-07, 'epoch': 0.79} {'loss': 2.2564, 'grad_norm': 1.8960139751434326, 'learning_rate': 5.573173612657295e-07, 'epoch': 0.79} {'loss': 2.022, 'grad_norm': 1.427950143814087, 'learning_rate': 5.570439736800859e-07, 'epoch': 0.79} {'loss': 1.789, 'grad_norm': 1.2732443809509277, 'learning_rate': 5.567706447576577e-07, 'epoch': 0.79} {'loss': 2.4516, 'grad_norm': 1.6241388320922852, 'learning_rate': 5.564973745066985e-07, 'epoch': 0.79} {'loss': 2.5577, 'grad_norm': 1.7132985591888428, 'learning_rate': 5.56224162935457e-07, 'epoch': 0.79} {'loss': 2.1579, 'grad_norm': 1.56703519821167, 'learning_rate': 5.559510100521831e-07, 'epoch': 0.79} {'loss': 2.3207, 'grad_norm': 1.7393766641616821, 'learning_rate': 5.556779158651249e-07, 'epoch': 0.79} {'loss': 2.2521, 'grad_norm': 1.7774463891983032, 'learning_rate': 5.554048803825266e-07, 'epoch': 0.79} {'loss': 2.4263, 'grad_norm': 1.5704090595245361, 'learning_rate': 5.551319036126332e-07, 'epoch': 0.79} {'loss': 2.3946, 'grad_norm': 1.764937400817871, 'learning_rate': 5.548589855636851e-07, 'epoch': 0.79} {'loss': 2.4724, 'grad_norm': 1.6368820667266846, 'learning_rate': 5.545861262439239e-07, 'epoch': 0.79} {'loss': 2.2586, 'grad_norm': 1.7263219356536865, 'learning_rate': 5.543133256615868e-07, 'epoch': 0.79} {'loss': 2.2424, 'grad_norm': 1.9815673828125, 'learning_rate': 5.540405838249116e-07, 'epoch': 0.79} {'loss': 2.2405, 'grad_norm': 1.7073482275009155, 'learning_rate': 5.537679007421323e-07, 'epoch': 0.79} {'loss': 2.333, 'grad_norm': 1.6802005767822266, 'learning_rate': 5.534952764214816e-07, 'epoch': 0.79} {'loss': 2.1844, 'grad_norm': 1.566920280456543, 'learning_rate': 5.532227108711919e-07, 'epoch': 0.79} {'loss': 2.2041, 'grad_norm': 1.7449822425842285, 'learning_rate': 5.529502040994914e-07, 'epoch': 0.79} {'loss': 2.3074, 'grad_norm': 1.7227193117141724, 'learning_rate': 5.526777561146085e-07, 'epoch': 0.79} {'loss': 2.3857, 'grad_norm': 2.526296854019165, 'learning_rate': 5.5240536692477e-07, 'epoch': 0.79} {'loss': 2.2894, 'grad_norm': 1.641066312789917, 'learning_rate': 5.521330365381986e-07, 'epoch': 0.79} {'loss': 2.1696, 'grad_norm': 1.7890610694885254, 'learning_rate': 5.51860764963118e-07, 'epoch': 0.79} {'loss': 2.1069, 'grad_norm': 1.5407966375350952, 'learning_rate': 5.515885522077483e-07, 'epoch': 0.79} {'loss': 2.1919, 'grad_norm': 3.4621641635894775, 'learning_rate': 5.513163982803074e-07, 'epoch': 0.79} {'loss': 2.3575, 'grad_norm': 1.5239864587783813, 'learning_rate': 5.510443031890142e-07, 'epoch': 0.79} {'loss': 1.9947, 'grad_norm': 1.4294404983520508, 'learning_rate': 5.507722669420823e-07, 'epoch': 0.79} {'loss': 2.3467, 'grad_norm': 1.5398072004318237, 'learning_rate': 5.505002895477265e-07, 'epoch': 0.79} {'loss': 1.8051, 'grad_norm': 1.3208444118499756, 'learning_rate': 5.502283710141576e-07, 'epoch': 0.79} {'loss': 1.227, 'grad_norm': 2.009132146835327, 'learning_rate': 5.499565113495866e-07, 'epoch': 0.79} {'loss': 2.2389, 'grad_norm': 1.628366470336914, 'learning_rate': 5.496847105622205e-07, 'epoch': 0.79} {'loss': 2.4866, 'grad_norm': 3.3280060291290283, 'learning_rate': 5.494129686602661e-07, 'epoch': 0.79} {'loss': 2.2202, 'grad_norm': 1.5425865650177002, 'learning_rate': 5.491412856519298e-07, 'epoch': 0.79} {'loss': 2.3584, 'grad_norm': 1.5207810401916504, 'learning_rate': 5.488696615454114e-07, 'epoch': 0.79} {'loss': 2.3302, 'grad_norm': 1.618273377418518, 'learning_rate': 5.485980963489146e-07, 'epoch': 0.79} {'loss': 2.4832, 'grad_norm': 1.6504735946655273, 'learning_rate': 5.483265900706364e-07, 'epoch': 0.79} {'loss': 2.1271, 'grad_norm': 1.5577735900878906, 'learning_rate': 5.480551427187758e-07, 'epoch': 0.79} {'loss': 1.8965, 'grad_norm': 1.262850284576416, 'learning_rate': 5.477837543015291e-07, 'epoch': 0.79} {'loss': 2.3111, 'grad_norm': 1.8839759826660156, 'learning_rate': 5.475124248270885e-07, 'epoch': 0.79} {'loss': 2.3905, 'grad_norm': 1.933406114578247, 'learning_rate': 5.472411543036479e-07, 'epoch': 0.79} {'loss': 2.2318, 'grad_norm': 3.3417162895202637, 'learning_rate': 5.469699427393963e-07, 'epoch': 0.79} {'loss': 2.0927, 'grad_norm': 1.7488082647323608, 'learning_rate': 5.466987901425236e-07, 'epoch': 0.79} {'loss': 2.3678, 'grad_norm': 1.738095998764038, 'learning_rate': 5.464276965212162e-07, 'epoch': 0.79} {'loss': 2.3098, 'grad_norm': 1.6684170961380005, 'learning_rate': 5.461566618836581e-07, 'epoch': 0.79} {'loss': 2.2438, 'grad_norm': 1.7526038885116577, 'learning_rate': 5.45885686238034e-07, 'epoch': 0.79} {'loss': 1.98, 'grad_norm': 1.5997782945632935, 'learning_rate': 5.456147695925245e-07, 'epoch': 0.79} {'loss': 2.1943, 'grad_norm': 1.427156925201416, 'learning_rate': 5.453439119553103e-07, 'epoch': 0.79} {'loss': 2.2401, 'grad_norm': 3.114530086517334, 'learning_rate': 5.45073113334568e-07, 'epoch': 0.79} {'loss': 2.4096, 'grad_norm': 2.055603265762329, 'learning_rate': 5.448023737384744e-07, 'epoch': 0.79} {'loss': 2.461, 'grad_norm': 1.7420068979263306, 'learning_rate': 5.445316931752056e-07, 'epoch': 0.79} {'loss': 2.1932, 'grad_norm': 1.5398406982421875, 'learning_rate': 5.44261071652931e-07, 'epoch': 0.79} {'loss': 2.1701, 'grad_norm': 2.6850945949554443, 'learning_rate': 5.439905091798237e-07, 'epoch': 0.79} {'loss': 2.2271, 'grad_norm': 1.8427574634552002, 'learning_rate': 5.437200057640513e-07, 'epoch': 0.79} {'loss': 2.3207, 'grad_norm': 2.2624785900115967, 'learning_rate': 5.434495614137819e-07, 'epoch': 0.79} {'loss': 2.2081, 'grad_norm': 1.7010293006896973, 'learning_rate': 5.431791761371813e-07, 'epoch': 0.79} {'loss': 2.2133, 'grad_norm': 1.5589020252227783, 'learning_rate': 5.429088499424121e-07, 'epoch': 0.79} {'loss': 1.9298, 'grad_norm': 1.5178653001785278, 'learning_rate': 5.426385828376376e-07, 'epoch': 0.79} {'loss': 2.1916, 'grad_norm': 1.5982037782669067, 'learning_rate': 5.423683748310163e-07, 'epoch': 0.79} {'loss': 2.3558, 'grad_norm': 1.5103915929794312, 'learning_rate': 5.420982259307081e-07, 'epoch': 0.79} 2024-12-17 10:56:43 - WARNING - NaN or Inf found in input tensor. {'loss': 2.3173, 'grad_norm': nan, 'learning_rate': 5.420982259307081e-07, 'epoch': 0.79} {'loss': 2.0345, 'grad_norm': 1.8493348360061646, 'learning_rate': 5.418281361448685e-07, 'epoch': 0.79} {'loss': 2.5505, 'grad_norm': 1.7810478210449219, 'learning_rate': 5.415581054816522e-07, 'epoch': 0.79} {'loss': 1.278, 'grad_norm': 1.4483991861343384, 'learning_rate': 5.412881339492129e-07, 'epoch': 0.79} {'loss': 2.2911, 'grad_norm': 2.332115888595581, 'learning_rate': 5.410182215557009e-07, 'epoch': 0.79} {'loss': 2.3744, 'grad_norm': 1.8523859977722168, 'learning_rate': 5.407483683092665e-07, 'epoch': 0.79} {'loss': 1.9354, 'grad_norm': 1.8925880193710327, 'learning_rate': 5.404785742180565e-07, 'epoch': 0.79} {'loss': 2.1665, 'grad_norm': 1.7516292333602905, 'learning_rate': 5.402088392902172e-07, 'epoch': 0.79} {'loss': 2.4418, 'grad_norm': 1.699135661125183, 'learning_rate': 5.39939163533893e-07, 'epoch': 0.79} {'loss': 2.4914, 'grad_norm': 1.8169742822647095, 'learning_rate': 5.396695469572261e-07, 'epoch': 0.79} {'loss': 2.2537, 'grad_norm': 1.6127455234527588, 'learning_rate': 5.393999895683563e-07, 'epoch': 0.79} {'loss': 2.2376, 'grad_norm': 1.920505166053772, 'learning_rate': 5.39130491375422e-07, 'epoch': 0.79} {'loss': 2.3398, 'grad_norm': 1.6476695537567139, 'learning_rate': 5.388610523865606e-07, 'epoch': 0.79} {'loss': 1.9192, 'grad_norm': 1.716723918914795, 'learning_rate': 5.385916726099081e-07, 'epoch': 0.79} {'loss': 2.4564, 'grad_norm': 1.6892367601394653, 'learning_rate': 5.38322352053596e-07, 'epoch': 0.79} {'loss': 2.5775, 'grad_norm': 2.074965238571167, 'learning_rate': 5.38053090725758e-07, 'epoch': 0.79} {'loss': 2.3137, 'grad_norm': 1.6814815998077393, 'learning_rate': 5.377838886345219e-07, 'epoch': 0.79} {'loss': 2.4948, 'grad_norm': 1.551832914352417, 'learning_rate': 5.375147457880169e-07, 'epoch': 0.79} {'loss': 2.1301, 'grad_norm': 1.6737264394760132, 'learning_rate': 5.372456621943689e-07, 'epoch': 0.79} {'loss': 2.2315, 'grad_norm': 1.744686484336853, 'learning_rate': 5.369766378617014e-07, 'epoch': 0.79} {'loss': 2.1367, 'grad_norm': 1.3982529640197754, 'learning_rate': 5.367076727981383e-07, 'epoch': 0.79} {'loss': 1.9601, 'grad_norm': 1.355034351348877, 'learning_rate': 5.36438767011799e-07, 'epoch': 0.79} {'loss': 2.3096, 'grad_norm': 1.6225504875183105, 'learning_rate': 5.361699205108043e-07, 'epoch': 0.79} {'loss': 2.3703, 'grad_norm': 1.8360438346862793, 'learning_rate': 5.359011333032694e-07, 'epoch': 0.79} {'loss': 2.2336, 'grad_norm': 1.8547296524047852, 'learning_rate': 5.356324053973108e-07, 'epoch': 0.79} {'loss': 2.0119, 'grad_norm': 1.588856816291809, 'learning_rate': 5.353637368010428e-07, 'epoch': 0.79} {'loss': 2.2708, 'grad_norm': 1.3569949865341187, 'learning_rate': 5.350951275225758e-07, 'epoch': 0.79} {'loss': 2.0663, 'grad_norm': 1.8077727556228638, 'learning_rate': 5.348265775700212e-07, 'epoch': 0.79} {'loss': 2.4062, 'grad_norm': 1.6842952966690063, 'learning_rate': 5.345580869514869e-07, 'epoch': 0.79} {'loss': 2.4356, 'grad_norm': 1.88691246509552, 'learning_rate': 5.342896556750781e-07, 'epoch': 0.8} {'loss': 2.387, 'grad_norm': 1.7225430011749268, 'learning_rate': 5.340212837489014e-07, 'epoch': 0.8} {'loss': 2.2701, 'grad_norm': 1.7341217994689941, 'learning_rate': 5.337529711810582e-07, 'epoch': 0.8} {'loss': 2.2971, 'grad_norm': 1.8241952657699585, 'learning_rate': 5.334847179796507e-07, 'epoch': 0.8} {'loss': 2.1799, 'grad_norm': 1.7220559120178223, 'learning_rate': 5.33216524152777e-07, 'epoch': 0.8} {'loss': 2.1544, 'grad_norm': 1.6234257221221924, 'learning_rate': 5.329483897085361e-07, 'epoch': 0.8} {'loss': 2.2348, 'grad_norm': 1.7101764678955078, 'learning_rate': 5.326803146550222e-07, 'epoch': 0.8} {'loss': 2.3673, 'grad_norm': 1.8139253854751587, 'learning_rate': 5.324122990003308e-07, 'epoch': 0.8} {'loss': 2.1089, 'grad_norm': 1.8616441488265991, 'learning_rate': 5.32144342752553e-07, 'epoch': 0.8} {'loss': 2.2491, 'grad_norm': 1.8391568660736084, 'learning_rate': 5.318764459197786e-07, 'epoch': 0.8} {'loss': 2.249, 'grad_norm': 9.780913352966309, 'learning_rate': 5.316086085100971e-07, 'epoch': 0.8} {'loss': 2.1219, 'grad_norm': 1.4404293298721313, 'learning_rate': 5.313408305315956e-07, 'epoch': 0.8} {'loss': 2.3811, 'grad_norm': 1.8538376092910767, 'learning_rate': 5.310731119923576e-07, 'epoch': 0.8} {'loss': 2.3568, 'grad_norm': 1.6122337579727173, 'learning_rate': 5.308054529004681e-07, 'epoch': 0.8} {'loss': 2.3, 'grad_norm': 1.572589635848999, 'learning_rate': 5.305378532640069e-07, 'epoch': 0.8} {'loss': 2.0499, 'grad_norm': 1.6396465301513672, 'learning_rate': 5.302703130910547e-07, 'epoch': 0.8} {'loss': 2.2168, 'grad_norm': 1.73135244846344, 'learning_rate': 5.300028323896888e-07, 'epoch': 0.8} {'loss': 2.0028, 'grad_norm': 1.5150096416473389, 'learning_rate': 5.297354111679845e-07, 'epoch': 0.8} {'loss': 2.225, 'grad_norm': 2.2650997638702393, 'learning_rate': 5.29468049434017e-07, 'epoch': 0.8} {'loss': 2.2007, 'grad_norm': 2.147911548614502, 'learning_rate': 5.292007471958583e-07, 'epoch': 0.8} {'loss': 2.4742, 'grad_norm': 1.848525047302246, 'learning_rate': 5.289335044615793e-07, 'epoch': 0.8} {'loss': 2.2535, 'grad_norm': 1.6188448667526245, 'learning_rate': 5.286663212392479e-07, 'epoch': 0.8} {'loss': 2.4097, 'grad_norm': 1.839387059211731, 'learning_rate': 5.283991975369323e-07, 'epoch': 0.8} {'loss': 2.1486, 'grad_norm': 1.4457640647888184, 'learning_rate': 5.281321333626965e-07, 'epoch': 0.8} {'loss': 1.8568, 'grad_norm': 1.577663779258728, 'learning_rate': 5.278651287246053e-07, 'epoch': 0.8} {'loss': 2.3093, 'grad_norm': 1.7120190858840942, 'learning_rate': 5.275981836307193e-07, 'epoch': 0.8} {'loss': 1.5983, 'grad_norm': 1.5309569835662842, 'learning_rate': 5.273312980890982e-07, 'epoch': 0.8} {'loss': 2.1217, 'grad_norm': 3.0850586891174316, 'learning_rate': 5.270644721078e-07, 'epoch': 0.8} {'loss': 2.1418, 'grad_norm': 1.7683261632919312, 'learning_rate': 5.267977056948822e-07, 'epoch': 0.8} {'loss': 1.7746, 'grad_norm': 1.5390549898147583, 'learning_rate': 5.265309988583974e-07, 'epoch': 0.8} {'loss': 2.0232, 'grad_norm': 1.3702210187911987, 'learning_rate': 5.262643516064e-07, 'epoch': 0.8} {'loss': 2.1538, 'grad_norm': 1.7096846103668213, 'learning_rate': 5.259977639469394e-07, 'epoch': 0.8} {'loss': 2.3193, 'grad_norm': 1.613111972808838, 'learning_rate': 5.257312358880657e-07, 'epoch': 0.8} {'loss': 2.0413, 'grad_norm': 1.534220814704895, 'learning_rate': 5.254647674378252e-07, 'epoch': 0.8} {'loss': 2.2915, 'grad_norm': 1.4476406574249268, 'learning_rate': 5.251983586042633e-07, 'epoch': 0.8} {'loss': 2.2352, 'grad_norm': 1.9001200199127197, 'learning_rate': 5.249320093954246e-07, 'epoch': 0.8} {'loss': 2.1853, 'grad_norm': 1.8576444387435913, 'learning_rate': 5.246657198193497e-07, 'epoch': 0.8} {'loss': 2.4293, 'grad_norm': 2.3073949813842773, 'learning_rate': 5.243994898840801e-07, 'epoch': 0.8} {'loss': 2.1346, 'grad_norm': 1.6082607507705688, 'learning_rate': 5.241333195976522e-07, 'epoch': 0.8} {'loss': 2.2501, 'grad_norm': 2.0472617149353027, 'learning_rate': 5.238672089681035e-07, 'epoch': 0.8} {'loss': 2.0335, 'grad_norm': 1.8453298807144165, 'learning_rate': 5.236011580034692e-07, 'epoch': 0.8} {'loss': 2.2345, 'grad_norm': 1.6501522064208984, 'learning_rate': 5.233351667117805e-07, 'epoch': 0.8} {'loss': 2.1201, 'grad_norm': 1.4810760021209717, 'learning_rate': 5.230692351010711e-07, 'epoch': 0.8} {'loss': 2.1365, 'grad_norm': 1.3251420259475708, 'learning_rate': 5.228033631793667e-07, 'epoch': 0.8} {'loss': 2.268, 'grad_norm': 2.043693780899048, 'learning_rate': 5.225375509546965e-07, 'epoch': 0.8} {'loss': 2.2184, 'grad_norm': 1.6735005378723145, 'learning_rate': 5.222717984350867e-07, 'epoch': 0.8} {'loss': 2.1634, 'grad_norm': 1.518883228302002, 'learning_rate': 5.220061056285599e-07, 'epoch': 0.8} {'loss': 2.4354, 'grad_norm': 1.4095379114151, 'learning_rate': 5.217404725431393e-07, 'epoch': 0.8} {'loss': 2.2931, 'grad_norm': 1.4771547317504883, 'learning_rate': 5.214748991868437e-07, 'epoch': 0.8} {'loss': 2.4176, 'grad_norm': 1.6517752408981323, 'learning_rate': 5.212093855676931e-07, 'epoch': 0.8} {'loss': 2.2419, 'grad_norm': 1.8843965530395508, 'learning_rate': 5.209439316937024e-07, 'epoch': 0.8} {'loss': 2.3383, 'grad_norm': 1.7233848571777344, 'learning_rate': 5.206785375728876e-07, 'epoch': 0.8} {'loss': 1.9964, 'grad_norm': 1.6036298274993896, 'learning_rate': 5.204132032132617e-07, 'epoch': 0.8} {'loss': 2.3375, 'grad_norm': 1.7593891620635986, 'learning_rate': 5.201479286228348e-07, 'epoch': 0.8} {'loss': 2.1817, 'grad_norm': 1.9625476598739624, 'learning_rate': 5.198827138096175e-07, 'epoch': 0.8} {'loss': 1.1079, 'grad_norm': 1.6023575067520142, 'learning_rate': 5.19617558781616e-07, 'epoch': 0.8} {'loss': 2.3078, 'grad_norm': 1.8084633350372314, 'learning_rate': 5.193524635468369e-07, 'epoch': 0.8} {'loss': 2.3619, 'grad_norm': 1.8631941080093384, 'learning_rate': 5.190874281132852e-07, 'epoch': 0.8} {'loss': 1.9257, 'grad_norm': 1.5564351081848145, 'learning_rate': 5.188224524889609e-07, 'epoch': 0.8} {'loss': 2.1824, 'grad_norm': 1.6989078521728516, 'learning_rate': 5.18557536681867e-07, 'epoch': 0.8} {'loss': 2.1811, 'grad_norm': 1.695957899093628, 'learning_rate': 5.182926806999991e-07, 'epoch': 0.8} {'loss': 2.3084, 'grad_norm': 1.6159111261367798, 'learning_rate': 5.180278845513553e-07, 'epoch': 0.8} {'loss': 2.199, 'grad_norm': 1.580579161643982, 'learning_rate': 5.177631482439311e-07, 'epoch': 0.8} {'loss': 2.3859, 'grad_norm': 1.5749338865280151, 'learning_rate': 5.174984717857184e-07, 'epoch': 0.8} {'loss': 1.9528, 'grad_norm': 1.5383398532867432, 'learning_rate': 5.1723385518471e-07, 'epoch': 0.8} {'loss': 2.2129, 'grad_norm': 1.5463035106658936, 'learning_rate': 5.169692984488939e-07, 'epoch': 0.8} {'loss': 1.9212, 'grad_norm': 1.6346509456634521, 'learning_rate': 5.167048015862592e-07, 'epoch': 0.8} {'loss': 2.1837, 'grad_norm': 1.5446373224258423, 'learning_rate': 5.164403646047902e-07, 'epoch': 0.8} {'loss': 2.0875, 'grad_norm': 1.7505435943603516, 'learning_rate': 5.161759875124728e-07, 'epoch': 0.8} {'loss': 2.1015, 'grad_norm': 1.97915518283844, 'learning_rate': 5.159116703172882e-07, 'epoch': 0.8} {'loss': 2.1796, 'grad_norm': 1.8007795810699463, 'learning_rate': 5.156474130272163e-07, 'epoch': 0.8} {'loss': 2.2945, 'grad_norm': 1.6582258939743042, 'learning_rate': 5.15383215650237e-07, 'epoch': 0.8} {'loss': 2.3097, 'grad_norm': 1.7252334356307983, 'learning_rate': 5.151190781943261e-07, 'epoch': 0.8} {'loss': 2.2198, 'grad_norm': 1.7475168704986572, 'learning_rate': 5.148550006674591e-07, 'epoch': 0.8} {'loss': 2.092, 'grad_norm': 1.5568970441818237, 'learning_rate': 5.145909830776099e-07, 'epoch': 0.8} {'loss': 2.1247, 'grad_norm': 1.388034701347351, 'learning_rate': 5.14327025432749e-07, 'epoch': 0.8} {'loss': 2.2712, 'grad_norm': 1.5803661346435547, 'learning_rate': 5.140631277408467e-07, 'epoch': 0.8} {'loss': 2.266, 'grad_norm': 1.6929219961166382, 'learning_rate': 5.137992900098704e-07, 'epoch': 0.8} {'loss': 2.1604, 'grad_norm': 1.9508979320526123, 'learning_rate': 5.135355122477853e-07, 'epoch': 0.8} {'loss': 2.3212, 'grad_norm': 1.7894598245620728, 'learning_rate': 5.132717944625573e-07, 'epoch': 0.8} {'loss': 2.309, 'grad_norm': 1.4140206575393677, 'learning_rate': 5.13008136662147e-07, 'epoch': 0.8} {'loss': 2.3397, 'grad_norm': 1.8862364292144775, 'learning_rate': 5.127445388545166e-07, 'epoch': 0.8} {'loss': 1.7726, 'grad_norm': 1.455849051475525, 'learning_rate': 5.124810010476233e-07, 'epoch': 0.8} {'loss': 2.0812, 'grad_norm': 1.3000710010528564, 'learning_rate': 5.122175232494256e-07, 'epoch': 0.8} {'loss': 2.2708, 'grad_norm': 1.8019624948501587, 'learning_rate': 5.11954105467877e-07, 'epoch': 0.8} {'loss': 2.2718, 'grad_norm': 2.1910719871520996, 'learning_rate': 5.116907477109317e-07, 'epoch': 0.8} {'loss': 2.3547, 'grad_norm': 1.5910098552703857, 'learning_rate': 5.114274499865427e-07, 'epoch': 0.8} {'loss': 2.2097, 'grad_norm': 1.718342900276184, 'learning_rate': 5.111642123026564e-07, 'epoch': 0.8} {'loss': 2.3204, 'grad_norm': 1.8329616785049438, 'learning_rate': 5.109010346672233e-07, 'epoch': 0.8} {'loss': 2.2329, 'grad_norm': 2.4952409267425537, 'learning_rate': 5.106379170881876e-07, 'epoch': 0.8} {'loss': 2.2044, 'grad_norm': 1.570155382156372, 'learning_rate': 5.103748595734948e-07, 'epoch': 0.8} {'loss': 2.4124, 'grad_norm': 1.6986819505691528, 'learning_rate': 5.101118621310874e-07, 'epoch': 0.8} {'loss': 2.4082, 'grad_norm': 1.8015639781951904, 'learning_rate': 5.098489247689054e-07, 'epoch': 0.8} {'loss': 2.3214, 'grad_norm': 1.8158046007156372, 'learning_rate': 5.09586047494888e-07, 'epoch': 0.8} {'loss': 2.0944, 'grad_norm': 1.9647254943847656, 'learning_rate': 5.093232303169718e-07, 'epoch': 0.8} {'loss': 2.2755, 'grad_norm': 1.7593114376068115, 'learning_rate': 5.090604732430926e-07, 'epoch': 0.8} {'loss': 2.3688, 'grad_norm': 1.9695969820022583, 'learning_rate': 5.087977762811836e-07, 'epoch': 0.8} {'loss': 2.4241, 'grad_norm': 1.8017395734786987, 'learning_rate': 5.085351394391754e-07, 'epoch': 0.8} {'loss': 2.1034, 'grad_norm': 1.80784010887146, 'learning_rate': 5.082725627249993e-07, 'epoch': 0.8} {'loss': 2.1627, 'grad_norm': 1.7220830917358398, 'learning_rate': 5.080100461465814e-07, 'epoch': 0.8} {'loss': 2.3048, 'grad_norm': 1.5992143154144287, 'learning_rate': 5.077475897118497e-07, 'epoch': 0.8} {'loss': 2.2976, 'grad_norm': 1.7549253702163696, 'learning_rate': 5.074851934287267e-07, 'epoch': 0.8} {'loss': 2.4758, 'grad_norm': 1.8084417581558228, 'learning_rate': 5.07222857305136e-07, 'epoch': 0.8} {'loss': 2.2008, 'grad_norm': 1.641632080078125, 'learning_rate': 5.069605813489984e-07, 'epoch': 0.8} {'loss': 2.2485, 'grad_norm': 1.6142220497131348, 'learning_rate': 5.066983655682325e-07, 'epoch': 0.8} {'loss': 2.1493, 'grad_norm': 1.5833901166915894, 'learning_rate': 5.064362099707546e-07, 'epoch': 0.8} {'loss': 2.0444, 'grad_norm': 1.5364969968795776, 'learning_rate': 5.061741145644808e-07, 'epoch': 0.8} {'loss': 2.277, 'grad_norm': 2.0595343112945557, 'learning_rate': 5.059120793573236e-07, 'epoch': 0.8} {'loss': 1.9908, 'grad_norm': 1.7703421115875244, 'learning_rate': 5.056501043571957e-07, 'epoch': 0.8} {'loss': 1.7557, 'grad_norm': 1.3865907192230225, 'learning_rate': 5.053881895720059e-07, 'epoch': 0.8} {'loss': 2.1896, 'grad_norm': 1.737580418586731, 'learning_rate': 5.051263350096627e-07, 'epoch': 0.8} {'loss': 2.2352, 'grad_norm': 1.42707097530365, 'learning_rate': 5.048645406780716e-07, 'epoch': 0.8} {'loss': 2.1713, 'grad_norm': 1.7046018838882446, 'learning_rate': 5.04602806585138e-07, 'epoch': 0.8} {'loss': 2.3336, 'grad_norm': 1.9368852376937866, 'learning_rate': 5.043411327387637e-07, 'epoch': 0.8} {'loss': 2.3925, 'grad_norm': 1.7552094459533691, 'learning_rate': 5.040795191468484e-07, 'epoch': 0.8} {'loss': 2.1982, 'grad_norm': 1.8243553638458252, 'learning_rate': 5.038179658172929e-07, 'epoch': 0.8} {'loss': 2.0073, 'grad_norm': 1.5876035690307617, 'learning_rate': 5.035564727579922e-07, 'epoch': 0.8} {'loss': 2.1806, 'grad_norm': 1.757180094718933, 'learning_rate': 5.032950399768433e-07, 'epoch': 0.8} {'loss': 2.3458, 'grad_norm': 1.6104192733764648, 'learning_rate': 5.03033667481738e-07, 'epoch': 0.8} {'loss': 2.2551, 'grad_norm': 2.35599422454834, 'learning_rate': 5.027723552805688e-07, 'epoch': 0.8} {'loss': 2.1023, 'grad_norm': 2.0023837089538574, 'learning_rate': 5.025111033812258e-07, 'epoch': 0.8} {'loss': 2.0047, 'grad_norm': 1.858278512954712, 'learning_rate': 5.022499117915964e-07, 'epoch': 0.8} {'loss': 2.3226, 'grad_norm': 1.579567313194275, 'learning_rate': 5.019887805195659e-07, 'epoch': 0.8} {'loss': 2.0187, 'grad_norm': 2.2325937747955322, 'learning_rate': 5.017277095730199e-07, 'epoch': 0.8} {'loss': 2.236, 'grad_norm': 1.5868229866027832, 'learning_rate': 5.014666989598399e-07, 'epoch': 0.8} {'loss': 2.4799, 'grad_norm': 1.7369449138641357, 'learning_rate': 5.012057486879077e-07, 'epoch': 0.8} {'loss': 2.3997, 'grad_norm': 1.8586382865905762, 'learning_rate': 5.009448587651005e-07, 'epoch': 0.8} {'loss': 2.404, 'grad_norm': 1.8764852285385132, 'learning_rate': 5.006840291992968e-07, 'epoch': 0.8} {'loss': 2.3439, 'grad_norm': 1.8631231784820557, 'learning_rate': 5.004232599983705e-07, 'epoch': 0.8} {'loss': 2.2251, 'grad_norm': 1.6439473628997803, 'learning_rate': 5.00162551170196e-07, 'epoch': 0.8} {'loss': 2.3152, 'grad_norm': 1.57245671749115, 'learning_rate': 4.999019027226446e-07, 'epoch': 0.8} {'loss': 1.9077, 'grad_norm': 1.4053947925567627, 'learning_rate': 4.996413146635851e-07, 'epoch': 0.8} {'loss': 2.1601, 'grad_norm': 1.7789514064788818, 'learning_rate': 4.993807870008865e-07, 'epoch': 0.8} {'loss': 2.0974, 'grad_norm': 1.4198331832885742, 'learning_rate': 4.991203197424138e-07, 'epoch': 0.8} {'loss': 2.1944, 'grad_norm': 1.7026537656784058, 'learning_rate': 4.988599128960317e-07, 'epoch': 0.8} {'loss': 2.2296, 'grad_norm': 1.6312742233276367, 'learning_rate': 4.985995664696036e-07, 'epoch': 0.8} {'loss': 2.2612, 'grad_norm': 1.8932000398635864, 'learning_rate': 4.983392804709883e-07, 'epoch': 0.8} {'loss': 2.4937, 'grad_norm': 1.6538606882095337, 'learning_rate': 4.980790549080464e-07, 'epoch': 0.8} {'loss': 2.2841, 'grad_norm': 1.5742034912109375, 'learning_rate': 4.978188897886329e-07, 'epoch': 0.8} {'loss': 2.2245, 'grad_norm': 1.6419885158538818, 'learning_rate': 4.975587851206049e-07, 'epoch': 0.8} {'loss': 2.0561, 'grad_norm': 1.7931296825408936, 'learning_rate': 4.972987409118143e-07, 'epoch': 0.8} {'loss': 2.1317, 'grad_norm': 1.8051069974899292, 'learning_rate': 4.970387571701124e-07, 'epoch': 0.8} {'loss': 2.0449, 'grad_norm': 1.6642394065856934, 'learning_rate': 4.9677883390335e-07, 'epoch': 0.8} {'loss': 2.2066, 'grad_norm': 1.7677743434906006, 'learning_rate': 4.965189711193735e-07, 'epoch': 0.8} {'loss': 1.9559, 'grad_norm': 1.498561978340149, 'learning_rate': 4.962591688260305e-07, 'epoch': 0.8} {'loss': 2.1055, 'grad_norm': 1.5874327421188354, 'learning_rate': 4.959994270311632e-07, 'epoch': 0.8} {'loss': 2.2867, 'grad_norm': 1.4096252918243408, 'learning_rate': 4.957397457426155e-07, 'epoch': 0.8} {'loss': 2.0686, 'grad_norm': 1.5464617013931274, 'learning_rate': 4.954801249682279e-07, 'epoch': 0.8} {'loss': 2.3157, 'grad_norm': 1.7195744514465332, 'learning_rate': 4.952205647158384e-07, 'epoch': 0.8} {'loss': 1.998, 'grad_norm': 2.0705270767211914, 'learning_rate': 4.94961064993284e-07, 'epoch': 0.8} {'loss': 2.2329, 'grad_norm': 1.3846644163131714, 'learning_rate': 4.947016258083992e-07, 'epoch': 0.8} {'loss': 2.2543, 'grad_norm': 1.3598747253417969, 'learning_rate': 4.944422471690174e-07, 'epoch': 0.8} {'loss': 2.2712, 'grad_norm': 1.7637211084365845, 'learning_rate': 4.941829290829711e-07, 'epoch': 0.8} {'loss': 2.1385, 'grad_norm': 1.3421146869659424, 'learning_rate': 4.939236715580884e-07, 'epoch': 0.8} {'loss': 2.4533, 'grad_norm': 1.797071099281311, 'learning_rate': 4.936644746021982e-07, 'epoch': 0.8} {'loss': 2.4041, 'grad_norm': 1.7873989343643188, 'learning_rate': 4.934053382231252e-07, 'epoch': 0.8} {'loss': 2.1486, 'grad_norm': 1.498948335647583, 'learning_rate': 4.931462624286945e-07, 'epoch': 0.8} {'loss': 2.2586, 'grad_norm': 1.7784950733184814, 'learning_rate': 4.928872472267279e-07, 'epoch': 0.8} {'loss': 2.3339, 'grad_norm': 1.5656163692474365, 'learning_rate': 4.926282926250451e-07, 'epoch': 0.8} {'loss': 2.3967, 'grad_norm': 1.5875356197357178, 'learning_rate': 4.923693986314659e-07, 'epoch': 0.8} {'loss': 2.2915, 'grad_norm': 1.6639631986618042, 'learning_rate': 4.921105652538058e-07, 'epoch': 0.8} {'loss': 2.0671, 'grad_norm': 1.7141778469085693, 'learning_rate': 4.918517924998806e-07, 'epoch': 0.8} {'loss': 2.1037, 'grad_norm': 1.8124058246612549, 'learning_rate': 4.915930803775027e-07, 'epoch': 0.8} {'loss': 2.1441, 'grad_norm': 1.6350938081741333, 'learning_rate': 4.913344288944835e-07, 'epoch': 0.8} {'loss': 2.1985, 'grad_norm': 1.9111683368682861, 'learning_rate': 4.910758380586334e-07, 'epoch': 0.8} {'loss': 2.2825, 'grad_norm': 1.3751710653305054, 'learning_rate': 4.908173078777592e-07, 'epoch': 0.8} {'loss': 2.2313, 'grad_norm': 1.7153187990188599, 'learning_rate': 4.905588383596666e-07, 'epoch': 0.8} {'loss': 2.048, 'grad_norm': 1.321446418762207, 'learning_rate': 4.903004295121585e-07, 'epoch': 0.8} {'loss': 2.2974, 'grad_norm': 2.019378662109375, 'learning_rate': 4.900420813430384e-07, 'epoch': 0.8} {'loss': 2.228, 'grad_norm': 1.559718132019043, 'learning_rate': 4.897837938601066e-07, 'epoch': 0.8} {'loss': 2.2067, 'grad_norm': 1.505359411239624, 'learning_rate': 4.895255670711604e-07, 'epoch': 0.8} {'loss': 2.174, 'grad_norm': 1.7637913227081299, 'learning_rate': 4.892674009839976e-07, 'epoch': 0.8} {'loss': 2.2799, 'grad_norm': 1.691713571548462, 'learning_rate': 4.890092956064119e-07, 'epoch': 0.8} {'loss': 2.2993, 'grad_norm': 1.510671615600586, 'learning_rate': 4.887512509461973e-07, 'epoch': 0.8} {'loss': 2.3923, 'grad_norm': 1.6549075841903687, 'learning_rate': 4.884932670111442e-07, 'epoch': 0.8} {'loss': 2.0121, 'grad_norm': 1.7124249935150146, 'learning_rate': 4.882353438090412e-07, 'epoch': 0.8} {'loss': 2.3642, 'grad_norm': 1.7747974395751953, 'learning_rate': 4.879774813476774e-07, 'epoch': 0.8} {'loss': 2.1527, 'grad_norm': 1.6972267627716064, 'learning_rate': 4.877196796348366e-07, 'epoch': 0.8} {'loss': 2.3885, 'grad_norm': 1.7877671718597412, 'learning_rate': 4.874619386783039e-07, 'epoch': 0.8} {'loss': 2.1794, 'grad_norm': 1.6999037265777588, 'learning_rate': 4.8720425848586e-07, 'epoch': 0.8} {'loss': 2.1728, 'grad_norm': 1.568226933479309, 'learning_rate': 4.869466390652857e-07, 'epoch': 0.8} {'loss': 2.2784, 'grad_norm': 2.4685170650482178, 'learning_rate': 4.866890804243598e-07, 'epoch': 0.8} {'loss': 2.3499, 'grad_norm': 2.897423267364502, 'learning_rate': 4.864315825708577e-07, 'epoch': 0.8} {'loss': 2.051, 'grad_norm': 1.8284897804260254, 'learning_rate': 4.861741455125554e-07, 'epoch': 0.8} {'loss': 2.1861, 'grad_norm': 1.6291015148162842, 'learning_rate': 4.859167692572234e-07, 'epoch': 0.8} {'loss': 2.5011, 'grad_norm': 1.5882890224456787, 'learning_rate': 4.856594538126338e-07, 'epoch': 0.8} {'loss': 1.9209, 'grad_norm': 1.3213216066360474, 'learning_rate': 4.854021991865565e-07, 'epoch': 0.8} {'loss': 2.2176, 'grad_norm': 1.541603446006775, 'learning_rate': 4.851450053867571e-07, 'epoch': 0.81} {'loss': 2.3003, 'grad_norm': 1.6572831869125366, 'learning_rate': 4.848878724210024e-07, 'epoch': 0.81} {'loss': 2.0384, 'grad_norm': 1.7097992897033691, 'learning_rate': 4.846308002970549e-07, 'epoch': 0.81} {'loss': 2.0956, 'grad_norm': 1.5633283853530884, 'learning_rate': 4.843737890226772e-07, 'epoch': 0.81} {'loss': 2.2085, 'grad_norm': 1.5585070848464966, 'learning_rate': 4.841168386056281e-07, 'epoch': 0.81} {'loss': 2.1319, 'grad_norm': 1.5549161434173584, 'learning_rate': 4.838599490536672e-07, 'epoch': 0.81} {'loss': 2.5265, 'grad_norm': 1.6597079038619995, 'learning_rate': 4.836031203745495e-07, 'epoch': 0.81} {'loss': 2.3349, 'grad_norm': 1.6897521018981934, 'learning_rate': 4.83346352576029e-07, 'epoch': 0.81} {'loss': 1.8699, 'grad_norm': 1.3225690126419067, 'learning_rate': 4.830896456658599e-07, 'epoch': 0.81} {'loss': 2.1091, 'grad_norm': 1.7768816947937012, 'learning_rate': 4.828329996517911e-07, 'epoch': 0.81} {'loss': 2.5116, 'grad_norm': 1.8184267282485962, 'learning_rate': 4.82576414541572e-07, 'epoch': 0.81} {'loss': 2.2498, 'grad_norm': 1.3834171295166016, 'learning_rate': 4.823198903429507e-07, 'epoch': 0.81} {'loss': 2.1944, 'grad_norm': 1.7432265281677246, 'learning_rate': 4.820634270636709e-07, 'epoch': 0.81} {'loss': 2.2683, 'grad_norm': 1.8792568445205688, 'learning_rate': 4.818070247114772e-07, 'epoch': 0.81} {'loss': 2.3263, 'grad_norm': 1.7719299793243408, 'learning_rate': 4.815506832941105e-07, 'epoch': 0.81} {'loss': 2.3511, 'grad_norm': 1.4698748588562012, 'learning_rate': 4.812944028193097e-07, 'epoch': 0.81} {'loss': 2.3723, 'grad_norm': 2.123685598373413, 'learning_rate': 4.810381832948141e-07, 'epoch': 0.81} {'loss': 2.1725, 'grad_norm': 6.807747840881348, 'learning_rate': 4.807820247283582e-07, 'epoch': 0.81} {'loss': 2.2466, 'grad_norm': 1.5538315773010254, 'learning_rate': 4.805259271276774e-07, 'epoch': 0.81} {'loss': 2.4332, 'grad_norm': 1.6215882301330566, 'learning_rate': 4.802698905005029e-07, 'epoch': 0.81} {'loss': 2.0152, 'grad_norm': 1.8275351524353027, 'learning_rate': 4.800139148545663e-07, 'epoch': 0.81} {'loss': 2.3886, 'grad_norm': 1.4248909950256348, 'learning_rate': 4.797580001975948e-07, 'epoch': 0.81} {'loss': 2.3166, 'grad_norm': 2.469116687774658, 'learning_rate': 4.795021465373162e-07, 'epoch': 0.81} {'loss': 1.8672, 'grad_norm': 1.9512245655059814, 'learning_rate': 4.792463538814565e-07, 'epoch': 0.81} {'loss': 1.4754, 'grad_norm': 2.098968744277954, 'learning_rate': 4.789906222377364e-07, 'epoch': 0.81} {'loss': 2.2269, 'grad_norm': 1.4114866256713867, 'learning_rate': 4.787349516138784e-07, 'epoch': 0.81} {'loss': 2.3034, 'grad_norm': 2.336256504058838, 'learning_rate': 4.784793420176015e-07, 'epoch': 0.81} {'loss': 2.5419, 'grad_norm': 1.5055664777755737, 'learning_rate': 4.782237934566233e-07, 'epoch': 0.81} {'loss': 2.4167, 'grad_norm': 1.829914927482605, 'learning_rate': 4.779683059386606e-07, 'epoch': 0.81} {'loss': 2.4291, 'grad_norm': 1.6412358283996582, 'learning_rate': 4.777128794714256e-07, 'epoch': 0.81} {'loss': 2.3587, 'grad_norm': 1.612231731414795, 'learning_rate': 4.774575140626317e-07, 'epoch': 0.81} {'loss': 2.5175, 'grad_norm': 1.6314648389816284, 'learning_rate': 4.772022097199885e-07, 'epoch': 0.81} {'loss': 1.4805, 'grad_norm': 1.362583041191101, 'learning_rate': 4.769469664512039e-07, 'epoch': 0.81} {'loss': 2.2221, 'grad_norm': 1.516372799873352, 'learning_rate': 4.7669178426398536e-07, 'epoch': 0.81} {'loss': 2.0558, 'grad_norm': 1.70587956905365, 'learning_rate': 4.7643666316603637e-07, 'epoch': 0.81} {'loss': 2.3228, 'grad_norm': 1.8786293268203735, 'learning_rate': 4.761816031650612e-07, 'epoch': 0.81} {'loss': 2.2575, 'grad_norm': 1.7339946031570435, 'learning_rate': 4.759266042687594e-07, 'epoch': 0.81} {'loss': 2.4376, 'grad_norm': 1.7232733964920044, 'learning_rate': 4.7567166648483126e-07, 'epoch': 0.81} {'loss': 2.1416, 'grad_norm': 1.5108624696731567, 'learning_rate': 4.754167898209727e-07, 'epoch': 0.81} {'loss': 2.2725, 'grad_norm': 1.4104701280593872, 'learning_rate': 4.7516197428488036e-07, 'epoch': 0.81} {'loss': 2.3923, 'grad_norm': 1.6470743417739868, 'learning_rate': 4.749072198842483e-07, 'epoch': 0.81} {'loss': 2.2795, 'grad_norm': 1.4503320455551147, 'learning_rate': 4.746525266267665e-07, 'epoch': 0.81} {'loss': 2.129, 'grad_norm': 1.5303339958190918, 'learning_rate': 4.743978945201255e-07, 'epoch': 0.81} {'loss': 2.1645, 'grad_norm': 1.5082423686981201, 'learning_rate': 4.7414332357201444e-07, 'epoch': 0.81} {'loss': 2.0023, 'grad_norm': 1.7051339149475098, 'learning_rate': 4.738888137901176e-07, 'epoch': 0.81} {'loss': 2.266, 'grad_norm': 1.7923799753189087, 'learning_rate': 4.736343651821215e-07, 'epoch': 0.81} {'loss': 2.2353, 'grad_norm': 1.7326195240020752, 'learning_rate': 4.7337997775570685e-07, 'epoch': 0.81} {'loss': 2.516, 'grad_norm': 1.8194836378097534, 'learning_rate': 4.731256515185556e-07, 'epoch': 0.81} {'loss': 2.3674, 'grad_norm': 1.9300405979156494, 'learning_rate': 4.728713864783452e-07, 'epoch': 0.81} {'loss': 2.2553, 'grad_norm': 1.753618597984314, 'learning_rate': 4.7261718264275417e-07, 'epoch': 0.81} {'loss': 2.2456, 'grad_norm': 1.6162142753601074, 'learning_rate': 4.7236304001945676e-07, 'epoch': 0.81} {'loss': 2.2842, 'grad_norm': 1.551190733909607, 'learning_rate': 4.7210895861612567e-07, 'epoch': 0.81} {'loss': 2.1237, 'grad_norm': 1.5690115690231323, 'learning_rate': 4.718549384404339e-07, 'epoch': 0.81} {'loss': 2.1131, 'grad_norm': 1.7633936405181885, 'learning_rate': 4.7160097950004925e-07, 'epoch': 0.81} {'loss': 2.0596, 'grad_norm': 1.3581430912017822, 'learning_rate': 4.7134708180264026e-07, 'epoch': 0.81} {'loss': 2.3866, 'grad_norm': 1.6031877994537354, 'learning_rate': 4.7109324535587336e-07, 'epoch': 0.81} {'loss': 2.0844, 'grad_norm': 2.0043277740478516, 'learning_rate': 4.7083947016741154e-07, 'epoch': 0.81} {'loss': 2.1009, 'grad_norm': 1.7785120010375977, 'learning_rate': 4.705857562449184e-07, 'epoch': 0.81} {'loss': 2.1221, 'grad_norm': 1.3958032131195068, 'learning_rate': 4.703321035960531e-07, 'epoch': 0.81} {'loss': 2.1467, 'grad_norm': 1.5875083208084106, 'learning_rate': 4.7007851222847373e-07, 'epoch': 0.81} {'loss': 2.2778, 'grad_norm': 2.338109016418457, 'learning_rate': 4.69824982149838e-07, 'epoch': 0.81} {'loss': 2.2073, 'grad_norm': 1.8083401918411255, 'learning_rate': 4.695715133678e-07, 'epoch': 0.81} {'loss': 2.3754, 'grad_norm': 1.5875093936920166, 'learning_rate': 4.693181058900131e-07, 'epoch': 0.81} {'loss': 2.4398, 'grad_norm': 1.667594313621521, 'learning_rate': 4.6906475972412767e-07, 'epoch': 0.81} {'loss': 2.2482, 'grad_norm': 1.7115846872329712, 'learning_rate': 4.6881147487779414e-07, 'epoch': 0.81} {'loss': 2.1731, 'grad_norm': 1.8049664497375488, 'learning_rate': 4.685582513586587e-07, 'epoch': 0.81} {'loss': 2.369, 'grad_norm': 1.6557495594024658, 'learning_rate': 4.683050891743676e-07, 'epoch': 0.81} {'loss': 2.3693, 'grad_norm': 1.6958271265029907, 'learning_rate': 4.680519883325646e-07, 'epoch': 0.81} {'loss': 2.4422, 'grad_norm': 1.457779049873352, 'learning_rate': 4.6779894884089015e-07, 'epoch': 0.81} {'loss': 2.2518, 'grad_norm': 1.6474097967147827, 'learning_rate': 4.6754597070698597e-07, 'epoch': 0.81} {'loss': 2.0962, 'grad_norm': 1.9113025665283203, 'learning_rate': 4.67293053938489e-07, 'epoch': 0.81} {'loss': 2.1682, 'grad_norm': 1.6115787029266357, 'learning_rate': 4.6704019854303564e-07, 'epoch': 0.81} {'loss': 1.8545, 'grad_norm': 1.475435495376587, 'learning_rate': 4.667874045282614e-07, 'epoch': 0.81} {'loss': 2.3382, 'grad_norm': 1.8022534847259521, 'learning_rate': 4.665346719017971e-07, 'epoch': 0.81} {'loss': 2.2292, 'grad_norm': 1.6330639123916626, 'learning_rate': 4.662820006712751e-07, 'epoch': 0.81} {'loss': 2.3699, 'grad_norm': 1.288578748703003, 'learning_rate': 4.660293908443231e-07, 'epoch': 0.81} {'loss': 2.2197, 'grad_norm': 1.5945422649383545, 'learning_rate': 4.657768424285689e-07, 'epoch': 0.81} {'loss': 1.6657, 'grad_norm': 1.3190932273864746, 'learning_rate': 4.655243554316369e-07, 'epoch': 0.81} {'loss': 2.1977, 'grad_norm': 1.4838870763778687, 'learning_rate': 4.652719298611505e-07, 'epoch': 0.81} {'loss': 2.1714, 'grad_norm': 2.0820672512054443, 'learning_rate': 4.650195657247317e-07, 'epoch': 0.81} {'loss': 1.9105, 'grad_norm': 7.86669921875, 'learning_rate': 4.64767263029999e-07, 'epoch': 0.81} {'loss': 2.1267, 'grad_norm': 1.5858815908432007, 'learning_rate': 4.645150217845715e-07, 'epoch': 0.81} {'loss': 2.1265, 'grad_norm': 1.7734413146972656, 'learning_rate': 4.642628419960638e-07, 'epoch': 0.81} {'loss': 1.6823, 'grad_norm': 1.3345173597335815, 'learning_rate': 4.640107236720903e-07, 'epoch': 0.81} {'loss': 1.9501, 'grad_norm': 2.6060121059417725, 'learning_rate': 4.6375866682026453e-07, 'epoch': 0.81} {'loss': 2.3313, 'grad_norm': 1.672384262084961, 'learning_rate': 4.635066714481945e-07, 'epoch': 0.81} {'loss': 2.2339, 'grad_norm': 1.667832612991333, 'learning_rate': 4.632547375634902e-07, 'epoch': 0.81} {'loss': 2.1432, 'grad_norm': 1.5937528610229492, 'learning_rate': 4.6300286517375697e-07, 'epoch': 0.81} {'loss': 2.2894, 'grad_norm': 1.6624668836593628, 'learning_rate': 4.627510542866007e-07, 'epoch': 0.81} {'loss': 2.0341, 'grad_norm': 1.467214822769165, 'learning_rate': 4.6249930490962406e-07, 'epoch': 0.81} {'loss': 2.2558, 'grad_norm': 1.7264888286590576, 'learning_rate': 4.6224761705042724e-07, 'epoch': 0.81} {'loss': 2.547, 'grad_norm': 1.8265793323516846, 'learning_rate': 4.619959907166108e-07, 'epoch': 0.81} {'loss': 2.3058, 'grad_norm': 1.4178019762039185, 'learning_rate': 4.6174442591577053e-07, 'epoch': 0.81} {'loss': 2.3183, 'grad_norm': 1.9446766376495361, 'learning_rate': 4.614929226555032e-07, 'epoch': 0.81} {'loss': 2.2918, 'grad_norm': 1.7131534814834595, 'learning_rate': 4.6124148094340183e-07, 'epoch': 0.81} {'loss': 2.2087, 'grad_norm': 1.718139410018921, 'learning_rate': 4.6099010078705734e-07, 'epoch': 0.81} {'loss': 2.0011, 'grad_norm': 1.3059601783752441, 'learning_rate': 4.607387821940609e-07, 'epoch': 0.81} {'loss': 2.3843, 'grad_norm': 1.7584326267242432, 'learning_rate': 4.604875251719995e-07, 'epoch': 0.81} {'loss': 2.299, 'grad_norm': 1.6318542957305908, 'learning_rate': 4.602363297284601e-07, 'epoch': 0.81} {'loss': 2.4916, 'grad_norm': 1.5514721870422363, 'learning_rate': 4.599851958710261e-07, 'epoch': 0.81} {'loss': 2.477, 'grad_norm': 1.9379440546035767, 'learning_rate': 4.5973412360728025e-07, 'epoch': 0.81} {'loss': 2.4122, 'grad_norm': 1.6962205171585083, 'learning_rate': 4.594831129448041e-07, 'epoch': 0.81} {'loss': 2.151, 'grad_norm': 1.5945184230804443, 'learning_rate': 4.592321638911756e-07, 'epoch': 0.81} {'loss': 2.0057, 'grad_norm': 2.0672852993011475, 'learning_rate': 4.589812764539714e-07, 'epoch': 0.81} {'loss': 2.0565, 'grad_norm': 1.4706498384475708, 'learning_rate': 4.587304506407661e-07, 'epoch': 0.81} {'loss': 2.2507, 'grad_norm': 1.976555347442627, 'learning_rate': 4.5847968645913314e-07, 'epoch': 0.81} {'loss': 2.2666, 'grad_norm': 1.595117211341858, 'learning_rate': 4.582289839166448e-07, 'epoch': 0.81} {'loss': 2.4309, 'grad_norm': 1.59286367893219, 'learning_rate': 4.57978343020869e-07, 'epoch': 0.81} {'loss': 2.431, 'grad_norm': 1.4669959545135498, 'learning_rate': 4.577277637793745e-07, 'epoch': 0.81} {'loss': 2.2273, 'grad_norm': 1.4392904043197632, 'learning_rate': 4.5747724619972593e-07, 'epoch': 0.81} {'loss': 2.0495, 'grad_norm': 1.7699841260910034, 'learning_rate': 4.5722679028948836e-07, 'epoch': 0.81} {'loss': 2.3391, 'grad_norm': 2.035503625869751, 'learning_rate': 4.569763960562229e-07, 'epoch': 0.81} {'loss': 2.264, 'grad_norm': 1.7805712223052979, 'learning_rate': 4.567260635074891e-07, 'epoch': 0.81} {'loss': 2.1692, 'grad_norm': 1.6854642629623413, 'learning_rate': 4.5647579265084646e-07, 'epoch': 0.81} {'loss': 2.3295, 'grad_norm': 1.6445740461349487, 'learning_rate': 4.5622558349385003e-07, 'epoch': 0.81} {'loss': 2.2729, 'grad_norm': 1.7738295793533325, 'learning_rate': 4.5597543604405577e-07, 'epoch': 0.81} {'loss': 2.2766, 'grad_norm': 1.5126639604568481, 'learning_rate': 4.5572535030901476e-07, 'epoch': 0.81} {'loss': 2.5494, 'grad_norm': 1.656119704246521, 'learning_rate': 4.554753262962788e-07, 'epoch': 0.81} {'loss': 1.846, 'grad_norm': 1.328249454498291, 'learning_rate': 4.552253640133972e-07, 'epoch': 0.81} {'loss': 2.2332, 'grad_norm': 1.6200478076934814, 'learning_rate': 4.5497546346791574e-07, 'epoch': 0.81} {'loss': 2.2439, 'grad_norm': 1.598470687866211, 'learning_rate': 4.5472562466738145e-07, 'epoch': 0.81} {'loss': 2.071, 'grad_norm': 1.3489058017730713, 'learning_rate': 4.5447584761933535e-07, 'epoch': 0.81} {'loss': 2.2631, 'grad_norm': 1.6358824968338013, 'learning_rate': 4.542261323313199e-07, 'epoch': 0.81} {'loss': 1.8799, 'grad_norm': 1.4714491367340088, 'learning_rate': 4.539764788108755e-07, 'epoch': 0.81} {'loss': 2.2056, 'grad_norm': 1.420557975769043, 'learning_rate': 4.537268870655387e-07, 'epoch': 0.81} {'loss': 2.2328, 'grad_norm': 1.5966541767120361, 'learning_rate': 4.534773571028464e-07, 'epoch': 0.81} {'loss': 2.1384, 'grad_norm': 1.6122019290924072, 'learning_rate': 4.5322788893033155e-07, 'epoch': 0.81} {'loss': 2.4325, 'grad_norm': 1.5707589387893677, 'learning_rate': 4.529784825555272e-07, 'epoch': 0.81} {'loss': 2.356, 'grad_norm': 1.8555724620819092, 'learning_rate': 4.5272913798596355e-07, 'epoch': 0.81} {'loss': 2.3084, 'grad_norm': 1.80221688747406, 'learning_rate': 4.524798552291679e-07, 'epoch': 0.81} {'loss': 1.4267, 'grad_norm': 2.0697848796844482, 'learning_rate': 4.52230634292668e-07, 'epoch': 0.81} {'loss': 2.2243, 'grad_norm': 1.8214054107666016, 'learning_rate': 4.519814751839877e-07, 'epoch': 0.81} {'loss': 2.3069, 'grad_norm': 1.6126010417938232, 'learning_rate': 4.5173237791065055e-07, 'epoch': 0.81} {'loss': 2.2513, 'grad_norm': 1.84165620803833, 'learning_rate': 4.514833424801768e-07, 'epoch': 0.81} {'loss': 2.3593, 'grad_norm': 1.701086401939392, 'learning_rate': 4.512343689000856e-07, 'epoch': 0.81} {'loss': 2.329, 'grad_norm': 1.5962930917739868, 'learning_rate': 4.5098545717789516e-07, 'epoch': 0.81} {'loss': 2.4136, 'grad_norm': 1.8652249574661255, 'learning_rate': 4.5073660732111945e-07, 'epoch': 0.81} {'loss': 2.3659, 'grad_norm': 1.5600084066390991, 'learning_rate': 4.5048781933727304e-07, 'epoch': 0.81} {'loss': 2.2095, 'grad_norm': 1.7741364240646362, 'learning_rate': 4.502390932338671e-07, 'epoch': 0.81} {'loss': 2.1307, 'grad_norm': 1.3645824193954468, 'learning_rate': 4.499904290184104e-07, 'epoch': 0.81} {'loss': 2.2799, 'grad_norm': 1.7361235618591309, 'learning_rate': 4.497418266984127e-07, 'epoch': 0.81} {'loss': 2.1634, 'grad_norm': 1.4755505323410034, 'learning_rate': 4.4949328628137804e-07, 'epoch': 0.81} {'loss': 2.2098, 'grad_norm': 1.7283196449279785, 'learning_rate': 4.492448077748121e-07, 'epoch': 0.81} {'loss': 2.2571, 'grad_norm': 1.6011371612548828, 'learning_rate': 4.4899639118621606e-07, 'epoch': 0.81} {'loss': 2.5426, 'grad_norm': 1.7691740989685059, 'learning_rate': 4.487480365230912e-07, 'epoch': 0.81} {'loss': 2.3202, 'grad_norm': 1.6335160732269287, 'learning_rate': 4.4849974379293506e-07, 'epoch': 0.81} {'loss': 1.9984, 'grad_norm': 2.2425694465637207, 'learning_rate': 4.482515130032453e-07, 'epoch': 0.81} {'loss': 2.1908, 'grad_norm': 1.7531511783599854, 'learning_rate': 4.480033441615164e-07, 'epoch': 0.81} {'loss': 1.9313, 'grad_norm': 1.5662838220596313, 'learning_rate': 4.477552372752403e-07, 'epoch': 0.81} {'loss': 2.2818, 'grad_norm': 1.6813263893127441, 'learning_rate': 4.4750719235190867e-07, 'epoch': 0.81} {'loss': 2.26, 'grad_norm': 1.7396754026412964, 'learning_rate': 4.4725920939901164e-07, 'epoch': 0.81} {'loss': 2.1864, 'grad_norm': 1.8272596597671509, 'learning_rate': 4.470112884240349e-07, 'epoch': 0.81} {'loss': 2.2094, 'grad_norm': 1.4557712078094482, 'learning_rate': 4.467634294344653e-07, 'epoch': 0.81} {'loss': 2.0018, 'grad_norm': 1.3600422143936157, 'learning_rate': 4.4651563243778505e-07, 'epoch': 0.81} {'loss': 2.4057, 'grad_norm': 1.632667064666748, 'learning_rate': 4.462678974414772e-07, 'epoch': 0.81} {'loss': 2.296, 'grad_norm': 1.4752341508865356, 'learning_rate': 4.4602022445302095e-07, 'epoch': 0.81} {'loss': 2.3795, 'grad_norm': 1.57754647731781, 'learning_rate': 4.4577261347989314e-07, 'epoch': 0.81} {'loss': 2.161, 'grad_norm': 1.6555254459381104, 'learning_rate': 4.4552506452957165e-07, 'epoch': 0.81} {'loss': 2.4626, 'grad_norm': 1.6860220432281494, 'learning_rate': 4.4527757760952943e-07, 'epoch': 0.81} {'loss': 1.9312, 'grad_norm': 1.783089280128479, 'learning_rate': 4.450301527272394e-07, 'epoch': 0.81} {'loss': 2.2696, 'grad_norm': 1.4943042993545532, 'learning_rate': 4.447827898901716e-07, 'epoch': 0.81} {'loss': 2.3401, 'grad_norm': 2.2629480361938477, 'learning_rate': 4.4453548910579513e-07, 'epoch': 0.81} {'loss': 2.4903, 'grad_norm': 1.485366702079773, 'learning_rate': 4.442882503815757e-07, 'epoch': 0.81} {'loss': 2.1567, 'grad_norm': 1.6268316507339478, 'learning_rate': 4.4404107372497897e-07, 'epoch': 0.81} {'loss': 2.1224, 'grad_norm': 1.6721558570861816, 'learning_rate': 4.4379395914346895e-07, 'epoch': 0.81} {'loss': 2.0126, 'grad_norm': 1.3117668628692627, 'learning_rate': 4.4354690664450416e-07, 'epoch': 0.81} {'loss': 2.2333, 'grad_norm': 1.9447720050811768, 'learning_rate': 4.43299916235545e-07, 'epoch': 0.81} {'loss': 2.4179, 'grad_norm': 1.5127168893814087, 'learning_rate': 4.4305298792404944e-07, 'epoch': 0.81} {'loss': 2.1528, 'grad_norm': 1.6363437175750732, 'learning_rate': 4.42806121717472e-07, 'epoch': 0.81} {'loss': 2.4122, 'grad_norm': 1.904185175895691, 'learning_rate': 4.425593176232673e-07, 'epoch': 0.81} {'loss': 2.3174, 'grad_norm': 2.156980037689209, 'learning_rate': 4.4231257564888554e-07, 'epoch': 0.81} {'loss': 2.5531, 'grad_norm': 1.7034960985183716, 'learning_rate': 4.4206589580177817e-07, 'epoch': 0.81} {'loss': 2.4464, 'grad_norm': 1.559075117111206, 'learning_rate': 4.418192780893915e-07, 'epoch': 0.81} {'loss': 2.3834, 'grad_norm': 1.5151439905166626, 'learning_rate': 4.415727225191732e-07, 'epoch': 0.81} {'loss': 2.2134, 'grad_norm': 1.6481263637542725, 'learning_rate': 4.4132622909856676e-07, 'epoch': 0.81} {'loss': 2.4102, 'grad_norm': 2.547528028488159, 'learning_rate': 4.4107979783501395e-07, 'epoch': 0.81} {'loss': 2.2302, 'grad_norm': 1.6745985746383667, 'learning_rate': 4.408334287359561e-07, 'epoch': 0.81} {'loss': 2.0525, 'grad_norm': 1.464213490486145, 'learning_rate': 4.405871218088309e-07, 'epoch': 0.81} {'loss': 2.2629, 'grad_norm': 1.7300814390182495, 'learning_rate': 4.4034087706107535e-07, 'epoch': 0.81} {'loss': 2.2612, 'grad_norm': 1.6369845867156982, 'learning_rate': 4.4009469450012526e-07, 'epoch': 0.81} {'loss': 1.9643, 'grad_norm': 1.2988183498382568, 'learning_rate': 4.3984857413341184e-07, 'epoch': 0.81} {'loss': 2.2894, 'grad_norm': 1.8519206047058105, 'learning_rate': 4.396025159683687e-07, 'epoch': 0.81} {'loss': 2.0569, 'grad_norm': 1.6615431308746338, 'learning_rate': 4.393565200124217e-07, 'epoch': 0.81} {'loss': 2.022, 'grad_norm': 1.3250477313995361, 'learning_rate': 4.3911058627299996e-07, 'epoch': 0.81} {'loss': 2.219, 'grad_norm': 1.4413673877716064, 'learning_rate': 4.388647147575295e-07, 'epoch': 0.81} {'loss': 2.3837, 'grad_norm': 1.8209120035171509, 'learning_rate': 4.3861890547343217e-07, 'epoch': 0.81} {'loss': 2.026, 'grad_norm': 1.7077773809432983, 'learning_rate': 4.383731584281314e-07, 'epoch': 0.82} {'loss': 2.4109, 'grad_norm': 1.6484522819519043, 'learning_rate': 4.3812747362904527e-07, 'epoch': 0.82} {'loss': 2.1627, 'grad_norm': 1.7477129697799683, 'learning_rate': 4.378818510835936e-07, 'epoch': 0.82} {'loss': 2.1891, 'grad_norm': 1.781467080116272, 'learning_rate': 4.3763629079919044e-07, 'epoch': 0.82} {'loss': 2.2045, 'grad_norm': 1.5549697875976562, 'learning_rate': 4.373907927832513e-07, 'epoch': 0.82} {'loss': 2.0496, 'grad_norm': 2.8512113094329834, 'learning_rate': 4.3714535704318826e-07, 'epoch': 0.82} {'loss': 2.2914, 'grad_norm': 1.5454612970352173, 'learning_rate': 4.3689998358641075e-07, 'epoch': 0.82} {'loss': 2.7611, 'grad_norm': 1.8286339044570923, 'learning_rate': 4.3665467242032855e-07, 'epoch': 0.82} {'loss': 2.2567, 'grad_norm': 1.6918761730194092, 'learning_rate': 4.364094235523472e-07, 'epoch': 0.82} {'loss': 2.1259, 'grad_norm': 1.469030499458313, 'learning_rate': 4.3616423698987163e-07, 'epoch': 0.82} {'loss': 2.3475, 'grad_norm': 1.5639586448669434, 'learning_rate': 4.359191127403059e-07, 'epoch': 0.82} {'loss': 2.2849, 'grad_norm': 1.6867008209228516, 'learning_rate': 4.3567405081104936e-07, 'epoch': 0.82} {'loss': 2.012, 'grad_norm': 1.5348739624023438, 'learning_rate': 4.3542905120950246e-07, 'epoch': 0.82} {'loss': 2.0864, 'grad_norm': 1.570894479751587, 'learning_rate': 4.351841139430621e-07, 'epoch': 0.82} {'loss': 2.4173, 'grad_norm': 1.8563152551651, 'learning_rate': 4.3493923901912235e-07, 'epoch': 0.82} {'loss': 2.1479, 'grad_norm': 2.6611294746398926, 'learning_rate': 4.346944264450784e-07, 'epoch': 0.82} {'loss': 2.248, 'grad_norm': 1.7059077024459839, 'learning_rate': 4.3444967622832013e-07, 'epoch': 0.82} {'loss': 1.7446, 'grad_norm': 1.111558437347412, 'learning_rate': 4.342049883762389e-07, 'epoch': 0.82} {'loss': 2.3482, 'grad_norm': 2.0210933685302734, 'learning_rate': 4.3396036289622136e-07, 'epoch': 0.82} {'loss': 2.1514, 'grad_norm': 1.6351985931396484, 'learning_rate': 4.3371579979565426e-07, 'epoch': 0.82} {'loss': 2.2902, 'grad_norm': 1.5918290615081787, 'learning_rate': 4.3347129908192066e-07, 'epoch': 0.82} {'loss': 2.3779, 'grad_norm': 1.841646671295166, 'learning_rate': 4.3322686076240293e-07, 'epoch': 0.82} {'loss': 2.3622, 'grad_norm': 1.626419186592102, 'learning_rate': 4.329824848444833e-07, 'epoch': 0.82} {'loss': 2.3075, 'grad_norm': 1.8813751935958862, 'learning_rate': 4.327381713355372e-07, 'epoch': 0.82} {'loss': 2.0589, 'grad_norm': 1.6458100080490112, 'learning_rate': 4.324939202429429e-07, 'epoch': 0.82} {'loss': 1.9419, 'grad_norm': 1.3865761756896973, 'learning_rate': 4.32249731574074e-07, 'epoch': 0.82} {'loss': 2.0371, 'grad_norm': 1.7732168436050415, 'learning_rate': 4.3200560533630364e-07, 'epoch': 0.82} {'loss': 1.94, 'grad_norm': 1.4577689170837402, 'learning_rate': 4.3176154153700356e-07, 'epoch': 0.82} {'loss': 2.424, 'grad_norm': 1.8513892889022827, 'learning_rate': 4.315175401835414e-07, 'epoch': 0.82} {'loss': 2.1156, 'grad_norm': 1.6356171369552612, 'learning_rate': 4.3127360128328547e-07, 'epoch': 0.82} {'loss': 2.1108, 'grad_norm': 1.5176479816436768, 'learning_rate': 4.310297248435996e-07, 'epoch': 0.82} {'loss': 2.1031, 'grad_norm': 1.4919426441192627, 'learning_rate': 4.3078591087184847e-07, 'epoch': 0.82} {'loss': 2.0911, 'grad_norm': 1.3343819379806519, 'learning_rate': 4.305421593753928e-07, 'epoch': 0.82} {'loss': 2.1859, 'grad_norm': 1.4668868780136108, 'learning_rate': 4.302984703615915e-07, 'epoch': 0.82} {'loss': 2.3611, 'grad_norm': 1.8612072467803955, 'learning_rate': 4.300548438378035e-07, 'epoch': 0.82} {'loss': 2.3698, 'grad_norm': 1.6840332746505737, 'learning_rate': 4.298112798113835e-07, 'epoch': 0.82} {'loss': 2.3652, 'grad_norm': 1.8454771041870117, 'learning_rate': 4.295677782896862e-07, 'epoch': 0.82} {'loss': 2.1719, 'grad_norm': 1.6352262496948242, 'learning_rate': 4.293243392800625e-07, 'epoch': 0.82} {'loss': 2.3462, 'grad_norm': 1.6569812297821045, 'learning_rate': 4.2908096278986317e-07, 'epoch': 0.82} {'loss': 2.322, 'grad_norm': 1.6820482015609741, 'learning_rate': 4.2883764882643704e-07, 'epoch': 0.82} {'loss': 2.204, 'grad_norm': 1.4503930807113647, 'learning_rate': 4.285943973971299e-07, 'epoch': 0.82} {'loss': 2.5405, 'grad_norm': 1.7630785703659058, 'learning_rate': 4.283512085092861e-07, 'epoch': 0.82} {'loss': 2.0933, 'grad_norm': 1.4266624450683594, 'learning_rate': 4.281080821702477e-07, 'epoch': 0.82} {'loss': 2.2556, 'grad_norm': 1.7924970388412476, 'learning_rate': 4.278650183873556e-07, 'epoch': 0.82} {'loss': 2.2927, 'grad_norm': 4.700982570648193, 'learning_rate': 4.2762201716794935e-07, 'epoch': 0.82} {'loss': 2.241, 'grad_norm': 1.8705549240112305, 'learning_rate': 4.2737907851936487e-07, 'epoch': 0.82} {'loss': 2.2725, 'grad_norm': 1.7345901727676392, 'learning_rate': 4.271362024489381e-07, 'epoch': 0.82} {'loss': 2.1825, 'grad_norm': 1.6202583312988281, 'learning_rate': 4.268933889640012e-07, 'epoch': 0.82} {'loss': 2.2372, 'grad_norm': 1.708794116973877, 'learning_rate': 4.26650638071886e-07, 'epoch': 0.82} {'loss': 2.4036, 'grad_norm': 1.5287472009658813, 'learning_rate': 4.26407949779922e-07, 'epoch': 0.82} {'loss': 2.0983, 'grad_norm': 1.6997486352920532, 'learning_rate': 4.2616532409543524e-07, 'epoch': 0.82} {'loss': 2.0023, 'grad_norm': 1.4575939178466797, 'learning_rate': 4.2592276102575324e-07, 'epoch': 0.82} {'loss': 2.288, 'grad_norm': 1.7016096115112305, 'learning_rate': 4.256802605781979e-07, 'epoch': 0.82} {'loss': 2.2063, 'grad_norm': 1.7935426235198975, 'learning_rate': 4.2543782276009223e-07, 'epoch': 0.82} {'loss': 2.1738, 'grad_norm': 2.043287515640259, 'learning_rate': 4.251954475787551e-07, 'epoch': 0.82} {'loss': 2.0391, 'grad_norm': 1.3015379905700684, 'learning_rate': 4.249531350415051e-07, 'epoch': 0.82} {'loss': 2.353, 'grad_norm': 1.870427131652832, 'learning_rate': 4.2471088515565864e-07, 'epoch': 0.82} {'loss': 2.3681, 'grad_norm': 1.8337434530258179, 'learning_rate': 4.244686979285295e-07, 'epoch': 0.82} {'loss': 2.4403, 'grad_norm': 1.6946607828140259, 'learning_rate': 4.2422657336742944e-07, 'epoch': 0.82} {'loss': 2.4006, 'grad_norm': 1.6209805011749268, 'learning_rate': 4.2398451147967007e-07, 'epoch': 0.82} {'loss': 2.3606, 'grad_norm': 7.099349498748779, 'learning_rate': 4.237425122725586e-07, 'epoch': 0.82} {'loss': 2.0824, 'grad_norm': 1.542975902557373, 'learning_rate': 4.2350057575340274e-07, 'epoch': 0.82} {'loss': 2.2467, 'grad_norm': 1.6751585006713867, 'learning_rate': 4.2325870192950647e-07, 'epoch': 0.82} {'loss': 2.0313, 'grad_norm': 1.220761775970459, 'learning_rate': 4.2301689080817333e-07, 'epoch': 0.82} {'loss': 2.1898, 'grad_norm': 1.7674542665481567, 'learning_rate': 4.227751423967033e-07, 'epoch': 0.82} {'loss': 2.2953, 'grad_norm': 1.7697652578353882, 'learning_rate': 4.2253345670239673e-07, 'epoch': 0.82} {'loss': 2.1977, 'grad_norm': 1.5807604789733887, 'learning_rate': 4.222918337325499e-07, 'epoch': 0.82} {'loss': 2.1712, 'grad_norm': 1.7544742822647095, 'learning_rate': 4.220502734944576e-07, 'epoch': 0.82} {'loss': 2.3723, 'grad_norm': 1.3772475719451904, 'learning_rate': 4.2180877599541453e-07, 'epoch': 0.82} {'loss': 2.3007, 'grad_norm': 1.6389018297195435, 'learning_rate': 4.2156734124271096e-07, 'epoch': 0.82} {'loss': 1.4326, 'grad_norm': 6.349959850311279, 'learning_rate': 4.2132596924363666e-07, 'epoch': 0.82} {'loss': 2.2075, 'grad_norm': 1.5894546508789062, 'learning_rate': 4.210846600054805e-07, 'epoch': 0.82} {'loss': 2.3044, 'grad_norm': 1.6338943243026733, 'learning_rate': 4.208434135355269e-07, 'epoch': 0.82} {'loss': 2.5439, 'grad_norm': 1.6424044370651245, 'learning_rate': 4.206022298410606e-07, 'epoch': 0.82} {'loss': 1.3494, 'grad_norm': 2.086966037750244, 'learning_rate': 4.20361108929363e-07, 'epoch': 0.82} {'loss': 2.144, 'grad_norm': 1.6543415784835815, 'learning_rate': 4.2012005080771495e-07, 'epoch': 0.82} {'loss': 2.2474, 'grad_norm': 2.0194971561431885, 'learning_rate': 4.1987905548339396e-07, 'epoch': 0.82} {'loss': 2.3826, 'grad_norm': 1.7042344808578491, 'learning_rate': 4.196381229636762e-07, 'epoch': 0.82} {'loss': 2.3052, 'grad_norm': 1.5226246118545532, 'learning_rate': 4.1939725325583714e-07, 'epoch': 0.82} {'loss': 2.2493, 'grad_norm': 1.9187911748886108, 'learning_rate': 4.19156446367148e-07, 'epoch': 0.82} {'loss': 2.0025, 'grad_norm': 1.4486724138259888, 'learning_rate': 4.1891570230488037e-07, 'epoch': 0.82} {'loss': 2.3977, 'grad_norm': 1.372970461845398, 'learning_rate': 4.1867502107630214e-07, 'epoch': 0.82} {'loss': 2.2513, 'grad_norm': 1.4453411102294922, 'learning_rate': 4.1843440268868136e-07, 'epoch': 0.82} {'loss': 2.2552, 'grad_norm': 1.3736892938613892, 'learning_rate': 4.181938471492816e-07, 'epoch': 0.82} {'loss': 2.1864, 'grad_norm': 2.086751699447632, 'learning_rate': 4.1795335446536747e-07, 'epoch': 0.82} {'loss': 2.3532, 'grad_norm': 1.713248372077942, 'learning_rate': 4.177129246441988e-07, 'epoch': 0.82} {'loss': 2.2514, 'grad_norm': 1.8303782939910889, 'learning_rate': 4.174725576930347e-07, 'epoch': 0.82} {'loss': 2.4041, 'grad_norm': 1.2754509449005127, 'learning_rate': 4.172322536191331e-07, 'epoch': 0.82} {'loss': 2.4169, 'grad_norm': 1.6802736520767212, 'learning_rate': 4.1699201242974997e-07, 'epoch': 0.82} {'loss': 2.2266, 'grad_norm': 1.864585518836975, 'learning_rate': 4.167518341321375e-07, 'epoch': 0.82} {'loss': 2.0822, 'grad_norm': 1.6401703357696533, 'learning_rate': 4.165117187335488e-07, 'epoch': 0.82} {'loss': 2.3449, 'grad_norm': 1.4277557134628296, 'learning_rate': 4.162716662412325e-07, 'epoch': 0.82} {'loss': 2.1962, 'grad_norm': 1.463631510734558, 'learning_rate': 4.1603167666243725e-07, 'epoch': 0.82} {'loss': 2.3756, 'grad_norm': 1.6662263870239258, 'learning_rate': 4.157917500044087e-07, 'epoch': 0.82} {'loss': 2.131, 'grad_norm': 1.4395092725753784, 'learning_rate': 4.1555188627439013e-07, 'epoch': 0.82} {'loss': 2.3214, 'grad_norm': 1.6021026372909546, 'learning_rate': 4.1531208547962497e-07, 'epoch': 0.82} {'loss': 2.2289, 'grad_norm': 1.545842170715332, 'learning_rate': 4.150723476273524e-07, 'epoch': 0.82} {'loss': 2.3608, 'grad_norm': 1.5096412897109985, 'learning_rate': 4.148326727248117e-07, 'epoch': 0.82} {'loss': 2.2877, 'grad_norm': 1.4695591926574707, 'learning_rate': 4.145930607792384e-07, 'epoch': 0.82} {'loss': 2.0138, 'grad_norm': 1.63605797290802, 'learning_rate': 4.1435351179786727e-07, 'epoch': 0.82} {'loss': 2.277, 'grad_norm': 1.7027740478515625, 'learning_rate': 4.1411402578793195e-07, 'epoch': 0.82} {'loss': 1.4578, 'grad_norm': 1.7312766313552856, 'learning_rate': 4.138746027566626e-07, 'epoch': 0.82} {'loss': 2.2297, 'grad_norm': 1.7703765630722046, 'learning_rate': 4.1363524271128775e-07, 'epoch': 0.82} {'loss': 2.2359, 'grad_norm': 1.5413106679916382, 'learning_rate': 4.133959456590339e-07, 'epoch': 0.82} {'loss': 2.3432, 'grad_norm': 1.871665358543396, 'learning_rate': 4.1315671160712665e-07, 'epoch': 0.82} {'loss': 2.1215, 'grad_norm': 1.7777554988861084, 'learning_rate': 4.129175405627897e-07, 'epoch': 0.82} {'loss': 2.2761, 'grad_norm': 1.5427948236465454, 'learning_rate': 4.1267843253324307e-07, 'epoch': 0.82} {'loss': 2.2636, 'grad_norm': 1.9218007326126099, 'learning_rate': 4.1243938752570767e-07, 'epoch': 0.82} {'loss': 2.213, 'grad_norm': 2.0894436836242676, 'learning_rate': 4.122004055473991e-07, 'epoch': 0.82} {'loss': 1.9639, 'grad_norm': 1.5105581283569336, 'learning_rate': 4.119614866055346e-07, 'epoch': 0.82} {'loss': 2.3027, 'grad_norm': 2.126023292541504, 'learning_rate': 4.117226307073269e-07, 'epoch': 0.82} {'loss': 2.1978, 'grad_norm': 1.967341661453247, 'learning_rate': 4.1148383785998723e-07, 'epoch': 0.82} {'loss': 2.2815, 'grad_norm': 1.3350666761398315, 'learning_rate': 4.112451080707269e-07, 'epoch': 0.82} {'loss': 2.3047, 'grad_norm': 1.5708633661270142, 'learning_rate': 4.110064413467521e-07, 'epoch': 0.82} {'loss': 2.001, 'grad_norm': 1.8889878988265991, 'learning_rate': 4.1076783769527006e-07, 'epoch': 0.82} {'loss': 2.2481, 'grad_norm': 2.2526347637176514, 'learning_rate': 4.105292971234842e-07, 'epoch': 0.82} {'loss': 2.0915, 'grad_norm': 2.9803109169006348, 'learning_rate': 4.1029081963859684e-07, 'epoch': 0.82} {'loss': 2.2679, 'grad_norm': 3.892529010772705, 'learning_rate': 4.1005240524780916e-07, 'epoch': 0.82} {'loss': 2.074, 'grad_norm': 1.631984829902649, 'learning_rate': 4.098140539583181e-07, 'epoch': 0.82} {'loss': 2.195, 'grad_norm': 1.7612634897232056, 'learning_rate': 4.095757657773222e-07, 'epoch': 0.82} {'loss': 2.1806, 'grad_norm': 5.598588943481445, 'learning_rate': 4.093375407120134e-07, 'epoch': 0.82} {'loss': 2.5458, 'grad_norm': 1.7846324443817139, 'learning_rate': 4.09099378769586e-07, 'epoch': 0.82} {'loss': 2.2784, 'grad_norm': 1.7924596071243286, 'learning_rate': 4.088612799572308e-07, 'epoch': 0.82} {'loss': 2.3201, 'grad_norm': 1.8813892602920532, 'learning_rate': 4.086232442821356e-07, 'epoch': 0.82} {'loss': 2.3016, 'grad_norm': 1.6987286806106567, 'learning_rate': 4.0838527175148887e-07, 'epoch': 0.82} {'loss': 2.5135, 'grad_norm': 1.8027833700180054, 'learning_rate': 4.081473623724744e-07, 'epoch': 0.82} {'loss': 2.3177, 'grad_norm': 1.6604740619659424, 'learning_rate': 4.0790951615227614e-07, 'epoch': 0.82} {'loss': 2.332, 'grad_norm': 1.5207237005233765, 'learning_rate': 4.076717330980745e-07, 'epoch': 0.82} {'loss': 2.2926, 'grad_norm': 1.415148377418518, 'learning_rate': 4.0743401321704985e-07, 'epoch': 0.82} {'loss': 2.2653, 'grad_norm': 1.8361066579818726, 'learning_rate': 4.071963565163789e-07, 'epoch': 0.82} {'loss': 2.0103, 'grad_norm': 1.4032073020935059, 'learning_rate': 4.069587630032368e-07, 'epoch': 0.82} {'loss': 2.0485, 'grad_norm': 1.6667197942733765, 'learning_rate': 4.067212326847983e-07, 'epoch': 0.82} {'loss': 2.177, 'grad_norm': 1.5743956565856934, 'learning_rate': 4.064837655682341e-07, 'epoch': 0.82} {'loss': 2.5037, 'grad_norm': 1.6621180772781372, 'learning_rate': 4.0624636166071403e-07, 'epoch': 0.82} {'loss': 2.1996, 'grad_norm': 2.028114080429077, 'learning_rate': 4.0600902096940704e-07, 'epoch': 0.82} {'loss': 2.0776, 'grad_norm': 1.7047425508499146, 'learning_rate': 4.057717435014777e-07, 'epoch': 0.82} {'loss': 2.3524, 'grad_norm': 1.5730665922164917, 'learning_rate': 4.0553452926409134e-07, 'epoch': 0.82} {'loss': 2.0989, 'grad_norm': 1.5622422695159912, 'learning_rate': 4.0529737826440957e-07, 'epoch': 0.82} {'loss': 2.4952, 'grad_norm': 1.5251319408416748, 'learning_rate': 4.0506029050959185e-07, 'epoch': 0.82} {'loss': 2.4083, 'grad_norm': 1.8867789506912231, 'learning_rate': 4.04823266006798e-07, 'epoch': 0.82} {'loss': 2.3635, 'grad_norm': 1.8067333698272705, 'learning_rate': 4.045863047631829e-07, 'epoch': 0.82} {'loss': 2.2345, 'grad_norm': 1.78293776512146, 'learning_rate': 4.043494067859025e-07, 'epoch': 0.82} {'loss': 2.0784, 'grad_norm': 1.5905332565307617, 'learning_rate': 4.041125720821082e-07, 'epoch': 0.82} {'loss': 2.4222, 'grad_norm': 1.7886466979980469, 'learning_rate': 4.038758006589519e-07, 'epoch': 0.82} {'loss': 2.1513, 'grad_norm': 1.562514305114746, 'learning_rate': 4.0363909252358084e-07, 'epoch': 0.82} {'loss': 2.3925, 'grad_norm': 1.5938762426376343, 'learning_rate': 4.0340244768314304e-07, 'epoch': 0.82} {'loss': 2.1523, 'grad_norm': 1.5915858745574951, 'learning_rate': 4.031658661447843e-07, 'epoch': 0.82} {'loss': 2.0822, 'grad_norm': 1.7507476806640625, 'learning_rate': 4.029293479156454e-07, 'epoch': 0.82} {'loss': 2.2257, 'grad_norm': 1.9057395458221436, 'learning_rate': 4.026928930028695e-07, 'epoch': 0.82} {'loss': 2.2982, 'grad_norm': 2.0666613578796387, 'learning_rate': 4.0245650141359394e-07, 'epoch': 0.82} {'loss': 2.1924, 'grad_norm': 1.4614330530166626, 'learning_rate': 4.0222017315495743e-07, 'epoch': 0.82} {'loss': 2.1963, 'grad_norm': 1.7796169519424438, 'learning_rate': 4.019839082340954e-07, 'epoch': 0.82} {'loss': 2.2045, 'grad_norm': 1.6407248973846436, 'learning_rate': 4.0174770665814047e-07, 'epoch': 0.82} {'loss': 2.2211, 'grad_norm': 1.480983018875122, 'learning_rate': 4.015115684342252e-07, 'epoch': 0.82} {'loss': 2.3545, 'grad_norm': 1.5262259244918823, 'learning_rate': 4.0127549356947906e-07, 'epoch': 0.82} {'loss': 2.2995, 'grad_norm': 1.6873767375946045, 'learning_rate': 4.0103948207102866e-07, 'epoch': 0.82} {'loss': 2.3426, 'grad_norm': 1.697009563446045, 'learning_rate': 4.0080353394600117e-07, 'epoch': 0.82} {'loss': 2.3586, 'grad_norm': 1.5279886722564697, 'learning_rate': 4.005676492015195e-07, 'epoch': 0.82} {'loss': 2.2932, 'grad_norm': 1.6416581869125366, 'learning_rate': 4.0033182784470715e-07, 'epoch': 0.82} {'loss': 2.1237, 'grad_norm': 1.6674588918685913, 'learning_rate': 4.0009606988268226e-07, 'epoch': 0.82} {'loss': 2.1748, 'grad_norm': 1.6149283647537231, 'learning_rate': 3.9986037532256467e-07, 'epoch': 0.82} {'loss': 2.3677, 'grad_norm': 1.672600507736206, 'learning_rate': 3.9962474417146957e-07, 'epoch': 0.82} {'loss': 2.3252, 'grad_norm': 1.7556209564208984, 'learning_rate': 3.993891764365118e-07, 'epoch': 0.82} {'loss': 2.3165, 'grad_norm': 3.1879751682281494, 'learning_rate': 3.991536721248046e-07, 'epoch': 0.82} {'loss': 1.4253, 'grad_norm': 8.98643970489502, 'learning_rate': 3.989182312434567e-07, 'epoch': 0.82} {'loss': 2.2198, 'grad_norm': 1.7345465421676636, 'learning_rate': 3.9868285379957766e-07, 'epoch': 0.82} {'loss': 2.7952, 'grad_norm': 1.9354203939437866, 'learning_rate': 3.984475398002749e-07, 'epoch': 0.82} {'loss': 2.1997, 'grad_norm': 1.8544412851333618, 'learning_rate': 3.982122892526516e-07, 'epoch': 0.82} {'loss': 2.4511, 'grad_norm': 1.6058164834976196, 'learning_rate': 3.979771021638121e-07, 'epoch': 0.82} {'loss': 1.888, 'grad_norm': 1.2950310707092285, 'learning_rate': 3.977419785408562e-07, 'epoch': 0.82} {'loss': 2.2579, 'grad_norm': 1.6851917505264282, 'learning_rate': 3.9750691839088417e-07, 'epoch': 0.82} {'loss': 2.2334, 'grad_norm': 1.8500852584838867, 'learning_rate': 3.9727192172099195e-07, 'epoch': 0.82} {'loss': 2.0696, 'grad_norm': 1.8402308225631714, 'learning_rate': 3.970369885382755e-07, 'epoch': 0.82} {'loss': 2.0979, 'grad_norm': 1.6610182523727417, 'learning_rate': 3.9680211884982806e-07, 'epoch': 0.82} {'loss': 2.2831, 'grad_norm': 1.6966444253921509, 'learning_rate': 3.9656731266274007e-07, 'epoch': 0.82} {'loss': 2.173, 'grad_norm': 1.5718549489974976, 'learning_rate': 3.9633256998410226e-07, 'epoch': 0.82} {'loss': 1.9533, 'grad_norm': 1.481348991394043, 'learning_rate': 3.9609789082100117e-07, 'epoch': 0.82} {'loss': 2.345, 'grad_norm': 1.87063467502594, 'learning_rate': 3.9586327518052334e-07, 'epoch': 0.82} {'loss': 2.2432, 'grad_norm': 2.227912664413452, 'learning_rate': 3.9562872306975113e-07, 'epoch': 0.82} {'loss': 2.2911, 'grad_norm': 1.7849879264831543, 'learning_rate': 3.9539423449576733e-07, 'epoch': 0.82} {'loss': 2.332, 'grad_norm': 1.57688570022583, 'learning_rate': 3.9515980946565196e-07, 'epoch': 0.82} {'loss': 2.3306, 'grad_norm': 1.7011677026748657, 'learning_rate': 3.949254479864828e-07, 'epoch': 0.82} {'loss': 2.0159, 'grad_norm': 1.4262875318527222, 'learning_rate': 3.9469115006533497e-07, 'epoch': 0.82} {'loss': 2.0517, 'grad_norm': 2.0424954891204834, 'learning_rate': 3.94456915709284e-07, 'epoch': 0.82} {'loss': 2.1159, 'grad_norm': 1.7367002964019775, 'learning_rate': 3.942227449254005e-07, 'epoch': 0.82} {'loss': 2.4647, 'grad_norm': 1.6339362859725952, 'learning_rate': 3.9398863772075635e-07, 'epoch': 0.82} {'loss': 2.3243, 'grad_norm': 1.7394675016403198, 'learning_rate': 3.9375459410241844e-07, 'epoch': 0.82} {'loss': 2.2842, 'grad_norm': 1.6155555248260498, 'learning_rate': 3.9352061407745475e-07, 'epoch': 0.83} {'loss': 2.0254, 'grad_norm': 1.754500150680542, 'learning_rate': 3.9328669765292786e-07, 'epoch': 0.83} {'loss': 1.8643, 'grad_norm': 1.349665641784668, 'learning_rate': 3.9305284483590223e-07, 'epoch': 0.83} {'loss': 2.3583, 'grad_norm': 1.6486179828643799, 'learning_rate': 3.928190556334377e-07, 'epoch': 0.83} {'loss': 2.0923, 'grad_norm': 1.5762780904769897, 'learning_rate': 3.9258533005259254e-07, 'epoch': 0.83} {'loss': 1.9604, 'grad_norm': 1.6480932235717773, 'learning_rate': 3.923516681004244e-07, 'epoch': 0.83} {'loss': 2.3346, 'grad_norm': 1.6228057146072388, 'learning_rate': 3.9211806978398715e-07, 'epoch': 0.83} {'loss': 2.2186, 'grad_norm': 1.5501582622528076, 'learning_rate': 3.918845351103348e-07, 'epoch': 0.83} {'loss': 2.2298, 'grad_norm': 1.6818733215332031, 'learning_rate': 3.916510640865184e-07, 'epoch': 0.83} {'loss': 2.5043, 'grad_norm': 1.631259560585022, 'learning_rate': 3.91417656719586e-07, 'epoch': 0.83} {'loss': 2.2535, 'grad_norm': 1.6652461290359497, 'learning_rate': 3.911843130165863e-07, 'epoch': 0.83} {'loss': 2.1678, 'grad_norm': 1.930193543434143, 'learning_rate': 3.909510329845634e-07, 'epoch': 0.83} {'loss': 2.2855, 'grad_norm': 1.4891389608383179, 'learning_rate': 3.907178166305614e-07, 'epoch': 0.83} {'loss': 2.3226, 'grad_norm': 1.681631088256836, 'learning_rate': 3.9048466396162164e-07, 'epoch': 0.83} {'loss': 2.2627, 'grad_norm': 1.718015193939209, 'learning_rate': 3.9025157498478293e-07, 'epoch': 0.83} {'loss': 2.1163, 'grad_norm': 1.623900055885315, 'learning_rate': 3.900185497070838e-07, 'epoch': 0.83} {'loss': 2.0721, 'grad_norm': 1.6198831796646118, 'learning_rate': 3.8978558813555887e-07, 'epoch': 0.83} {'loss': 2.1655, 'grad_norm': 1.6453843116760254, 'learning_rate': 3.895526902772434e-07, 'epoch': 0.83} {'loss': 2.2449, 'grad_norm': 2.1084885597229004, 'learning_rate': 3.8931985613916757e-07, 'epoch': 0.83} {'loss': 2.3219, 'grad_norm': 1.748399257659912, 'learning_rate': 3.890870857283621e-07, 'epoch': 0.83} {'loss': 2.0483, 'grad_norm': 1.324692964553833, 'learning_rate': 3.8885437905185646e-07, 'epoch': 0.83} {'loss': 2.2904, 'grad_norm': 1.625739574432373, 'learning_rate': 3.886217361166736e-07, 'epoch': 0.83} {'loss': 2.2584, 'grad_norm': 1.5182857513427734, 'learning_rate': 3.8838915692984006e-07, 'epoch': 0.83} {'loss': 2.2908, 'grad_norm': 1.7423722743988037, 'learning_rate': 3.881566414983767e-07, 'epoch': 0.83} {'loss': 2.2631, 'grad_norm': 1.8416509628295898, 'learning_rate': 3.87924189829304e-07, 'epoch': 0.83} {'loss': 2.1687, 'grad_norm': 1.6179707050323486, 'learning_rate': 3.876918019296416e-07, 'epoch': 0.83} {'loss': 2.2461, 'grad_norm': 1.8513864278793335, 'learning_rate': 3.874594778064045e-07, 'epoch': 0.83} {'loss': 1.9472, 'grad_norm': 1.6547666788101196, 'learning_rate': 3.872272174666081e-07, 'epoch': 0.83} {'loss': 2.6122, 'grad_norm': 1.60680091381073, 'learning_rate': 3.8699502091726405e-07, 'epoch': 0.83} {'loss': 2.5441, 'grad_norm': 1.5869325399398804, 'learning_rate': 3.86762888165384e-07, 'epoch': 0.83} {'loss': 2.0628, 'grad_norm': 1.3294686079025269, 'learning_rate': 3.865308192179765e-07, 'epoch': 0.83} {'loss': 2.5253, 'grad_norm': 1.4878169298171997, 'learning_rate': 3.8629881408204726e-07, 'epoch': 0.83} {'loss': 1.8693, 'grad_norm': 1.3654910326004028, 'learning_rate': 3.8606687276460277e-07, 'epoch': 0.83} {'loss': 2.3522, 'grad_norm': 1.6103928089141846, 'learning_rate': 3.858349952726445e-07, 'epoch': 0.83} {'loss': 2.1986, 'grad_norm': 1.5752851963043213, 'learning_rate': 3.8560318161317473e-07, 'epoch': 0.83} {'loss': 2.1336, 'grad_norm': 1.6320438385009766, 'learning_rate': 3.853714317931914e-07, 'epoch': 0.83} {'loss': 2.326, 'grad_norm': 1.7086501121520996, 'learning_rate': 3.8513974581969204e-07, 'epoch': 0.83} {'loss': 2.2236, 'grad_norm': 1.2467644214630127, 'learning_rate': 3.84908123699673e-07, 'epoch': 0.83} {'loss': 2.1783, 'grad_norm': 1.6657475233078003, 'learning_rate': 3.846765654401266e-07, 'epoch': 0.83} {'loss': 2.1114, 'grad_norm': 1.5677354335784912, 'learning_rate': 3.8444507104804434e-07, 'epoch': 0.83} {'loss': 2.3046, 'grad_norm': 1.7373239994049072, 'learning_rate': 3.842136405304153e-07, 'epoch': 0.83} {'loss': 2.559, 'grad_norm': 1.583528995513916, 'learning_rate': 3.83982273894227e-07, 'epoch': 0.83} {'loss': 2.4569, 'grad_norm': 1.8447983264923096, 'learning_rate': 3.8375097114646624e-07, 'epoch': 0.83} {'loss': 2.3196, 'grad_norm': 1.5602023601531982, 'learning_rate': 3.835197322941153e-07, 'epoch': 0.83} {'loss': 2.1567, 'grad_norm': 1.6397180557250977, 'learning_rate': 3.8328855734415694e-07, 'epoch': 0.83} {'loss': 2.1736, 'grad_norm': 1.6714487075805664, 'learning_rate': 3.8305744630356993e-07, 'epoch': 0.83} {'loss': 2.174, 'grad_norm': 1.6160476207733154, 'learning_rate': 3.828263991793335e-07, 'epoch': 0.83} {'loss': 2.0844, 'grad_norm': 1.7131131887435913, 'learning_rate': 3.8259541597842257e-07, 'epoch': 0.83} {'loss': 2.2161, 'grad_norm': 1.3954240083694458, 'learning_rate': 3.8236449670781106e-07, 'epoch': 0.83} {'loss': 2.2158, 'grad_norm': 1.5052902698516846, 'learning_rate': 3.8213364137447196e-07, 'epoch': 0.83} {'loss': 2.1211, 'grad_norm': 1.7275636196136475, 'learning_rate': 3.8190284998537414e-07, 'epoch': 0.83} {'loss': 2.2223, 'grad_norm': 1.8145734071731567, 'learning_rate': 3.816721225474873e-07, 'epoch': 0.83} {'loss': 2.3228, 'grad_norm': 1.5238287448883057, 'learning_rate': 3.8144145906777646e-07, 'epoch': 0.83} {'loss': 2.3089, 'grad_norm': 1.6163289546966553, 'learning_rate': 3.812108595532066e-07, 'epoch': 0.83} {'loss': 2.4608, 'grad_norm': 1.7124314308166504, 'learning_rate': 3.809803240107407e-07, 'epoch': 0.83} {'loss': 2.2928, 'grad_norm': 1.5745229721069336, 'learning_rate': 3.8074985244733796e-07, 'epoch': 0.83} {'loss': 2.2514, 'grad_norm': 1.5141172409057617, 'learning_rate': 3.8051944486995897e-07, 'epoch': 0.83} {'loss': 2.1529, 'grad_norm': 2.4869463443756104, 'learning_rate': 3.802891012855581e-07, 'epoch': 0.83} {'loss': 2.3871, 'grad_norm': 1.4090485572814941, 'learning_rate': 3.800588217010906e-07, 'epoch': 0.83} {'loss': 2.2051, 'grad_norm': 1.6152408123016357, 'learning_rate': 3.798286061235107e-07, 'epoch': 0.83} {'loss': 2.0954, 'grad_norm': 1.587949514389038, 'learning_rate': 3.795984545597672e-07, 'epoch': 0.83} {'loss': 2.1923, 'grad_norm': 1.8897160291671753, 'learning_rate': 3.7936836701681106e-07, 'epoch': 0.83} {'loss': 2.0018, 'grad_norm': 1.5052282810211182, 'learning_rate': 3.7913834350158746e-07, 'epoch': 0.83} {'loss': 2.3628, 'grad_norm': 1.6869099140167236, 'learning_rate': 3.789083840210428e-07, 'epoch': 0.83} {'loss': 2.3425, 'grad_norm': 1.6830463409423828, 'learning_rate': 3.786784885821196e-07, 'epoch': 0.83} {'loss': 2.2481, 'grad_norm': 1.6482322216033936, 'learning_rate': 3.7844865719175836e-07, 'epoch': 0.83} {'loss': 2.2759, 'grad_norm': 1.517586588859558, 'learning_rate': 3.7821888985689977e-07, 'epoch': 0.83} {'loss': 1.8377, 'grad_norm': 1.4446849822998047, 'learning_rate': 3.779891865844798e-07, 'epoch': 0.83} {'loss': 2.2568, 'grad_norm': 1.537596344947815, 'learning_rate': 3.777595473814352e-07, 'epoch': 0.83} {'loss': 2.0435, 'grad_norm': 1.989890694618225, 'learning_rate': 3.775299722546977e-07, 'epoch': 0.83} {'loss': 1.9431, 'grad_norm': 1.6347988843917847, 'learning_rate': 3.7730046121119994e-07, 'epoch': 0.83} {'loss': 1.9091, 'grad_norm': 1.371228575706482, 'learning_rate': 3.7707101425787177e-07, 'epoch': 0.83} {'loss': 2.2487, 'grad_norm': 1.810380458831787, 'learning_rate': 3.7684163140163985e-07, 'epoch': 0.83} {'loss': 2.2892, 'grad_norm': 1.799340009689331, 'learning_rate': 3.7661231264943086e-07, 'epoch': 0.83} {'loss': 2.1638, 'grad_norm': 1.6045562028884888, 'learning_rate': 3.7638305800816817e-07, 'epoch': 0.83} {'loss': 2.2954, 'grad_norm': 1.7755889892578125, 'learning_rate': 3.761538674847731e-07, 'epoch': 0.83} {'loss': 2.2534, 'grad_norm': 1.6891635656356812, 'learning_rate': 3.759247410861663e-07, 'epoch': 0.83} {'loss': 2.2472, 'grad_norm': 1.7580965757369995, 'learning_rate': 3.7569567881926504e-07, 'epoch': 0.83} {'loss': 2.1758, 'grad_norm': 1.6457715034484863, 'learning_rate': 3.754666806909862e-07, 'epoch': 0.83} {'loss': 2.1662, 'grad_norm': 1.970948576927185, 'learning_rate': 3.752377467082427e-07, 'epoch': 0.83} {'loss': 2.162, 'grad_norm': 1.718045949935913, 'learning_rate': 3.750088768779481e-07, 'epoch': 0.83} {'loss': 2.2258, 'grad_norm': 1.7128956317901611, 'learning_rate': 3.7478007120701127e-07, 'epoch': 0.83} {'loss': 2.1784, 'grad_norm': 1.9982249736785889, 'learning_rate': 3.7455132970234175e-07, 'epoch': 0.83} {'loss': 2.2417, 'grad_norm': 1.6333309412002563, 'learning_rate': 3.743226523708451e-07, 'epoch': 0.83} {'loss': 2.213, 'grad_norm': 1.7157189846038818, 'learning_rate': 3.7409403921942534e-07, 'epoch': 0.83} {'loss': 2.2633, 'grad_norm': 1.8361674547195435, 'learning_rate': 3.73865490254986e-07, 'epoch': 0.83} {'loss': 2.3704, 'grad_norm': 1.9496902227401733, 'learning_rate': 3.7363700548442655e-07, 'epoch': 0.83} {'loss': 2.1466, 'grad_norm': 1.9022138118743896, 'learning_rate': 3.73408584914646e-07, 'epoch': 0.83} {'loss': 2.0693, 'grad_norm': 1.8925873041152954, 'learning_rate': 3.7318022855254155e-07, 'epoch': 0.83} {'loss': 2.2862, 'grad_norm': 2.848543167114258, 'learning_rate': 3.729519364050069e-07, 'epoch': 0.83} {'loss': 2.1983, 'grad_norm': 1.7540818452835083, 'learning_rate': 3.7272370847893617e-07, 'epoch': 0.83} {'loss': 2.2436, 'grad_norm': 1.5431452989578247, 'learning_rate': 3.72495544781219e-07, 'epoch': 0.83} {'loss': 2.3005, 'grad_norm': 1.5460374355316162, 'learning_rate': 3.722674453187444e-07, 'epoch': 0.83} {'loss': 2.1258, 'grad_norm': 2.1738717555999756, 'learning_rate': 3.720394100984001e-07, 'epoch': 0.83} {'loss': 2.5937, 'grad_norm': 1.6126956939697266, 'learning_rate': 3.7181143912706995e-07, 'epoch': 0.83} {'loss': 2.1048, 'grad_norm': 1.8010414838790894, 'learning_rate': 3.715835324116382e-07, 'epoch': 0.83} {'loss': 2.0711, 'grad_norm': 2.077394485473633, 'learning_rate': 3.7135568995898486e-07, 'epoch': 0.83} {'loss': 2.0788, 'grad_norm': 1.871124505996704, 'learning_rate': 3.711279117759903e-07, 'epoch': 0.83} {'loss': 2.0313, 'grad_norm': 1.5794504880905151, 'learning_rate': 3.709001978695306e-07, 'epoch': 0.83} {'loss': 2.2813, 'grad_norm': 1.720895767211914, 'learning_rate': 3.706725482464818e-07, 'epoch': 0.83} {'loss': 2.0751, 'grad_norm': 1.890616536140442, 'learning_rate': 3.704449629137183e-07, 'epoch': 0.83} {'loss': 2.1936, 'grad_norm': 1.701491355895996, 'learning_rate': 3.70217441878109e-07, 'epoch': 0.83} {'loss': 2.3313, 'grad_norm': 1.6360971927642822, 'learning_rate': 3.6998998514652494e-07, 'epoch': 0.83} {'loss': 2.0045, 'grad_norm': 1.570954442024231, 'learning_rate': 3.6976259272583416e-07, 'epoch': 0.83} {'loss': 2.1996, 'grad_norm': 1.7751133441925049, 'learning_rate': 3.6953526462290087e-07, 'epoch': 0.83} {'loss': 2.4055, 'grad_norm': 2.24460506439209, 'learning_rate': 3.693080008445901e-07, 'epoch': 0.83} {'loss': 2.2072, 'grad_norm': 1.6520711183547974, 'learning_rate': 3.690808013977623e-07, 'epoch': 0.83} {'loss': 2.31, 'grad_norm': 1.4190746545791626, 'learning_rate': 3.688536662892783e-07, 'epoch': 0.83} {'loss': 2.1602, 'grad_norm': 1.5432473421096802, 'learning_rate': 3.6862659552599515e-07, 'epoch': 0.83} {'loss': 2.3251, 'grad_norm': 1.8176637887954712, 'learning_rate': 3.683995891147696e-07, 'epoch': 0.83} {'loss': 2.557, 'grad_norm': 1.7210556268692017, 'learning_rate': 3.6817264706245525e-07, 'epoch': 0.83} {'loss': 2.1608, 'grad_norm': 1.686182975769043, 'learning_rate': 3.6794576937590307e-07, 'epoch': 0.83} {'loss': 1.3855, 'grad_norm': 1.5975013971328735, 'learning_rate': 3.6771895606196484e-07, 'epoch': 0.83} {'loss': 2.3667, 'grad_norm': 1.8340272903442383, 'learning_rate': 3.674922071274872e-07, 'epoch': 0.83} {'loss': 2.2582, 'grad_norm': 1.603218674659729, 'learning_rate': 3.67265522579317e-07, 'epoch': 0.83} {'loss': 2.3805, 'grad_norm': 1.9440981149673462, 'learning_rate': 3.67038902424299e-07, 'epoch': 0.83} {'loss': 1.5108, 'grad_norm': 1.739282488822937, 'learning_rate': 3.668123466692747e-07, 'epoch': 0.83} {'loss': 1.9761, 'grad_norm': 1.6306114196777344, 'learning_rate': 3.6658585532108547e-07, 'epoch': 0.83} {'loss': 2.2522, 'grad_norm': 1.960226058959961, 'learning_rate': 3.663594283865679e-07, 'epoch': 0.83} {'loss': 2.3623, 'grad_norm': 1.8173832893371582, 'learning_rate': 3.661330658725595e-07, 'epoch': 0.83} {'loss': 2.2479, 'grad_norm': 1.666882038116455, 'learning_rate': 3.6590676778589517e-07, 'epoch': 0.83} {'loss': 2.2741, 'grad_norm': 1.797696590423584, 'learning_rate': 3.656805341334066e-07, 'epoch': 0.83} {'loss': 2.4707, 'grad_norm': 1.7630751132965088, 'learning_rate': 3.654543649219255e-07, 'epoch': 0.83} {'loss': 2.1819, 'grad_norm': 1.8531440496444702, 'learning_rate': 3.652282601582793e-07, 'epoch': 0.83} {'loss': 2.2557, 'grad_norm': 1.8097366094589233, 'learning_rate': 3.650022198492961e-07, 'epoch': 0.83} {'loss': 2.3721, 'grad_norm': 1.9021438360214233, 'learning_rate': 3.6477624400179936e-07, 'epoch': 0.83} {'loss': 2.0997, 'grad_norm': 1.6685339212417603, 'learning_rate': 3.645503326226127e-07, 'epoch': 0.83} {'loss': 2.2234, 'grad_norm': 1.7572999000549316, 'learning_rate': 3.643244857185571e-07, 'epoch': 0.83} {'loss': 2.0489, 'grad_norm': 1.5035710334777832, 'learning_rate': 3.6409870329645046e-07, 'epoch': 0.83} {'loss': 2.4499, 'grad_norm': 1.8926914930343628, 'learning_rate': 3.6387298536311124e-07, 'epoch': 0.83} {'loss': 2.2046, 'grad_norm': 1.5260175466537476, 'learning_rate': 3.6364733192535306e-07, 'epoch': 0.83} {'loss': 2.1679, 'grad_norm': 1.656387448310852, 'learning_rate': 3.6342174298999e-07, 'epoch': 0.83} {'loss': 2.5607, 'grad_norm': 1.6533187627792358, 'learning_rate': 3.6319621856383327e-07, 'epoch': 0.83} {'loss': 2.276, 'grad_norm': 1.8593302965164185, 'learning_rate': 3.62970758653691e-07, 'epoch': 0.83} {'loss': 1.9147, 'grad_norm': 1.906479001045227, 'learning_rate': 3.6274536326637217e-07, 'epoch': 0.83} {'loss': 2.1953, 'grad_norm': 1.3168153762817383, 'learning_rate': 3.6252003240868085e-07, 'epoch': 0.83} {'loss': 2.0419, 'grad_norm': 1.6295288801193237, 'learning_rate': 3.6229476608742013e-07, 'epoch': 0.83} {'loss': 2.0033, 'grad_norm': 1.3255678415298462, 'learning_rate': 3.6206956430939246e-07, 'epoch': 0.83} {'loss': 1.921, 'grad_norm': 1.5374841690063477, 'learning_rate': 3.6184442708139646e-07, 'epoch': 0.83} {'loss': 2.2315, 'grad_norm': 2.0310328006744385, 'learning_rate': 3.616193544102303e-07, 'epoch': 0.83} {'loss': 2.0815, 'grad_norm': 1.5281270742416382, 'learning_rate': 3.6139434630268894e-07, 'epoch': 0.83} {'loss': 2.047, 'grad_norm': 1.624050498008728, 'learning_rate': 3.6116940276556653e-07, 'epoch': 0.83} {'loss': 1.6134, 'grad_norm': 1.588822603225708, 'learning_rate': 3.6094452380565417e-07, 'epoch': 0.83} {'loss': 2.3687, 'grad_norm': 1.6399726867675781, 'learning_rate': 3.607197094297418e-07, 'epoch': 0.83} {'loss': 2.3259, 'grad_norm': 1.5959930419921875, 'learning_rate': 3.6049495964461834e-07, 'epoch': 0.83} {'loss': 1.8995, 'grad_norm': 1.446374773979187, 'learning_rate': 3.602702744570677e-07, 'epoch': 0.83} {'loss': 2.3647, 'grad_norm': 1.6792508363723755, 'learning_rate': 3.60045653873875e-07, 'epoch': 0.83} {'loss': 2.4239, 'grad_norm': 1.997763752937317, 'learning_rate': 3.5982109790182127e-07, 'epoch': 0.83} {'loss': 2.3498, 'grad_norm': 1.7129727602005005, 'learning_rate': 3.595966065476869e-07, 'epoch': 0.83} {'loss': 2.4376, 'grad_norm': 1.9021421670913696, 'learning_rate': 3.5937217981825065e-07, 'epoch': 0.83} {'loss': 1.9684, 'grad_norm': 1.8949987888336182, 'learning_rate': 3.59147817720287e-07, 'epoch': 0.83} {'loss': 1.7841, 'grad_norm': 1.5397047996520996, 'learning_rate': 3.5892352026057205e-07, 'epoch': 0.83} {'loss': 2.3223, 'grad_norm': 1.3747855424880981, 'learning_rate': 3.586992874458758e-07, 'epoch': 0.83} {'loss': 2.1017, 'grad_norm': 1.7257095575332642, 'learning_rate': 3.584751192829705e-07, 'epoch': 0.83} {'loss': 1.9776, 'grad_norm': 1.384765625, 'learning_rate': 3.5825101577862344e-07, 'epoch': 0.83} {'loss': 2.3255, 'grad_norm': 1.685447096824646, 'learning_rate': 3.5802697693959996e-07, 'epoch': 0.83} {'loss': 2.1885, 'grad_norm': 1.3542029857635498, 'learning_rate': 3.5780300277266644e-07, 'epoch': 0.83} {'loss': 2.246, 'grad_norm': 1.5939757823944092, 'learning_rate': 3.5757909328458353e-07, 'epoch': 0.83} {'loss': 2.2251, 'grad_norm': 1.8442250490188599, 'learning_rate': 3.573552484821127e-07, 'epoch': 0.83} {'loss': 2.3681, 'grad_norm': 1.7474209070205688, 'learning_rate': 3.5713146837201174e-07, 'epoch': 0.83} {'loss': 2.0096, 'grad_norm': 1.4893829822540283, 'learning_rate': 3.5690775296103737e-07, 'epoch': 0.83} {'loss': 1.3933, 'grad_norm': 1.2874619960784912, 'learning_rate': 3.566841022559453e-07, 'epoch': 0.83} {'loss': 1.489, 'grad_norm': 1.66066312789917, 'learning_rate': 3.564605162634868e-07, 'epoch': 0.83} {'loss': 2.0376, 'grad_norm': 1.7297587394714355, 'learning_rate': 3.5623699499041346e-07, 'epoch': 0.83} {'loss': 1.7939, 'grad_norm': 1.2591111660003662, 'learning_rate': 3.560135384434726e-07, 'epoch': 0.83} {'loss': 2.3093, 'grad_norm': 1.527029275894165, 'learning_rate': 3.5579014662941196e-07, 'epoch': 0.83} {'loss': 2.126, 'grad_norm': 1.539048433303833, 'learning_rate': 3.555668195549769e-07, 'epoch': 0.83} {'loss': 1.7503, 'grad_norm': 1.4355459213256836, 'learning_rate': 3.5534355722690926e-07, 'epoch': 0.83} {'loss': 2.242, 'grad_norm': 1.411074161529541, 'learning_rate': 3.551203596519509e-07, 'epoch': 0.83} {'loss': 2.2617, 'grad_norm': 1.3421708345413208, 'learning_rate': 3.5489722683683973e-07, 'epoch': 0.83} {'loss': 2.3799, 'grad_norm': 1.732725977897644, 'learning_rate': 3.5467415878831375e-07, 'epoch': 0.83} {'loss': 2.2938, 'grad_norm': 1.7298606634140015, 'learning_rate': 3.544511555131075e-07, 'epoch': 0.83} {'loss': 2.1961, 'grad_norm': 1.3696857690811157, 'learning_rate': 3.5422821701795366e-07, 'epoch': 0.83} {'loss': 2.3317, 'grad_norm': 1.650930404663086, 'learning_rate': 3.5400534330958416e-07, 'epoch': 0.83} {'loss': 2.2107, 'grad_norm': 1.5530072450637817, 'learning_rate': 3.537825343947274e-07, 'epoch': 0.83} {'loss': 2.2626, 'grad_norm': 3.0185842514038086, 'learning_rate': 3.535597902801116e-07, 'epoch': 0.83} {'loss': 2.3477, 'grad_norm': 1.7556443214416504, 'learning_rate': 3.5333711097246064e-07, 'epoch': 0.83} {'loss': 2.0021, 'grad_norm': 1.3333442211151123, 'learning_rate': 3.5311449647849883e-07, 'epoch': 0.83} {'loss': 2.5014, 'grad_norm': 1.938017725944519, 'learning_rate': 3.528919468049477e-07, 'epoch': 0.83} {'loss': 2.2999, 'grad_norm': 1.6311049461364746, 'learning_rate': 3.5266946195852636e-07, 'epoch': 0.83} {'loss': 2.3952, 'grad_norm': 1.7938659191131592, 'learning_rate': 3.524470419459522e-07, 'epoch': 0.83} {'loss': 2.1759, 'grad_norm': 3.4589476585388184, 'learning_rate': 3.5222468677393985e-07, 'epoch': 0.83} {'loss': 2.22, 'grad_norm': 1.602607011795044, 'learning_rate': 3.5200239644920363e-07, 'epoch': 0.83} {'loss': 2.4048, 'grad_norm': 1.5316179990768433, 'learning_rate': 3.517801709784555e-07, 'epoch': 0.83} {'loss': 2.2235, 'grad_norm': 1.7064932584762573, 'learning_rate': 3.5155801036840437e-07, 'epoch': 0.83} {'loss': 2.1525, 'grad_norm': 1.8501912355422974, 'learning_rate': 3.513359146257583e-07, 'epoch': 0.83} {'loss': 2.2187, 'grad_norm': 1.4569753408432007, 'learning_rate': 3.5111388375722255e-07, 'epoch': 0.84} {'loss': 2.1486, 'grad_norm': 1.409718632698059, 'learning_rate': 3.5089191776950165e-07, 'epoch': 0.84} {'loss': 2.1219, 'grad_norm': 2.648221492767334, 'learning_rate': 3.506700166692967e-07, 'epoch': 0.84} {'loss': 2.3229, 'grad_norm': 1.5182409286499023, 'learning_rate': 3.5044818046330726e-07, 'epoch': 0.84} {'loss': 2.0923, 'grad_norm': 1.706507921218872, 'learning_rate': 3.502264091582319e-07, 'epoch': 0.84} {'loss': 1.7295, 'grad_norm': 1.7084962129592896, 'learning_rate': 3.500047027607656e-07, 'epoch': 0.84} {'loss': 2.3763, 'grad_norm': 1.6369576454162598, 'learning_rate': 3.497830612776035e-07, 'epoch': 0.84} {'loss': 1.4848, 'grad_norm': 1.547823429107666, 'learning_rate': 3.495614847154363e-07, 'epoch': 0.84} {'loss': 2.1898, 'grad_norm': 1.7116667032241821, 'learning_rate': 3.4933997308095463e-07, 'epoch': 0.84} {'loss': 2.0969, 'grad_norm': 1.5516632795333862, 'learning_rate': 3.491185263808472e-07, 'epoch': 0.84} {'loss': 2.3044, 'grad_norm': 1.8814541101455688, 'learning_rate': 3.488971446217987e-07, 'epoch': 0.84} {'loss': 2.1273, 'grad_norm': 1.9226514101028442, 'learning_rate': 3.486758278104949e-07, 'epoch': 0.84} {'loss': 2.0862, 'grad_norm': 1.671739935874939, 'learning_rate': 3.4845457595361674e-07, 'epoch': 0.84} {'loss': 2.167, 'grad_norm': 1.6554373502731323, 'learning_rate': 3.4823338905784404e-07, 'epoch': 0.84} {'loss': 2.4345, 'grad_norm': 1.6991856098175049, 'learning_rate': 3.4801226712985663e-07, 'epoch': 0.84} {'loss': 2.402, 'grad_norm': 1.6519944667816162, 'learning_rate': 3.4779121017632925e-07, 'epoch': 0.84} {'loss': 2.1219, 'grad_norm': 1.6325865983963013, 'learning_rate': 3.475702182039373e-07, 'epoch': 0.84} {'loss': 2.0675, 'grad_norm': 1.4320179224014282, 'learning_rate': 3.473492912193524e-07, 'epoch': 0.84} {'loss': 2.2392, 'grad_norm': 1.4831346273422241, 'learning_rate': 3.471284292292457e-07, 'epoch': 0.84} {'loss': 2.5047, 'grad_norm': 1.8612643480300903, 'learning_rate': 3.469076322402845e-07, 'epoch': 0.84} {'loss': 1.699, 'grad_norm': 1.302734613418579, 'learning_rate': 3.466869002591367e-07, 'epoch': 0.84} {'loss': 2.1113, 'grad_norm': 2.0300230979919434, 'learning_rate': 3.464662332924659e-07, 'epoch': 0.84} {'loss': 2.1944, 'grad_norm': 1.5037024021148682, 'learning_rate': 3.4624563134693453e-07, 'epoch': 0.84} {'loss': 2.1531, 'grad_norm': 1.7058080434799194, 'learning_rate': 3.4602509442920316e-07, 'epoch': 0.84} {'loss': 2.2188, 'grad_norm': 1.6376467943191528, 'learning_rate': 3.458046225459316e-07, 'epoch': 0.84} {'loss': 2.3162, 'grad_norm': 1.6124943494796753, 'learning_rate': 3.455842157037748e-07, 'epoch': 0.84} {'loss': 2.2505, 'grad_norm': 1.8750412464141846, 'learning_rate': 3.4536387390938896e-07, 'epoch': 0.84} {'loss': 2.3905, 'grad_norm': 1.460957646369934, 'learning_rate': 3.451435971694256e-07, 'epoch': 0.84} {'loss': 1.968, 'grad_norm': 1.7894943952560425, 'learning_rate': 3.449233854905365e-07, 'epoch': 0.84} {'loss': 2.1888, 'grad_norm': 1.7303929328918457, 'learning_rate': 3.4470323887937e-07, 'epoch': 0.84} {'loss': 2.2623, 'grad_norm': 1.8477834463119507, 'learning_rate': 3.444831573425722e-07, 'epoch': 0.84} {'loss': 2.1759, 'grad_norm': 1.3352333307266235, 'learning_rate': 3.4426314088678944e-07, 'epoch': 0.84} {'loss': 2.4259, 'grad_norm': 2.079970121383667, 'learning_rate': 3.440431895186633e-07, 'epoch': 0.84} {'loss': 2.4968, 'grad_norm': 1.677577018737793, 'learning_rate': 3.438233032448357e-07, 'epoch': 0.84} {'loss': 2.4342, 'grad_norm': 1.979670763015747, 'learning_rate': 3.436034820719447e-07, 'epoch': 0.84} {'loss': 2.2465, 'grad_norm': 2.0406293869018555, 'learning_rate': 3.4338372600662836e-07, 'epoch': 0.84} {'loss': 2.3656, 'grad_norm': 3.0675711631774902, 'learning_rate': 3.4316403505552045e-07, 'epoch': 0.84} {'loss': 2.2116, 'grad_norm': 1.5246200561523438, 'learning_rate': 3.429444092252554e-07, 'epoch': 0.84} {'loss': 2.1862, 'grad_norm': 1.9434897899627686, 'learning_rate': 3.427248485224638e-07, 'epoch': 0.84} {'loss': 2.2109, 'grad_norm': 1.719137191772461, 'learning_rate': 3.425053529537739e-07, 'epoch': 0.84} {'loss': 2.0897, 'grad_norm': 1.7691097259521484, 'learning_rate': 3.42285922525814e-07, 'epoch': 0.84} {'loss': 2.3254, 'grad_norm': 1.6040796041488647, 'learning_rate': 3.420665572452092e-07, 'epoch': 0.84} {'loss': 2.081, 'grad_norm': 1.6060395240783691, 'learning_rate': 3.4184725711858213e-07, 'epoch': 0.84} {'loss': 2.0979, 'grad_norm': 1.7148112058639526, 'learning_rate': 3.41628022152555e-07, 'epoch': 0.84} {'loss': 2.2772, 'grad_norm': 1.7486120462417603, 'learning_rate': 3.4140885235374595e-07, 'epoch': 0.84} {'loss': 2.448, 'grad_norm': 1.9287612438201904, 'learning_rate': 3.4118974772877347e-07, 'epoch': 0.84} {'loss': 2.2125, 'grad_norm': 1.5711562633514404, 'learning_rate': 3.4097070828425255e-07, 'epoch': 0.84} {'loss': 2.117, 'grad_norm': 1.4151618480682373, 'learning_rate': 3.4075173402679575e-07, 'epoch': 0.84} {'loss': 2.3941, 'grad_norm': 1.5427907705307007, 'learning_rate': 3.4053282496301576e-07, 'epoch': 0.84} {'loss': 2.1831, 'grad_norm': 1.5910375118255615, 'learning_rate': 3.4031398109952097e-07, 'epoch': 0.84} {'loss': 2.4531, 'grad_norm': 1.7237528562545776, 'learning_rate': 3.4009520244291993e-07, 'epoch': 0.84} {'loss': 2.1323, 'grad_norm': 7.797525882720947, 'learning_rate': 3.398764889998171e-07, 'epoch': 0.84} {'loss': 2.0664, 'grad_norm': 1.4917802810668945, 'learning_rate': 3.396578407768167e-07, 'epoch': 0.84} {'loss': 2.0396, 'grad_norm': 1.5642226934432983, 'learning_rate': 3.3943925778052083e-07, 'epoch': 0.84} {'loss': 1.896, 'grad_norm': 1.4897205829620361, 'learning_rate': 3.392207400175279e-07, 'epoch': 0.84} {'loss': 2.0838, 'grad_norm': 1.823625087738037, 'learning_rate': 3.390022874944371e-07, 'epoch': 0.84} {'loss': 2.1459, 'grad_norm': 1.276033878326416, 'learning_rate': 3.3878390021784224e-07, 'epoch': 0.84} {'loss': 2.1566, 'grad_norm': 1.9688522815704346, 'learning_rate': 3.385655781943381e-07, 'epoch': 0.84} {'loss': 2.1347, 'grad_norm': 3.044516086578369, 'learning_rate': 3.3834732143051665e-07, 'epoch': 0.84} {'loss': 2.35, 'grad_norm': 2.987055540084839, 'learning_rate': 3.381291299329667e-07, 'epoch': 0.84} {'loss': 2.3597, 'grad_norm': 1.8519933223724365, 'learning_rate': 3.379110037082775e-07, 'epoch': 0.84} {'loss': 2.0659, 'grad_norm': 1.6643608808517456, 'learning_rate': 3.376929427630335e-07, 'epoch': 0.84} {'loss': 2.1499, 'grad_norm': 1.4739402532577515, 'learning_rate': 3.374749471038194e-07, 'epoch': 0.84} {'loss': 2.0181, 'grad_norm': 1.4130916595458984, 'learning_rate': 3.3725701673721636e-07, 'epoch': 0.84} {'loss': 1.8646, 'grad_norm': 1.492770791053772, 'learning_rate': 3.3703915166980543e-07, 'epoch': 0.84} {'loss': 2.328, 'grad_norm': 1.669695496559143, 'learning_rate': 3.3682135190816395e-07, 'epoch': 0.84} {'loss': 2.4912, 'grad_norm': 1.5043480396270752, 'learning_rate': 3.3660361745886716e-07, 'epoch': 0.84} {'loss': 2.4411, 'grad_norm': 1.7983863353729248, 'learning_rate': 3.3638594832849036e-07, 'epoch': 0.84} {'loss': 2.2503, 'grad_norm': 1.599223256111145, 'learning_rate': 3.3616834452360416e-07, 'epoch': 0.84} {'loss': 2.3274, 'grad_norm': 1.8195908069610596, 'learning_rate': 3.359508060507796e-07, 'epoch': 0.84} {'loss': 2.1785, 'grad_norm': 1.530292272567749, 'learning_rate': 3.3573333291658517e-07, 'epoch': 0.84} {'loss': 2.0975, 'grad_norm': 1.8423960208892822, 'learning_rate': 3.3551592512758605e-07, 'epoch': 0.84} {'loss': 2.4846, 'grad_norm': 1.7817702293395996, 'learning_rate': 3.352985826903471e-07, 'epoch': 0.84} {'loss': 2.2287, 'grad_norm': 1.4664983749389648, 'learning_rate': 3.350813056114299e-07, 'epoch': 0.84} {'loss': 2.3588, 'grad_norm': 1.5849964618682861, 'learning_rate': 3.348640938973946e-07, 'epoch': 0.84} {'loss': 2.3032, 'grad_norm': 1.6879414319992065, 'learning_rate': 3.346469475548003e-07, 'epoch': 0.84} {'loss': 2.273, 'grad_norm': 1.7905458211898804, 'learning_rate': 3.344298665902018e-07, 'epoch': 0.84} {'loss': 1.8702, 'grad_norm': 1.447131633758545, 'learning_rate': 3.34212851010155e-07, 'epoch': 0.84} {'loss': 2.225, 'grad_norm': 1.5911850929260254, 'learning_rate': 3.33995900821211e-07, 'epoch': 0.84} {'loss': 2.2037, 'grad_norm': 1.373545527458191, 'learning_rate': 3.337790160299209e-07, 'epoch': 0.84} {'loss': 2.163, 'grad_norm': 1.3938374519348145, 'learning_rate': 3.3356219664283205e-07, 'epoch': 0.84} {'loss': 2.2648, 'grad_norm': 1.6510754823684692, 'learning_rate': 3.333454426664917e-07, 'epoch': 0.84} {'loss': 2.2256, 'grad_norm': 1.6818032264709473, 'learning_rate': 3.331287541074449e-07, 'epoch': 0.84} {'loss': 2.2874, 'grad_norm': 1.6487957239151, 'learning_rate': 3.329121309722322e-07, 'epoch': 0.84} {'loss': 2.1829, 'grad_norm': 1.631932258605957, 'learning_rate': 3.326955732673956e-07, 'epoch': 0.84} {'loss': 2.3704, 'grad_norm': 1.738656997680664, 'learning_rate': 3.324790809994727e-07, 'epoch': 0.84} {'loss': 2.2781, 'grad_norm': 1.8889716863632202, 'learning_rate': 3.3226265417500016e-07, 'epoch': 0.84} {'loss': 2.0225, 'grad_norm': 1.4508426189422607, 'learning_rate': 3.3204629280051306e-07, 'epoch': 0.84} {'loss': 2.1703, 'grad_norm': 1.856797218322754, 'learning_rate': 3.3182999688254307e-07, 'epoch': 0.84} {'loss': 1.8742, 'grad_norm': 1.4915838241577148, 'learning_rate': 3.31613766427622e-07, 'epoch': 0.84} {'loss': 2.1172, 'grad_norm': 1.6663070917129517, 'learning_rate': 3.313976014422776e-07, 'epoch': 0.84} {'loss': 2.1985, 'grad_norm': 1.8466130495071411, 'learning_rate': 3.311815019330361e-07, 'epoch': 0.84} {'loss': 2.2027, 'grad_norm': 1.768500804901123, 'learning_rate': 3.309654679064231e-07, 'epoch': 0.84} {'loss': 2.372, 'grad_norm': 2.2433807849884033, 'learning_rate': 3.307494993689603e-07, 'epoch': 0.84} {'loss': 2.3362, 'grad_norm': 1.6685996055603027, 'learning_rate': 3.305335963271694e-07, 'epoch': 0.84} {'loss': 2.2529, 'grad_norm': 1.3224725723266602, 'learning_rate': 3.3031775878756803e-07, 'epoch': 0.84} {'loss': 1.9922, 'grad_norm': 5.302328109741211, 'learning_rate': 3.3010198675667404e-07, 'epoch': 0.84} {'loss': 1.9435, 'grad_norm': 1.7193752527236938, 'learning_rate': 3.2988628024100105e-07, 'epoch': 0.84} {'loss': 2.3389, 'grad_norm': 5.2610626220703125, 'learning_rate': 3.296706392470625e-07, 'epoch': 0.84} {'loss': 2.2122, 'grad_norm': 1.7173357009887695, 'learning_rate': 3.294550637813701e-07, 'epoch': 0.84} {'loss': 2.1405, 'grad_norm': 1.754075527191162, 'learning_rate': 3.2923955385043063e-07, 'epoch': 0.84} {'loss': 2.1683, 'grad_norm': 2.0485527515411377, 'learning_rate': 3.290241094607524e-07, 'epoch': 0.84} {'loss': 2.4239, 'grad_norm': 1.8615632057189941, 'learning_rate': 3.288087306188395e-07, 'epoch': 0.84} {'loss': 2.3292, 'grad_norm': 1.8250339031219482, 'learning_rate': 3.28593417331195e-07, 'epoch': 0.84} {'loss': 2.3813, 'grad_norm': 1.7960505485534668, 'learning_rate': 3.2837816960432064e-07, 'epoch': 0.84} {'loss': 2.3871, 'grad_norm': 1.565446138381958, 'learning_rate': 3.2816298744471425e-07, 'epoch': 0.84} {'loss': 2.2396, 'grad_norm': 1.5066450834274292, 'learning_rate': 3.279478708588735e-07, 'epoch': 0.84} {'loss': 2.1741, 'grad_norm': 1.6529377698898315, 'learning_rate': 3.277328198532925e-07, 'epoch': 0.84} {'loss': 2.1974, 'grad_norm': 1.9043489694595337, 'learning_rate': 3.2751783443446537e-07, 'epoch': 0.84} {'loss': 2.3586, 'grad_norm': 1.915931224822998, 'learning_rate': 3.273029146088827e-07, 'epoch': 0.84} {'loss': 2.2633, 'grad_norm': 1.9160058498382568, 'learning_rate': 3.270880603830326e-07, 'epoch': 0.84} {'loss': 2.3403, 'grad_norm': 1.8925052881240845, 'learning_rate': 3.2687327176340324e-07, 'epoch': 0.84} {'loss': 1.4107, 'grad_norm': 1.7690786123275757, 'learning_rate': 3.266585487564791e-07, 'epoch': 0.84} {'loss': 2.2463, 'grad_norm': 1.7510093450546265, 'learning_rate': 3.264438913687437e-07, 'epoch': 0.84} {'loss': 2.2357, 'grad_norm': 1.6594568490982056, 'learning_rate': 3.2622929960667764e-07, 'epoch': 0.84} {'loss': 2.1499, 'grad_norm': 1.7446423768997192, 'learning_rate': 3.260147734767602e-07, 'epoch': 0.84} {'loss': 1.6044, 'grad_norm': 1.482185959815979, 'learning_rate': 3.2580031298546893e-07, 'epoch': 0.84} {'loss': 2.2523, 'grad_norm': 2.0306801795959473, 'learning_rate': 3.2558591813927896e-07, 'epoch': 0.84} {'loss': 2.2541, 'grad_norm': 1.6960055828094482, 'learning_rate': 3.253715889446624e-07, 'epoch': 0.84} {'loss': 1.994, 'grad_norm': 1.3942950963974, 'learning_rate': 3.2515732540809197e-07, 'epoch': 0.84} {'loss': 2.3834, 'grad_norm': 1.7658140659332275, 'learning_rate': 3.249431275360354e-07, 'epoch': 0.84} {'loss': 2.3218, 'grad_norm': 1.6167271137237549, 'learning_rate': 3.247289953349614e-07, 'epoch': 0.84} {'loss': 2.3165, 'grad_norm': 1.6132022142410278, 'learning_rate': 3.245149288113336e-07, 'epoch': 0.84} {'loss': 2.1627, 'grad_norm': 1.7364877462387085, 'learning_rate': 3.243009279716169e-07, 'epoch': 0.84} {'loss': 2.1538, 'grad_norm': 1.324291467666626, 'learning_rate': 3.240869928222712e-07, 'epoch': 0.84} {'loss': 2.2012, 'grad_norm': 1.604109764099121, 'learning_rate': 3.238731233697567e-07, 'epoch': 0.84} {'loss': 2.2807, 'grad_norm': 1.7068160772323608, 'learning_rate': 3.2365931962053067e-07, 'epoch': 0.84} {'loss': 2.1646, 'grad_norm': 1.7548375129699707, 'learning_rate': 3.234455815810475e-07, 'epoch': 0.84} {'loss': 2.4029, 'grad_norm': 3.2945542335510254, 'learning_rate': 3.232319092577618e-07, 'epoch': 0.84} {'loss': 2.0041, 'grad_norm': 1.489230751991272, 'learning_rate': 3.2301830265712374e-07, 'epoch': 0.84} {'loss': 1.5248, 'grad_norm': 1.733586311340332, 'learning_rate': 3.228047617855837e-07, 'epoch': 0.84} {'loss': 2.1318, 'grad_norm': 1.6532950401306152, 'learning_rate': 3.225912866495881e-07, 'epoch': 0.84} {'loss': 2.4318, 'grad_norm': 1.8134925365447998, 'learning_rate': 3.22377877255583e-07, 'epoch': 0.84} {'loss': 2.2534, 'grad_norm': 1.7037216424942017, 'learning_rate': 3.221645336100124e-07, 'epoch': 0.84} {'loss': 2.2535, 'grad_norm': 2.195728063583374, 'learning_rate': 3.219512557193166e-07, 'epoch': 0.84} {'loss': 1.6463, 'grad_norm': 1.632063865661621, 'learning_rate': 3.2173804358993533e-07, 'epoch': 0.84} {'loss': 2.5392, 'grad_norm': 1.8294676542282104, 'learning_rate': 3.215248972283067e-07, 'epoch': 0.84} {'loss': 2.1323, 'grad_norm': 2.4646737575531006, 'learning_rate': 3.213118166408652e-07, 'epoch': 0.84} {'loss': 2.3545, 'grad_norm': 1.9998910427093506, 'learning_rate': 3.2109880183404526e-07, 'epoch': 0.84} {'loss': 2.3628, 'grad_norm': 1.8627194166183472, 'learning_rate': 3.208858528142772e-07, 'epoch': 0.84} {'loss': 2.2628, 'grad_norm': 1.7585182189941406, 'learning_rate': 3.2067296958799206e-07, 'epoch': 0.84} {'loss': 2.1861, 'grad_norm': 1.5660520792007446, 'learning_rate': 3.20460152161616e-07, 'epoch': 0.84} {'loss': 2.3291, 'grad_norm': 1.690183401107788, 'learning_rate': 3.2024740054157594e-07, 'epoch': 0.84} {'loss': 2.1447, 'grad_norm': 2.003812313079834, 'learning_rate': 3.2003471473429444e-07, 'epoch': 0.84} {'loss': 2.2278, 'grad_norm': 1.7098112106323242, 'learning_rate': 3.1982209474619276e-07, 'epoch': 0.84} {'loss': 2.2521, 'grad_norm': 1.9322247505187988, 'learning_rate': 3.196095405836916e-07, 'epoch': 0.84} {'loss': 2.2209, 'grad_norm': 2.5931355953216553, 'learning_rate': 3.193970522532075e-07, 'epoch': 0.84} {'loss': 2.3673, 'grad_norm': 1.834768295288086, 'learning_rate': 3.1918462976115645e-07, 'epoch': 0.84} {'loss': 2.2684, 'grad_norm': 1.3335683345794678, 'learning_rate': 3.1897227311395303e-07, 'epoch': 0.84} {'loss': 2.4295, 'grad_norm': 1.5251072645187378, 'learning_rate': 3.187599823180071e-07, 'epoch': 0.84} {'loss': 2.1816, 'grad_norm': 1.492404818534851, 'learning_rate': 3.185477573797299e-07, 'epoch': 0.84} {'loss': 2.1714, 'grad_norm': 1.6806986331939697, 'learning_rate': 3.183355983055278e-07, 'epoch': 0.84} {'loss': 2.1923, 'grad_norm': 1.8986364603042603, 'learning_rate': 3.181235051018078e-07, 'epoch': 0.84} {'loss': 1.9794, 'grad_norm': 1.6403045654296875, 'learning_rate': 3.179114777749728e-07, 'epoch': 0.84} {'loss': 2.0731, 'grad_norm': 3.8976495265960693, 'learning_rate': 3.176995163314239e-07, 'epoch': 0.84} {'loss': 2.1776, 'grad_norm': 1.7030818462371826, 'learning_rate': 3.1748762077756207e-07, 'epoch': 0.84} {'loss': 2.3144, 'grad_norm': 1.9368648529052734, 'learning_rate': 3.172757911197841e-07, 'epoch': 0.84} {'loss': 1.8845, 'grad_norm': 1.3957619667053223, 'learning_rate': 3.170640273644862e-07, 'epoch': 0.84} {'loss': 2.122, 'grad_norm': 1.767013430595398, 'learning_rate': 3.168523295180617e-07, 'epoch': 0.84} {'loss': 2.2942, 'grad_norm': 1.4597476720809937, 'learning_rate': 3.166406975869024e-07, 'epoch': 0.84} {'loss': 2.3083, 'grad_norm': 1.7380391359329224, 'learning_rate': 3.1642913157739876e-07, 'epoch': 0.84} {'loss': 2.4231, 'grad_norm': 1.7485772371292114, 'learning_rate': 3.162176314959381e-07, 'epoch': 0.84} {'loss': 2.1494, 'grad_norm': 1.3860194683074951, 'learning_rate': 3.160061973489059e-07, 'epoch': 0.84} {'loss': 1.8109, 'grad_norm': 1.6728545427322388, 'learning_rate': 3.157948291426857e-07, 'epoch': 0.84} {'loss': 2.1976, 'grad_norm': 1.5432907342910767, 'learning_rate': 3.1558352688365987e-07, 'epoch': 0.84} {'loss': 1.9235, 'grad_norm': 1.389695644378662, 'learning_rate': 3.153722905782086e-07, 'epoch': 0.84} {'loss': 2.2603, 'grad_norm': 1.7224678993225098, 'learning_rate': 3.1516112023270844e-07, 'epoch': 0.84} {'loss': 2.2703, 'grad_norm': 2.0440685749053955, 'learning_rate': 3.149500158535365e-07, 'epoch': 0.84} {'loss': 2.1391, 'grad_norm': 1.8521250486373901, 'learning_rate': 3.1473897744706576e-07, 'epoch': 0.84} {'loss': 2.3762, 'grad_norm': 1.7356024980545044, 'learning_rate': 3.1452800501966865e-07, 'epoch': 0.84} {'loss': 2.0038, 'grad_norm': 2.041280508041382, 'learning_rate': 3.1431709857771467e-07, 'epoch': 0.84} {'loss': 2.402, 'grad_norm': 1.705445647239685, 'learning_rate': 3.141062581275714e-07, 'epoch': 0.84} {'loss': 2.1032, 'grad_norm': 1.4869580268859863, 'learning_rate': 3.138954836756053e-07, 'epoch': 0.84} {'loss': 2.2493, 'grad_norm': 1.480661153793335, 'learning_rate': 3.1368477522817934e-07, 'epoch': 0.84} {'loss': 2.1403, 'grad_norm': 1.4092191457748413, 'learning_rate': 3.134741327916568e-07, 'epoch': 0.84} {'loss': 2.6499, 'grad_norm': 1.693042516708374, 'learning_rate': 3.13263556372396e-07, 'epoch': 0.84} {'loss': 2.334, 'grad_norm': 1.7565892934799194, 'learning_rate': 3.1305304597675556e-07, 'epoch': 0.84} {'loss': 2.3635, 'grad_norm': 1.5196762084960938, 'learning_rate': 3.128426016110919e-07, 'epoch': 0.84} {'loss': 2.4275, 'grad_norm': 1.547917127609253, 'learning_rate': 3.1263222328175776e-07, 'epoch': 0.84} {'loss': 2.089, 'grad_norm': 1.4170129299163818, 'learning_rate': 3.124219109951071e-07, 'epoch': 0.84} {'loss': 2.375, 'grad_norm': 1.6218088865280151, 'learning_rate': 3.1221166475748686e-07, 'epoch': 0.84} {'loss': 1.3156, 'grad_norm': 1.713258981704712, 'learning_rate': 3.1200148457524673e-07, 'epoch': 0.84} {'loss': 2.1765, 'grad_norm': 1.3826619386672974, 'learning_rate': 3.117913704547329e-07, 'epoch': 0.84} {'loss': 2.2206, 'grad_norm': 1.6418442726135254, 'learning_rate': 3.115813224022884e-07, 'epoch': 0.84} {'loss': 2.4608, 'grad_norm': 1.8149012327194214, 'learning_rate': 3.1137134042425604e-07, 'epoch': 0.84} {'loss': 2.4594, 'grad_norm': 1.7644519805908203, 'learning_rate': 3.111614245269745e-07, 'epoch': 0.84} {'loss': 2.3006, 'grad_norm': 1.3635692596435547, 'learning_rate': 3.109515747167832e-07, 'epoch': 0.85} {'loss': 2.3212, 'grad_norm': 1.6945157051086426, 'learning_rate': 3.107417910000174e-07, 'epoch': 0.85} {'loss': 1.4154, 'grad_norm': 1.6607953310012817, 'learning_rate': 3.105320733830106e-07, 'epoch': 0.85} {'loss': 2.3463, 'grad_norm': 1.603776216506958, 'learning_rate': 3.103224218720954e-07, 'epoch': 0.85} {'loss': 2.2364, 'grad_norm': 1.3857423067092896, 'learning_rate': 3.1011283647360114e-07, 'epoch': 0.85} {'loss': 2.1177, 'grad_norm': 1.813324213027954, 'learning_rate': 3.0990331719385673e-07, 'epoch': 0.85} {'loss': 2.113, 'grad_norm': 1.6545579433441162, 'learning_rate': 3.0969386403918724e-07, 'epoch': 0.85} {'loss': 2.4979, 'grad_norm': 1.6470365524291992, 'learning_rate': 3.0948447701591694e-07, 'epoch': 0.85} {'loss': 2.4232, 'grad_norm': 1.9786267280578613, 'learning_rate': 3.092751561303681e-07, 'epoch': 0.85} {'loss': 2.2734, 'grad_norm': 1.5317789316177368, 'learning_rate': 3.090659013888603e-07, 'epoch': 0.85} {'loss': 2.2079, 'grad_norm': 1.600761890411377, 'learning_rate': 3.088567127977124e-07, 'epoch': 0.85} {'loss': 2.2021, 'grad_norm': 1.8750660419464111, 'learning_rate': 3.0864759036323885e-07, 'epoch': 0.85} {'loss': 2.3142, 'grad_norm': 1.982146143913269, 'learning_rate': 3.084385340917542e-07, 'epoch': 0.85} {'loss': 2.152, 'grad_norm': 1.687203288078308, 'learning_rate': 3.082295439895713e-07, 'epoch': 0.85} {'loss': 2.4921, 'grad_norm': 1.7353969812393188, 'learning_rate': 3.08020620062999e-07, 'epoch': 0.85} {'loss': 2.5118, 'grad_norm': 1.6537351608276367, 'learning_rate': 3.078117623183463e-07, 'epoch': 0.85} {'loss': 2.4192, 'grad_norm': 1.5548361539840698, 'learning_rate': 3.0760297076191826e-07, 'epoch': 0.85} {'loss': 2.2416, 'grad_norm': 1.839123010635376, 'learning_rate': 3.073942454000198e-07, 'epoch': 0.85} {'loss': 2.3443, 'grad_norm': 1.8240621089935303, 'learning_rate': 3.0718558623895193e-07, 'epoch': 0.85} {'loss': 2.1742, 'grad_norm': 1.6404496431350708, 'learning_rate': 3.069769932850156e-07, 'epoch': 0.85} {'loss': 2.2074, 'grad_norm': 1.5171823501586914, 'learning_rate': 3.067684665445084e-07, 'epoch': 0.85} {'loss': 2.1668, 'grad_norm': 1.9943313598632812, 'learning_rate': 3.065600060237256e-07, 'epoch': 0.85} {'loss': 2.1645, 'grad_norm': 3.594947338104248, 'learning_rate': 3.063516117289625e-07, 'epoch': 0.85} {'loss': 2.2111, 'grad_norm': 1.4012664556503296, 'learning_rate': 3.061432836665101e-07, 'epoch': 0.85} {'loss': 2.4604, 'grad_norm': 1.506935715675354, 'learning_rate': 3.0593502184265875e-07, 'epoch': 0.85} {'loss': 2.4702, 'grad_norm': 1.6994028091430664, 'learning_rate': 3.057268262636967e-07, 'epoch': 0.85} {'loss': 2.4226, 'grad_norm': 1.7041912078857422, 'learning_rate': 3.0551869693590945e-07, 'epoch': 0.85} {'loss': 2.1666, 'grad_norm': 1.8052629232406616, 'learning_rate': 3.05310633865582e-07, 'epoch': 0.85} {'loss': 2.277, 'grad_norm': 1.756907343864441, 'learning_rate': 3.0510263705899546e-07, 'epoch': 0.85} {'loss': 2.3445, 'grad_norm': 1.5361493825912476, 'learning_rate': 3.048947065224292e-07, 'epoch': 0.85} {'loss': 2.2569, 'grad_norm': 1.9446614980697632, 'learning_rate': 3.0468684226216293e-07, 'epoch': 0.85} {'loss': 2.223, 'grad_norm': 1.6467487812042236, 'learning_rate': 3.044790442844711e-07, 'epoch': 0.85} {'loss': 2.2417, 'grad_norm': 1.51865816116333, 'learning_rate': 3.042713125956287e-07, 'epoch': 0.85} {'loss': 2.2268, 'grad_norm': 1.544517159461975, 'learning_rate': 3.0406364720190706e-07, 'epoch': 0.85} {'loss': 2.2804, 'grad_norm': 1.7970445156097412, 'learning_rate': 3.0385604810957677e-07, 'epoch': 0.85} {'loss': 2.0533, 'grad_norm': 1.7339540719985962, 'learning_rate': 3.036485153249052e-07, 'epoch': 0.85} {'loss': 1.9294, 'grad_norm': 1.6542739868164062, 'learning_rate': 3.034410488541586e-07, 'epoch': 0.85} {'loss': 2.5058, 'grad_norm': 1.6418136358261108, 'learning_rate': 3.032336487036022e-07, 'epoch': 0.85} {'loss': 2.2448, 'grad_norm': 1.4726839065551758, 'learning_rate': 3.030263148794954e-07, 'epoch': 0.85} {'loss': 2.1397, 'grad_norm': 1.5686991214752197, 'learning_rate': 3.0281904738809985e-07, 'epoch': 0.85} {'loss': 2.2844, 'grad_norm': 1.2796375751495361, 'learning_rate': 3.026118462356739e-07, 'epoch': 0.85} {'loss': 2.0849, 'grad_norm': 1.6763479709625244, 'learning_rate': 3.0240471142847225e-07, 'epoch': 0.85} {'loss': 2.1989, 'grad_norm': 1.5857458114624023, 'learning_rate': 3.0219764297274996e-07, 'epoch': 0.85} {'loss': 2.1751, 'grad_norm': 1.5300588607788086, 'learning_rate': 3.0199064087475804e-07, 'epoch': 0.85} {'loss': 2.4408, 'grad_norm': 1.7982101440429688, 'learning_rate': 3.017837051407477e-07, 'epoch': 0.85} {'loss': 2.3241, 'grad_norm': 1.3796635866165161, 'learning_rate': 3.015768357769655e-07, 'epoch': 0.85} {'loss': 2.0429, 'grad_norm': 1.8038661479949951, 'learning_rate': 3.013700327896585e-07, 'epoch': 0.85} {'loss': 2.3059, 'grad_norm': 1.634885549545288, 'learning_rate': 3.011632961850702e-07, 'epoch': 0.85} {'loss': 2.1235, 'grad_norm': 1.900923728942871, 'learning_rate': 3.009566259694424e-07, 'epoch': 0.85} {'loss': 2.1976, 'grad_norm': 1.2812014818191528, 'learning_rate': 3.0075002214901535e-07, 'epoch': 0.85} {'loss': 2.2402, 'grad_norm': 1.7761027812957764, 'learning_rate': 3.0054348473002646e-07, 'epoch': 0.85} {'loss': 2.1839, 'grad_norm': 1.3547571897506714, 'learning_rate': 3.003370137187128e-07, 'epoch': 0.85} {'loss': 2.2355, 'grad_norm': 1.5393446683883667, 'learning_rate': 3.001306091213069e-07, 'epoch': 0.85} {'loss': 2.2199, 'grad_norm': 1.6658265590667725, 'learning_rate': 2.999242709440411e-07, 'epoch': 0.85} {'loss': 2.5832, 'grad_norm': 2.0503222942352295, 'learning_rate': 2.9971799919314705e-07, 'epoch': 0.85} {'loss': 2.1043, 'grad_norm': 1.6243010759353638, 'learning_rate': 2.9951179387484983e-07, 'epoch': 0.85} {'loss': 2.1611, 'grad_norm': 1.805090069770813, 'learning_rate': 2.9930565499537685e-07, 'epoch': 0.85} {'loss': 2.1732, 'grad_norm': 2.014655590057373, 'learning_rate': 2.9909958256095217e-07, 'epoch': 0.85} {'loss': 2.2259, 'grad_norm': 1.4750251770019531, 'learning_rate': 2.988935765777973e-07, 'epoch': 0.85} {'loss': 2.6108, 'grad_norm': 1.8452314138412476, 'learning_rate': 2.9868763705213243e-07, 'epoch': 0.85} {'loss': 2.258, 'grad_norm': 1.6574283838272095, 'learning_rate': 2.9848176399017463e-07, 'epoch': 0.85} {'loss': 2.2941, 'grad_norm': 1.7908860445022583, 'learning_rate': 2.9827595739814116e-07, 'epoch': 0.85} {'loss': 2.3744, 'grad_norm': 1.4783068895339966, 'learning_rate': 2.9807021728224447e-07, 'epoch': 0.85} {'loss': 1.5917, 'grad_norm': 1.7568073272705078, 'learning_rate': 2.978645436486974e-07, 'epoch': 0.85} {'loss': 2.2571, 'grad_norm': 1.402124047279358, 'learning_rate': 2.9765893650370967e-07, 'epoch': 0.85} {'loss': 2.3723, 'grad_norm': 1.5634936094284058, 'learning_rate': 2.974533958534884e-07, 'epoch': 0.85} {'loss': 2.3147, 'grad_norm': 1.761765480041504, 'learning_rate': 2.9724792170424037e-07, 'epoch': 0.85} {'loss': 2.2099, 'grad_norm': 1.723915696144104, 'learning_rate': 2.9704251406216854e-07, 'epoch': 0.85} {'loss': 2.0089, 'grad_norm': 1.4252076148986816, 'learning_rate': 2.9683717293347543e-07, 'epoch': 0.85} {'loss': 2.3562, 'grad_norm': 1.639357566833496, 'learning_rate': 2.966318983243607e-07, 'epoch': 0.85} {'loss': 1.3694, 'grad_norm': 1.491574764251709, 'learning_rate': 2.9642669024102177e-07, 'epoch': 0.85} {'loss': 2.219, 'grad_norm': 1.6149721145629883, 'learning_rate': 2.962215486896552e-07, 'epoch': 0.85} {'loss': 2.231, 'grad_norm': 1.5046157836914062, 'learning_rate': 2.9601647367645453e-07, 'epoch': 0.85} {'loss': 2.4275, 'grad_norm': 1.6301847696304321, 'learning_rate': 2.9581146520761076e-07, 'epoch': 0.85} {'loss': 2.2451, 'grad_norm': 1.7465168237686157, 'learning_rate': 2.956065232893146e-07, 'epoch': 0.85} {'loss': 2.0683, 'grad_norm': 1.627816081047058, 'learning_rate': 2.95401647927753e-07, 'epoch': 0.85} {'loss': 2.0153, 'grad_norm': 3.0882604122161865, 'learning_rate': 2.9519683912911267e-07, 'epoch': 0.85} {'loss': 2.3589, 'grad_norm': 1.5520668029785156, 'learning_rate': 2.9499209689957647e-07, 'epoch': 0.85} {'loss': 2.3999, 'grad_norm': 1.8072365522384644, 'learning_rate': 2.9478742124532697e-07, 'epoch': 0.85} {'loss': 2.1685, 'grad_norm': 1.9549745321273804, 'learning_rate': 2.9458281217254275e-07, 'epoch': 0.85} {'loss': 2.2059, 'grad_norm': 1.493072271347046, 'learning_rate': 2.9437826968740227e-07, 'epoch': 0.85} {'loss': 2.38, 'grad_norm': 1.483726143836975, 'learning_rate': 2.941737937960823e-07, 'epoch': 0.85} {'loss': 2.028, 'grad_norm': 1.5205150842666626, 'learning_rate': 2.9396938450475447e-07, 'epoch': 0.85} {'loss': 2.2103, 'grad_norm': 1.4042171239852905, 'learning_rate': 2.937650418195917e-07, 'epoch': 0.85} {'loss': 1.6501, 'grad_norm': 1.324625849723816, 'learning_rate': 2.9356076574676316e-07, 'epoch': 0.85} {'loss': 2.0954, 'grad_norm': 1.672429084777832, 'learning_rate': 2.9335655629243646e-07, 'epoch': 0.85} {'loss': 2.1172, 'grad_norm': 1.8699378967285156, 'learning_rate': 2.9315241346277806e-07, 'epoch': 0.85} {'loss': 2.2396, 'grad_norm': 1.6464970111846924, 'learning_rate': 2.929483372639505e-07, 'epoch': 0.85} {'loss': 2.2099, 'grad_norm': 2.3082759380340576, 'learning_rate': 2.9274432770211634e-07, 'epoch': 0.85} {'loss': 2.1815, 'grad_norm': 1.9579403400421143, 'learning_rate': 2.925403847834346e-07, 'epoch': 0.85} {'loss': 2.4255, 'grad_norm': 1.5988881587982178, 'learning_rate': 2.9233650851406336e-07, 'epoch': 0.85} {'loss': 2.1722, 'grad_norm': 1.2377606630325317, 'learning_rate': 2.92132698900158e-07, 'epoch': 0.85} {'loss': 2.4479, 'grad_norm': 1.6488991975784302, 'learning_rate': 2.9192895594787165e-07, 'epoch': 0.85} {'loss': 2.2037, 'grad_norm': 1.5968780517578125, 'learning_rate': 2.9172527966335656e-07, 'epoch': 0.85} {'loss': 2.3639, 'grad_norm': 1.6530001163482666, 'learning_rate': 2.915216700527615e-07, 'epoch': 0.85} {'loss': 2.5154, 'grad_norm': 1.6317051649093628, 'learning_rate': 2.913181271222348e-07, 'epoch': 0.85} {'loss': 2.3013, 'grad_norm': 1.3596910238265991, 'learning_rate': 2.911146508779214e-07, 'epoch': 0.85} {'loss': 2.2477, 'grad_norm': 1.671700119972229, 'learning_rate': 2.9091124132596486e-07, 'epoch': 0.85} {'loss': 2.4802, 'grad_norm': 1.7336703538894653, 'learning_rate': 2.907078984725076e-07, 'epoch': 0.85} {'loss': 2.4003, 'grad_norm': 2.414985179901123, 'learning_rate': 2.905046223236882e-07, 'epoch': 0.85} {'loss': 2.1964, 'grad_norm': 1.4375945329666138, 'learning_rate': 2.9030141288564435e-07, 'epoch': 0.85} {'loss': 2.322, 'grad_norm': 1.6066378355026245, 'learning_rate': 2.9009827016451106e-07, 'epoch': 0.85} {'loss': 1.9988, 'grad_norm': 1.7930182218551636, 'learning_rate': 2.8989519416642213e-07, 'epoch': 0.85} {'loss': 2.244, 'grad_norm': 1.6615678071975708, 'learning_rate': 2.896921848975096e-07, 'epoch': 0.85} {'loss': 2.1464, 'grad_norm': 1.8212344646453857, 'learning_rate': 2.8948924236390175e-07, 'epoch': 0.85} {'loss': 2.2664, 'grad_norm': 5.527353286743164, 'learning_rate': 2.8928636657172714e-07, 'epoch': 0.85} {'loss': 2.3078, 'grad_norm': 4.753652095794678, 'learning_rate': 2.8908355752710975e-07, 'epoch': 0.85} {'loss': 1.9899, 'grad_norm': 1.7412059307098389, 'learning_rate': 2.8888081523617467e-07, 'epoch': 0.85} {'loss': 1.5823, 'grad_norm': 1.3804327249526978, 'learning_rate': 2.88678139705042e-07, 'epoch': 0.85} {'loss': 1.9603, 'grad_norm': 1.691915512084961, 'learning_rate': 2.88475530939831e-07, 'epoch': 0.85} {'loss': 2.3732, 'grad_norm': 1.7249228954315186, 'learning_rate': 2.8827298894666013e-07, 'epoch': 0.85} {'loss': 1.1246, 'grad_norm': 1.4583579301834106, 'learning_rate': 2.880705137316431e-07, 'epoch': 0.85} {'loss': 2.2283, 'grad_norm': 1.577338695526123, 'learning_rate': 2.878681053008947e-07, 'epoch': 0.85} {'loss': 2.1972, 'grad_norm': 1.6961314678192139, 'learning_rate': 2.876657636605251e-07, 'epoch': 0.85} {'loss': 2.4836, 'grad_norm': 1.7581549882888794, 'learning_rate': 2.874634888166439e-07, 'epoch': 0.85} {'loss': 2.0937, 'grad_norm': 1.6714547872543335, 'learning_rate': 2.8726128077535917e-07, 'epoch': 0.85} {'loss': 2.0608, 'grad_norm': 1.4117066860198975, 'learning_rate': 2.870591395427752e-07, 'epoch': 0.85} {'loss': 2.1136, 'grad_norm': 1.4586241245269775, 'learning_rate': 2.868570651249955e-07, 'epoch': 0.85} {'loss': 2.333, 'grad_norm': 1.8244272470474243, 'learning_rate': 2.8665505752812045e-07, 'epoch': 0.85} {'loss': 2.2506, 'grad_norm': 1.5450690984725952, 'learning_rate': 2.864531167582502e-07, 'epoch': 0.85} {'loss': 2.334, 'grad_norm': 1.7741389274597168, 'learning_rate': 2.862512428214817e-07, 'epoch': 0.85} {'loss': 2.1227, 'grad_norm': 1.6830205917358398, 'learning_rate': 2.8604943572390994e-07, 'epoch': 0.85} {'loss': 2.1315, 'grad_norm': 1.9218041896820068, 'learning_rate': 2.8584769547162857e-07, 'epoch': 0.85} {'loss': 2.4057, 'grad_norm': 1.7187610864639282, 'learning_rate': 2.8564602207072745e-07, 'epoch': 0.85} {'loss': 2.4952, 'grad_norm': 1.8375952243804932, 'learning_rate': 2.8544441552729704e-07, 'epoch': 0.85} {'loss': 2.1374, 'grad_norm': 1.7222999334335327, 'learning_rate': 2.852428758474238e-07, 'epoch': 0.85} {'loss': 2.0275, 'grad_norm': 1.3650559186935425, 'learning_rate': 2.850414030371923e-07, 'epoch': 0.85} {'loss': 2.223, 'grad_norm': 1.5461088418960571, 'learning_rate': 2.848399971026863e-07, 'epoch': 0.85} {'loss': 2.0415, 'grad_norm': 1.7506717443466187, 'learning_rate': 2.846386580499863e-07, 'epoch': 0.85} {'loss': 1.9579, 'grad_norm': 1.5984760522842407, 'learning_rate': 2.844373858851718e-07, 'epoch': 0.85} {'loss': 2.3221, 'grad_norm': 1.5824098587036133, 'learning_rate': 2.8423618061431903e-07, 'epoch': 0.85} {'loss': 2.1425, 'grad_norm': 1.589115023612976, 'learning_rate': 2.840350422435034e-07, 'epoch': 0.85} {'loss': 2.0252, 'grad_norm': 1.824815034866333, 'learning_rate': 2.838339707787982e-07, 'epoch': 0.85} {'loss': 2.1907, 'grad_norm': 1.586885929107666, 'learning_rate': 2.836329662262735e-07, 'epoch': 0.85} {'loss': 2.0743, 'grad_norm': 1.7115107774734497, 'learning_rate': 2.834320285919992e-07, 'epoch': 0.85} {'loss': 2.0295, 'grad_norm': 1.6555769443511963, 'learning_rate': 2.8323115788204123e-07, 'epoch': 0.85} {'loss': 2.2152, 'grad_norm': 2.212637186050415, 'learning_rate': 2.8303035410246454e-07, 'epoch': 0.85} {'loss': 2.3407, 'grad_norm': 1.5648465156555176, 'learning_rate': 2.8282961725933283e-07, 'epoch': 0.85} {'loss': 2.2615, 'grad_norm': 2.035313606262207, 'learning_rate': 2.826289473587057e-07, 'epoch': 0.85} {'loss': 2.5279, 'grad_norm': 1.9058077335357666, 'learning_rate': 2.824283444066428e-07, 'epoch': 0.85} {'loss': 2.3641, 'grad_norm': 1.759621500968933, 'learning_rate': 2.822278084092001e-07, 'epoch': 0.85} {'loss': 1.9874, 'grad_norm': 1.6348094940185547, 'learning_rate': 2.820273393724335e-07, 'epoch': 0.85} {'loss': 1.8489, 'grad_norm': 1.3336153030395508, 'learning_rate': 2.8182693730239434e-07, 'epoch': 0.85} {'loss': 2.3358, 'grad_norm': 1.651572585105896, 'learning_rate': 2.816266022051345e-07, 'epoch': 0.85} {'loss': 1.9773, 'grad_norm': 1.363383173942566, 'learning_rate': 2.814263340867024e-07, 'epoch': 0.85} {'loss': 2.2035, 'grad_norm': 1.6589627265930176, 'learning_rate': 2.8122613295314376e-07, 'epoch': 0.85} {'loss': 2.3643, 'grad_norm': 1.768251895904541, 'learning_rate': 2.8102599881050434e-07, 'epoch': 0.85} {'loss': 2.2803, 'grad_norm': 1.5781030654907227, 'learning_rate': 2.8082593166482596e-07, 'epoch': 0.85} {'loss': 1.9785, 'grad_norm': 1.2705868482589722, 'learning_rate': 2.8062593152214933e-07, 'epoch': 0.85} {'loss': 2.2411, 'grad_norm': 2.466493844985962, 'learning_rate': 2.804259983885138e-07, 'epoch': 0.85} {'loss': 2.4455, 'grad_norm': 1.882141351699829, 'learning_rate': 2.802261322699548e-07, 'epoch': 0.85} {'loss': 2.1542, 'grad_norm': 1.4383032321929932, 'learning_rate': 2.8002633317250783e-07, 'epoch': 0.85} {'loss': 2.1909, 'grad_norm': 1.7335577011108398, 'learning_rate': 2.7982660110220494e-07, 'epoch': 0.85} {'loss': 2.2739, 'grad_norm': 1.8347539901733398, 'learning_rate': 2.796269360650761e-07, 'epoch': 0.85} {'loss': 2.4061, 'grad_norm': 1.268841028213501, 'learning_rate': 2.7942733806715054e-07, 'epoch': 0.85} {'loss': 2.4724, 'grad_norm': 1.4001803398132324, 'learning_rate': 2.792278071144539e-07, 'epoch': 0.85} {'loss': 2.3835, 'grad_norm': 1.7236872911453247, 'learning_rate': 2.790283432130117e-07, 'epoch': 0.85} {'loss': 2.2959, 'grad_norm': 1.611515998840332, 'learning_rate': 2.7882894636884484e-07, 'epoch': 0.85} {'loss': 2.1004, 'grad_norm': 1.4994456768035889, 'learning_rate': 2.786296165879751e-07, 'epoch': 0.85} {'loss': 2.4072, 'grad_norm': 1.8291012048721313, 'learning_rate': 2.7843035387641964e-07, 'epoch': 0.85} {'loss': 2.2134, 'grad_norm': 1.8811873197555542, 'learning_rate': 2.782311582401956e-07, 'epoch': 0.85} {'loss': 2.4292, 'grad_norm': 1.725987434387207, 'learning_rate': 2.78032029685317e-07, 'epoch': 0.85} {'loss': 2.4113, 'grad_norm': 1.7250950336456299, 'learning_rate': 2.778329682177955e-07, 'epoch': 0.85} {'loss': 2.2683, 'grad_norm': 2.085588216781616, 'learning_rate': 2.776339738436418e-07, 'epoch': 0.85} {'loss': 2.3945, 'grad_norm': 1.8832883834838867, 'learning_rate': 2.7743504656886437e-07, 'epoch': 0.85} {'loss': 2.1424, 'grad_norm': 1.9721564054489136, 'learning_rate': 2.7723618639946883e-07, 'epoch': 0.85} {'loss': 1.9588, 'grad_norm': 1.5207239389419556, 'learning_rate': 2.7703739334146023e-07, 'epoch': 0.85} {'loss': 2.4147, 'grad_norm': 1.8152029514312744, 'learning_rate': 2.7683866740083914e-07, 'epoch': 0.85} {'loss': 2.2396, 'grad_norm': 1.7348921298980713, 'learning_rate': 2.7664000858360713e-07, 'epoch': 0.85} {'loss': 2.3015, 'grad_norm': 1.963729977607727, 'learning_rate': 2.7644141689576186e-07, 'epoch': 0.85} {'loss': 2.5043, 'grad_norm': 1.828795313835144, 'learning_rate': 2.762428923432986e-07, 'epoch': 0.85} {'loss': 2.2596, 'grad_norm': 1.6093240976333618, 'learning_rate': 2.7604443493221224e-07, 'epoch': 0.85} {'loss': 2.6464, 'grad_norm': 1.8116083145141602, 'learning_rate': 2.758460446684941e-07, 'epoch': 0.85} {'loss': 2.4193, 'grad_norm': 1.6785274744033813, 'learning_rate': 2.756477215581349e-07, 'epoch': 0.85} {'loss': 2.5117, 'grad_norm': 1.7066155672073364, 'learning_rate': 2.754494656071219e-07, 'epoch': 0.85} {'loss': 2.2276, 'grad_norm': 1.9777531623840332, 'learning_rate': 2.7525127682144075e-07, 'epoch': 0.85} {'loss': 1.9328, 'grad_norm': 1.7449896335601807, 'learning_rate': 2.7505315520707677e-07, 'epoch': 0.85} {'loss': 2.4462, 'grad_norm': 1.7954531908035278, 'learning_rate': 2.7485510077000983e-07, 'epoch': 0.85} {'loss': 2.1304, 'grad_norm': 2.408289670944214, 'learning_rate': 2.746571135162221e-07, 'epoch': 0.85} {'loss': 2.2436, 'grad_norm': 1.8317689895629883, 'learning_rate': 2.744591934516888e-07, 'epoch': 0.85} {'loss': 2.378, 'grad_norm': 1.4583982229232788, 'learning_rate': 2.7426134058238715e-07, 'epoch': 0.85} {'loss': 2.0292, 'grad_norm': 1.414040446281433, 'learning_rate': 2.740635549142909e-07, 'epoch': 0.85} {'loss': 1.3713, 'grad_norm': 1.6147465705871582, 'learning_rate': 2.738658364533711e-07, 'epoch': 0.85} {'loss': 2.2338, 'grad_norm': 1.4828873872756958, 'learning_rate': 2.7366818520559805e-07, 'epoch': 0.85} {'loss': 2.1085, 'grad_norm': 1.7379313707351685, 'learning_rate': 2.7347060117693865e-07, 'epoch': 0.85} {'loss': 2.2344, 'grad_norm': 1.6922024488449097, 'learning_rate': 2.732730843733597e-07, 'epoch': 0.85} {'loss': 2.3638, 'grad_norm': 1.7765088081359863, 'learning_rate': 2.7307563480082343e-07, 'epoch': 0.85} {'loss': 2.3071, 'grad_norm': 1.8360580205917358, 'learning_rate': 2.728782524652923e-07, 'epoch': 0.86} {'loss': 2.3975, 'grad_norm': 1.739480972290039, 'learning_rate': 2.726809373727257e-07, 'epoch': 0.86} {'loss': 2.4894, 'grad_norm': 2.0581753253936768, 'learning_rate': 2.7248368952908055e-07, 'epoch': 0.86} {'loss': 2.3309, 'grad_norm': 1.7315757274627686, 'learning_rate': 2.722865089403132e-07, 'epoch': 0.86} {'loss': 2.3667, 'grad_norm': 2.9057457447052, 'learning_rate': 2.7208939561237573e-07, 'epoch': 0.86} {'loss': 2.1856, 'grad_norm': 1.5386189222335815, 'learning_rate': 2.7189234955122075e-07, 'epoch': 0.86} {'loss': 2.5228, 'grad_norm': 1.5950742959976196, 'learning_rate': 2.7169537076279755e-07, 'epoch': 0.86} {'loss': 2.2461, 'grad_norm': 6.710220813751221, 'learning_rate': 2.714984592530528e-07, 'epoch': 0.86} {'loss': 2.2876, 'grad_norm': 1.8460825681686401, 'learning_rate': 2.7130161502793296e-07, 'epoch': 0.86} {'loss': 2.2321, 'grad_norm': 1.6974223852157593, 'learning_rate': 2.7110483809338005e-07, 'epoch': 0.86} {'loss': 2.3379, 'grad_norm': 1.5990535020828247, 'learning_rate': 2.7090812845533555e-07, 'epoch': 0.86} {'loss': 2.1603, 'grad_norm': 1.8096001148223877, 'learning_rate': 2.7071148611973934e-07, 'epoch': 0.86} {'loss': 2.103, 'grad_norm': 1.642122507095337, 'learning_rate': 2.705149110925276e-07, 'epoch': 0.86} {'loss': 2.2425, 'grad_norm': 1.778062343597412, 'learning_rate': 2.703184033796366e-07, 'epoch': 0.86} {'loss': 2.227, 'grad_norm': 1.822433352470398, 'learning_rate': 2.701219629869986e-07, 'epoch': 0.86} {'loss': 2.3026, 'grad_norm': 1.6955385208129883, 'learning_rate': 2.6992558992054527e-07, 'epoch': 0.86} {'loss': 2.0404, 'grad_norm': 1.3216900825500488, 'learning_rate': 2.697292841862048e-07, 'epoch': 0.86} {'loss': 1.5102, 'grad_norm': 1.3566014766693115, 'learning_rate': 2.695330457899048e-07, 'epoch': 0.86} {'loss': 2.4599, 'grad_norm': 1.6155425310134888, 'learning_rate': 2.6933687473757103e-07, 'epoch': 0.86} {'loss': 2.3894, 'grad_norm': 2.048168182373047, 'learning_rate': 2.6914077103512485e-07, 'epoch': 0.86} {'loss': 2.0625, 'grad_norm': 1.556322455406189, 'learning_rate': 2.689447346884883e-07, 'epoch': 0.86} {'loss': 2.169, 'grad_norm': 1.5964040756225586, 'learning_rate': 2.687487657035795e-07, 'epoch': 0.86} {'loss': 2.3295, 'grad_norm': 1.7343757152557373, 'learning_rate': 2.6855286408631553e-07, 'epoch': 0.86} {'loss': 2.1965, 'grad_norm': 1.8080132007598877, 'learning_rate': 2.683570298426122e-07, 'epoch': 0.86} {'loss': 2.0206, 'grad_norm': 1.2923228740692139, 'learning_rate': 2.6816126297838056e-07, 'epoch': 0.86} {'loss': 2.1999, 'grad_norm': 1.5955458879470825, 'learning_rate': 2.679655634995329e-07, 'epoch': 0.86} {'loss': 2.4184, 'grad_norm': 1.6662267446517944, 'learning_rate': 2.677699314119772e-07, 'epoch': 0.86} {'loss': 2.2767, 'grad_norm': 1.5946176052093506, 'learning_rate': 2.675743667216199e-07, 'epoch': 0.86} {'loss': 2.1177, 'grad_norm': 1.7079399824142456, 'learning_rate': 2.6737886943436625e-07, 'epoch': 0.86} {'loss': 2.3159, 'grad_norm': 1.799297571182251, 'learning_rate': 2.671834395561182e-07, 'epoch': 0.86} {'loss': 2.0778, 'grad_norm': 1.684018850326538, 'learning_rate': 2.6698807709277684e-07, 'epoch': 0.86} {'loss': 2.3042, 'grad_norm': 1.6972248554229736, 'learning_rate': 2.667927820502403e-07, 'epoch': 0.86} {'loss': 2.1055, 'grad_norm': 1.6559371948242188, 'learning_rate': 2.665975544344057e-07, 'epoch': 0.86} {'loss': 2.1658, 'grad_norm': 1.6521188020706177, 'learning_rate': 2.6640239425116677e-07, 'epoch': 0.86} {'loss': 2.2783, 'grad_norm': 1.8082292079925537, 'learning_rate': 2.662073015064162e-07, 'epoch': 0.86} {'loss': 2.3667, 'grad_norm': 1.7020716667175293, 'learning_rate': 2.660122762060452e-07, 'epoch': 0.86} {'loss': 2.4351, 'grad_norm': 1.732708215713501, 'learning_rate': 2.6581731835594065e-07, 'epoch': 0.86} {'loss': 2.1869, 'grad_norm': 1.5750001668930054, 'learning_rate': 2.656224279619901e-07, 'epoch': 0.86} {'loss': 2.1428, 'grad_norm': 1.9053341150283813, 'learning_rate': 2.6542760503007667e-07, 'epoch': 0.86} {'loss': 2.2571, 'grad_norm': 1.9332005977630615, 'learning_rate': 2.652328495660833e-07, 'epoch': 0.86} {'loss': 2.2072, 'grad_norm': 1.918548345565796, 'learning_rate': 2.650381615758907e-07, 'epoch': 0.86} {'loss': 2.2519, 'grad_norm': 1.848016381263733, 'learning_rate': 2.6484354106537603e-07, 'epoch': 0.86} {'loss': 2.322, 'grad_norm': 1.807035207748413, 'learning_rate': 2.646489880404163e-07, 'epoch': 0.86} {'loss': 2.3197, 'grad_norm': 1.6667137145996094, 'learning_rate': 2.644545025068845e-07, 'epoch': 0.86} {'loss': 1.9945, 'grad_norm': 1.5839838981628418, 'learning_rate': 2.642600844706542e-07, 'epoch': 0.86} {'loss': 1.9247, 'grad_norm': 2.9670944213867188, 'learning_rate': 2.640657339375943e-07, 'epoch': 0.86} {'loss': 2.067, 'grad_norm': 1.783666729927063, 'learning_rate': 2.6387145091357285e-07, 'epoch': 0.86} {'loss': 2.1271, 'grad_norm': 1.9561861753463745, 'learning_rate': 2.6367723540445645e-07, 'epoch': 0.86} {'loss': 2.2105, 'grad_norm': 1.6116325855255127, 'learning_rate': 2.634830874161079e-07, 'epoch': 0.86} {'loss': 2.1809, 'grad_norm': 1.4786382913589478, 'learning_rate': 2.632890069543903e-07, 'epoch': 0.86} {'loss': 2.1155, 'grad_norm': 1.7375521659851074, 'learning_rate': 2.630949940251623e-07, 'epoch': 0.86} {'loss': 2.4007, 'grad_norm': 2.018841505050659, 'learning_rate': 2.6290104863428257e-07, 'epoch': 0.86} {'loss': 2.1887, 'grad_norm': 1.9877934455871582, 'learning_rate': 2.627071707876069e-07, 'epoch': 0.86} {'loss': 2.2965, 'grad_norm': 1.398025393486023, 'learning_rate': 2.625133604909885e-07, 'epoch': 0.86} {'loss': 2.135, 'grad_norm': 2.0664968490600586, 'learning_rate': 2.6231961775027957e-07, 'epoch': 0.86} {'loss': 2.1091, 'grad_norm': 1.801355004310608, 'learning_rate': 2.621259425713288e-07, 'epoch': 0.86} {'loss': 2.0335, 'grad_norm': 1.3886717557907104, 'learning_rate': 2.619323349599842e-07, 'epoch': 0.86} {'loss': 2.3625, 'grad_norm': 1.5901283025741577, 'learning_rate': 2.61738794922092e-07, 'epoch': 0.86} {'loss': 1.4403, 'grad_norm': 1.612907886505127, 'learning_rate': 2.6154532246349477e-07, 'epoch': 0.86} {'loss': 2.2222, 'grad_norm': 1.6099644899368286, 'learning_rate': 2.6135191759003475e-07, 'epoch': 0.86} {'loss': 1.9561, 'grad_norm': 1.3389008045196533, 'learning_rate': 2.611585803075506e-07, 'epoch': 0.86} {'loss': 2.1741, 'grad_norm': 1.671044945716858, 'learning_rate': 2.609653106218807e-07, 'epoch': 0.86} {'loss': 2.2605, 'grad_norm': 1.5204217433929443, 'learning_rate': 2.607721085388598e-07, 'epoch': 0.86} {'loss': 2.0982, 'grad_norm': 1.4951567649841309, 'learning_rate': 2.6057897406432083e-07, 'epoch': 0.86} {'loss': 2.2449, 'grad_norm': 2.049764633178711, 'learning_rate': 2.6038590720409565e-07, 'epoch': 0.86} {'loss': 2.0937, 'grad_norm': 1.6176949739456177, 'learning_rate': 2.601929079640131e-07, 'epoch': 0.86} {'loss': 2.3122, 'grad_norm': 1.398861050605774, 'learning_rate': 2.5999997634990086e-07, 'epoch': 0.86} {'loss': 2.4298, 'grad_norm': 1.4443882703781128, 'learning_rate': 2.598071123675833e-07, 'epoch': 0.86} {'loss': 2.1693, 'grad_norm': 1.7561218738555908, 'learning_rate': 2.5961431602288394e-07, 'epoch': 0.86} {'loss': 2.4786, 'grad_norm': 1.4362739324569702, 'learning_rate': 2.5942158732162436e-07, 'epoch': 0.86} {'loss': 1.9402, 'grad_norm': 1.7927961349487305, 'learning_rate': 2.592289262696232e-07, 'epoch': 0.86} {'loss': 2.2654, 'grad_norm': 1.6888976097106934, 'learning_rate': 2.590363328726966e-07, 'epoch': 0.86} {'loss': 2.2836, 'grad_norm': 1.635469913482666, 'learning_rate': 2.588438071366609e-07, 'epoch': 0.86} {'loss': 2.3684, 'grad_norm': 1.7704670429229736, 'learning_rate': 2.5865134906732787e-07, 'epoch': 0.86} {'loss': 2.3061, 'grad_norm': 1.7337990999221802, 'learning_rate': 2.584589586705089e-07, 'epoch': 0.86} {'loss': 2.2114, 'grad_norm': 1.5931117534637451, 'learning_rate': 2.5826663595201254e-07, 'epoch': 0.86} {'loss': 2.3698, 'grad_norm': 1.8724437952041626, 'learning_rate': 2.5807438091764584e-07, 'epoch': 0.86} {'loss': 2.1462, 'grad_norm': 1.5480570793151855, 'learning_rate': 2.5788219357321286e-07, 'epoch': 0.86} {'loss': 2.3311, 'grad_norm': 1.6988576650619507, 'learning_rate': 2.576900739245172e-07, 'epoch': 0.86} {'loss': 2.4644, 'grad_norm': 1.8729935884475708, 'learning_rate': 2.574980219773593e-07, 'epoch': 0.86} {'loss': 2.5846, 'grad_norm': 1.6493984460830688, 'learning_rate': 2.5730603773753667e-07, 'epoch': 0.86} {'loss': 2.2833, 'grad_norm': 2.1998651027679443, 'learning_rate': 2.5711412121084717e-07, 'epoch': 0.86} {'loss': 2.53, 'grad_norm': 2.026571035385132, 'learning_rate': 2.569222724030843e-07, 'epoch': 0.86} {'loss': 2.2781, 'grad_norm': 1.604550838470459, 'learning_rate': 2.5673049132004105e-07, 'epoch': 0.86} {'loss': 2.2573, 'grad_norm': 1.6195595264434814, 'learning_rate': 2.56538777967508e-07, 'epoch': 0.86} {'loss': 2.1086, 'grad_norm': 1.4537534713745117, 'learning_rate': 2.5634713235127284e-07, 'epoch': 0.86} {'loss': 2.5119, 'grad_norm': 1.8318712711334229, 'learning_rate': 2.561555544771227e-07, 'epoch': 0.86} {'loss': 2.2721, 'grad_norm': 1.9355080127716064, 'learning_rate': 2.559640443508413e-07, 'epoch': 0.86} {'loss': 2.1776, 'grad_norm': 1.761171817779541, 'learning_rate': 2.557726019782111e-07, 'epoch': 0.86} {'loss': 2.239, 'grad_norm': 1.7398666143417358, 'learning_rate': 2.5558122736501214e-07, 'epoch': 0.86} {'loss': 2.0474, 'grad_norm': 1.7968084812164307, 'learning_rate': 2.553899205170221e-07, 'epoch': 0.86} {'loss': 1.648, 'grad_norm': 1.590767741203308, 'learning_rate': 2.5519868144001815e-07, 'epoch': 0.86} {'loss': 2.2009, 'grad_norm': 1.727016806602478, 'learning_rate': 2.550075101397731e-07, 'epoch': 0.86} {'loss': 2.3407, 'grad_norm': 1.4621080160140991, 'learning_rate': 2.5481640662206014e-07, 'epoch': 0.86} {'loss': 2.1707, 'grad_norm': 1.6498245000839233, 'learning_rate': 2.54625370892648e-07, 'epoch': 0.86} {'loss': 2.162, 'grad_norm': 1.6217451095581055, 'learning_rate': 2.544344029573059e-07, 'epoch': 0.86} {'loss': 2.2063, 'grad_norm': 1.3410698175430298, 'learning_rate': 2.542435028217982e-07, 'epoch': 0.86} {'loss': 2.1246, 'grad_norm': 1.730222225189209, 'learning_rate': 2.5405267049189027e-07, 'epoch': 0.86} {'loss': 1.3368, 'grad_norm': 1.7256041765213013, 'learning_rate': 2.53861905973343e-07, 'epoch': 0.86} {'loss': 2.259, 'grad_norm': 1.6376088857650757, 'learning_rate': 2.536712092719157e-07, 'epoch': 0.86} {'loss': 2.0918, 'grad_norm': 1.3995856046676636, 'learning_rate': 2.534805803933663e-07, 'epoch': 0.86} {'loss': 2.446, 'grad_norm': 1.7627077102661133, 'learning_rate': 2.532900193434512e-07, 'epoch': 0.86} {'loss': 2.2375, 'grad_norm': 1.785123348236084, 'learning_rate': 2.5309952612792287e-07, 'epoch': 0.86} {'loss': 2.1756, 'grad_norm': 1.7356735467910767, 'learning_rate': 2.5290910075253416e-07, 'epoch': 0.86} {'loss': 1.9911, 'grad_norm': 1.5535539388656616, 'learning_rate': 2.52718743223033e-07, 'epoch': 0.86} {'loss': 2.2018, 'grad_norm': 1.7593638896942139, 'learning_rate': 2.5252845354516803e-07, 'epoch': 0.86} {'loss': 2.3519, 'grad_norm': 1.7414637804031372, 'learning_rate': 2.523382317246839e-07, 'epoch': 0.86} {'loss': 2.3385, 'grad_norm': 1.6240564584732056, 'learning_rate': 2.521480777673241e-07, 'epoch': 0.86} {'loss': 1.9224, 'grad_norm': 1.6308588981628418, 'learning_rate': 2.5195799167883005e-07, 'epoch': 0.86} {'loss': 2.4212, 'grad_norm': 1.9705092906951904, 'learning_rate': 2.517679734649406e-07, 'epoch': 0.86} {'loss': 2.2016, 'grad_norm': 1.5132759809494019, 'learning_rate': 2.515780231313938e-07, 'epoch': 0.86} {'loss': 2.1285, 'grad_norm': 1.3384629487991333, 'learning_rate': 2.513881406839236e-07, 'epoch': 0.86} {'loss': 2.2367, 'grad_norm': 1.6785047054290771, 'learning_rate': 2.5119832612826354e-07, 'epoch': 0.86} {'loss': 2.2178, 'grad_norm': 1.7602163553237915, 'learning_rate': 2.510085794701456e-07, 'epoch': 0.86} {'loss': 2.131, 'grad_norm': 1.9060814380645752, 'learning_rate': 2.50818900715297e-07, 'epoch': 0.86} {'loss': 2.0734, 'grad_norm': 1.4114398956298828, 'learning_rate': 2.506292898694468e-07, 'epoch': 0.86} {'loss': 2.2119, 'grad_norm': 1.6891261339187622, 'learning_rate': 2.504397469383177e-07, 'epoch': 0.86} {'loss': 2.1221, 'grad_norm': 1.9948874711990356, 'learning_rate': 2.502502719276334e-07, 'epoch': 0.86} {'loss': 2.3518, 'grad_norm': 2.0805599689483643, 'learning_rate': 2.500608648431155e-07, 'epoch': 0.86} {'loss': 2.1405, 'grad_norm': 1.3949463367462158, 'learning_rate': 2.498715256904813e-07, 'epoch': 0.86} {'loss': 2.2274, 'grad_norm': 1.808176040649414, 'learning_rate': 2.4968225447544877e-07, 'epoch': 0.86} {'loss': 2.2078, 'grad_norm': 5.852516174316406, 'learning_rate': 2.494930512037313e-07, 'epoch': 0.86} {'loss': 1.5868, 'grad_norm': 1.858263611793518, 'learning_rate': 2.493039158810426e-07, 'epoch': 0.86} {'loss': 2.3641, 'grad_norm': 1.674074411392212, 'learning_rate': 2.4911484851309285e-07, 'epoch': 0.86} {'loss': 2.0853, 'grad_norm': 1.5179001092910767, 'learning_rate': 2.489258491055896e-07, 'epoch': 0.86} {'loss': 2.4907, 'grad_norm': 1.6386938095092773, 'learning_rate': 2.4873691766424067e-07, 'epoch': 0.86} {'loss': 2.1835, 'grad_norm': 1.702755331993103, 'learning_rate': 2.485480541947491e-07, 'epoch': 0.86} {'loss': 2.0836, 'grad_norm': 2.1484215259552, 'learning_rate': 2.483592587028186e-07, 'epoch': 0.86} {'loss': 2.2792, 'grad_norm': 1.7149059772491455, 'learning_rate': 2.481705311941479e-07, 'epoch': 0.86} {'loss': 2.2792, 'grad_norm': 1.6275714635849, 'learning_rate': 2.479818716744364e-07, 'epoch': 0.86} {'loss': 2.1723, 'grad_norm': 1.6670830249786377, 'learning_rate': 2.477932801493799e-07, 'epoch': 0.86} {'loss': 2.3272, 'grad_norm': 1.8714319467544556, 'learning_rate': 2.4760475662467225e-07, 'epoch': 0.86} {'loss': 2.0424, 'grad_norm': 1.5699011087417603, 'learning_rate': 2.4741630110600655e-07, 'epoch': 0.86} {'loss': 2.3181, 'grad_norm': 1.6850676536560059, 'learning_rate': 2.47227913599071e-07, 'epoch': 0.86} {'loss': 2.1537, 'grad_norm': 1.4278286695480347, 'learning_rate': 2.4703959410955437e-07, 'epoch': 0.86} {'loss': 2.2957, 'grad_norm': 1.9824031591415405, 'learning_rate': 2.468513426431432e-07, 'epoch': 0.86} {'loss': 2.3013, 'grad_norm': 1.6854304075241089, 'learning_rate': 2.4666315920552046e-07, 'epoch': 0.86} {'loss': 1.9578, 'grad_norm': 1.753263235092163, 'learning_rate': 2.4647504380236857e-07, 'epoch': 0.86} {'loss': 2.049, 'grad_norm': 1.8990622758865356, 'learning_rate': 2.462869964393666e-07, 'epoch': 0.86} {'loss': 2.0855, 'grad_norm': 1.4156767129898071, 'learning_rate': 2.4609901712219276e-07, 'epoch': 0.86} {'loss': 2.2674, 'grad_norm': 1.813164472579956, 'learning_rate': 2.459111058565222e-07, 'epoch': 0.86} {'loss': 2.3395, 'grad_norm': 1.5616697072982788, 'learning_rate': 2.457232626480291e-07, 'epoch': 0.86} {'loss': 2.2857, 'grad_norm': 1.469505786895752, 'learning_rate': 2.4553548750238467e-07, 'epoch': 0.86} {'loss': 2.3667, 'grad_norm': 1.7777750492095947, 'learning_rate': 2.453477804252577e-07, 'epoch': 0.86} {'loss': 1.8963, 'grad_norm': 1.8154572248458862, 'learning_rate': 2.4516014142231675e-07, 'epoch': 0.86} {'loss': 2.3312, 'grad_norm': 1.7503539323806763, 'learning_rate': 2.4497257049922593e-07, 'epoch': 0.86} {'loss': 2.1011, 'grad_norm': 1.6450930833816528, 'learning_rate': 2.447850676616492e-07, 'epoch': 0.86} {'loss': 2.4595, 'grad_norm': 1.456078290939331, 'learning_rate': 2.445976329152486e-07, 'epoch': 0.86} {'loss': 2.0886, 'grad_norm': 1.8518195152282715, 'learning_rate': 2.4441026626568164e-07, 'epoch': 0.86} {'loss': 2.1045, 'grad_norm': 1.4598073959350586, 'learning_rate': 2.44222967718607e-07, 'epoch': 0.86} {'loss': 2.2825, 'grad_norm': 1.6146782636642456, 'learning_rate': 2.440357372796787e-07, 'epoch': 0.86} {'loss': 2.1396, 'grad_norm': 1.5770741701126099, 'learning_rate': 2.4384857495454993e-07, 'epoch': 0.86} {'loss': 2.5467, 'grad_norm': 1.8708696365356445, 'learning_rate': 2.4366148074887186e-07, 'epoch': 0.86} {'loss': 2.0552, 'grad_norm': 1.5433787107467651, 'learning_rate': 2.434744546682932e-07, 'epoch': 0.86} {'loss': 2.2165, 'grad_norm': 1.6663544178009033, 'learning_rate': 2.432874967184612e-07, 'epoch': 0.86} {'loss': 2.1327, 'grad_norm': 1.7941974401474, 'learning_rate': 2.431006069050196e-07, 'epoch': 0.86} {'loss': 2.3825, 'grad_norm': 1.707006573677063, 'learning_rate': 2.429137852336125e-07, 'epoch': 0.86} {'loss': 2.1619, 'grad_norm': 1.8761309385299683, 'learning_rate': 2.4272703170987955e-07, 'epoch': 0.86} {'loss': 2.1894, 'grad_norm': 1.6681092977523804, 'learning_rate': 2.425403463394596e-07, 'epoch': 0.86} {'loss': 2.2423, 'grad_norm': 2.864068031311035, 'learning_rate': 2.423537291279901e-07, 'epoch': 0.86} {'loss': 1.9877, 'grad_norm': 1.5458061695098877, 'learning_rate': 2.4216718008110403e-07, 'epoch': 0.86} {'loss': 2.1812, 'grad_norm': 1.410008430480957, 'learning_rate': 2.419806992044349e-07, 'epoch': 0.86} {'loss': 2.3207, 'grad_norm': 1.9113152027130127, 'learning_rate': 2.4179428650361215e-07, 'epoch': 0.86} {'loss': 2.2589, 'grad_norm': 1.6660287380218506, 'learning_rate': 2.4160794198426457e-07, 'epoch': 0.86} {'loss': 2.204, 'grad_norm': 1.2416198253631592, 'learning_rate': 2.414216656520191e-07, 'epoch': 0.86} {'loss': 2.2129, 'grad_norm': 1.344319462776184, 'learning_rate': 2.412354575124989e-07, 'epoch': 0.86} {'loss': 2.3024, 'grad_norm': 1.9715042114257812, 'learning_rate': 2.4104931757132686e-07, 'epoch': 0.86} {'loss': 2.1881, 'grad_norm': 2.029318332672119, 'learning_rate': 2.408632458341226e-07, 'epoch': 0.86} {'loss': 2.2902, 'grad_norm': 1.8882542848587036, 'learning_rate': 2.406772423065046e-07, 'epoch': 0.86} {'loss': 2.3933, 'grad_norm': 1.6592150926589966, 'learning_rate': 2.404913069940884e-07, 'epoch': 0.86} {'loss': 2.2704, 'grad_norm': 1.820940613746643, 'learning_rate': 2.403054399024876e-07, 'epoch': 0.86} {'loss': 2.3507, 'grad_norm': 1.9030698537826538, 'learning_rate': 2.4011964103731495e-07, 'epoch': 0.86} {'loss': 2.2344, 'grad_norm': 1.8874640464782715, 'learning_rate': 2.3993391040417924e-07, 'epoch': 0.86} {'loss': 1.4186, 'grad_norm': 1.3450582027435303, 'learning_rate': 2.397482480086891e-07, 'epoch': 0.86} {'loss': 2.5067, 'grad_norm': 1.7190252542495728, 'learning_rate': 2.395626538564494e-07, 'epoch': 0.86} {'loss': 2.2486, 'grad_norm': 1.5593143701553345, 'learning_rate': 2.393771279530641e-07, 'epoch': 0.86} {'loss': 2.2635, 'grad_norm': 1.5929346084594727, 'learning_rate': 2.3919167030413553e-07, 'epoch': 0.86} {'loss': 2.2727, 'grad_norm': 1.732855200767517, 'learning_rate': 2.390062809152616e-07, 'epoch': 0.86} {'loss': 1.9361, 'grad_norm': 1.540338158607483, 'learning_rate': 2.3882095979204045e-07, 'epoch': 0.86} {'loss': 2.2537, 'grad_norm': 1.8436331748962402, 'learning_rate': 2.3863570694006825e-07, 'epoch': 0.86} {'loss': 2.123, 'grad_norm': 1.7301980257034302, 'learning_rate': 2.3845052236493695e-07, 'epoch': 0.86} {'loss': 2.2997, 'grad_norm': 1.6516406536102295, 'learning_rate': 2.3826540607223864e-07, 'epoch': 0.86} {'loss': 2.2257, 'grad_norm': 1.7221951484680176, 'learning_rate': 2.3808035806756197e-07, 'epoch': 0.86} {'loss': 2.2078, 'grad_norm': 1.6770199537277222, 'learning_rate': 2.3789537835649467e-07, 'epoch': 0.86} {'loss': 2.2645, 'grad_norm': 1.549197793006897, 'learning_rate': 2.377104669446212e-07, 'epoch': 0.86} {'loss': 2.2369, 'grad_norm': 1.6186327934265137, 'learning_rate': 2.375256238375251e-07, 'epoch': 0.86} {'loss': 2.1505, 'grad_norm': 1.7705814838409424, 'learning_rate': 2.373408490407869e-07, 'epoch': 0.87} {'loss': 2.1258, 'grad_norm': 1.5510165691375732, 'learning_rate': 2.3715614255998526e-07, 'epoch': 0.87} {'loss': 2.4595, 'grad_norm': 1.9199858903884888, 'learning_rate': 2.369715044006976e-07, 'epoch': 0.87} {'loss': 2.3349, 'grad_norm': 1.790049433708191, 'learning_rate': 2.3678693456849782e-07, 'epoch': 0.87} {'loss': 2.0026, 'grad_norm': 1.664358377456665, 'learning_rate': 2.3660243306895952e-07, 'epoch': 0.87} {'loss': 2.4165, 'grad_norm': 1.6794915199279785, 'learning_rate': 2.3641799990765268e-07, 'epoch': 0.87} {'loss': 2.1282, 'grad_norm': 1.9117612838745117, 'learning_rate': 2.362336350901459e-07, 'epoch': 0.87} {'loss': 2.3191, 'grad_norm': 2.640373706817627, 'learning_rate': 2.360493386220064e-07, 'epoch': 0.87} {'loss': 2.4438, 'grad_norm': 1.744087815284729, 'learning_rate': 2.358651105087978e-07, 'epoch': 0.87} {'loss': 2.1509, 'grad_norm': 1.7687889337539673, 'learning_rate': 2.3568095075608226e-07, 'epoch': 0.87} {'loss': 2.2193, 'grad_norm': 1.6385531425476074, 'learning_rate': 2.3549685936942095e-07, 'epoch': 0.87} {'loss': 2.2152, 'grad_norm': 1.6147873401641846, 'learning_rate': 2.3531283635437135e-07, 'epoch': 0.87} {'loss': 2.3949, 'grad_norm': 1.7083486318588257, 'learning_rate': 2.3512888171649011e-07, 'epoch': 0.87} {'loss': 2.3105, 'grad_norm': 1.6988255977630615, 'learning_rate': 2.3494499546133088e-07, 'epoch': 0.87} {'loss': 2.368, 'grad_norm': 1.5087355375289917, 'learning_rate': 2.347611775944464e-07, 'epoch': 0.87} {'loss': 1.9868, 'grad_norm': 1.246779203414917, 'learning_rate': 2.3457742812138555e-07, 'epoch': 0.87} {'loss': 2.3526, 'grad_norm': 1.8040958642959595, 'learning_rate': 2.3439374704769757e-07, 'epoch': 0.87} {'loss': 2.4254, 'grad_norm': 1.575186848640442, 'learning_rate': 2.3421013437892743e-07, 'epoch': 0.87} {'loss': 1.9299, 'grad_norm': 1.2562408447265625, 'learning_rate': 2.3402659012061845e-07, 'epoch': 0.87} {'loss': 2.3391, 'grad_norm': 1.4915903806686401, 'learning_rate': 2.3384311427831375e-07, 'epoch': 0.87} {'loss': 2.3173, 'grad_norm': 1.573144555091858, 'learning_rate': 2.3365970685755162e-07, 'epoch': 0.87} {'loss': 2.3525, 'grad_norm': 2.7835726737976074, 'learning_rate': 2.334763678638702e-07, 'epoch': 0.87} {'loss': 2.0887, 'grad_norm': 2.219534158706665, 'learning_rate': 2.3329309730280526e-07, 'epoch': 0.87} {'loss': 2.0436, 'grad_norm': 1.6597278118133545, 'learning_rate': 2.3310989517988965e-07, 'epoch': 0.87} {'loss': 2.2084, 'grad_norm': 1.6112570762634277, 'learning_rate': 2.3292676150065556e-07, 'epoch': 0.87} {'loss': 2.3034, 'grad_norm': 1.3983609676361084, 'learning_rate': 2.327436962706314e-07, 'epoch': 0.87} {'loss': 2.2197, 'grad_norm': 2.1458282470703125, 'learning_rate': 2.3256069949534527e-07, 'epoch': 0.87} {'loss': 2.1716, 'grad_norm': 1.8629865646362305, 'learning_rate': 2.3237777118032183e-07, 'epoch': 0.87} {'loss': 2.3788, 'grad_norm': 1.6937780380249023, 'learning_rate': 2.3219491133108397e-07, 'epoch': 0.87} {'loss': 2.1479, 'grad_norm': 1.7409816980361938, 'learning_rate': 2.3201211995315358e-07, 'epoch': 0.87} {'loss': 2.3858, 'grad_norm': 1.5168417692184448, 'learning_rate': 2.3182939705204855e-07, 'epoch': 0.87} {'loss': 2.2952, 'grad_norm': 1.9113088846206665, 'learning_rate': 2.3164674263328662e-07, 'epoch': 0.87} {'loss': 2.2838, 'grad_norm': 1.4370051622390747, 'learning_rate': 2.3146415670238203e-07, 'epoch': 0.87} {'loss': 2.0998, 'grad_norm': 1.681362271308899, 'learning_rate': 2.3128163926484786e-07, 'epoch': 0.87} {'loss': 1.4123, 'grad_norm': 2.343142032623291, 'learning_rate': 2.3109919032619527e-07, 'epoch': 0.87} {'loss': 2.3651, 'grad_norm': 1.744505763053894, 'learning_rate': 2.309168098919326e-07, 'epoch': 0.87} {'loss': 2.4061, 'grad_norm': 1.6010794639587402, 'learning_rate': 2.307344979675663e-07, 'epoch': 0.87} {'loss': 2.1157, 'grad_norm': 1.818353533744812, 'learning_rate': 2.3055225455860032e-07, 'epoch': 0.87} {'loss': 2.4282, 'grad_norm': 1.6836692094802856, 'learning_rate': 2.3037007967053742e-07, 'epoch': 0.87} {'loss': 2.2988, 'grad_norm': 1.5360054969787598, 'learning_rate': 2.3018797330887883e-07, 'epoch': 0.87} {'loss': 2.2853, 'grad_norm': 3.0095038414001465, 'learning_rate': 2.3000593547912176e-07, 'epoch': 0.87} {'loss': 2.2876, 'grad_norm': 1.7127526998519897, 'learning_rate': 2.2982396618676324e-07, 'epoch': 0.87} {'loss': 2.1877, 'grad_norm': 1.8190622329711914, 'learning_rate': 2.2964206543729662e-07, 'epoch': 0.87} {'loss': 2.2022, 'grad_norm': 1.922013282775879, 'learning_rate': 2.2946023323621503e-07, 'epoch': 0.87} {'loss': 2.3451, 'grad_norm': 1.94712495803833, 'learning_rate': 2.2927846958900768e-07, 'epoch': 0.87} {'loss': 2.1986, 'grad_norm': 1.6620562076568604, 'learning_rate': 2.2909677450116214e-07, 'epoch': 0.87} {'loss': 2.1953, 'grad_norm': 1.8156583309173584, 'learning_rate': 2.2891514797816539e-07, 'epoch': 0.87} {'loss': 2.049, 'grad_norm': 1.6446566581726074, 'learning_rate': 2.2873359002550028e-07, 'epoch': 0.87} {'loss': 2.363, 'grad_norm': 1.7518081665039062, 'learning_rate': 2.2855210064864964e-07, 'epoch': 0.87} {'loss': 2.304, 'grad_norm': 1.582141399383545, 'learning_rate': 2.283706798530916e-07, 'epoch': 0.87} {'loss': 2.1934, 'grad_norm': 1.5925688743591309, 'learning_rate': 2.2818932764430506e-07, 'epoch': 0.87} {'loss': 2.4291, 'grad_norm': 2.0725314617156982, 'learning_rate': 2.2800804402776517e-07, 'epoch': 0.87} {'loss': 2.2818, 'grad_norm': 1.6136821508407593, 'learning_rate': 2.2782682900894555e-07, 'epoch': 0.87} {'loss': 1.8734, 'grad_norm': 1.3201923370361328, 'learning_rate': 2.2764568259331737e-07, 'epoch': 0.87} {'loss': 2.2365, 'grad_norm': 1.7084444761276245, 'learning_rate': 2.2746460478634936e-07, 'epoch': 0.87} {'loss': 2.1862, 'grad_norm': 1.5731303691864014, 'learning_rate': 2.2728359559350931e-07, 'epoch': 0.87} {'loss': 1.2488, 'grad_norm': 1.5523474216461182, 'learning_rate': 2.2710265502026292e-07, 'epoch': 0.87} {'loss': 2.1964, 'grad_norm': 1.683017373085022, 'learning_rate': 2.2692178307207213e-07, 'epoch': 0.87} {'loss': 2.3197, 'grad_norm': 1.5518155097961426, 'learning_rate': 2.267409797543993e-07, 'epoch': 0.87} {'loss': 2.1131, 'grad_norm': 1.3342851400375366, 'learning_rate': 2.2656024507270198e-07, 'epoch': 0.87} {'loss': 2.2899, 'grad_norm': 2.053354024887085, 'learning_rate': 2.2637957903243856e-07, 'epoch': 0.87} {'loss': 2.2267, 'grad_norm': 1.5601955652236938, 'learning_rate': 2.2619898163906278e-07, 'epoch': 0.87} {'loss': 2.2561, 'grad_norm': 1.939141869544983, 'learning_rate': 2.2601845289802722e-07, 'epoch': 0.87} {'loss': 2.1278, 'grad_norm': 1.6575682163238525, 'learning_rate': 2.258379928147833e-07, 'epoch': 0.87} {'loss': 2.2972, 'grad_norm': 1.6366238594055176, 'learning_rate': 2.2565760139477893e-07, 'epoch': 0.87} {'loss': 1.9964, 'grad_norm': 1.8800874948501587, 'learning_rate': 2.2547727864346142e-07, 'epoch': 0.87} {'loss': 2.0652, 'grad_norm': 3.319899559020996, 'learning_rate': 2.2529702456627444e-07, 'epoch': 0.87} {'loss': 2.2528, 'grad_norm': 1.599629282951355, 'learning_rate': 2.251168391686606e-07, 'epoch': 0.87} {'loss': 2.0234, 'grad_norm': 1.6134330034255981, 'learning_rate': 2.2493672245606059e-07, 'epoch': 0.87} {'loss': 2.1815, 'grad_norm': 1.9820938110351562, 'learning_rate': 2.247566744339119e-07, 'epoch': 0.87} {'loss': 2.0554, 'grad_norm': 1.23405921459198, 'learning_rate': 2.2457669510765195e-07, 'epoch': 0.87} {'loss': 2.1503, 'grad_norm': 1.657077431678772, 'learning_rate': 2.2439678448271328e-07, 'epoch': 0.87} {'loss': 2.2009, 'grad_norm': 1.715416431427002, 'learning_rate': 2.2421694256452825e-07, 'epoch': 0.87} {'loss': 2.2748, 'grad_norm': 1.4994932413101196, 'learning_rate': 2.2403716935852775e-07, 'epoch': 0.87} {'loss': 2.3844, 'grad_norm': 1.787501335144043, 'learning_rate': 2.2385746487013832e-07, 'epoch': 0.87} {'loss': 2.2509, 'grad_norm': 1.7642415761947632, 'learning_rate': 2.2367782910478725e-07, 'epoch': 0.87} {'loss': 1.9282, 'grad_norm': 1.4321980476379395, 'learning_rate': 2.234982620678966e-07, 'epoch': 0.87} {'loss': 2.2552, 'grad_norm': 1.5365291833877563, 'learning_rate': 2.2331876376488926e-07, 'epoch': 0.87} {'loss': 1.9493, 'grad_norm': 1.5294629335403442, 'learning_rate': 2.2313933420118395e-07, 'epoch': 0.87} {'loss': 2.2714, 'grad_norm': 2.349672794342041, 'learning_rate': 2.2295997338219883e-07, 'epoch': 0.87} {'loss': 2.3906, 'grad_norm': 1.755555272102356, 'learning_rate': 2.22780681313349e-07, 'epoch': 0.87} {'loss': 2.3161, 'grad_norm': 1.8234786987304688, 'learning_rate': 2.2260145800004713e-07, 'epoch': 0.87} {'loss': 2.3617, 'grad_norm': 1.8435722589492798, 'learning_rate': 2.2242230344770577e-07, 'epoch': 0.87} {'loss': 2.2373, 'grad_norm': 1.7581340074539185, 'learning_rate': 2.2224321766173285e-07, 'epoch': 0.87} {'loss': 2.2863, 'grad_norm': 1.7289764881134033, 'learning_rate': 2.2206420064753597e-07, 'epoch': 0.87} {'loss': 2.2407, 'grad_norm': 1.3679369688034058, 'learning_rate': 2.2188525241052084e-07, 'epoch': 0.87} {'loss': 2.3027, 'grad_norm': 1.7055171728134155, 'learning_rate': 2.2170637295608922e-07, 'epoch': 0.87} {'loss': 2.31, 'grad_norm': 1.8889808654785156, 'learning_rate': 2.2152756228964289e-07, 'epoch': 0.87} {'loss': 2.0416, 'grad_norm': 1.6055866479873657, 'learning_rate': 2.2134882041658035e-07, 'epoch': 0.87} {'loss': 2.1575, 'grad_norm': 1.429506778717041, 'learning_rate': 2.211701473422978e-07, 'epoch': 0.87} {'loss': 2.2504, 'grad_norm': 1.686508297920227, 'learning_rate': 2.2099154307219067e-07, 'epoch': 0.87} {'loss': 2.344, 'grad_norm': 1.646328091621399, 'learning_rate': 2.2081300761165076e-07, 'epoch': 0.87} {'loss': 2.4, 'grad_norm': 1.6528675556182861, 'learning_rate': 2.2063454096606928e-07, 'epoch': 0.87} {'loss': 2.3656, 'grad_norm': 2.5621442794799805, 'learning_rate': 2.204561431408339e-07, 'epoch': 0.87} {'loss': 2.505, 'grad_norm': 1.7826367616653442, 'learning_rate': 2.202778141413317e-07, 'epoch': 0.87} {'loss': 2.106, 'grad_norm': 1.564485788345337, 'learning_rate': 2.2009955397294613e-07, 'epoch': 0.87} {'loss': 1.8222, 'grad_norm': 1.3654701709747314, 'learning_rate': 2.1992136264106039e-07, 'epoch': 0.87} {'loss': 2.3843, 'grad_norm': 1.576954960823059, 'learning_rate': 2.197432401510538e-07, 'epoch': 0.87} {'loss': 2.251, 'grad_norm': 1.9293674230575562, 'learning_rate': 2.1956518650830427e-07, 'epoch': 0.87} {'loss': 2.2371, 'grad_norm': 1.70822012424469, 'learning_rate': 2.193872017181878e-07, 'epoch': 0.87} {'loss': 2.1612, 'grad_norm': 1.8571021556854248, 'learning_rate': 2.192092857860789e-07, 'epoch': 0.87} {'loss': 2.1885, 'grad_norm': 1.6174287796020508, 'learning_rate': 2.190314387173484e-07, 'epoch': 0.87} {'loss': 2.0776, 'grad_norm': 1.6563661098480225, 'learning_rate': 2.1885366051736716e-07, 'epoch': 0.87} {'loss': 2.1775, 'grad_norm': 1.7233940362930298, 'learning_rate': 2.1867595119150126e-07, 'epoch': 0.87} {'loss': 2.4437, 'grad_norm': 1.6680032014846802, 'learning_rate': 2.18498310745118e-07, 'epoch': 0.87} {'loss': 2.3104, 'grad_norm': 1.344805359840393, 'learning_rate': 2.1832073918357953e-07, 'epoch': 0.87} {'loss': 2.2965, 'grad_norm': 1.65517258644104, 'learning_rate': 2.181432365122474e-07, 'epoch': 0.87} {'loss': 2.2218, 'grad_norm': 1.6766149997711182, 'learning_rate': 2.1796580273648144e-07, 'epoch': 0.87} {'loss': 2.1844, 'grad_norm': 1.5849990844726562, 'learning_rate': 2.1778843786163822e-07, 'epoch': 0.87} {'loss': 2.309, 'grad_norm': 1.269058108329773, 'learning_rate': 2.1761114189307375e-07, 'epoch': 0.87} {'loss': 2.1323, 'grad_norm': 1.6337718963623047, 'learning_rate': 2.1743391483613986e-07, 'epoch': 0.87} {'loss': 1.5965, 'grad_norm': 1.732127070426941, 'learning_rate': 2.1725675669618889e-07, 'epoch': 0.87} {'loss': 2.1021, 'grad_norm': 1.678039312362671, 'learning_rate': 2.170796674785683e-07, 'epoch': 0.87} {'loss': 1.986, 'grad_norm': 1.6556634902954102, 'learning_rate': 2.1690264718862596e-07, 'epoch': 0.87} {'loss': 2.0265, 'grad_norm': 1.6153126955032349, 'learning_rate': 2.1672569583170711e-07, 'epoch': 0.87} {'loss': 2.2994, 'grad_norm': 2.0340309143066406, 'learning_rate': 2.165488134131527e-07, 'epoch': 0.87} {'loss': 2.3706, 'grad_norm': 1.9673845767974854, 'learning_rate': 2.1637199993830405e-07, 'epoch': 0.87} {'loss': 2.4022, 'grad_norm': 1.8069639205932617, 'learning_rate': 2.1619525541250048e-07, 'epoch': 0.87} {'loss': 1.906, 'grad_norm': 1.5170398950576782, 'learning_rate': 2.1601857984107688e-07, 'epoch': 0.87} {'loss': 2.3231, 'grad_norm': 1.8796157836914062, 'learning_rate': 2.1584197322936929e-07, 'epoch': 0.87} {'loss': 2.1948, 'grad_norm': 1.4642411470413208, 'learning_rate': 2.1566543558270815e-07, 'epoch': 0.87} {'loss': 2.166, 'grad_norm': 1.3089587688446045, 'learning_rate': 2.154889669064253e-07, 'epoch': 0.87} {'loss': 2.2975, 'grad_norm': 1.7589776515960693, 'learning_rate': 2.153125672058476e-07, 'epoch': 0.87} {'loss': 2.2803, 'grad_norm': 1.7273881435394287, 'learning_rate': 2.1513623648630188e-07, 'epoch': 0.87} {'loss': 2.418, 'grad_norm': 1.8713239431381226, 'learning_rate': 2.149599747531117e-07, 'epoch': 0.87} {'loss': 2.1146, 'grad_norm': 1.6788736581802368, 'learning_rate': 2.1478378201159832e-07, 'epoch': 0.87} {'loss': 2.288, 'grad_norm': 1.629185438156128, 'learning_rate': 2.1460765826708253e-07, 'epoch': 0.87} {'loss': 2.3547, 'grad_norm': 1.832936406135559, 'learning_rate': 2.1443160352488084e-07, 'epoch': 0.87} {'loss': 2.127, 'grad_norm': 1.8339571952819824, 'learning_rate': 2.1425561779030964e-07, 'epoch': 0.87} {'loss': 2.2742, 'grad_norm': 1.7125352621078491, 'learning_rate': 2.1407970106868264e-07, 'epoch': 0.87} {'loss': 2.0649, 'grad_norm': 1.6495152711868286, 'learning_rate': 2.1390385336531068e-07, 'epoch': 0.87} {'loss': 2.739, 'grad_norm': 1.76504647731781, 'learning_rate': 2.1372807468550334e-07, 'epoch': 0.87} {'loss': 2.1264, 'grad_norm': 1.5464421510696411, 'learning_rate': 2.1355236503456806e-07, 'epoch': 0.87} {'loss': 2.442, 'grad_norm': 2.0720036029815674, 'learning_rate': 2.1337672441780922e-07, 'epoch': 0.87} {'loss': 2.3443, 'grad_norm': 2.768688201904297, 'learning_rate': 2.1320115284053088e-07, 'epoch': 0.87} {'loss': 2.0769, 'grad_norm': 1.6419754028320312, 'learning_rate': 2.1302565030803303e-07, 'epoch': 0.87} {'loss': 2.6397, 'grad_norm': 1.8001469373703003, 'learning_rate': 2.1285021682561553e-07, 'epoch': 0.87} {'loss': 2.2674, 'grad_norm': 1.6278142929077148, 'learning_rate': 2.1267485239857443e-07, 'epoch': 0.87} {'loss': 2.0896, 'grad_norm': 1.681627631187439, 'learning_rate': 2.1249955703220553e-07, 'epoch': 0.87} {'loss': 2.3074, 'grad_norm': 1.6654014587402344, 'learning_rate': 2.1232433073179985e-07, 'epoch': 0.87} {'loss': 2.1874, 'grad_norm': 2.200855255126953, 'learning_rate': 2.1214917350264957e-07, 'epoch': 0.87} {'loss': 2.2008, 'grad_norm': 1.5972336530685425, 'learning_rate': 2.1197408535004265e-07, 'epoch': 0.87} {'loss': 2.2192, 'grad_norm': 1.6098757982254028, 'learning_rate': 2.117990662792646e-07, 'epoch': 0.87} {'loss': 2.6146, 'grad_norm': 1.703169822692871, 'learning_rate': 2.116241162956012e-07, 'epoch': 0.87} {'loss': 2.1378, 'grad_norm': 1.7200621366500854, 'learning_rate': 2.114492354043332e-07, 'epoch': 0.87} {'loss': 2.1137, 'grad_norm': 1.3728419542312622, 'learning_rate': 2.112744236107414e-07, 'epoch': 0.87} {'loss': 2.2419, 'grad_norm': 2.3570332527160645, 'learning_rate': 2.1109968092010463e-07, 'epoch': 0.87} {'loss': 2.4511, 'grad_norm': 1.4724712371826172, 'learning_rate': 2.1092500733769755e-07, 'epoch': 0.87} {'loss': 2.2185, 'grad_norm': 1.7385748624801636, 'learning_rate': 2.107504028687951e-07, 'epoch': 0.87} {'loss': 2.1509, 'grad_norm': 1.6507163047790527, 'learning_rate': 2.1057586751866865e-07, 'epoch': 0.87} {'loss': 2.1732, 'grad_norm': 1.746221661567688, 'learning_rate': 2.104014012925873e-07, 'epoch': 0.87} {'loss': 2.0104, 'grad_norm': 1.6239001750946045, 'learning_rate': 2.102270041958196e-07, 'epoch': 0.87} {'loss': 2.1902, 'grad_norm': 1.7946422100067139, 'learning_rate': 2.100526762336305e-07, 'epoch': 0.87} {'loss': 2.0698, 'grad_norm': 1.6035927534103394, 'learning_rate': 2.098784174112839e-07, 'epoch': 0.87} {'loss': 2.2236, 'grad_norm': 1.7734118700027466, 'learning_rate': 2.0970422773404054e-07, 'epoch': 0.87} {'loss': 2.3028, 'grad_norm': 1.6400017738342285, 'learning_rate': 2.0953010720716037e-07, 'epoch': 0.87} {'loss': 2.4279, 'grad_norm': 1.7734220027923584, 'learning_rate': 2.0935605583590008e-07, 'epoch': 0.87} {'loss': 1.2058, 'grad_norm': 2.0756161212921143, 'learning_rate': 2.0918207362551456e-07, 'epoch': 0.87} {'loss': 2.3055, 'grad_norm': 1.831963300704956, 'learning_rate': 2.0900816058125827e-07, 'epoch': 0.87} {'loss': 2.2923, 'grad_norm': 1.7847892045974731, 'learning_rate': 2.0883431670838033e-07, 'epoch': 0.87} {'loss': 2.0936, 'grad_norm': 1.6889092922210693, 'learning_rate': 2.0866054201213044e-07, 'epoch': 0.87} {'loss': 2.3291, 'grad_norm': 1.5543304681777954, 'learning_rate': 2.084868364977549e-07, 'epoch': 0.87} {'loss': 2.0223, 'grad_norm': 1.6324050426483154, 'learning_rate': 2.083132001704985e-07, 'epoch': 0.87} {'loss': 2.1723, 'grad_norm': 1.7042146921157837, 'learning_rate': 2.0813963303560448e-07, 'epoch': 0.87} {'loss': 2.2453, 'grad_norm': 2.146451473236084, 'learning_rate': 2.0796613509831227e-07, 'epoch': 0.87} {'loss': 2.2549, 'grad_norm': 2.226090908050537, 'learning_rate': 2.0779270636386127e-07, 'epoch': 0.87} {'loss': 2.4305, 'grad_norm': 1.730907917022705, 'learning_rate': 2.076193468374868e-07, 'epoch': 0.87} {'loss': 2.1776, 'grad_norm': 1.6855658292770386, 'learning_rate': 2.0744605652442378e-07, 'epoch': 0.87} {'loss': 1.5818, 'grad_norm': 1.5001678466796875, 'learning_rate': 2.0727283542990444e-07, 'epoch': 0.87} {'loss': 2.2222, 'grad_norm': 1.7837095260620117, 'learning_rate': 2.0709968355915767e-07, 'epoch': 0.87} {'loss': 2.0366, 'grad_norm': 1.6074234247207642, 'learning_rate': 2.0692660091741256e-07, 'epoch': 0.87} {'loss': 2.2543, 'grad_norm': 1.730780005455017, 'learning_rate': 2.0675358750989444e-07, 'epoch': 0.87} {'loss': 2.013, 'grad_norm': 1.991127371788025, 'learning_rate': 2.0658064334182742e-07, 'epoch': 0.87} {'loss': 1.759, 'grad_norm': 1.2945094108581543, 'learning_rate': 2.0640776841843235e-07, 'epoch': 0.87} {'loss': 2.3001, 'grad_norm': 1.5426939725875854, 'learning_rate': 2.062349627449295e-07, 'epoch': 0.87} {'loss': 2.2051, 'grad_norm': 1.9105523824691772, 'learning_rate': 2.060622263265366e-07, 'epoch': 0.87} {'loss': 2.1379, 'grad_norm': 1.6863796710968018, 'learning_rate': 2.058895591684687e-07, 'epoch': 0.87} {'loss': 2.3812, 'grad_norm': 1.7585713863372803, 'learning_rate': 2.057169612759391e-07, 'epoch': 0.87} {'loss': 2.1341, 'grad_norm': 1.5842902660369873, 'learning_rate': 2.0554443265415863e-07, 'epoch': 0.87} {'loss': 1.6469, 'grad_norm': 1.5336471796035767, 'learning_rate': 2.0537197330833646e-07, 'epoch': 0.87} {'loss': 2.1848, 'grad_norm': 2.0810937881469727, 'learning_rate': 2.0519958324368067e-07, 'epoch': 0.87} {'loss': 2.2664, 'grad_norm': 1.76835298538208, 'learning_rate': 2.0502726246539484e-07, 'epoch': 0.87} {'loss': 2.3124, 'grad_norm': 2.117438554763794, 'learning_rate': 2.0485501097868288e-07, 'epoch': 0.87} {'loss': 2.264, 'grad_norm': 1.5472097396850586, 'learning_rate': 2.0468282878874453e-07, 'epoch': 0.87} {'loss': 2.1187, 'grad_norm': 1.8528879880905151, 'learning_rate': 2.045107159007792e-07, 'epoch': 0.87} {'loss': 1.9504, 'grad_norm': 1.4102493524551392, 'learning_rate': 2.043386723199836e-07, 'epoch': 0.87} {'loss': 2.1183, 'grad_norm': 1.7111430168151855, 'learning_rate': 2.0416669805155108e-07, 'epoch': 0.88} {'loss': 2.2065, 'grad_norm': 1.5183134078979492, 'learning_rate': 2.0399479310067554e-07, 'epoch': 0.88} {'loss': 2.0065, 'grad_norm': 1.6429129838943481, 'learning_rate': 2.0382295747254588e-07, 'epoch': 0.88} {'loss': 2.4046, 'grad_norm': 1.6757715940475464, 'learning_rate': 2.0365119117235128e-07, 'epoch': 0.88} {'loss': 2.2542, 'grad_norm': 1.970130443572998, 'learning_rate': 2.0347949420527702e-07, 'epoch': 0.88} {'loss': 2.0136, 'grad_norm': 1.671040415763855, 'learning_rate': 2.033078665765076e-07, 'epoch': 0.88} {'loss': 2.2749, 'grad_norm': 1.692221760749817, 'learning_rate': 2.031363082912252e-07, 'epoch': 0.88} {'loss': 2.3656, 'grad_norm': 1.931046962738037, 'learning_rate': 2.0296481935460965e-07, 'epoch': 0.88} {'loss': 2.1355, 'grad_norm': 1.6918567419052124, 'learning_rate': 2.027933997718376e-07, 'epoch': 0.88} {'loss': 2.4687, 'grad_norm': 1.7827423810958862, 'learning_rate': 2.02622049548086e-07, 'epoch': 0.88} {'loss': 2.2512, 'grad_norm': 1.4666465520858765, 'learning_rate': 2.0245076868852743e-07, 'epoch': 0.88} {'loss': 2.2279, 'grad_norm': 1.8845294713974, 'learning_rate': 2.0227955719833381e-07, 'epoch': 0.88} {'loss': 2.208, 'grad_norm': 1.6921783685684204, 'learning_rate': 2.0210841508267438e-07, 'epoch': 0.88} {'loss': 2.1436, 'grad_norm': 1.4582480192184448, 'learning_rate': 2.0193734234671664e-07, 'epoch': 0.88} {'loss': 2.1808, 'grad_norm': 1.3524774312973022, 'learning_rate': 2.017663389956251e-07, 'epoch': 0.88} {'loss': 2.0298, 'grad_norm': 1.3300689458847046, 'learning_rate': 2.0159540503456364e-07, 'epoch': 0.88} {'loss': 2.1697, 'grad_norm': 1.7193974256515503, 'learning_rate': 2.0142454046869291e-07, 'epoch': 0.88} {'loss': 2.1442, 'grad_norm': 1.706320881843567, 'learning_rate': 2.0125374530317126e-07, 'epoch': 0.88} {'loss': 2.1716, 'grad_norm': 1.5500285625457764, 'learning_rate': 2.0108301954315624e-07, 'epoch': 0.88} {'loss': 2.4065, 'grad_norm': 1.7151687145233154, 'learning_rate': 2.0091236319380202e-07, 'epoch': 0.88} {'loss': 1.2926, 'grad_norm': 1.7154825925827026, 'learning_rate': 2.0074177626026148e-07, 'epoch': 0.88} {'loss': 2.6323, 'grad_norm': 1.7048163414001465, 'learning_rate': 2.0057125874768492e-07, 'epoch': 0.88} {'loss': 2.1394, 'grad_norm': 1.8793456554412842, 'learning_rate': 2.004008106612204e-07, 'epoch': 0.88} {'loss': 2.4914, 'grad_norm': 1.7446320056915283, 'learning_rate': 2.0023043200601528e-07, 'epoch': 0.88} {'loss': 2.1785, 'grad_norm': 1.5567424297332764, 'learning_rate': 2.0006012278721289e-07, 'epoch': 0.88} {'loss': 2.1241, 'grad_norm': 1.6978974342346191, 'learning_rate': 1.9988988300995576e-07, 'epoch': 0.88} {'loss': 1.9605, 'grad_norm': 1.5905930995941162, 'learning_rate': 1.9971971267938372e-07, 'epoch': 0.88} {'loss': 2.3619, 'grad_norm': 1.7993228435516357, 'learning_rate': 1.995496118006343e-07, 'epoch': 0.88} {'loss': 2.1851, 'grad_norm': 1.7257493734359741, 'learning_rate': 1.9937958037884397e-07, 'epoch': 0.88} {'loss': 2.3407, 'grad_norm': 1.7889482975006104, 'learning_rate': 1.9920961841914582e-07, 'epoch': 0.88} {'loss': 2.4059, 'grad_norm': 1.7761975526809692, 'learning_rate': 1.990397259266724e-07, 'epoch': 0.88} {'loss': 2.1599, 'grad_norm': 2.059959650039673, 'learning_rate': 1.9886990290655217e-07, 'epoch': 0.88} {'loss': 2.0807, 'grad_norm': 1.6134495735168457, 'learning_rate': 1.9870014936391348e-07, 'epoch': 0.88} {'loss': 2.2636, 'grad_norm': 1.6592223644256592, 'learning_rate': 1.9853046530388055e-07, 'epoch': 0.88} {'loss': 2.5023, 'grad_norm': 1.6212538480758667, 'learning_rate': 1.983608507315779e-07, 'epoch': 0.88} {'loss': 2.2477, 'grad_norm': 1.5604954957962036, 'learning_rate': 1.981913056521259e-07, 'epoch': 0.88} {'loss': 1.2845, 'grad_norm': 1.9849320650100708, 'learning_rate': 1.9802183007064352e-07, 'epoch': 0.88} {'loss': 2.0629, 'grad_norm': 1.8872140645980835, 'learning_rate': 1.9785242399224774e-07, 'epoch': 0.88} {'loss': 2.1652, 'grad_norm': 1.4071764945983887, 'learning_rate': 1.9768308742205395e-07, 'epoch': 0.88} {'loss': 1.938, 'grad_norm': 1.3398171663284302, 'learning_rate': 1.9751382036517413e-07, 'epoch': 0.88} {'loss': 2.3475, 'grad_norm': 3.1295204162597656, 'learning_rate': 1.9734462282671978e-07, 'epoch': 0.88} {'loss': 2.1248, 'grad_norm': 1.6913508176803589, 'learning_rate': 1.9717549481179848e-07, 'epoch': 0.88} {'loss': 2.3259, 'grad_norm': 1.6127698421478271, 'learning_rate': 1.9700643632551752e-07, 'epoch': 0.88} {'loss': 2.2464, 'grad_norm': 1.4904931783676147, 'learning_rate': 1.9683744737298088e-07, 'epoch': 0.88} {'loss': 2.1925, 'grad_norm': 1.6384062767028809, 'learning_rate': 1.966685279592903e-07, 'epoch': 0.88} {'loss': 2.2694, 'grad_norm': 1.498901605606079, 'learning_rate': 1.9649967808954702e-07, 'epoch': 0.88} {'loss': 2.3426, 'grad_norm': 2.067037343978882, 'learning_rate': 1.96330897768848e-07, 'epoch': 0.88} {'loss': 1.9061, 'grad_norm': 1.3901090621948242, 'learning_rate': 1.9616218700229006e-07, 'epoch': 0.88} {'loss': 2.2086, 'grad_norm': 1.6182893514633179, 'learning_rate': 1.9599354579496604e-07, 'epoch': 0.88} {'loss': 1.4571, 'grad_norm': 2.385505437850952, 'learning_rate': 1.9582497415196854e-07, 'epoch': 0.88} {'loss': 2.4853, 'grad_norm': 1.6188820600509644, 'learning_rate': 1.956564720783874e-07, 'epoch': 0.88} {'loss': 2.068, 'grad_norm': 1.3089923858642578, 'learning_rate': 1.9548803957930907e-07, 'epoch': 0.88} {'loss': 2.3267, 'grad_norm': 1.6538718938827515, 'learning_rate': 1.953196766598206e-07, 'epoch': 0.88} {'loss': 2.322, 'grad_norm': 1.5659587383270264, 'learning_rate': 1.951513833250035e-07, 'epoch': 0.88} {'loss': 2.2675, 'grad_norm': 2.05785870552063, 'learning_rate': 1.9498315957994007e-07, 'epoch': 0.88} {'loss': 2.4188, 'grad_norm': 1.8209220170974731, 'learning_rate': 1.9481500542970961e-07, 'epoch': 0.88} {'loss': 2.2347, 'grad_norm': 2.6770455837249756, 'learning_rate': 1.946469208793883e-07, 'epoch': 0.88} {'loss': 2.077, 'grad_norm': 2.182340145111084, 'learning_rate': 1.944789059340521e-07, 'epoch': 0.88} {'loss': 1.2218, 'grad_norm': 1.6459076404571533, 'learning_rate': 1.943109605987728e-07, 'epoch': 0.88} {'loss': 2.2905, 'grad_norm': 1.606361985206604, 'learning_rate': 1.9414308487862215e-07, 'epoch': 0.88} {'loss': 2.2558, 'grad_norm': 1.4824144840240479, 'learning_rate': 1.9397527877866835e-07, 'epoch': 0.88} {'loss': 2.1222, 'grad_norm': 1.9461026191711426, 'learning_rate': 1.938075423039773e-07, 'epoch': 0.88} {'loss': 2.2396, 'grad_norm': 1.3454467058181763, 'learning_rate': 1.9363987545961443e-07, 'epoch': 0.88} {'loss': 2.4413, 'grad_norm': 2.370629072189331, 'learning_rate': 1.9347227825064153e-07, 'epoch': 0.88} {'loss': 2.222, 'grad_norm': 1.3750509023666382, 'learning_rate': 1.9330475068211925e-07, 'epoch': 0.88} {'loss': 1.9197, 'grad_norm': 2.3302559852600098, 'learning_rate': 1.9313729275910465e-07, 'epoch': 0.88} {'loss': 2.1514, 'grad_norm': 1.5660879611968994, 'learning_rate': 1.9296990448665482e-07, 'epoch': 0.88} {'loss': 1.9949, 'grad_norm': 1.4245821237564087, 'learning_rate': 1.9280258586982376e-07, 'epoch': 0.88} {'loss': 2.0012, 'grad_norm': 1.6569266319274902, 'learning_rate': 1.9263533691366242e-07, 'epoch': 0.88} {'loss': 2.2674, 'grad_norm': 1.573148488998413, 'learning_rate': 1.924681576232218e-07, 'epoch': 0.88} {'loss': 2.0836, 'grad_norm': 1.8577269315719604, 'learning_rate': 1.923010480035478e-07, 'epoch': 0.88} {'loss': 2.5449, 'grad_norm': 1.8549014329910278, 'learning_rate': 1.9213400805968673e-07, 'epoch': 0.88} {'loss': 2.1904, 'grad_norm': 1.6885474920272827, 'learning_rate': 1.9196703779668257e-07, 'epoch': 0.88} {'loss': 2.2396, 'grad_norm': 1.6987277269363403, 'learning_rate': 1.9180013721957575e-07, 'epoch': 0.88} {'loss': 2.1044, 'grad_norm': 1.416412115097046, 'learning_rate': 1.916333063334061e-07, 'epoch': 0.88} {'loss': 2.2789, 'grad_norm': 1.6498453617095947, 'learning_rate': 1.9146654514321016e-07, 'epoch': 0.88} {'loss': 2.276, 'grad_norm': 1.7295036315917969, 'learning_rate': 1.9129985365402338e-07, 'epoch': 0.88} {'loss': 2.1912, 'grad_norm': 1.6536256074905396, 'learning_rate': 1.9113323187087808e-07, 'epoch': 0.88} {'loss': 2.0861, 'grad_norm': 1.5994844436645508, 'learning_rate': 1.909666797988058e-07, 'epoch': 0.88} {'loss': 2.1842, 'grad_norm': 1.9150456190109253, 'learning_rate': 1.9080019744283474e-07, 'epoch': 0.88} {'loss': 2.3449, 'grad_norm': 1.463229775428772, 'learning_rate': 1.906337848079909e-07, 'epoch': 0.88} {'loss': 2.042, 'grad_norm': 1.5552175045013428, 'learning_rate': 1.9046744189929995e-07, 'epoch': 0.88} {'loss': 2.3376, 'grad_norm': 1.362765908241272, 'learning_rate': 1.9030116872178317e-07, 'epoch': 0.88} {'loss': 2.2185, 'grad_norm': 1.7089896202087402, 'learning_rate': 1.9013496528046127e-07, 'epoch': 0.88} {'loss': 2.3958, 'grad_norm': 1.5435880422592163, 'learning_rate': 1.89968831580353e-07, 'epoch': 0.88} {'loss': 2.1286, 'grad_norm': 1.5988560914993286, 'learning_rate': 1.8980276762647298e-07, 'epoch': 0.88} {'loss': 2.1963, 'grad_norm': 1.6960644721984863, 'learning_rate': 1.8963677342383662e-07, 'epoch': 0.88} {'loss': 1.982, 'grad_norm': 1.3376744985580444, 'learning_rate': 1.894708489774552e-07, 'epoch': 0.88} {'loss': 2.3496, 'grad_norm': 1.5135524272918701, 'learning_rate': 1.893049942923375e-07, 'epoch': 0.88} {'loss': 2.3242, 'grad_norm': 1.811357855796814, 'learning_rate': 1.8913920937349283e-07, 'epoch': 0.88} {'loss': 1.8196, 'grad_norm': 1.2823054790496826, 'learning_rate': 1.8897349422592497e-07, 'epoch': 0.88} {'loss': 2.4567, 'grad_norm': 1.725816011428833, 'learning_rate': 1.888078488546388e-07, 'epoch': 0.88} {'loss': 2.27, 'grad_norm': 2.250077247619629, 'learning_rate': 1.8864227326463452e-07, 'epoch': 0.88} {'loss': 1.7258, 'grad_norm': 1.5870083570480347, 'learning_rate': 1.8847676746091198e-07, 'epoch': 0.88} {'loss': 2.2031, 'grad_norm': 1.6990330219268799, 'learning_rate': 1.8831133144846774e-07, 'epoch': 0.88} {'loss': 2.1771, 'grad_norm': 1.7210153341293335, 'learning_rate': 1.8814596523229728e-07, 'epoch': 0.88} {'loss': 2.0971, 'grad_norm': 1.63654363155365, 'learning_rate': 1.879806688173938e-07, 'epoch': 0.88} {'loss': 2.389, 'grad_norm': 1.9475558996200562, 'learning_rate': 1.8781544220874664e-07, 'epoch': 0.88} {'loss': 2.1364, 'grad_norm': 1.6369192600250244, 'learning_rate': 1.87650285411346e-07, 'epoch': 0.88} {'loss': 2.3798, 'grad_norm': 1.795200228691101, 'learning_rate': 1.8748519843017703e-07, 'epoch': 0.88} {'loss': 1.9907, 'grad_norm': 1.658544898033142, 'learning_rate': 1.8732018127022522e-07, 'epoch': 0.88} {'loss': 2.3496, 'grad_norm': 1.870717167854309, 'learning_rate': 1.8715523393647267e-07, 'epoch': 0.88} {'loss': 2.5065, 'grad_norm': 1.7294385433197021, 'learning_rate': 1.869903564338993e-07, 'epoch': 0.88} {'loss': 2.1232, 'grad_norm': 1.3474204540252686, 'learning_rate': 1.868255487674836e-07, 'epoch': 0.88} {'loss': 2.2455, 'grad_norm': 2.256890058517456, 'learning_rate': 1.8666081094220078e-07, 'epoch': 0.88} {'loss': 2.0229, 'grad_norm': 2.670361042022705, 'learning_rate': 1.8649614296302603e-07, 'epoch': 0.88} {'loss': 2.3144, 'grad_norm': 1.575816035270691, 'learning_rate': 1.8633154483493037e-07, 'epoch': 0.88} {'loss': 1.8699, 'grad_norm': 1.4181491136550903, 'learning_rate': 1.861670165628829e-07, 'epoch': 0.88} {'loss': 2.2567, 'grad_norm': 1.3730815649032593, 'learning_rate': 1.8600255815185237e-07, 'epoch': 0.88} {'loss': 2.1069, 'grad_norm': 1.6797772645950317, 'learning_rate': 1.8583816960680318e-07, 'epoch': 0.88} {'loss': 2.399, 'grad_norm': 1.5307765007019043, 'learning_rate': 1.8567385093269967e-07, 'epoch': 0.88} {'loss': 2.3005, 'grad_norm': 1.8836448192596436, 'learning_rate': 1.855096021345021e-07, 'epoch': 0.88} {'loss': 2.3751, 'grad_norm': 1.9144234657287598, 'learning_rate': 1.8534542321716974e-07, 'epoch': 0.88} {'loss': 2.3673, 'grad_norm': 2.115715265274048, 'learning_rate': 1.851813141856612e-07, 'epoch': 0.88} {'loss': 2.3567, 'grad_norm': 1.5704929828643799, 'learning_rate': 1.8501727504492916e-07, 'epoch': 0.88} {'loss': 2.1062, 'grad_norm': 1.4856104850769043, 'learning_rate': 1.8485330579992771e-07, 'epoch': 0.88} {'loss': 2.2243, 'grad_norm': 1.7924124002456665, 'learning_rate': 1.846894064556065e-07, 'epoch': 0.88} {'loss': 2.2767, 'grad_norm': 1.8002139329910278, 'learning_rate': 1.845255770169152e-07, 'epoch': 0.88} {'loss': 2.3232, 'grad_norm': 2.2007269859313965, 'learning_rate': 1.843618174888001e-07, 'epoch': 0.88} {'loss': 2.2384, 'grad_norm': 1.7758592367172241, 'learning_rate': 1.8419812787620506e-07, 'epoch': 0.88} {'loss': 2.1175, 'grad_norm': 2.037956953048706, 'learning_rate': 1.8403450818407276e-07, 'epoch': 0.88} {'loss': 2.1414, 'grad_norm': 1.7836394309997559, 'learning_rate': 1.8387095841734287e-07, 'epoch': 0.88} {'loss': 2.3778, 'grad_norm': 1.5684480667114258, 'learning_rate': 1.8370747858095394e-07, 'epoch': 0.88} {'loss': 2.3148, 'grad_norm': 2.0694382190704346, 'learning_rate': 1.8354406867984175e-07, 'epoch': 0.88} {'loss': 2.2509, 'grad_norm': 1.7280458211898804, 'learning_rate': 1.8338072871893958e-07, 'epoch': 0.88} {'loss': 2.3019, 'grad_norm': 1.6704707145690918, 'learning_rate': 1.8321745870317987e-07, 'epoch': 0.88} {'loss': 2.3106, 'grad_norm': 1.7278505563735962, 'learning_rate': 1.8305425863749172e-07, 'epoch': 0.88} {'loss': 2.2803, 'grad_norm': 1.5543957948684692, 'learning_rate': 1.8289112852680257e-07, 'epoch': 0.88} {'loss': 2.3479, 'grad_norm': 2.4093992710113525, 'learning_rate': 1.8272806837603795e-07, 'epoch': 0.88} {'loss': 2.1697, 'grad_norm': 1.4832483530044556, 'learning_rate': 1.8256507819012087e-07, 'epoch': 0.88} {'loss': 2.3018, 'grad_norm': 1.5054287910461426, 'learning_rate': 1.8240215797397294e-07, 'epoch': 0.88} {'loss': 2.3062, 'grad_norm': 1.621816635131836, 'learning_rate': 1.8223930773251298e-07, 'epoch': 0.88} {'loss': 1.2392, 'grad_norm': 1.7404568195343018, 'learning_rate': 1.8207652747065735e-07, 'epoch': 0.88} {'loss': 2.412, 'grad_norm': 2.6056723594665527, 'learning_rate': 1.8191381719332184e-07, 'epoch': 0.88} {'loss': 1.9253, 'grad_norm': 1.5423864126205444, 'learning_rate': 1.8175117690541782e-07, 'epoch': 0.88} {'loss': 2.0427, 'grad_norm': 1.6317172050476074, 'learning_rate': 1.8158860661185719e-07, 'epoch': 0.88} {'loss': 2.2532, 'grad_norm': 1.6377183198928833, 'learning_rate': 1.8142610631754737e-07, 'epoch': 0.88} {'loss': 2.1673, 'grad_norm': 1.6945947408676147, 'learning_rate': 1.812636760273953e-07, 'epoch': 0.88} {'loss': 2.2655, 'grad_norm': 1.9351801872253418, 'learning_rate': 1.8110131574630485e-07, 'epoch': 0.88} {'loss': 1.8086, 'grad_norm': 1.4821693897247314, 'learning_rate': 1.8093902547917846e-07, 'epoch': 0.88} {'loss': 2.3636, 'grad_norm': 1.8289388418197632, 'learning_rate': 1.8077680523091612e-07, 'epoch': 0.88} {'loss': 2.4235, 'grad_norm': 1.9653403759002686, 'learning_rate': 1.80614655006415e-07, 'epoch': 0.88} {'loss': 2.238, 'grad_norm': 4.315062522888184, 'learning_rate': 1.8045257481057204e-07, 'epoch': 0.88} {'loss': 2.1336, 'grad_norm': 1.3810516595840454, 'learning_rate': 1.802905646482797e-07, 'epoch': 0.88} {'loss': 2.0415, 'grad_norm': 1.424738883972168, 'learning_rate': 1.801286245244299e-07, 'epoch': 0.88} {'loss': 2.3637, 'grad_norm': 1.6362006664276123, 'learning_rate': 1.7996675444391265e-07, 'epoch': 0.88} {'loss': 2.2508, 'grad_norm': 1.5899600982666016, 'learning_rate': 1.7980495441161456e-07, 'epoch': 0.88} {'loss': 2.2788, 'grad_norm': 1.9612860679626465, 'learning_rate': 1.7964322443242144e-07, 'epoch': 0.88} {'loss': 2.3084, 'grad_norm': 1.5899368524551392, 'learning_rate': 1.794815645112155e-07, 'epoch': 0.88} {'loss': 2.0455, 'grad_norm': 1.8880850076675415, 'learning_rate': 1.7931997465287897e-07, 'epoch': 0.88} {'loss': 2.2116, 'grad_norm': 1.7137144804000854, 'learning_rate': 1.791584548622896e-07, 'epoch': 0.88} {'loss': 2.3843, 'grad_norm': 1.7716658115386963, 'learning_rate': 1.7899700514432405e-07, 'epoch': 0.88} {'loss': 1.6735, 'grad_norm': 1.4047669172286987, 'learning_rate': 1.7883562550385786e-07, 'epoch': 0.88} {'loss': 2.2654, 'grad_norm': 1.6539170742034912, 'learning_rate': 1.786743159457624e-07, 'epoch': 0.88} {'loss': 2.124, 'grad_norm': 1.606743335723877, 'learning_rate': 1.7851307647490934e-07, 'epoch': 0.88} {'loss': 2.4321, 'grad_norm': 1.8094208240509033, 'learning_rate': 1.7835190709616562e-07, 'epoch': 0.88} {'loss': 2.4071, 'grad_norm': 1.8375568389892578, 'learning_rate': 1.7819080781439873e-07, 'epoch': 0.88} {'loss': 2.0162, 'grad_norm': 1.5723237991333008, 'learning_rate': 1.7802977863447146e-07, 'epoch': 0.88} {'loss': 2.3465, 'grad_norm': 1.8205528259277344, 'learning_rate': 1.7786881956124657e-07, 'epoch': 0.88} {'loss': 1.9981, 'grad_norm': 1.392398476600647, 'learning_rate': 1.7770793059958352e-07, 'epoch': 0.88} {'loss': 2.4249, 'grad_norm': 1.5381224155426025, 'learning_rate': 1.775471117543398e-07, 'epoch': 0.88} {'loss': 2.3167, 'grad_norm': 1.914085865020752, 'learning_rate': 1.77386363030371e-07, 'epoch': 0.88} {'loss': 2.3528, 'grad_norm': 1.804236650466919, 'learning_rate': 1.7722568443253125e-07, 'epoch': 0.88} {'loss': 2.1871, 'grad_norm': 1.6103945970535278, 'learning_rate': 1.7706507596567112e-07, 'epoch': 0.88} {'loss': 2.2993, 'grad_norm': 1.4833753108978271, 'learning_rate': 1.7690453763464038e-07, 'epoch': 0.88} {'loss': 2.234, 'grad_norm': 1.7430603504180908, 'learning_rate': 1.767440694442857e-07, 'epoch': 0.88} {'loss': 2.1843, 'grad_norm': 1.8500714302062988, 'learning_rate': 1.765836713994523e-07, 'epoch': 0.88} {'loss': 2.2238, 'grad_norm': 1.365953803062439, 'learning_rate': 1.764233435049831e-07, 'epoch': 0.88} {'loss': 2.1835, 'grad_norm': 2.051246404647827, 'learning_rate': 1.7626308576571827e-07, 'epoch': 0.88} {'loss': 2.6628, 'grad_norm': 1.8260091543197632, 'learning_rate': 1.7610289818649733e-07, 'epoch': 0.88} {'loss': 2.2093, 'grad_norm': 2.1423351764678955, 'learning_rate': 1.7594278077215587e-07, 'epoch': 0.88} {'loss': 2.1357, 'grad_norm': 1.5679864883422852, 'learning_rate': 1.7578273352752917e-07, 'epoch': 0.88} {'loss': 2.25, 'grad_norm': 1.6202713251113892, 'learning_rate': 1.7562275645744864e-07, 'epoch': 0.88} {'loss': 2.3575, 'grad_norm': 1.6539305448532104, 'learning_rate': 1.7546284956674487e-07, 'epoch': 0.88} {'loss': 2.0594, 'grad_norm': 2.3086578845977783, 'learning_rate': 1.753030128602462e-07, 'epoch': 0.88} {'loss': 2.0036, 'grad_norm': 1.6924772262573242, 'learning_rate': 1.7514324634277823e-07, 'epoch': 0.88} {'loss': 2.1214, 'grad_norm': 1.7363841533660889, 'learning_rate': 1.749835500191646e-07, 'epoch': 0.88} {'loss': 2.4187, 'grad_norm': 1.6277189254760742, 'learning_rate': 1.7482392389422675e-07, 'epoch': 0.88} {'loss': 2.3496, 'grad_norm': 1.7226598262786865, 'learning_rate': 1.746643679727847e-07, 'epoch': 0.88} {'loss': 2.3711, 'grad_norm': 1.5588288307189941, 'learning_rate': 1.7450488225965624e-07, 'epoch': 0.88} {'loss': 2.0806, 'grad_norm': 1.8542864322662354, 'learning_rate': 1.7434546675965585e-07, 'epoch': 0.88} {'loss': 1.2115, 'grad_norm': 1.560341715812683, 'learning_rate': 1.7418612147759724e-07, 'epoch': 0.88} {'loss': 2.0492, 'grad_norm': 1.7288070917129517, 'learning_rate': 1.740268464182912e-07, 'epoch': 0.88} {'loss': 2.579, 'grad_norm': 1.56695556640625, 'learning_rate': 1.73867641586547e-07, 'epoch': 0.88} {'loss': 2.2388, 'grad_norm': 2.5810232162475586, 'learning_rate': 1.7370850698717163e-07, 'epoch': 0.88} {'loss': 2.1658, 'grad_norm': 1.661012053489685, 'learning_rate': 1.735494426249687e-07, 'epoch': 0.88} {'loss': 2.35, 'grad_norm': 1.8003710508346558, 'learning_rate': 1.7339044850474217e-07, 'epoch': 0.88} {'loss': 2.5593, 'grad_norm': 1.728617787361145, 'learning_rate': 1.7323152463129156e-07, 'epoch': 0.89} {'loss': 2.3212, 'grad_norm': 1.8964037895202637, 'learning_rate': 1.7307267100941604e-07, 'epoch': 0.89} {'loss': 2.1369, 'grad_norm': 1.5706526041030884, 'learning_rate': 1.7291388764391098e-07, 'epoch': 0.89} {'loss': 2.1141, 'grad_norm': 1.6954649686813354, 'learning_rate': 1.7275517453957085e-07, 'epoch': 0.89} {'loss': 2.1457, 'grad_norm': 1.7669622898101807, 'learning_rate': 1.7259653170118794e-07, 'epoch': 0.89} {'loss': 2.2249, 'grad_norm': 1.8417305946350098, 'learning_rate': 1.7243795913355148e-07, 'epoch': 0.89} {'loss': 2.1425, 'grad_norm': 1.5978050231933594, 'learning_rate': 1.722794568414507e-07, 'epoch': 0.89} {'loss': 2.2769, 'grad_norm': 1.613432765007019, 'learning_rate': 1.7212102482966897e-07, 'epoch': 0.89} {'loss': 2.1592, 'grad_norm': 1.9792296886444092, 'learning_rate': 1.719626631029911e-07, 'epoch': 0.89} {'loss': 2.1151, 'grad_norm': 2.866725206375122, 'learning_rate': 1.718043716661988e-07, 'epoch': 0.89} {'loss': 2.2338, 'grad_norm': 1.7046889066696167, 'learning_rate': 1.7164615052407018e-07, 'epoch': 0.89} {'loss': 1.6531, 'grad_norm': 1.6374455690383911, 'learning_rate': 1.714879996813837e-07, 'epoch': 0.89} {'loss': 2.2717, 'grad_norm': 2.484626293182373, 'learning_rate': 1.7132991914291297e-07, 'epoch': 0.89} {'loss': 2.1794, 'grad_norm': 1.7797032594680786, 'learning_rate': 1.7117190891343226e-07, 'epoch': 0.89} {'loss': 2.4593, 'grad_norm': 1.5482903718948364, 'learning_rate': 1.7101396899771112e-07, 'epoch': 0.89} {'loss': 2.2042, 'grad_norm': 1.4555649757385254, 'learning_rate': 1.7085609940051928e-07, 'epoch': 0.89} {'loss': 2.062, 'grad_norm': 1.569211721420288, 'learning_rate': 1.706983001266227e-07, 'epoch': 0.89} {'loss': 2.6102, 'grad_norm': 1.8094165325164795, 'learning_rate': 1.705405711807853e-07, 'epoch': 0.89} {'loss': 2.1408, 'grad_norm': 1.7827540636062622, 'learning_rate': 1.7038291256777028e-07, 'epoch': 0.89} {'loss': 2.5599, 'grad_norm': 1.6504583358764648, 'learning_rate': 1.7022532429233713e-07, 'epoch': 0.89} {'loss': 2.4522, 'grad_norm': 1.623793125152588, 'learning_rate': 1.7006780635924398e-07, 'epoch': 0.89} {'loss': 2.1407, 'grad_norm': 1.5860203504562378, 'learning_rate': 1.699103587732473e-07, 'epoch': 0.89} {'loss': 2.3821, 'grad_norm': 1.59891939163208, 'learning_rate': 1.6975298153910024e-07, 'epoch': 0.89} {'loss': 2.2283, 'grad_norm': 1.8576908111572266, 'learning_rate': 1.6959567466155485e-07, 'epoch': 0.89} {'loss': 2.2669, 'grad_norm': 2.6641342639923096, 'learning_rate': 1.6943843814536037e-07, 'epoch': 0.89} {'loss': 2.1476, 'grad_norm': 1.8283441066741943, 'learning_rate': 1.692812719952641e-07, 'epoch': 0.89} {'loss': 2.3673, 'grad_norm': 1.5013847351074219, 'learning_rate': 1.6912417621601175e-07, 'epoch': 0.89} {'loss': 2.4932, 'grad_norm': 1.9189578294754028, 'learning_rate': 1.6896715081234583e-07, 'epoch': 0.89} {'loss': 2.3838, 'grad_norm': 7.401834011077881, 'learning_rate': 1.6881019578900842e-07, 'epoch': 0.89} {'loss': 2.187, 'grad_norm': 1.7932544946670532, 'learning_rate': 1.6865331115073712e-07, 'epoch': 0.89} {'loss': 2.3402, 'grad_norm': 1.6298788785934448, 'learning_rate': 1.6849649690226982e-07, 'epoch': 0.89} {'loss': 2.2786, 'grad_norm': 2.380641460418701, 'learning_rate': 1.683397530483405e-07, 'epoch': 0.89} {'loss': 2.1896, 'grad_norm': 1.6581863164901733, 'learning_rate': 1.681830795936823e-07, 'epoch': 0.89} {'loss': 2.065, 'grad_norm': 1.7083479166030884, 'learning_rate': 1.6802647654302507e-07, 'epoch': 0.89} {'loss': 2.1834, 'grad_norm': 2.1561334133148193, 'learning_rate': 1.6786994390109695e-07, 'epoch': 0.89} {'loss': 2.3945, 'grad_norm': 1.8449583053588867, 'learning_rate': 1.67713481672625e-07, 'epoch': 0.89} {'loss': 2.1739, 'grad_norm': 1.6866424083709717, 'learning_rate': 1.6755708986233216e-07, 'epoch': 0.89} {'loss': 2.1086, 'grad_norm': 2.0499799251556396, 'learning_rate': 1.674007684749407e-07, 'epoch': 0.89} {'loss': 2.3399, 'grad_norm': 1.591528058052063, 'learning_rate': 1.67244517515171e-07, 'epoch': 0.89} {'loss': 2.233, 'grad_norm': 1.5603206157684326, 'learning_rate': 1.670883369877399e-07, 'epoch': 0.89} {'loss': 2.3451, 'grad_norm': 1.9759150743484497, 'learning_rate': 1.669322268973636e-07, 'epoch': 0.89} {'loss': 2.1913, 'grad_norm': 1.2788951396942139, 'learning_rate': 1.6677618724875526e-07, 'epoch': 0.89} {'loss': 1.9586, 'grad_norm': 1.7209783792495728, 'learning_rate': 1.6662021804662558e-07, 'epoch': 0.89} {'loss': 2.3324, 'grad_norm': 1.6637548208236694, 'learning_rate': 1.664643192956844e-07, 'epoch': 0.89} {'loss': 2.1609, 'grad_norm': 1.6277421712875366, 'learning_rate': 1.6630849100063823e-07, 'epoch': 0.89} {'loss': 2.1931, 'grad_norm': 1.6451244354248047, 'learning_rate': 1.6615273316619274e-07, 'epoch': 0.89} {'loss': 2.2732, 'grad_norm': 1.670246958732605, 'learning_rate': 1.6599704579704972e-07, 'epoch': 0.89} {'loss': 2.2016, 'grad_norm': 1.6618307828903198, 'learning_rate': 1.6584142889791072e-07, 'epoch': 0.89} {'loss': 2.2218, 'grad_norm': 1.5965808629989624, 'learning_rate': 1.6568588247347306e-07, 'epoch': 0.89} {'loss': 2.1252, 'grad_norm': 2.152677059173584, 'learning_rate': 1.655304065284341e-07, 'epoch': 0.89} {'loss': 2.2092, 'grad_norm': 1.276088833808899, 'learning_rate': 1.6537500106748871e-07, 'epoch': 0.89} {'loss': 2.1704, 'grad_norm': 1.4452569484710693, 'learning_rate': 1.6521966609532702e-07, 'epoch': 0.89} {'loss': 2.3, 'grad_norm': 1.6485258340835571, 'learning_rate': 1.6506440161664028e-07, 'epoch': 0.89} {'loss': 1.8309, 'grad_norm': 1.2281467914581299, 'learning_rate': 1.6490920763611668e-07, 'epoch': 0.89} {'loss': 2.2857, 'grad_norm': 1.9363712072372437, 'learning_rate': 1.6475408415844107e-07, 'epoch': 0.89} {'loss': 2.1139, 'grad_norm': 1.948603868484497, 'learning_rate': 1.645990311882978e-07, 'epoch': 0.89} {'loss': 2.1926, 'grad_norm': 1.2873787879943848, 'learning_rate': 1.644440487303678e-07, 'epoch': 0.89} {'loss': 2.2179, 'grad_norm': 1.7870022058486938, 'learning_rate': 1.6428913678933067e-07, 'epoch': 0.89} {'loss': 2.1065, 'grad_norm': 1.8813303709030151, 'learning_rate': 1.6413429536986352e-07, 'epoch': 0.89} {'loss': 1.8803, 'grad_norm': 1.7952101230621338, 'learning_rate': 1.6397952447664178e-07, 'epoch': 0.89} {'loss': 2.167, 'grad_norm': 1.6717851161956787, 'learning_rate': 1.638248241143381e-07, 'epoch': 0.89} {'loss': 2.0322, 'grad_norm': 1.658490777015686, 'learning_rate': 1.6367019428762316e-07, 'epoch': 0.89} {'loss': 1.6332, 'grad_norm': 1.6577869653701782, 'learning_rate': 1.63515635001166e-07, 'epoch': 0.89} {'loss': 2.1519, 'grad_norm': 1.8628476858139038, 'learning_rate': 1.6336114625963294e-07, 'epoch': 0.89} {'loss': 2.1898, 'grad_norm': 1.8062045574188232, 'learning_rate': 1.6320672806768855e-07, 'epoch': 0.89} {'loss': 2.3279, 'grad_norm': 1.9631932973861694, 'learning_rate': 1.6305238042999495e-07, 'epoch': 0.89} {'loss': 2.3781, 'grad_norm': 1.7267649173736572, 'learning_rate': 1.6289810335121253e-07, 'epoch': 0.89} {'loss': 2.3036, 'grad_norm': 1.6469700336456299, 'learning_rate': 1.6274389683599982e-07, 'epoch': 0.89} {'loss': 1.9887, 'grad_norm': 2.2340915203094482, 'learning_rate': 1.62589760889012e-07, 'epoch': 0.89} {'loss': 2.1788, 'grad_norm': 1.6241285800933838, 'learning_rate': 1.6243569551490285e-07, 'epoch': 0.89} {'loss': 2.3626, 'grad_norm': 1.8863146305084229, 'learning_rate': 1.6228170071832443e-07, 'epoch': 0.89} {'loss': 2.3702, 'grad_norm': 1.759545087814331, 'learning_rate': 1.6212777650392586e-07, 'epoch': 0.89} {'loss': 2.1924, 'grad_norm': 1.6350080966949463, 'learning_rate': 1.6197392287635532e-07, 'epoch': 0.89} {'loss': 1.8884, 'grad_norm': 1.4256492853164673, 'learning_rate': 1.618201398402569e-07, 'epoch': 0.89} {'loss': 1.9981, 'grad_norm': 1.7556259632110596, 'learning_rate': 1.6166642740027495e-07, 'epoch': 0.89} {'loss': 1.6703, 'grad_norm': 1.496854543685913, 'learning_rate': 1.615127855610496e-07, 'epoch': 0.89} {'loss': 1.9928, 'grad_norm': 1.5345731973648071, 'learning_rate': 1.6135921432722023e-07, 'epoch': 0.89} {'loss': 2.1195, 'grad_norm': 1.8281192779541016, 'learning_rate': 1.6120571370342342e-07, 'epoch': 0.89} {'loss': 2.155, 'grad_norm': 1.87158203125, 'learning_rate': 1.610522836942932e-07, 'epoch': 0.89} {'loss': 1.4961, 'grad_norm': 1.3966368436813354, 'learning_rate': 1.6089892430446314e-07, 'epoch': 0.89} {'loss': 2.2694, 'grad_norm': 1.7338528633117676, 'learning_rate': 1.6074563553856282e-07, 'epoch': 0.89} {'loss': 2.1171, 'grad_norm': 1.9698089361190796, 'learning_rate': 1.6059241740122023e-07, 'epoch': 0.89} {'loss': 2.2316, 'grad_norm': 1.5559033155441284, 'learning_rate': 1.604392698970625e-07, 'epoch': 0.89} {'loss': 2.093, 'grad_norm': 1.2401870489120483, 'learning_rate': 1.602861930307126e-07, 'epoch': 0.89} {'loss': 1.9639, 'grad_norm': 1.6011377573013306, 'learning_rate': 1.6013318680679317e-07, 'epoch': 0.89} {'loss': 2.4045, 'grad_norm': 1.7634141445159912, 'learning_rate': 1.5998025122992311e-07, 'epoch': 0.89} {'loss': 2.2188, 'grad_norm': 1.6587592363357544, 'learning_rate': 1.5982738630472007e-07, 'epoch': 0.89} {'loss': 2.232, 'grad_norm': 1.6755212545394897, 'learning_rate': 1.5967459203580004e-07, 'epoch': 0.89} {'loss': 2.3325, 'grad_norm': 1.612526535987854, 'learning_rate': 1.595218684277755e-07, 'epoch': 0.89} {'loss': 1.7354, 'grad_norm': 1.5222175121307373, 'learning_rate': 1.5936921548525857e-07, 'epoch': 0.89} {'loss': 2.363, 'grad_norm': 1.6840002536773682, 'learning_rate': 1.5921663321285724e-07, 'epoch': 0.89} {'loss': 2.1488, 'grad_norm': 1.6963709592819214, 'learning_rate': 1.5906412161517921e-07, 'epoch': 0.89} {'loss': 2.24, 'grad_norm': 7.893253326416016, 'learning_rate': 1.5891168069682856e-07, 'epoch': 0.89} {'loss': 2.2692, 'grad_norm': 1.6469531059265137, 'learning_rate': 1.5875931046240827e-07, 'epoch': 0.89} {'loss': 2.1966, 'grad_norm': 1.605251431465149, 'learning_rate': 1.5860701091651942e-07, 'epoch': 0.89} {'loss': 2.3387, 'grad_norm': 1.9579410552978516, 'learning_rate': 1.5845478206375887e-07, 'epoch': 0.89} {'loss': 2.2039, 'grad_norm': 1.4395297765731812, 'learning_rate': 1.583026239087243e-07, 'epoch': 0.89} {'loss': 2.0828, 'grad_norm': 1.3435503244400024, 'learning_rate': 1.5815053645600875e-07, 'epoch': 0.89} {'loss': 2.2098, 'grad_norm': 1.6216691732406616, 'learning_rate': 1.5799851971020437e-07, 'epoch': 0.89} {'loss': 2.2565, 'grad_norm': 1.5657200813293457, 'learning_rate': 1.578465736759019e-07, 'epoch': 0.89} {'loss': 2.0522, 'grad_norm': 1.960330843925476, 'learning_rate': 1.576946983576877e-07, 'epoch': 0.89} {'loss': 2.4274, 'grad_norm': 1.7391374111175537, 'learning_rate': 1.575428937601481e-07, 'epoch': 0.89} {'loss': 2.1694, 'grad_norm': 1.732715368270874, 'learning_rate': 1.5739115988786608e-07, 'epoch': 0.89} {'loss': 2.2923, 'grad_norm': 1.7259464263916016, 'learning_rate': 1.5723949674542356e-07, 'epoch': 0.89} {'loss': 2.3682, 'grad_norm': 1.598647117614746, 'learning_rate': 1.5708790433739906e-07, 'epoch': 0.89} {'loss': 2.1776, 'grad_norm': 2.143939971923828, 'learning_rate': 1.5693638266836954e-07, 'epoch': 0.89} {'loss': 2.2743, 'grad_norm': 2.4955432415008545, 'learning_rate': 1.5678493174291044e-07, 'epoch': 0.89} {'loss': 2.0305, 'grad_norm': 1.7389605045318604, 'learning_rate': 1.566335515655934e-07, 'epoch': 0.89} {'loss': 2.1498, 'grad_norm': 1.7066459655761719, 'learning_rate': 1.5648224214099034e-07, 'epoch': 0.89} {'loss': 2.5461, 'grad_norm': 2.2327325344085693, 'learning_rate': 1.563310034736687e-07, 'epoch': 0.89} {'loss': 1.6028, 'grad_norm': 1.4185296297073364, 'learning_rate': 1.561798355681951e-07, 'epoch': 0.89} {'loss': 2.1778, 'grad_norm': 1.6423449516296387, 'learning_rate': 1.5602873842913424e-07, 'epoch': 0.89} {'loss': 2.3673, 'grad_norm': 3.381499767303467, 'learning_rate': 1.5587771206104747e-07, 'epoch': 0.89} {'loss': 2.0183, 'grad_norm': 1.258675217628479, 'learning_rate': 1.557267564684953e-07, 'epoch': 0.89} {'loss': 2.221, 'grad_norm': 1.705573558807373, 'learning_rate': 1.5557587165603432e-07, 'epoch': 0.89} {'loss': 2.1316, 'grad_norm': 1.6206328868865967, 'learning_rate': 1.5542505762822125e-07, 'epoch': 0.89} {'loss': 2.2875, 'grad_norm': 1.575571894645691, 'learning_rate': 1.552743143896096e-07, 'epoch': 0.89} {'loss': 2.2941, 'grad_norm': 1.812162160873413, 'learning_rate': 1.5512364194474993e-07, 'epoch': 0.89} {'loss': 2.2438, 'grad_norm': 1.6365731954574585, 'learning_rate': 1.5497304029819248e-07, 'epoch': 0.89} {'loss': 2.1724, 'grad_norm': 1.577523946762085, 'learning_rate': 1.5482250945448334e-07, 'epoch': 0.89} {'loss': 2.4452, 'grad_norm': 2.0606565475463867, 'learning_rate': 1.5467204941816832e-07, 'epoch': 0.89} {'loss': 2.1618, 'grad_norm': 1.9063876867294312, 'learning_rate': 1.5452166019378989e-07, 'epoch': 0.89} {'loss': 2.3534, 'grad_norm': 1.591950535774231, 'learning_rate': 1.543713417858883e-07, 'epoch': 0.89} {'loss': 2.2668, 'grad_norm': 1.6099215745925903, 'learning_rate': 1.5422109419900273e-07, 'epoch': 0.89} {'loss': 2.4765, 'grad_norm': 1.7743290662765503, 'learning_rate': 1.5407091743766893e-07, 'epoch': 0.89} {'loss': 1.9159, 'grad_norm': 1.59762704372406, 'learning_rate': 1.539208115064217e-07, 'epoch': 0.89} {'loss': 2.238, 'grad_norm': 5.861900329589844, 'learning_rate': 1.537707764097926e-07, 'epoch': 0.89} {'loss': 2.0777, 'grad_norm': 1.8360151052474976, 'learning_rate': 1.5362081215231196e-07, 'epoch': 0.89} {'loss': 2.1236, 'grad_norm': 1.4381946325302124, 'learning_rate': 1.5347091873850805e-07, 'epoch': 0.89} {'loss': 2.222, 'grad_norm': 1.6198450326919556, 'learning_rate': 1.533210961729062e-07, 'epoch': 0.89} {'loss': 2.1789, 'grad_norm': 1.7484885454177856, 'learning_rate': 1.5317134446002967e-07, 'epoch': 0.89} {'loss': 2.1711, 'grad_norm': 2.0207808017730713, 'learning_rate': 1.5302166360439962e-07, 'epoch': 0.89} {'loss': 2.248, 'grad_norm': 1.8570772409439087, 'learning_rate': 1.5287205361053603e-07, 'epoch': 0.89} {'loss': 2.2552, 'grad_norm': 1.5886305570602417, 'learning_rate': 1.527225144829561e-07, 'epoch': 0.89} {'loss': 2.1765, 'grad_norm': 1.3539113998413086, 'learning_rate': 1.525730462261743e-07, 'epoch': 0.89} {'loss': 2.3621, 'grad_norm': 1.756327509880066, 'learning_rate': 1.5242364884470396e-07, 'epoch': 0.89} {'loss': 2.2846, 'grad_norm': 1.667567253112793, 'learning_rate': 1.5227432234305505e-07, 'epoch': 0.89} {'loss': 2.1196, 'grad_norm': 1.4096957445144653, 'learning_rate': 1.5212506672573735e-07, 'epoch': 0.89} {'loss': 2.3446, 'grad_norm': 1.560996174812317, 'learning_rate': 1.5197588199725639e-07, 'epoch': 0.89} {'loss': 1.8884, 'grad_norm': 1.5982613563537598, 'learning_rate': 1.5182676816211634e-07, 'epoch': 0.89} {'loss': 2.102, 'grad_norm': 1.9797242879867554, 'learning_rate': 1.5167772522482028e-07, 'epoch': 0.89} {'loss': 2.2987, 'grad_norm': 1.873030185699463, 'learning_rate': 1.515287531898671e-07, 'epoch': 0.89} {'loss': 2.2973, 'grad_norm': 1.675226092338562, 'learning_rate': 1.513798520617557e-07, 'epoch': 0.89} {'loss': 2.4456, 'grad_norm': 1.3007590770721436, 'learning_rate': 1.5123102184498113e-07, 'epoch': 0.89} {'loss': 1.8942, 'grad_norm': 1.7587887048721313, 'learning_rate': 1.5108226254403695e-07, 'epoch': 0.89} {'loss': 2.3265, 'grad_norm': 1.5886409282684326, 'learning_rate': 1.5093357416341548e-07, 'epoch': 0.89} {'loss': 2.1624, 'grad_norm': 1.6789714097976685, 'learning_rate': 1.5078495670760474e-07, 'epoch': 0.89} {'loss': 2.0542, 'grad_norm': 1.7094035148620605, 'learning_rate': 1.506364101810931e-07, 'epoch': 0.89} {'loss': 2.3683, 'grad_norm': 1.9584976434707642, 'learning_rate': 1.504879345883653e-07, 'epoch': 0.89} {'loss': 2.267, 'grad_norm': 1.8078458309173584, 'learning_rate': 1.5033952993390332e-07, 'epoch': 0.89} {'loss': 2.3137, 'grad_norm': 1.7496658563613892, 'learning_rate': 1.5019119622218915e-07, 'epoch': 0.89} {'loss': 2.3761, 'grad_norm': 1.8095121383666992, 'learning_rate': 1.5004293345770054e-07, 'epoch': 0.89} {'loss': 2.2473, 'grad_norm': 1.6965056657791138, 'learning_rate': 1.4989474164491452e-07, 'epoch': 0.89} {'loss': 2.3198, 'grad_norm': 1.7996196746826172, 'learning_rate': 1.49746620788305e-07, 'epoch': 0.89} {'loss': 2.1618, 'grad_norm': 1.608516812324524, 'learning_rate': 1.4959857089234446e-07, 'epoch': 0.89} {'loss': 2.2148, 'grad_norm': 1.7094264030456543, 'learning_rate': 1.4945059196150247e-07, 'epoch': 0.89} {'loss': 2.2129, 'grad_norm': 1.7640670537948608, 'learning_rate': 1.4930268400024732e-07, 'epoch': 0.89} {'loss': 2.1974, 'grad_norm': 1.7510749101638794, 'learning_rate': 1.4915484701304496e-07, 'epoch': 0.89} {'loss': 2.6825, 'grad_norm': 1.6881840229034424, 'learning_rate': 1.490070810043584e-07, 'epoch': 0.89} {'loss': 2.1158, 'grad_norm': 1.5221079587936401, 'learning_rate': 1.4885938597864942e-07, 'epoch': 0.89} {'loss': 2.4347, 'grad_norm': 2.231996536254883, 'learning_rate': 1.4871176194037746e-07, 'epoch': 0.89} {'loss': 2.1697, 'grad_norm': 1.3327018022537231, 'learning_rate': 1.4856420889399954e-07, 'epoch': 0.89} {'loss': 2.1536, 'grad_norm': 1.5868490934371948, 'learning_rate': 1.4841672684397096e-07, 'epoch': 0.89} {'loss': 2.1967, 'grad_norm': 1.6553088426589966, 'learning_rate': 1.48269315794744e-07, 'epoch': 0.89} {'loss': 2.2404, 'grad_norm': 1.8818365335464478, 'learning_rate': 1.4812197575077014e-07, 'epoch': 0.89} {'loss': 2.3147, 'grad_norm': 2.181730270385742, 'learning_rate': 1.4797470671649743e-07, 'epoch': 0.89} {'loss': 2.2603, 'grad_norm': 1.7845350503921509, 'learning_rate': 1.4782750869637237e-07, 'epoch': 0.89} {'loss': 2.2573, 'grad_norm': 1.7585824728012085, 'learning_rate': 1.4768038169483994e-07, 'epoch': 0.89} {'loss': 2.2686, 'grad_norm': 1.6998695135116577, 'learning_rate': 1.475333257163414e-07, 'epoch': 0.89} {'loss': 2.3515, 'grad_norm': 1.877503514289856, 'learning_rate': 1.4738634076531728e-07, 'epoch': 0.89} {'loss': 2.184, 'grad_norm': 1.870761513710022, 'learning_rate': 1.4723942684620518e-07, 'epoch': 0.89} {'loss': 2.5843, 'grad_norm': 1.7656831741333008, 'learning_rate': 1.4709258396344156e-07, 'epoch': 0.89} {'loss': 2.3638, 'grad_norm': 1.732405185699463, 'learning_rate': 1.4694581212145897e-07, 'epoch': 0.89} {'loss': 2.4341, 'grad_norm': 1.84494149684906, 'learning_rate': 1.4679911132468916e-07, 'epoch': 0.89} {'loss': 2.3035, 'grad_norm': 1.5293861627578735, 'learning_rate': 1.4665248157756274e-07, 'epoch': 0.89} {'loss': 2.1083, 'grad_norm': 1.827793836593628, 'learning_rate': 1.4650592288450477e-07, 'epoch': 0.89} {'loss': 1.92, 'grad_norm': 1.4027069807052612, 'learning_rate': 1.4635943524994146e-07, 'epoch': 0.89} {'loss': 2.073, 'grad_norm': 1.741586446762085, 'learning_rate': 1.4621301867829562e-07, 'epoch': 0.89} {'loss': 2.3039, 'grad_norm': 1.6347862482070923, 'learning_rate': 1.4606667317398765e-07, 'epoch': 0.89} {'loss': 2.3075, 'grad_norm': 1.9898003339767456, 'learning_rate': 1.4592039874143649e-07, 'epoch': 0.89} {'loss': 2.3169, 'grad_norm': 1.9084409475326538, 'learning_rate': 1.4577419538505804e-07, 'epoch': 0.89} {'loss': 2.3244, 'grad_norm': 1.5203349590301514, 'learning_rate': 1.456280631092674e-07, 'epoch': 0.89} {'loss': 2.3259, 'grad_norm': 1.8209686279296875, 'learning_rate': 1.4548200191847635e-07, 'epoch': 0.89} {'loss': 2.0877, 'grad_norm': 1.64327073097229, 'learning_rate': 1.4533601181709405e-07, 'epoch': 0.89} {'loss': 2.3152, 'grad_norm': 1.6904796361923218, 'learning_rate': 1.4519009280952957e-07, 'epoch': 0.89} {'loss': 2.0699, 'grad_norm': 1.913602352142334, 'learning_rate': 1.4504424490018791e-07, 'epoch': 0.89} {'loss': 2.3123, 'grad_norm': 1.6034542322158813, 'learning_rate': 1.4489846809347314e-07, 'epoch': 0.9} {'loss': 2.0242, 'grad_norm': 1.240615725517273, 'learning_rate': 1.4475276239378584e-07, 'epoch': 0.9} {'loss': 1.9667, 'grad_norm': 1.4023915529251099, 'learning_rate': 1.4460712780552556e-07, 'epoch': 0.9} {'loss': 2.3754, 'grad_norm': 1.6975593566894531, 'learning_rate': 1.4446156433309043e-07, 'epoch': 0.9} {'loss': 2.2498, 'grad_norm': 1.7417446374893188, 'learning_rate': 1.4431607198087395e-07, 'epoch': 0.9} {'loss': 2.4569, 'grad_norm': 1.5987282991409302, 'learning_rate': 1.441706507532703e-07, 'epoch': 0.9} {'loss': 2.3035, 'grad_norm': 1.3960531949996948, 'learning_rate': 1.440253006546688e-07, 'epoch': 0.9} {'loss': 2.4401, 'grad_norm': 1.7474184036254883, 'learning_rate': 1.438800216894587e-07, 'epoch': 0.9} {'loss': 2.2688, 'grad_norm': 1.6126724481582642, 'learning_rate': 1.4373481386202648e-07, 'epoch': 0.9} {'loss': 2.197, 'grad_norm': 1.595863938331604, 'learning_rate': 1.4358967717675587e-07, 'epoch': 0.9} {'loss': 2.3648, 'grad_norm': 1.8689090013504028, 'learning_rate': 1.4344461163802946e-07, 'epoch': 0.9} {'loss': 2.4445, 'grad_norm': 2.057952642440796, 'learning_rate': 1.4329961725022685e-07, 'epoch': 0.9} {'loss': 2.3965, 'grad_norm': 1.5168787240982056, 'learning_rate': 1.4315469401772614e-07, 'epoch': 0.9} {'loss': 2.2609, 'grad_norm': 1.711212158203125, 'learning_rate': 1.430098419449022e-07, 'epoch': 0.9} {'loss': 2.1962, 'grad_norm': 1.7052875757217407, 'learning_rate': 1.4286506103612986e-07, 'epoch': 0.9} {'loss': 2.2139, 'grad_norm': 1.5084863901138306, 'learning_rate': 1.4272035129577922e-07, 'epoch': 0.9} {'loss': 2.2872, 'grad_norm': 1.6803265810012817, 'learning_rate': 1.4257571272821985e-07, 'epoch': 0.9} {'loss': 2.2226, 'grad_norm': 1.9663467407226562, 'learning_rate': 1.424311453378191e-07, 'epoch': 0.9} {'loss': 2.2876, 'grad_norm': 1.7464429140090942, 'learning_rate': 1.4228664912894153e-07, 'epoch': 0.9} {'loss': 2.4711, 'grad_norm': 1.597400426864624, 'learning_rate': 1.4214222410594947e-07, 'epoch': 0.9} {'loss': 2.5399, 'grad_norm': 1.772144079208374, 'learning_rate': 1.419978702732047e-07, 'epoch': 0.9} {'loss': 2.3381, 'grad_norm': 1.918774127960205, 'learning_rate': 1.4185358763506462e-07, 'epoch': 0.9} {'loss': 1.2668, 'grad_norm': 1.988752007484436, 'learning_rate': 1.4170937619588598e-07, 'epoch': 0.9} {'loss': 2.3692, 'grad_norm': 1.7331433296203613, 'learning_rate': 1.4156523596002308e-07, 'epoch': 0.9} {'loss': 2.315, 'grad_norm': 1.7763700485229492, 'learning_rate': 1.4142116693182717e-07, 'epoch': 0.9} {'loss': 2.1886, 'grad_norm': 1.3472713232040405, 'learning_rate': 1.4127716911564893e-07, 'epoch': 0.9} {'loss': 2.4711, 'grad_norm': 2.361640691757202, 'learning_rate': 1.4113324251583515e-07, 'epoch': 0.9} {'loss': 2.3274, 'grad_norm': 1.654881477355957, 'learning_rate': 1.409893871367324e-07, 'epoch': 0.9} {'loss': 2.3591, 'grad_norm': 1.6554001569747925, 'learning_rate': 1.4084560298268324e-07, 'epoch': 0.9} {'loss': 2.3351, 'grad_norm': 1.506160855293274, 'learning_rate': 1.4070189005802952e-07, 'epoch': 0.9} {'loss': 1.9467, 'grad_norm': 1.8440823554992676, 'learning_rate': 1.4055824836711002e-07, 'epoch': 0.9} {'loss': 2.1071, 'grad_norm': 1.5540752410888672, 'learning_rate': 1.404146779142615e-07, 'epoch': 0.9} {'loss': 2.3303, 'grad_norm': 1.6371489763259888, 'learning_rate': 1.4027117870381967e-07, 'epoch': 0.9} {'loss': 2.1627, 'grad_norm': 1.9425609111785889, 'learning_rate': 1.4012775074011554e-07, 'epoch': 0.9} {'loss': 2.0221, 'grad_norm': 1.7314924001693726, 'learning_rate': 1.3998439402748115e-07, 'epoch': 0.9} {'loss': 2.2912, 'grad_norm': 1.531826376914978, 'learning_rate': 1.3984110857024392e-07, 'epoch': 0.9} {'loss': 2.3956, 'grad_norm': 2.172476291656494, 'learning_rate': 1.3969789437273007e-07, 'epoch': 0.9} {'loss': 2.2324, 'grad_norm': 1.7707690000534058, 'learning_rate': 1.3955475143926451e-07, 'epoch': 0.9} {'loss': 1.8362, 'grad_norm': 1.4423717260360718, 'learning_rate': 1.3941167977416792e-07, 'epoch': 0.9} {'loss': 2.1098, 'grad_norm': 2.285630941390991, 'learning_rate': 1.3926867938176103e-07, 'epoch': 0.9} {'loss': 2.1859, 'grad_norm': 1.742799162864685, 'learning_rate': 1.3912575026636067e-07, 'epoch': 0.9} {'loss': 2.1397, 'grad_norm': 1.5181269645690918, 'learning_rate': 1.389828924322828e-07, 'epoch': 0.9} {'loss': 2.2015, 'grad_norm': 3.622421979904175, 'learning_rate': 1.3884010588384066e-07, 'epoch': 0.9} {'loss': 2.3641, 'grad_norm': 1.6024080514907837, 'learning_rate': 1.386973906253447e-07, 'epoch': 0.9} {'loss': 2.2847, 'grad_norm': 1.5913976430892944, 'learning_rate': 1.3855474666110508e-07, 'epoch': 0.9} {'loss': 2.2901, 'grad_norm': 1.4310810565948486, 'learning_rate': 1.3841217399542722e-07, 'epoch': 0.9} {'loss': 2.0621, 'grad_norm': 1.88066565990448, 'learning_rate': 1.3826967263261686e-07, 'epoch': 0.9} {'loss': 2.0977, 'grad_norm': 5.161612510681152, 'learning_rate': 1.3812724257697585e-07, 'epoch': 0.9} {'loss': 2.4054, 'grad_norm': 1.8179124593734741, 'learning_rate': 1.3798488383280489e-07, 'epoch': 0.9} {'loss': 2.5921, 'grad_norm': 1.6150434017181396, 'learning_rate': 1.378425964044028e-07, 'epoch': 0.9} {'loss': 2.2514, 'grad_norm': 1.6535446643829346, 'learning_rate': 1.3770038029606414e-07, 'epoch': 0.9} {'loss': 2.2445, 'grad_norm': 1.7276049852371216, 'learning_rate': 1.3755823551208385e-07, 'epoch': 0.9} {'loss': 2.445, 'grad_norm': 1.5425846576690674, 'learning_rate': 1.3741616205675324e-07, 'epoch': 0.9} {'loss': 2.1992, 'grad_norm': 2.027480125427246, 'learning_rate': 1.3727415993436216e-07, 'epoch': 0.9} {'loss': 2.3338, 'grad_norm': 1.5841281414031982, 'learning_rate': 1.3713222914919834e-07, 'epoch': 0.9} {'loss': 2.297, 'grad_norm': 1.6710996627807617, 'learning_rate': 1.3699036970554636e-07, 'epoch': 0.9} {'loss': 2.3065, 'grad_norm': 1.8389103412628174, 'learning_rate': 1.3684858160769005e-07, 'epoch': 0.9} {'loss': 2.272, 'grad_norm': 1.9716910123825073, 'learning_rate': 1.3670686485990959e-07, 'epoch': 0.9} {'loss': 2.1111, 'grad_norm': 2.084369421005249, 'learning_rate': 1.3656521946648487e-07, 'epoch': 0.9} {'loss': 2.3783, 'grad_norm': 1.4855177402496338, 'learning_rate': 1.3642364543169168e-07, 'epoch': 0.9} {'loss': 2.368, 'grad_norm': 1.5770503282546997, 'learning_rate': 1.3628214275980434e-07, 'epoch': 0.9} {'loss': 2.4311, 'grad_norm': 1.7622087001800537, 'learning_rate': 1.361407114550964e-07, 'epoch': 0.9} {'loss': 2.2949, 'grad_norm': 3.449124813079834, 'learning_rate': 1.3599935152183662e-07, 'epoch': 0.9} {'loss': 2.2293, 'grad_norm': 2.266981601715088, 'learning_rate': 1.3585806296429416e-07, 'epoch': 0.9} {'loss': 2.119, 'grad_norm': 1.347948431968689, 'learning_rate': 1.3571684578673417e-07, 'epoch': 0.9} {'loss': 2.3617, 'grad_norm': 1.7785552740097046, 'learning_rate': 1.3557569999342074e-07, 'epoch': 0.9} {'loss': 1.3015, 'grad_norm': 1.7171062231063843, 'learning_rate': 1.3543462558861575e-07, 'epoch': 0.9} {'loss': 2.3234, 'grad_norm': 1.6285496950149536, 'learning_rate': 1.352936225765783e-07, 'epoch': 0.9} {'loss': 2.1792, 'grad_norm': 1.7844336032867432, 'learning_rate': 1.3515269096156525e-07, 'epoch': 0.9} {'loss': 2.1399, 'grad_norm': 1.586881160736084, 'learning_rate': 1.3501183074783264e-07, 'epoch': 0.9} {'loss': 2.3375, 'grad_norm': 1.6472926139831543, 'learning_rate': 1.3487104193963234e-07, 'epoch': 0.9} {'loss': 2.367, 'grad_norm': 1.7953178882598877, 'learning_rate': 1.3473032454121625e-07, 'epoch': 0.9} {'loss': 2.3913, 'grad_norm': 1.9282934665679932, 'learning_rate': 1.345896785568321e-07, 'epoch': 0.9} {'loss': 2.0609, 'grad_norm': 1.7671598196029663, 'learning_rate': 1.3444910399072726e-07, 'epoch': 0.9} {'loss': 2.1513, 'grad_norm': 1.6431387662887573, 'learning_rate': 1.3430860084714504e-07, 'epoch': 0.9} {'loss': 2.2417, 'grad_norm': 1.7265080213546753, 'learning_rate': 1.3416816913032872e-07, 'epoch': 0.9} {'loss': 2.4688, 'grad_norm': 1.8544937372207642, 'learning_rate': 1.3402780884451766e-07, 'epoch': 0.9} {'loss': 2.3585, 'grad_norm': 1.7898486852645874, 'learning_rate': 1.3388751999394935e-07, 'epoch': 0.9} {'loss': 2.1974, 'grad_norm': 1.7313750982284546, 'learning_rate': 1.3374730258286033e-07, 'epoch': 0.9} {'loss': 2.3274, 'grad_norm': 1.6881537437438965, 'learning_rate': 1.3360715661548368e-07, 'epoch': 0.9} {'loss': 2.29, 'grad_norm': 2.0608696937561035, 'learning_rate': 1.3346708209605096e-07, 'epoch': 0.9} {'loss': 2.434, 'grad_norm': 1.6130861043930054, 'learning_rate': 1.3332707902879132e-07, 'epoch': 0.9} {'loss': 2.1127, 'grad_norm': 2.077381134033203, 'learning_rate': 1.3318714741793166e-07, 'epoch': 0.9} {'loss': 2.0731, 'grad_norm': 1.6186776161193848, 'learning_rate': 1.3304728726769745e-07, 'epoch': 0.9} {'loss': 2.2376, 'grad_norm': 1.8178123235702515, 'learning_rate': 1.329074985823109e-07, 'epoch': 0.9} {'loss': 2.1693, 'grad_norm': 1.7453789710998535, 'learning_rate': 1.3276778136599305e-07, 'epoch': 0.9} {'loss': 2.2386, 'grad_norm': 1.8529200553894043, 'learning_rate': 1.3262813562296224e-07, 'epoch': 0.9} {'loss': 2.2231, 'grad_norm': 1.7231767177581787, 'learning_rate': 1.324885613574345e-07, 'epoch': 0.9} {'loss': 1.9437, 'grad_norm': 1.4422229528427124, 'learning_rate': 1.3234905857362423e-07, 'epoch': 0.9} {'loss': 2.3757, 'grad_norm': 1.6078650951385498, 'learning_rate': 1.322096272757431e-07, 'epoch': 0.9} {'loss': 2.2945, 'grad_norm': 1.7010523080825806, 'learning_rate': 1.3207026746800133e-07, 'epoch': 0.9} {'loss': 2.2798, 'grad_norm': 1.7043733596801758, 'learning_rate': 1.3193097915460611e-07, 'epoch': 0.9} {'loss': 2.3509, 'grad_norm': 1.88221275806427, 'learning_rate': 1.3179176233976355e-07, 'epoch': 0.9} {'loss': 2.3251, 'grad_norm': 1.9056236743927002, 'learning_rate': 1.3165261702767633e-07, 'epoch': 0.9} {'loss': 2.1544, 'grad_norm': 2.002502918243408, 'learning_rate': 1.3151354322254616e-07, 'epoch': 0.9} {'loss': 2.153, 'grad_norm': 1.5314228534698486, 'learning_rate': 1.3137454092857188e-07, 'epoch': 0.9} {'loss': 2.3027, 'grad_norm': 2.728980541229248, 'learning_rate': 1.3123561014995012e-07, 'epoch': 0.9} {'loss': 1.8849, 'grad_norm': 2.7150228023529053, 'learning_rate': 1.310967508908756e-07, 'epoch': 0.9} {'loss': 2.2608, 'grad_norm': 1.7191685438156128, 'learning_rate': 1.309579631555416e-07, 'epoch': 0.9} {'loss': 1.8837, 'grad_norm': 1.7544499635696411, 'learning_rate': 1.3081924694813757e-07, 'epoch': 0.9} {'loss': 2.1497, 'grad_norm': 1.5127122402191162, 'learning_rate': 1.306806022728524e-07, 'epoch': 0.9} {'loss': 2.4485, 'grad_norm': 1.677982211112976, 'learning_rate': 1.305420291338713e-07, 'epoch': 0.9} {'loss': 2.2834, 'grad_norm': 1.747309923171997, 'learning_rate': 1.304035275353796e-07, 'epoch': 0.9} {'loss': 2.2346, 'grad_norm': 1.6642699241638184, 'learning_rate': 1.302650974815578e-07, 'epoch': 0.9} {'loss': 2.465, 'grad_norm': 1.8023698329925537, 'learning_rate': 1.3012673897658562e-07, 'epoch': 0.9} {'loss': 2.0432, 'grad_norm': 1.78158700466156, 'learning_rate': 1.299884520246414e-07, 'epoch': 0.9} {'loss': 2.4541, 'grad_norm': 1.6655573844909668, 'learning_rate': 1.2985023662989899e-07, 'epoch': 0.9} {'loss': 2.0071, 'grad_norm': 1.3226817846298218, 'learning_rate': 1.2971209279653285e-07, 'epoch': 0.9} {'loss': 2.0417, 'grad_norm': 2.1385908126831055, 'learning_rate': 1.2957402052871298e-07, 'epoch': 0.9} {'loss': 2.0401, 'grad_norm': 1.5917649269104004, 'learning_rate': 1.2943601983060854e-07, 'epoch': 0.9} {'loss': 2.309, 'grad_norm': 1.9576623439788818, 'learning_rate': 1.292980907063865e-07, 'epoch': 0.9} {'loss': 2.4488, 'grad_norm': 1.844663143157959, 'learning_rate': 1.2916023316021099e-07, 'epoch': 0.9} {'loss': 2.2438, 'grad_norm': 1.589193344116211, 'learning_rate': 1.2902244719624396e-07, 'epoch': 0.9} {'loss': 1.9891, 'grad_norm': 1.7127354145050049, 'learning_rate': 1.28884732818646e-07, 'epoch': 0.9} {'loss': 2.3792, 'grad_norm': 1.6918525695800781, 'learning_rate': 1.287470900315746e-07, 'epoch': 0.9} {'loss': 2.2036, 'grad_norm': 1.799182653427124, 'learning_rate': 1.2860951883918644e-07, 'epoch': 0.9} {'loss': 2.0936, 'grad_norm': 1.9331949949264526, 'learning_rate': 1.284720192456343e-07, 'epoch': 0.9} {'loss': 2.2697, 'grad_norm': 1.759283185005188, 'learning_rate': 1.2833459125507014e-07, 'epoch': 0.9} {'loss': 2.1428, 'grad_norm': 3.791882038116455, 'learning_rate': 1.2819723487164314e-07, 'epoch': 0.9} {'loss': 2.1612, 'grad_norm': 1.564622163772583, 'learning_rate': 1.2805995009950083e-07, 'epoch': 0.9} {'loss': 2.1364, 'grad_norm': 1.6335971355438232, 'learning_rate': 1.2792273694278795e-07, 'epoch': 0.9} {'loss': 2.1104, 'grad_norm': 2.0261154174804688, 'learning_rate': 1.2778559540564672e-07, 'epoch': 0.9} {'loss': 2.3598, 'grad_norm': 1.770295262336731, 'learning_rate': 1.2764852549221884e-07, 'epoch': 0.9} {'loss': 2.4437, 'grad_norm': 1.7278133630752563, 'learning_rate': 1.2751152720664212e-07, 'epoch': 0.9} {'loss': 2.3317, 'grad_norm': 2.3033456802368164, 'learning_rate': 1.273746005530535e-07, 'epoch': 0.9} {'loss': 2.3204, 'grad_norm': 1.606261134147644, 'learning_rate': 1.2723774553558665e-07, 'epoch': 0.9} {'loss': 2.2806, 'grad_norm': 1.838435411453247, 'learning_rate': 1.2710096215837382e-07, 'epoch': 0.9} {'loss': 2.3505, 'grad_norm': 1.7294448614120483, 'learning_rate': 1.26964250425545e-07, 'epoch': 0.9} {'loss': 2.1259, 'grad_norm': 1.7482012510299683, 'learning_rate': 1.2682761034122748e-07, 'epoch': 0.9} {'loss': 2.3522, 'grad_norm': 1.907761812210083, 'learning_rate': 1.2669104190954795e-07, 'epoch': 0.9} {'loss': 2.0695, 'grad_norm': 1.713884711265564, 'learning_rate': 1.265545451346281e-07, 'epoch': 0.9} {'loss': 2.2544, 'grad_norm': 1.7244222164154053, 'learning_rate': 1.2641812002058994e-07, 'epoch': 0.9} {'loss': 2.1006, 'grad_norm': 1.6547268629074097, 'learning_rate': 1.2628176657155294e-07, 'epoch': 0.9} {'loss': 2.4176, 'grad_norm': 1.7721885442733765, 'learning_rate': 1.2614548479163324e-07, 'epoch': 0.9} {'loss': 2.1707, 'grad_norm': 6.842195510864258, 'learning_rate': 1.2600927468494646e-07, 'epoch': 0.9} {'loss': 2.4036, 'grad_norm': 1.7028653621673584, 'learning_rate': 1.25873136255604e-07, 'epoch': 0.9} {'loss': 2.0335, 'grad_norm': 1.6090114116668701, 'learning_rate': 1.2573706950771731e-07, 'epoch': 0.9} {'loss': 1.3711, 'grad_norm': 1.4727264642715454, 'learning_rate': 1.2560107444539392e-07, 'epoch': 0.9} {'loss': 2.3281, 'grad_norm': 1.636757254600525, 'learning_rate': 1.254651510727406e-07, 'epoch': 0.9} {'loss': 2.2647, 'grad_norm': 1.6552255153656006, 'learning_rate': 1.2532929939386068e-07, 'epoch': 0.9} {'loss': 2.0311, 'grad_norm': 2.1773741245269775, 'learning_rate': 1.251935194128559e-07, 'epoch': 0.9} {'loss': 2.2124, 'grad_norm': 1.7262358665466309, 'learning_rate': 1.2505781113382603e-07, 'epoch': 0.9} {'loss': 1.9172, 'grad_norm': 1.5272457599639893, 'learning_rate': 1.2492217456086835e-07, 'epoch': 0.9} {'loss': 2.2305, 'grad_norm': 1.773870587348938, 'learning_rate': 1.2478660969807794e-07, 'epoch': 0.9} {'loss': 1.9054, 'grad_norm': 1.2161163091659546, 'learning_rate': 1.246511165495487e-07, 'epoch': 0.9} {'loss': 2.2049, 'grad_norm': 1.7049564123153687, 'learning_rate': 1.2451569511937045e-07, 'epoch': 0.9} {'loss': 2.4032, 'grad_norm': 1.6818370819091797, 'learning_rate': 1.2438034541163296e-07, 'epoch': 0.9} {'loss': 2.2916, 'grad_norm': 1.883557677268982, 'learning_rate': 1.2424506743042187e-07, 'epoch': 0.9} {'loss': 2.064, 'grad_norm': 1.420993685722351, 'learning_rate': 1.2410986117982193e-07, 'epoch': 0.9} {'loss': 1.8477, 'grad_norm': 1.2328989505767822, 'learning_rate': 1.2397472666391603e-07, 'epoch': 0.9} {'loss': 2.217, 'grad_norm': 1.6957706212997437, 'learning_rate': 1.238396638867831e-07, 'epoch': 0.9} {'loss': 2.1285, 'grad_norm': 1.8530884981155396, 'learning_rate': 1.237046728525021e-07, 'epoch': 0.9} {'loss': 2.0988, 'grad_norm': 1.8754764795303345, 'learning_rate': 1.235697535651481e-07, 'epoch': 0.9} {'loss': 2.1113, 'grad_norm': 1.5558887720108032, 'learning_rate': 1.234349060287951e-07, 'epoch': 0.9} {'loss': 2.4357, 'grad_norm': 1.644411325454712, 'learning_rate': 1.2330013024751424e-07, 'epoch': 0.9} {'loss': 2.3696, 'grad_norm': 1.707497239112854, 'learning_rate': 1.2316542622537507e-07, 'epoch': 0.9} {'loss': 2.2461, 'grad_norm': 1.47018563747406, 'learning_rate': 1.2303079396644464e-07, 'epoch': 0.9} {'loss': 2.3109, 'grad_norm': 3.76841139793396, 'learning_rate': 1.2289623347478713e-07, 'epoch': 0.9} {'loss': 2.1578, 'grad_norm': 1.6416364908218384, 'learning_rate': 1.2276174475446656e-07, 'epoch': 0.9} {'loss': 2.4283, 'grad_norm': 1.8336410522460938, 'learning_rate': 1.2262732780954218e-07, 'epoch': 0.9} {'loss': 2.4281, 'grad_norm': 1.6127187013626099, 'learning_rate': 1.224929826440732e-07, 'epoch': 0.9} {'loss': 1.7625, 'grad_norm': 1.7315492630004883, 'learning_rate': 1.223587092621162e-07, 'epoch': 0.9} {'loss': 2.3082, 'grad_norm': 1.69288170337677, 'learning_rate': 1.2222450766772447e-07, 'epoch': 0.9} {'loss': 2.3373, 'grad_norm': 1.6708452701568604, 'learning_rate': 1.2209037786495041e-07, 'epoch': 0.9} {'loss': 2.1933, 'grad_norm': 1.8398666381835938, 'learning_rate': 1.2195631985784384e-07, 'epoch': 0.9} {'loss': 1.9877, 'grad_norm': 1.6055221557617188, 'learning_rate': 1.2182233365045177e-07, 'epoch': 0.9} {'loss': 1.9798, 'grad_norm': 1.6226997375488281, 'learning_rate': 1.2168841924682012e-07, 'epoch': 0.9} {'loss': 2.3903, 'grad_norm': 1.847205638885498, 'learning_rate': 1.215545766509918e-07, 'epoch': 0.9} {'loss': 2.3188, 'grad_norm': 1.8530666828155518, 'learning_rate': 1.2142080586700828e-07, 'epoch': 0.9} {'loss': 2.1606, 'grad_norm': 1.7265626192092896, 'learning_rate': 1.2128710689890827e-07, 'epoch': 0.9} {'loss': 2.1763, 'grad_norm': 1.8772183656692505, 'learning_rate': 1.2115347975072855e-07, 'epoch': 0.9} {'loss': 2.2719, 'grad_norm': 1.7790932655334473, 'learning_rate': 1.210199244265034e-07, 'epoch': 0.9} {'loss': 2.0315, 'grad_norm': 1.941882848739624, 'learning_rate': 1.2088644093026542e-07, 'epoch': 0.9} {'loss': 2.3861, 'grad_norm': 1.559658408164978, 'learning_rate': 1.2075302926604582e-07, 'epoch': 0.9} {'loss': 2.017, 'grad_norm': 1.8020070791244507, 'learning_rate': 1.2061968943787084e-07, 'epoch': 0.9} {'loss': 1.9752, 'grad_norm': 2.2007808685302734, 'learning_rate': 1.204864214497678e-07, 'epoch': 0.9} {'loss': 2.2307, 'grad_norm': 1.6485635042190552, 'learning_rate': 1.2035322530575932e-07, 'epoch': 0.9} {'loss': 2.2083, 'grad_norm': 1.6735395193099976, 'learning_rate': 1.2022010100986774e-07, 'epoch': 0.9} {'loss': 2.2703, 'grad_norm': 1.619827151298523, 'learning_rate': 1.2008704856611264e-07, 'epoch': 0.9} {'loss': 2.23, 'grad_norm': 1.5829453468322754, 'learning_rate': 1.199540679785105e-07, 'epoch': 0.9} {'loss': 2.1226, 'grad_norm': 1.794275164604187, 'learning_rate': 1.1982115925107702e-07, 'epoch': 0.9} {'loss': 2.0493, 'grad_norm': 1.8687129020690918, 'learning_rate': 1.1968832238782453e-07, 'epoch': 0.9} {'loss': 2.1095, 'grad_norm': 1.4948692321777344, 'learning_rate': 1.1955555739276425e-07, 'epoch': 0.9} {'loss': 2.314, 'grad_norm': 1.783957600593567, 'learning_rate': 1.1942286426990467e-07, 'epoch': 0.9} {'loss': 1.9747, 'grad_norm': 1.5120043754577637, 'learning_rate': 1.192902430232515e-07, 'epoch': 0.9} {'loss': 2.1738, 'grad_norm': 1.827071189880371, 'learning_rate': 1.191576936568098e-07, 'epoch': 0.9} {'loss': 2.2964, 'grad_norm': 1.8248569965362549, 'learning_rate': 1.1902521617458085e-07, 'epoch': 0.9} {'loss': 2.1126, 'grad_norm': 2.5352320671081543, 'learning_rate': 1.1889281058056535e-07, 'epoch': 0.91} {'loss': 2.3762, 'grad_norm': 2.4975061416625977, 'learning_rate': 1.1876047687876008e-07, 'epoch': 0.91} {'loss': 1.2527, 'grad_norm': 1.774037480354309, 'learning_rate': 1.1862821507316102e-07, 'epoch': 0.91} {'loss': 2.0395, 'grad_norm': 1.3407399654388428, 'learning_rate': 1.1849602516776193e-07, 'epoch': 0.91} {'loss': 2.6176, 'grad_norm': 1.6309763193130493, 'learning_rate': 1.183639071665535e-07, 'epoch': 0.91} {'loss': 2.1097, 'grad_norm': 1.902508020401001, 'learning_rate': 1.1823186107352447e-07, 'epoch': 0.91} {'loss': 1.5843, 'grad_norm': 1.2217206954956055, 'learning_rate': 1.180998868926625e-07, 'epoch': 0.91} {'loss': 2.1434, 'grad_norm': 1.3232744932174683, 'learning_rate': 1.1796798462795134e-07, 'epoch': 0.91} {'loss': 2.297, 'grad_norm': 1.8776921033859253, 'learning_rate': 1.178361542833742e-07, 'epoch': 0.91} {'loss': 2.2856, 'grad_norm': 1.9259034395217896, 'learning_rate': 1.1770439586291066e-07, 'epoch': 0.91} {'loss': 1.3922, 'grad_norm': 1.7910118103027344, 'learning_rate': 1.1757270937053977e-07, 'epoch': 0.91} {'loss': 2.1679, 'grad_norm': 1.5258407592773438, 'learning_rate': 1.174410948102367e-07, 'epoch': 0.91} {'loss': 1.7312, 'grad_norm': 1.583448886871338, 'learning_rate': 1.1730955218597601e-07, 'epoch': 0.91} {'loss': 2.1869, 'grad_norm': 1.7295634746551514, 'learning_rate': 1.1717808150172899e-07, 'epoch': 0.91} {'loss': 2.3925, 'grad_norm': 1.6979743242263794, 'learning_rate': 1.1704668276146469e-07, 'epoch': 0.91} {'loss': 1.9798, 'grad_norm': 1.4731918573379517, 'learning_rate': 1.1691535596915104e-07, 'epoch': 0.91} {'loss': 2.2734, 'grad_norm': 1.6532163619995117, 'learning_rate': 1.1678410112875265e-07, 'epoch': 0.91} {'loss': 2.3191, 'grad_norm': 1.7490055561065674, 'learning_rate': 1.1665291824423275e-07, 'epoch': 0.91} {'loss': 2.3306, 'grad_norm': 1.6139575242996216, 'learning_rate': 1.1652180731955232e-07, 'epoch': 0.91} {'loss': 2.2356, 'grad_norm': 1.8197860717773438, 'learning_rate': 1.163907683586693e-07, 'epoch': 0.91} {'loss': 2.1476, 'grad_norm': 1.4872143268585205, 'learning_rate': 1.1625980136554111e-07, 'epoch': 0.91} {'loss': 2.1566, 'grad_norm': 1.5600535869598389, 'learning_rate': 1.1612890634412121e-07, 'epoch': 0.91} {'loss': 2.3002, 'grad_norm': 1.6876866817474365, 'learning_rate': 1.1599808329836176e-07, 'epoch': 0.91} {'loss': 2.3175, 'grad_norm': 1.4051082134246826, 'learning_rate': 1.1586733223221292e-07, 'epoch': 0.91} {'loss': 2.4009, 'grad_norm': 1.6645101308822632, 'learning_rate': 1.1573665314962207e-07, 'epoch': 0.91} {'loss': 2.2093, 'grad_norm': 1.4568355083465576, 'learning_rate': 1.1560604605453552e-07, 'epoch': 0.91} {'loss': 2.1168, 'grad_norm': 1.584169626235962, 'learning_rate': 1.1547551095089565e-07, 'epoch': 0.91} {'loss': 2.3368, 'grad_norm': 1.531254768371582, 'learning_rate': 1.1534504784264433e-07, 'epoch': 0.91} {'loss': 2.6544, 'grad_norm': 1.3734291791915894, 'learning_rate': 1.1521465673372035e-07, 'epoch': 0.91} {'loss': 2.3082, 'grad_norm': 1.6161378622055054, 'learning_rate': 1.1508433762806109e-07, 'epoch': 0.91} {'loss': 1.9992, 'grad_norm': 1.8675645589828491, 'learning_rate': 1.1495409052960066e-07, 'epoch': 0.91} {'loss': 2.5661, 'grad_norm': 2.7549784183502197, 'learning_rate': 1.1482391544227172e-07, 'epoch': 0.91} {'loss': 2.2779, 'grad_norm': 1.9937520027160645, 'learning_rate': 1.1469381237000477e-07, 'epoch': 0.91} {'loss': 2.4781, 'grad_norm': 1.79364812374115, 'learning_rate': 1.1456378131672746e-07, 'epoch': 0.91} {'loss': 2.1846, 'grad_norm': 1.8679227828979492, 'learning_rate': 1.144338222863664e-07, 'epoch': 0.91} {'loss': 2.1704, 'grad_norm': 1.8272767066955566, 'learning_rate': 1.1430393528284539e-07, 'epoch': 0.91} {'loss': 2.1317, 'grad_norm': 1.4993469715118408, 'learning_rate': 1.1417412031008546e-07, 'epoch': 0.91} {'loss': 1.5273, 'grad_norm': 1.4771008491516113, 'learning_rate': 1.1404437737200708e-07, 'epoch': 0.91} {'loss': 2.3245, 'grad_norm': 1.8274949789047241, 'learning_rate': 1.1391470647252656e-07, 'epoch': 0.91} {'loss': 2.2552, 'grad_norm': 1.4606866836547852, 'learning_rate': 1.1378510761555994e-07, 'epoch': 0.91} {'loss': 2.1138, 'grad_norm': 1.4683626890182495, 'learning_rate': 1.1365558080501937e-07, 'epoch': 0.91} {'loss': 2.3215, 'grad_norm': 3.1755025386810303, 'learning_rate': 1.1352612604481589e-07, 'epoch': 0.91} {'loss': 2.3052, 'grad_norm': 1.6305354833602905, 'learning_rate': 1.1339674333885831e-07, 'epoch': 0.91} {'loss': 2.0982, 'grad_norm': 2.1087899208068848, 'learning_rate': 1.132674326910524e-07, 'epoch': 0.91} {'loss': 2.1544, 'grad_norm': 1.6967509984970093, 'learning_rate': 1.1313819410530335e-07, 'epoch': 0.91} {'loss': 2.3958, 'grad_norm': 2.27668833732605, 'learning_rate': 1.1300902758551253e-07, 'epoch': 0.91} {'loss': 2.3477, 'grad_norm': 1.7126413583755493, 'learning_rate': 1.128799331355801e-07, 'epoch': 0.91} {'loss': 2.2116, 'grad_norm': 1.8374347686767578, 'learning_rate': 1.1275091075940381e-07, 'epoch': 0.91} {'loss': 2.2606, 'grad_norm': 1.788750410079956, 'learning_rate': 1.1262196046087942e-07, 'epoch': 0.91} {'loss': 2.3136, 'grad_norm': 1.8061492443084717, 'learning_rate': 1.1249308224389993e-07, 'epoch': 0.91} {'loss': 2.4865, 'grad_norm': 1.9198353290557861, 'learning_rate': 1.1236427611235612e-07, 'epoch': 0.91} {'loss': 2.24, 'grad_norm': 1.6062610149383545, 'learning_rate': 1.1223554207013764e-07, 'epoch': 0.91} {'loss': 2.1286, 'grad_norm': 2.020899534225464, 'learning_rate': 1.121068801211317e-07, 'epoch': 0.91} {'loss': 2.1045, 'grad_norm': 1.9152953624725342, 'learning_rate': 1.119782902692218e-07, 'epoch': 0.91} {'loss': 2.0895, 'grad_norm': 1.3890866041183472, 'learning_rate': 1.1184977251829154e-07, 'epoch': 0.91} {'loss': 2.2235, 'grad_norm': 1.7982486486434937, 'learning_rate': 1.1172132687222059e-07, 'epoch': 0.91} {'loss': 1.9892, 'grad_norm': 1.9454987049102783, 'learning_rate': 1.1159295333488723e-07, 'epoch': 0.91} {'loss': 2.0588, 'grad_norm': 1.6612107753753662, 'learning_rate': 1.1146465191016753e-07, 'epoch': 0.91} {'loss': 2.278, 'grad_norm': 1.5346041917800903, 'learning_rate': 1.1133642260193505e-07, 'epoch': 0.91} {'loss': 2.2722, 'grad_norm': 1.8227832317352295, 'learning_rate': 1.1120826541406171e-07, 'epoch': 0.91} {'loss': 2.2196, 'grad_norm': 1.6242294311523438, 'learning_rate': 1.1108018035041634e-07, 'epoch': 0.91} {'loss': 2.3216, 'grad_norm': 1.640280842781067, 'learning_rate': 1.1095216741486697e-07, 'epoch': 0.91} {'loss': 2.3825, 'grad_norm': 1.7888922691345215, 'learning_rate': 1.1082422661127772e-07, 'epoch': 0.91} {'loss': 2.1184, 'grad_norm': 1.6433876752853394, 'learning_rate': 1.106963579435122e-07, 'epoch': 0.91} {'loss': 2.3077, 'grad_norm': 2.1460373401641846, 'learning_rate': 1.1056856141543116e-07, 'epoch': 0.91} {'loss': 2.3695, 'grad_norm': 1.9274239540100098, 'learning_rate': 1.1044083703089293e-07, 'epoch': 0.91} {'loss': 2.1065, 'grad_norm': 2.5160176753997803, 'learning_rate': 1.1031318479375386e-07, 'epoch': 0.91} {'loss': 2.225, 'grad_norm': 1.627429723739624, 'learning_rate': 1.1018560470786783e-07, 'epoch': 0.91} {'loss': 1.364, 'grad_norm': 1.6425498723983765, 'learning_rate': 1.1005809677708701e-07, 'epoch': 0.91} {'loss': 2.0468, 'grad_norm': 1.560495138168335, 'learning_rate': 1.0993066100526167e-07, 'epoch': 0.91} {'loss': 2.1833, 'grad_norm': 1.6592051982879639, 'learning_rate': 1.0980329739623874e-07, 'epoch': 0.91} {'loss': 2.4231, 'grad_norm': 1.3363189697265625, 'learning_rate': 1.0967600595386429e-07, 'epoch': 0.91} {'loss': 2.2481, 'grad_norm': 1.9927678108215332, 'learning_rate': 1.095487866819811e-07, 'epoch': 0.91} {'loss': 2.2827, 'grad_norm': 1.6640506982803345, 'learning_rate': 1.0942163958443108e-07, 'epoch': 0.91} {'loss': 2.0603, 'grad_norm': 1.6702687740325928, 'learning_rate': 1.0929456466505228e-07, 'epoch': 0.91} {'loss': 2.3142, 'grad_norm': 2.499408006668091, 'learning_rate': 1.0916756192768135e-07, 'epoch': 0.91} {'loss': 2.2933, 'grad_norm': 1.5400925874710083, 'learning_rate': 1.0904063137615383e-07, 'epoch': 0.91} {'loss': 2.2856, 'grad_norm': 1.7484296560287476, 'learning_rate': 1.0891377301430112e-07, 'epoch': 0.91} {'loss': 1.6935, 'grad_norm': 1.518136739730835, 'learning_rate': 1.0878698684595401e-07, 'epoch': 0.91} {'loss': 2.1366, 'grad_norm': 2.083296060562134, 'learning_rate': 1.0866027287494002e-07, 'epoch': 0.91} {'loss': 2.2986, 'grad_norm': 2.272115707397461, 'learning_rate': 1.0853363110508552e-07, 'epoch': 0.91} {'loss': 1.6211, 'grad_norm': 12.525650978088379, 'learning_rate': 1.0840706154021413e-07, 'epoch': 0.91} {'loss': 2.2043, 'grad_norm': 1.708005428314209, 'learning_rate': 1.0828056418414696e-07, 'epoch': 0.91} {'loss': 2.3508, 'grad_norm': 1.8893424272537231, 'learning_rate': 1.0815413904070427e-07, 'epoch': 0.91} {'loss': 2.3404, 'grad_norm': 1.584752082824707, 'learning_rate': 1.0802778611370162e-07, 'epoch': 0.91} {'loss': 2.0296, 'grad_norm': 1.817513346672058, 'learning_rate': 1.0790150540695488e-07, 'epoch': 0.91} {'loss': 2.2873, 'grad_norm': 2.1125621795654297, 'learning_rate': 1.0777529692427679e-07, 'epoch': 0.91} {'loss': 2.3482, 'grad_norm': 1.8451693058013916, 'learning_rate': 1.0764916066947795e-07, 'epoch': 0.91} {'loss': 2.3633, 'grad_norm': 1.7185989618301392, 'learning_rate': 1.0752309664636668e-07, 'epoch': 0.91} {'loss': 2.263, 'grad_norm': 1.6478538513183594, 'learning_rate': 1.073971048587491e-07, 'epoch': 0.91} {'loss': 2.3713, 'grad_norm': 1.7233539819717407, 'learning_rate': 1.072711853104294e-07, 'epoch': 0.91} {'loss': 2.4824, 'grad_norm': 2.0636796951293945, 'learning_rate': 1.0714533800520926e-07, 'epoch': 0.91} {'loss': 2.2975, 'grad_norm': 1.8309718370437622, 'learning_rate': 1.070195629468887e-07, 'epoch': 0.91} {'loss': 2.3843, 'grad_norm': 1.7437938451766968, 'learning_rate': 1.0689386013926523e-07, 'epoch': 0.91} {'loss': 2.1991, 'grad_norm': 1.9068516492843628, 'learning_rate': 1.067682295861333e-07, 'epoch': 0.91} {'loss': 2.122, 'grad_norm': 2.420868396759033, 'learning_rate': 1.0664267129128713e-07, 'epoch': 0.91} {'loss': 2.1904, 'grad_norm': 1.741378903388977, 'learning_rate': 1.06517185258517e-07, 'epoch': 0.91} {'loss': 2.2665, 'grad_norm': 1.6806306838989258, 'learning_rate': 1.0639177149161184e-07, 'epoch': 0.91} {'loss': 2.1382, 'grad_norm': 2.378237724304199, 'learning_rate': 1.0626642999435859e-07, 'epoch': 0.91} {'loss': 2.1179, 'grad_norm': 1.3521007299423218, 'learning_rate': 1.0614116077054093e-07, 'epoch': 0.91} {'loss': 2.3259, 'grad_norm': 1.5858259201049805, 'learning_rate': 1.0601596382394192e-07, 'epoch': 0.91} {'loss': 2.1568, 'grad_norm': 1.7398953437805176, 'learning_rate': 1.0589083915834131e-07, 'epoch': 0.91} {'loss': 2.0694, 'grad_norm': 1.8562402725219727, 'learning_rate': 1.0576578677751637e-07, 'epoch': 0.91} {'loss': 2.1255, 'grad_norm': 1.4140654802322388, 'learning_rate': 1.0564080668524379e-07, 'epoch': 0.91} {'loss': 2.2368, 'grad_norm': 2.011749505996704, 'learning_rate': 1.0551589888529612e-07, 'epoch': 0.91} {'loss': 2.4378, 'grad_norm': 1.894539475440979, 'learning_rate': 1.0539106338144534e-07, 'epoch': 0.91} {'loss': 2.1522, 'grad_norm': 1.8649823665618896, 'learning_rate': 1.0526630017746009e-07, 'epoch': 0.91} {'loss': 2.2256, 'grad_norm': 1.8066446781158447, 'learning_rate': 1.0514160927710765e-07, 'epoch': 0.91} {'loss': 2.4265, 'grad_norm': 1.891327142715454, 'learning_rate': 1.0501699068415277e-07, 'epoch': 0.91} {'loss': 2.1953, 'grad_norm': 1.6444807052612305, 'learning_rate': 1.0489244440235774e-07, 'epoch': 0.91} {'loss': 2.2977, 'grad_norm': 1.7668203115463257, 'learning_rate': 1.047679704354837e-07, 'epoch': 0.91} {'loss': 2.2214, 'grad_norm': 1.7073310613632202, 'learning_rate': 1.0464356878728765e-07, 'epoch': 0.91} {'loss': 2.2122, 'grad_norm': 1.677685260772705, 'learning_rate': 1.0451923946152659e-07, 'epoch': 0.91} {'loss': 2.1797, 'grad_norm': 1.4873902797698975, 'learning_rate': 1.0439498246195417e-07, 'epoch': 0.91} {'loss': 2.1578, 'grad_norm': 1.6796650886535645, 'learning_rate': 1.0427079779232158e-07, 'epoch': 0.91} {'loss': 2.4416, 'grad_norm': 1.520176887512207, 'learning_rate': 1.0414668545637912e-07, 'epoch': 0.91} {'loss': 2.1765, 'grad_norm': 1.6070374250411987, 'learning_rate': 1.0402264545787327e-07, 'epoch': 0.91} {'loss': 2.1607, 'grad_norm': 1.7087050676345825, 'learning_rate': 1.0389867780054963e-07, 'epoch': 0.91} {'loss': 2.1092, 'grad_norm': 1.550233006477356, 'learning_rate': 1.0377478248815131e-07, 'epoch': 0.91} {'loss': 1.3894, 'grad_norm': 2.305928945541382, 'learning_rate': 1.0365095952441839e-07, 'epoch': 0.91} {'loss': 2.3479, 'grad_norm': 1.3816521167755127, 'learning_rate': 1.0352720891308982e-07, 'epoch': 0.91} {'loss': 2.1516, 'grad_norm': 1.7821497917175293, 'learning_rate': 1.0340353065790204e-07, 'epoch': 0.91} {'loss': 2.2877, 'grad_norm': 1.8007293939590454, 'learning_rate': 1.0327992476258903e-07, 'epoch': 0.91} {'loss': 2.3128, 'grad_norm': 1.881654977798462, 'learning_rate': 1.0315639123088277e-07, 'epoch': 0.91} {'loss': 2.1458, 'grad_norm': 1.382677435874939, 'learning_rate': 1.0303293006651366e-07, 'epoch': 0.91} {'loss': 2.3728, 'grad_norm': 1.7298420667648315, 'learning_rate': 1.029095412732084e-07, 'epoch': 0.91} {'loss': 1.3553, 'grad_norm': 1.921097993850708, 'learning_rate': 1.0278622485469291e-07, 'epoch': 0.91} {'loss': 2.2525, 'grad_norm': 1.4192448854446411, 'learning_rate': 1.0266298081469117e-07, 'epoch': 0.91} {'loss': 2.1947, 'grad_norm': 1.8899645805358887, 'learning_rate': 1.0253980915692296e-07, 'epoch': 0.91} {'loss': 2.1236, 'grad_norm': 1.672194004058838, 'learning_rate': 1.0241670988510782e-07, 'epoch': 0.91} {'loss': 2.2418, 'grad_norm': 1.6167129278182983, 'learning_rate': 1.022936830029625e-07, 'epoch': 0.91} {'loss': 1.9362, 'grad_norm': 1.647159457206726, 'learning_rate': 1.0217072851420124e-07, 'epoch': 0.91} {'loss': 2.236, 'grad_norm': 1.7771364450454712, 'learning_rate': 1.020478464225369e-07, 'epoch': 0.91} {'loss': 2.1171, 'grad_norm': 1.7946983575820923, 'learning_rate': 1.0192503673167875e-07, 'epoch': 0.91} {'loss': 2.1181, 'grad_norm': 2.1403558254241943, 'learning_rate': 1.0180229944533576e-07, 'epoch': 0.91} {'loss': 1.9684, 'grad_norm': 1.5327789783477783, 'learning_rate': 1.0167963456721302e-07, 'epoch': 0.91} {'loss': 2.2143, 'grad_norm': 1.6932531595230103, 'learning_rate': 1.0155704210101452e-07, 'epoch': 0.91} {'loss': 2.495, 'grad_norm': 1.7200199365615845, 'learning_rate': 1.0143452205044147e-07, 'epoch': 0.91} {'loss': 1.941, 'grad_norm': 1.319809913635254, 'learning_rate': 1.0131207441919283e-07, 'epoch': 0.91} {'loss': 2.3585, 'grad_norm': 1.6245791912078857, 'learning_rate': 1.011896992109665e-07, 'epoch': 0.91} {'loss': 2.3122, 'grad_norm': 1.7880923748016357, 'learning_rate': 1.0106739642945618e-07, 'epoch': 0.91} {'loss': 2.3114, 'grad_norm': 2.6834874153137207, 'learning_rate': 1.0094516607835502e-07, 'epoch': 0.91} {'loss': 2.2691, 'grad_norm': 9.829328536987305, 'learning_rate': 1.0082300816135398e-07, 'epoch': 0.91} {'loss': 2.1815, 'grad_norm': 1.5826501846313477, 'learning_rate': 1.0070092268214065e-07, 'epoch': 0.91} {'loss': 2.3455, 'grad_norm': 1.7668023109436035, 'learning_rate': 1.0057890964440153e-07, 'epoch': 0.91} {'loss': 2.297, 'grad_norm': 1.6171925067901611, 'learning_rate': 1.0045696905182062e-07, 'epoch': 0.91} {'loss': 2.3117, 'grad_norm': 2.80672550201416, 'learning_rate': 1.0033510090807885e-07, 'epoch': 0.91} {'loss': 2.2258, 'grad_norm': 1.568909764289856, 'learning_rate': 1.002133052168569e-07, 'epoch': 0.91} {'loss': 2.2998, 'grad_norm': 1.9813498258590698, 'learning_rate': 1.00091581981831e-07, 'epoch': 0.91} {'loss': 2.2651, 'grad_norm': 1.753297209739685, 'learning_rate': 9.996993120667736e-08, 'epoch': 0.91} {'loss': 2.306, 'grad_norm': 1.6917048692703247, 'learning_rate': 9.984835289506805e-08, 'epoch': 0.91} {'loss': 2.2475, 'grad_norm': 1.8054851293563843, 'learning_rate': 9.972684705067486e-08, 'epoch': 0.91} {'loss': 2.2053, 'grad_norm': 1.6229298114776611, 'learning_rate': 9.960541367716514e-08, 'epoch': 0.91} {'loss': 2.152, 'grad_norm': 2.6258435249328613, 'learning_rate': 9.948405277820594e-08, 'epoch': 0.91} {'loss': 2.0132, 'grad_norm': 1.8005658388137817, 'learning_rate': 9.936276435746239e-08, 'epoch': 0.91} {'loss': 2.2746, 'grad_norm': 14.788091659545898, 'learning_rate': 9.92415484185949e-08, 'epoch': 0.91} {'loss': 2.3474, 'grad_norm': 2.026054620742798, 'learning_rate': 9.912040496526415e-08, 'epoch': 0.91} {'loss': 2.3854, 'grad_norm': 1.80953049659729, 'learning_rate': 9.899933400112749e-08, 'epoch': 0.91} {'loss': 2.1836, 'grad_norm': 1.6667715311050415, 'learning_rate': 9.88783355298406e-08, 'epoch': 0.91} {'loss': 2.0541, 'grad_norm': 1.8587175607681274, 'learning_rate': 9.875740955505725e-08, 'epoch': 0.91} {'loss': 2.3113, 'grad_norm': 2.0071303844451904, 'learning_rate': 9.863655608042728e-08, 'epoch': 0.91} {'loss': 2.3142, 'grad_norm': 1.7118676900863647, 'learning_rate': 9.851577510960109e-08, 'epoch': 0.91} {'loss': 2.2547, 'grad_norm': 2.1990597248077393, 'learning_rate': 9.839506664622383e-08, 'epoch': 0.91} {'loss': 2.333, 'grad_norm': 1.6571239233016968, 'learning_rate': 9.827443069394149e-08, 'epoch': 0.91} {'loss': 1.5774, 'grad_norm': 1.4876869916915894, 'learning_rate': 9.815386725639559e-08, 'epoch': 0.91} {'loss': 2.0539, 'grad_norm': 1.3360661268234253, 'learning_rate': 9.803337633722627e-08, 'epoch': 0.91} {'loss': 2.1392, 'grad_norm': 1.2224043607711792, 'learning_rate': 9.791295794007172e-08, 'epoch': 0.91} {'loss': 2.0373, 'grad_norm': 1.984588384628296, 'learning_rate': 9.779261206856766e-08, 'epoch': 0.91} {'loss': 2.3531, 'grad_norm': 1.91241455078125, 'learning_rate': 9.767233872634757e-08, 'epoch': 0.91} {'loss': 2.0027, 'grad_norm': 1.4120110273361206, 'learning_rate': 9.755213791704271e-08, 'epoch': 0.91} {'loss': 2.2852, 'grad_norm': 1.8358540534973145, 'learning_rate': 9.74320096442824e-08, 'epoch': 0.91} {'loss': 2.2308, 'grad_norm': 1.7599138021469116, 'learning_rate': 9.731195391169428e-08, 'epoch': 0.91} {'loss': 2.0778, 'grad_norm': 1.7330806255340576, 'learning_rate': 9.719197072290215e-08, 'epoch': 0.91} {'loss': 2.1943, 'grad_norm': 1.8978482484817505, 'learning_rate': 9.70720600815292e-08, 'epoch': 0.91} {'loss': 2.391, 'grad_norm': 1.589717149734497, 'learning_rate': 9.695222199119559e-08, 'epoch': 0.91} {'loss': 2.101, 'grad_norm': 1.738567590713501, 'learning_rate': 9.683245645551953e-08, 'epoch': 0.91} {'loss': 2.2346, 'grad_norm': 1.6875947713851929, 'learning_rate': 9.67127634781176e-08, 'epoch': 0.91} {'loss': 2.3622, 'grad_norm': 1.7614792585372925, 'learning_rate': 9.659314306260297e-08, 'epoch': 0.91} {'loss': 2.2356, 'grad_norm': 1.9608203172683716, 'learning_rate': 9.647359521258809e-08, 'epoch': 0.91} {'loss': 2.2845, 'grad_norm': 1.5212512016296387, 'learning_rate': 9.63541199316817e-08, 'epoch': 0.91} {'loss': 2.299, 'grad_norm': 1.7381303310394287, 'learning_rate': 9.623471722349148e-08, 'epoch': 0.91} {'loss': 2.2778, 'grad_norm': 1.3468568325042725, 'learning_rate': 9.61153870916226e-08, 'epoch': 0.91} {'loss': 2.2929, 'grad_norm': 1.4528377056121826, 'learning_rate': 9.599612953967746e-08, 'epoch': 0.91} {'loss': 1.8027, 'grad_norm': 1.6816750764846802, 'learning_rate': 9.587694457125735e-08, 'epoch': 0.91} {'loss': 2.2138, 'grad_norm': 1.3479541540145874, 'learning_rate': 9.575783218996048e-08, 'epoch': 0.91} {'loss': 2.1627, 'grad_norm': 1.7430062294006348, 'learning_rate': 9.563879239938345e-08, 'epoch': 0.91} {'loss': 2.2768, 'grad_norm': 1.7391585111618042, 'learning_rate': 9.551982520311976e-08, 'epoch': 0.92} {'loss': 2.2706, 'grad_norm': 1.6121349334716797, 'learning_rate': 9.540093060476207e-08, 'epoch': 0.92} {'loss': 2.0488, 'grad_norm': 1.695549488067627, 'learning_rate': 9.528210860790005e-08, 'epoch': 0.92} {'loss': 2.2284, 'grad_norm': 1.3715764284133911, 'learning_rate': 9.516335921612107e-08, 'epoch': 0.92} {'loss': 2.0496, 'grad_norm': 1.4754784107208252, 'learning_rate': 9.504468243301035e-08, 'epoch': 0.92} {'loss': 2.1219, 'grad_norm': 1.633188247680664, 'learning_rate': 9.492607826215112e-08, 'epoch': 0.92} {'loss': 2.2423, 'grad_norm': 1.836055040359497, 'learning_rate': 9.480754670712467e-08, 'epoch': 0.92} {'loss': 2.0047, 'grad_norm': 1.6745047569274902, 'learning_rate': 9.468908777150982e-08, 'epoch': 0.92} {'loss': 2.4427, 'grad_norm': 1.9150665998458862, 'learning_rate': 9.457070145888258e-08, 'epoch': 0.92} {'loss': 2.3593, 'grad_norm': 1.8006641864776611, 'learning_rate': 9.44523877728179e-08, 'epoch': 0.92} {'loss': 2.3392, 'grad_norm': 1.6352248191833496, 'learning_rate': 9.43341467168879e-08, 'epoch': 0.92} {'loss': 2.2878, 'grad_norm': 1.6964811086654663, 'learning_rate': 9.421597829466278e-08, 'epoch': 0.92} {'loss': 2.4092, 'grad_norm': 1.7103346586227417, 'learning_rate': 9.409788250970997e-08, 'epoch': 0.92} {'loss': 2.4291, 'grad_norm': 2.0272834300994873, 'learning_rate': 9.397985936559495e-08, 'epoch': 0.92} {'loss': 2.3985, 'grad_norm': 1.9668077230453491, 'learning_rate': 9.386190886588208e-08, 'epoch': 0.92} {'loss': 2.581, 'grad_norm': 1.5916773080825806, 'learning_rate': 9.37440310141316e-08, 'epoch': 0.92} {'loss': 1.3513, 'grad_norm': 1.7458021640777588, 'learning_rate': 9.362622581390312e-08, 'epoch': 0.92} {'loss': 2.2436, 'grad_norm': 1.7320832014083862, 'learning_rate': 9.350849326875328e-08, 'epoch': 0.92} {'loss': 2.0689, 'grad_norm': 1.2677075862884521, 'learning_rate': 9.339083338223698e-08, 'epoch': 0.92} {'loss': 2.0713, 'grad_norm': 1.747209906578064, 'learning_rate': 9.327324615790667e-08, 'epoch': 0.92} {'loss': 2.0684, 'grad_norm': 1.5472736358642578, 'learning_rate': 9.315573159931229e-08, 'epoch': 0.92} {'loss': 2.3266, 'grad_norm': 1.7800732851028442, 'learning_rate': 9.30382897100024e-08, 'epoch': 0.92} {'loss': 2.2796, 'grad_norm': 1.7446014881134033, 'learning_rate': 9.292092049352274e-08, 'epoch': 0.92} {'loss': 2.2432, 'grad_norm': 1.925607681274414, 'learning_rate': 9.280362395341663e-08, 'epoch': 0.92} {'loss': 2.2124, 'grad_norm': 2.6405858993530273, 'learning_rate': 9.268640009322622e-08, 'epoch': 0.92} {'loss': 2.3111, 'grad_norm': 1.746579647064209, 'learning_rate': 9.256924891649005e-08, 'epoch': 0.92} {'loss': 2.1687, 'grad_norm': 1.4713371992111206, 'learning_rate': 9.245217042674615e-08, 'epoch': 0.92} {'loss': 2.2623, 'grad_norm': 1.8244293928146362, 'learning_rate': 9.233516462752862e-08, 'epoch': 0.92} {'loss': 2.4547, 'grad_norm': 1.5942872762680054, 'learning_rate': 9.221823152237103e-08, 'epoch': 0.92} {'loss': 2.2334, 'grad_norm': 1.6851011514663696, 'learning_rate': 9.210137111480278e-08, 'epoch': 0.92} {'loss': 2.1181, 'grad_norm': 1.2713556289672852, 'learning_rate': 9.198458340835326e-08, 'epoch': 0.92} {'loss': 2.241, 'grad_norm': 1.7419631481170654, 'learning_rate': 9.186786840654827e-08, 'epoch': 0.92} {'loss': 2.2192, 'grad_norm': 1.5474122762680054, 'learning_rate': 9.175122611291137e-08, 'epoch': 0.92} {'loss': 1.8733, 'grad_norm': 1.5904158353805542, 'learning_rate': 9.163465653096476e-08, 'epoch': 0.92} {'loss': 2.2369, 'grad_norm': 1.5831751823425293, 'learning_rate': 9.151815966422812e-08, 'epoch': 0.92} {'loss': 2.2742, 'grad_norm': 3.8514668941497803, 'learning_rate': 9.140173551621833e-08, 'epoch': 0.92} {'loss': 1.7556, 'grad_norm': 1.354200839996338, 'learning_rate': 9.128538409045096e-08, 'epoch': 0.92} {'loss': 2.4635, 'grad_norm': 1.721894383430481, 'learning_rate': 9.116910539043845e-08, 'epoch': 0.92} {'loss': 2.1274, 'grad_norm': 1.3335380554199219, 'learning_rate': 9.105289941969242e-08, 'epoch': 0.92} {'loss': 1.906, 'grad_norm': 1.4175485372543335, 'learning_rate': 9.093676618172093e-08, 'epoch': 0.92} {'loss': 2.1761, 'grad_norm': 1.6030553579330444, 'learning_rate': 9.082070568003004e-08, 'epoch': 0.92} {'loss': 2.3446, 'grad_norm': 1.7139744758605957, 'learning_rate': 9.070471791812474e-08, 'epoch': 0.92} {'loss': 2.0927, 'grad_norm': 1.720710039138794, 'learning_rate': 9.058880289950611e-08, 'epoch': 0.92} {'loss': 2.363, 'grad_norm': 1.919852375984192, 'learning_rate': 9.047296062767496e-08, 'epoch': 0.92} {'loss': 2.3757, 'grad_norm': 1.7641352415084839, 'learning_rate': 9.035719110612795e-08, 'epoch': 0.92} {'loss': 2.0771, 'grad_norm': 1.9270539283752441, 'learning_rate': 9.024149433836088e-08, 'epoch': 0.92} {'loss': 2.2472, 'grad_norm': 1.7407081127166748, 'learning_rate': 9.012587032786707e-08, 'epoch': 0.92} {'loss': 2.1614, 'grad_norm': 1.3923883438110352, 'learning_rate': 9.001031907813761e-08, 'epoch': 0.92} {'loss': 1.9765, 'grad_norm': 1.9838589429855347, 'learning_rate': 8.989484059266113e-08, 'epoch': 0.92} {'loss': 2.3565, 'grad_norm': 1.7056602239608765, 'learning_rate': 8.977943487492369e-08, 'epoch': 0.92} {'loss': 2.3171, 'grad_norm': 1.7861531972885132, 'learning_rate': 8.966410192841058e-08, 'epoch': 0.92} {'loss': 2.1448, 'grad_norm': 1.6362754106521606, 'learning_rate': 8.954884175660372e-08, 'epoch': 0.92} {'loss': 2.4142, 'grad_norm': 1.8819599151611328, 'learning_rate': 8.943365436298313e-08, 'epoch': 0.92} {'loss': 2.3194, 'grad_norm': 1.6900218725204468, 'learning_rate': 8.931853975102656e-08, 'epoch': 0.92} {'loss': 1.9478, 'grad_norm': 1.5865836143493652, 'learning_rate': 8.920349792420957e-08, 'epoch': 0.92} {'loss': 2.1526, 'grad_norm': 1.6917296648025513, 'learning_rate': 8.908852888600605e-08, 'epoch': 0.92} {'loss': 2.2454, 'grad_norm': 1.7185591459274292, 'learning_rate': 8.897363263988685e-08, 'epoch': 0.92} {'loss': 2.2539, 'grad_norm': 1.6271432638168335, 'learning_rate': 8.885880918932054e-08, 'epoch': 0.92} {'loss': 2.1598, 'grad_norm': 1.6800121068954468, 'learning_rate': 8.874405853777496e-08, 'epoch': 0.92} {'loss': 2.1825, 'grad_norm': 1.763082504272461, 'learning_rate': 8.862938068871396e-08, 'epoch': 0.92} {'loss': 2.2374, 'grad_norm': 1.7314960956573486, 'learning_rate': 8.851477564560062e-08, 'epoch': 0.92} {'loss': 2.2846, 'grad_norm': 1.987287998199463, 'learning_rate': 8.840024341189468e-08, 'epoch': 0.92} {'loss': 2.3438, 'grad_norm': 1.7207828760147095, 'learning_rate': 8.828578399105391e-08, 'epoch': 0.92} {'loss': 2.1367, 'grad_norm': 1.758134365081787, 'learning_rate': 8.817139738653529e-08, 'epoch': 0.92} {'loss': 2.1267, 'grad_norm': 1.4963847398757935, 'learning_rate': 8.805708360179133e-08, 'epoch': 0.92} {'loss': 2.3399, 'grad_norm': 1.5692780017852783, 'learning_rate': 8.794284264027453e-08, 'epoch': 0.92} {'loss': 2.4132, 'grad_norm': 1.7690441608428955, 'learning_rate': 8.782867450543269e-08, 'epoch': 0.92} {'loss': 2.1486, 'grad_norm': 1.7228375673294067, 'learning_rate': 8.77145792007142e-08, 'epoch': 0.92} {'loss': 2.0523, 'grad_norm': 1.6362117528915405, 'learning_rate': 8.760055672956318e-08, 'epoch': 0.92} {'loss': 2.2402, 'grad_norm': 1.537313461303711, 'learning_rate': 8.748660709542251e-08, 'epoch': 0.92} {'loss': 2.0184, 'grad_norm': 1.7852917909622192, 'learning_rate': 8.737273030173299e-08, 'epoch': 0.92} {'loss': 2.1918, 'grad_norm': 1.5863014459609985, 'learning_rate': 8.725892635193217e-08, 'epoch': 0.92} {'loss': 2.0223, 'grad_norm': 1.6714422702789307, 'learning_rate': 8.714519524945674e-08, 'epoch': 0.92} {'loss': 2.4098, 'grad_norm': 1.462160587310791, 'learning_rate': 8.703153699774009e-08, 'epoch': 0.92} {'loss': 2.3036, 'grad_norm': 2.042898178100586, 'learning_rate': 8.691795160021416e-08, 'epoch': 0.92} {'loss': 1.5058, 'grad_norm': 1.4497917890548706, 'learning_rate': 8.680443906030845e-08, 'epoch': 0.92} {'loss': 1.9843, 'grad_norm': 1.6031397581100464, 'learning_rate': 8.669099938144992e-08, 'epoch': 0.92} {'loss': 2.0887, 'grad_norm': 7.709792613983154, 'learning_rate': 8.657763256706391e-08, 'epoch': 0.92} {'loss': 2.2338, 'grad_norm': 2.0581445693969727, 'learning_rate': 8.646433862057297e-08, 'epoch': 0.92} {'loss': 2.3264, 'grad_norm': 1.6173322200775146, 'learning_rate': 8.635111754539793e-08, 'epoch': 0.92} {'loss': 2.2648, 'grad_norm': 1.9163824319839478, 'learning_rate': 8.623796934495748e-08, 'epoch': 0.92} {'loss': 2.0567, 'grad_norm': 1.5718770027160645, 'learning_rate': 8.61248940226675e-08, 'epoch': 0.92} {'loss': 2.2333, 'grad_norm': 1.4622894525527954, 'learning_rate': 8.601189158194273e-08, 'epoch': 0.92} {'loss': 2.3435, 'grad_norm': 1.6892364025115967, 'learning_rate': 8.589896202619407e-08, 'epoch': 0.92} {'loss': 2.2516, 'grad_norm': 1.4096561670303345, 'learning_rate': 8.578610535883158e-08, 'epoch': 0.92} {'loss': 1.7629, 'grad_norm': 1.5824953317642212, 'learning_rate': 8.56733215832628e-08, 'epoch': 0.92} {'loss': 2.2037, 'grad_norm': 2.901228904724121, 'learning_rate': 8.556061070289279e-08, 'epoch': 0.92} {'loss': 2.0092, 'grad_norm': 1.4278860092163086, 'learning_rate': 8.544797272112521e-08, 'epoch': 0.92} {'loss': 2.3164, 'grad_norm': 1.7564361095428467, 'learning_rate': 8.533540764135983e-08, 'epoch': 0.92} {'loss': 2.4325, 'grad_norm': 1.7039278745651245, 'learning_rate': 8.522291546699645e-08, 'epoch': 0.92} {'loss': 1.9654, 'grad_norm': 1.3339382410049438, 'learning_rate': 8.511049620143069e-08, 'epoch': 0.92} {'loss': 2.2942, 'grad_norm': 1.8043591976165771, 'learning_rate': 8.499814984805732e-08, 'epoch': 0.92} {'loss': 2.36, 'grad_norm': 2.120149850845337, 'learning_rate': 8.488587641026836e-08, 'epoch': 0.92} {'loss': 2.3385, 'grad_norm': 1.7032164335250854, 'learning_rate': 8.477367589145302e-08, 'epoch': 0.92} {'loss': 2.3729, 'grad_norm': 1.7774572372436523, 'learning_rate': 8.466154829499946e-08, 'epoch': 0.92} {'loss': 2.5351, 'grad_norm': 1.8062583208084106, 'learning_rate': 8.4549493624293e-08, 'epoch': 0.92} {'loss': 2.2643, 'grad_norm': 1.7236897945404053, 'learning_rate': 8.443751188271703e-08, 'epoch': 0.92} {'loss': 2.2613, 'grad_norm': 1.788588523864746, 'learning_rate': 8.43256030736525e-08, 'epoch': 0.92} {'loss': 2.2936, 'grad_norm': 1.5303388833999634, 'learning_rate': 8.421376720047808e-08, 'epoch': 0.92} {'loss': 2.1971, 'grad_norm': 1.8336018323898315, 'learning_rate': 8.410200426657106e-08, 'epoch': 0.92} {'loss': 2.3306, 'grad_norm': 1.7051903009414673, 'learning_rate': 8.399031427530512e-08, 'epoch': 0.92} {'loss': 2.3691, 'grad_norm': 1.6256115436553955, 'learning_rate': 8.387869723005231e-08, 'epoch': 0.92} {'loss': 2.1087, 'grad_norm': 1.7540409564971924, 'learning_rate': 8.376715313418382e-08, 'epoch': 0.92} {'loss': 1.4661, 'grad_norm': 1.5715067386627197, 'learning_rate': 8.365568199106611e-08, 'epoch': 0.92} {'loss': 2.3198, 'grad_norm': 1.6897979974746704, 'learning_rate': 8.354428380406593e-08, 'epoch': 0.92} {'loss': 2.4831, 'grad_norm': 1.490238070487976, 'learning_rate': 8.34329585765456e-08, 'epoch': 0.92} {'loss': 2.4155, 'grad_norm': 1.5894732475280762, 'learning_rate': 8.332170631186742e-08, 'epoch': 0.92} {'loss': 2.2394, 'grad_norm': 1.823101282119751, 'learning_rate': 8.321052701338983e-08, 'epoch': 0.92} {'loss': 2.2812, 'grad_norm': 2.23683762550354, 'learning_rate': 8.309942068446957e-08, 'epoch': 0.92} {'loss': 2.2434, 'grad_norm': 1.9741028547286987, 'learning_rate': 8.298838732846176e-08, 'epoch': 0.92} {'loss': 2.4936, 'grad_norm': 1.8093873262405396, 'learning_rate': 8.287742694871815e-08, 'epoch': 0.92} {'loss': 2.3876, 'grad_norm': 1.9869167804718018, 'learning_rate': 8.276653954858965e-08, 'epoch': 0.92} {'loss': 2.3106, 'grad_norm': 1.7378290891647339, 'learning_rate': 8.265572513142333e-08, 'epoch': 0.92} {'loss': 2.2606, 'grad_norm': 1.6238276958465576, 'learning_rate': 8.25449837005654e-08, 'epoch': 0.92} {'loss': 2.346, 'grad_norm': 1.835191249847412, 'learning_rate': 8.243431525936013e-08, 'epoch': 0.92} {'loss': 2.1602, 'grad_norm': 1.7427159547805786, 'learning_rate': 8.23237198111479e-08, 'epoch': 0.92} {'loss': 2.3534, 'grad_norm': 1.6667665243148804, 'learning_rate': 8.221319735926881e-08, 'epoch': 0.92} {'loss': 2.2176, 'grad_norm': 1.8728344440460205, 'learning_rate': 8.21027479070588e-08, 'epoch': 0.92} {'loss': 2.1487, 'grad_norm': 1.5456862449645996, 'learning_rate': 8.199237145785354e-08, 'epoch': 0.92} {'loss': 2.1833, 'grad_norm': 1.7593218088150024, 'learning_rate': 8.188206801498539e-08, 'epoch': 0.92} {'loss': 2.3971, 'grad_norm': 2.1724703311920166, 'learning_rate': 8.177183758178415e-08, 'epoch': 0.92} {'loss': 2.2563, 'grad_norm': 1.6197137832641602, 'learning_rate': 8.166168016157882e-08, 'epoch': 0.92} {'loss': 2.3834, 'grad_norm': 1.3471852540969849, 'learning_rate': 8.155159575769456e-08, 'epoch': 0.92} {'loss': 2.2655, 'grad_norm': 1.8825370073318481, 'learning_rate': 8.14415843734559e-08, 'epoch': 0.92} {'loss': 2.2653, 'grad_norm': 1.7195866107940674, 'learning_rate': 8.133164601218379e-08, 'epoch': 0.92} {'loss': 2.2742, 'grad_norm': 2.6292662620544434, 'learning_rate': 8.122178067719755e-08, 'epoch': 0.92} {'loss': 2.1973, 'grad_norm': 1.5624386072158813, 'learning_rate': 8.111198837181505e-08, 'epoch': 0.92} {'loss': 2.3022, 'grad_norm': 1.744696855545044, 'learning_rate': 8.100226909935061e-08, 'epoch': 0.92} {'loss': 1.6452, 'grad_norm': 1.4655511379241943, 'learning_rate': 8.089262286311683e-08, 'epoch': 0.92} {'loss': 2.1693, 'grad_norm': 1.7914462089538574, 'learning_rate': 8.078304966642498e-08, 'epoch': 0.92} {'loss': 2.0585, 'grad_norm': 1.71152925491333, 'learning_rate': 8.067354951258239e-08, 'epoch': 0.92} {'loss': 2.0223, 'grad_norm': 1.6336615085601807, 'learning_rate': 8.056412240489586e-08, 'epoch': 0.92} {'loss': 2.2151, 'grad_norm': 1.7286500930786133, 'learning_rate': 8.045476834666887e-08, 'epoch': 0.92} {'loss': 2.0751, 'grad_norm': 1.6206218004226685, 'learning_rate': 8.034548734120351e-08, 'epoch': 0.92} {'loss': 2.251, 'grad_norm': 1.9140194654464722, 'learning_rate': 8.023627939179907e-08, 'epoch': 0.92} {'loss': 2.3447, 'grad_norm': 1.9876118898391724, 'learning_rate': 8.012714450175318e-08, 'epoch': 0.92} {'loss': 2.2874, 'grad_norm': 1.383945107460022, 'learning_rate': 8.001808267436045e-08, 'epoch': 0.92} {'loss': 2.1022, 'grad_norm': 1.764053225517273, 'learning_rate': 7.990909391291379e-08, 'epoch': 0.92} {'loss': 2.2463, 'grad_norm': 1.5839478969573975, 'learning_rate': 7.980017822070419e-08, 'epoch': 0.92} {'loss': 2.2499, 'grad_norm': 1.3563861846923828, 'learning_rate': 7.969133560101983e-08, 'epoch': 0.92} {'loss': 2.3934, 'grad_norm': 1.6129170656204224, 'learning_rate': 7.958256605714725e-08, 'epoch': 0.92} {'loss': 2.4695, 'grad_norm': 1.5350903272628784, 'learning_rate': 7.947386959236997e-08, 'epoch': 0.92} {'loss': 2.407, 'grad_norm': 2.154710292816162, 'learning_rate': 7.936524620997032e-08, 'epoch': 0.92} {'loss': 2.3584, 'grad_norm': 1.63120698928833, 'learning_rate': 7.925669591322821e-08, 'epoch': 0.92} {'loss': 2.1729, 'grad_norm': 1.433883786201477, 'learning_rate': 7.914821870542045e-08, 'epoch': 0.92} {'loss': 2.3216, 'grad_norm': 1.6299107074737549, 'learning_rate': 7.903981458982246e-08, 'epoch': 0.92} {'loss': 1.7738, 'grad_norm': 1.2703216075897217, 'learning_rate': 7.893148356970748e-08, 'epoch': 0.92} {'loss': 1.9861, 'grad_norm': 1.789079189300537, 'learning_rate': 7.882322564834566e-08, 'epoch': 0.92} {'loss': 2.398, 'grad_norm': 1.680883526802063, 'learning_rate': 7.87150408290066e-08, 'epoch': 0.92} {'loss': 1.8389, 'grad_norm': 1.422145128250122, 'learning_rate': 7.860692911495605e-08, 'epoch': 0.92} {'loss': 2.5312, 'grad_norm': 1.6844532489776611, 'learning_rate': 7.849889050945831e-08, 'epoch': 0.92} {'loss': 2.2863, 'grad_norm': 1.7805633544921875, 'learning_rate': 7.83909250157755e-08, 'epoch': 0.92} {'loss': 2.1966, 'grad_norm': 1.8392555713653564, 'learning_rate': 7.828303263716724e-08, 'epoch': 0.92} {'loss': 2.0204, 'grad_norm': 1.367618203163147, 'learning_rate': 7.817521337689122e-08, 'epoch': 0.92} {'loss': 2.3021, 'grad_norm': 6.415055751800537, 'learning_rate': 7.806746723820257e-08, 'epoch': 0.92} {'loss': 2.3454, 'grad_norm': 1.8572373390197754, 'learning_rate': 7.795979422435485e-08, 'epoch': 0.92} {'loss': 2.1507, 'grad_norm': 1.8522062301635742, 'learning_rate': 7.785219433859847e-08, 'epoch': 0.92} {'loss': 2.3279, 'grad_norm': 1.568922519683838, 'learning_rate': 7.774466758418253e-08, 'epoch': 0.92} {'loss': 2.1189, 'grad_norm': 1.711934208869934, 'learning_rate': 7.763721396435359e-08, 'epoch': 0.92} {'loss': 2.2473, 'grad_norm': 1.651693344116211, 'learning_rate': 7.75298334823557e-08, 'epoch': 0.92} {'loss': 2.2005, 'grad_norm': 1.6163235902786255, 'learning_rate': 7.742252614143158e-08, 'epoch': 0.92} {'loss': 2.3412, 'grad_norm': 1.714350938796997, 'learning_rate': 7.731529194482029e-08, 'epoch': 0.92} {'loss': 2.1711, 'grad_norm': 1.8718554973602295, 'learning_rate': 7.720813089576007e-08, 'epoch': 0.92} {'loss': 2.1961, 'grad_norm': 1.702934741973877, 'learning_rate': 7.710104299748666e-08, 'epoch': 0.92} {'loss': 2.2436, 'grad_norm': 1.7222402095794678, 'learning_rate': 7.699402825323222e-08, 'epoch': 0.92} {'loss': 2.3132, 'grad_norm': 1.6592979431152344, 'learning_rate': 7.688708666622913e-08, 'epoch': 0.92} {'loss': 2.1303, 'grad_norm': 1.7116367816925049, 'learning_rate': 7.678021823970539e-08, 'epoch': 0.92} {'loss': 2.3498, 'grad_norm': 1.713857889175415, 'learning_rate': 7.667342297688812e-08, 'epoch': 0.92} {'loss': 2.5199, 'grad_norm': 1.5345278978347778, 'learning_rate': 7.656670088100143e-08, 'epoch': 0.92} {'loss': 2.2915, 'grad_norm': 1.616025686264038, 'learning_rate': 7.646005195526773e-08, 'epoch': 0.92} {'loss': 2.2416, 'grad_norm': 2.214488983154297, 'learning_rate': 7.635347620290723e-08, 'epoch': 0.92} {'loss': 2.3222, 'grad_norm': 1.9279251098632812, 'learning_rate': 7.624697362713762e-08, 'epoch': 0.92} {'loss': 2.088, 'grad_norm': 1.4220075607299805, 'learning_rate': 7.61405442311744e-08, 'epoch': 0.92} {'loss': 2.1425, 'grad_norm': 1.7032488584518433, 'learning_rate': 7.603418801823082e-08, 'epoch': 0.92} {'loss': 2.5412, 'grad_norm': 1.9305145740509033, 'learning_rate': 7.59279049915182e-08, 'epoch': 0.92} {'loss': 2.266, 'grad_norm': 1.5990556478500366, 'learning_rate': 7.582169515424592e-08, 'epoch': 0.92} {'loss': 2.1728, 'grad_norm': 1.549763798713684, 'learning_rate': 7.571555850962003e-08, 'epoch': 0.92} {'loss': 2.2522, 'grad_norm': 1.6715196371078491, 'learning_rate': 7.560949506084575e-08, 'epoch': 0.92} {'loss': 2.4777, 'grad_norm': 1.4894198179244995, 'learning_rate': 7.550350481112468e-08, 'epoch': 0.92} {'loss': 2.2525, 'grad_norm': 1.567577838897705, 'learning_rate': 7.539758776365785e-08, 'epoch': 0.92} {'loss': 2.2668, 'grad_norm': 1.6475692987442017, 'learning_rate': 7.529174392164274e-08, 'epoch': 0.92} {'loss': 2.43, 'grad_norm': 1.7433407306671143, 'learning_rate': 7.518597328827482e-08, 'epoch': 0.92} {'loss': 1.7885, 'grad_norm': 1.6182419061660767, 'learning_rate': 7.508027586674821e-08, 'epoch': 0.92} {'loss': 2.4084, 'grad_norm': 1.8785427808761597, 'learning_rate': 7.49746516602537e-08, 'epoch': 0.92} {'loss': 2.4917, 'grad_norm': 2.016958236694336, 'learning_rate': 7.486910067198039e-08, 'epoch': 0.92} {'loss': 2.2134, 'grad_norm': 1.7092697620391846, 'learning_rate': 7.476362290511546e-08, 'epoch': 0.92} {'loss': 2.2517, 'grad_norm': 1.5176310539245605, 'learning_rate': 7.465821836284304e-08, 'epoch': 0.93} {'loss': 2.1754, 'grad_norm': 1.578331470489502, 'learning_rate': 7.455288704834667e-08, 'epoch': 0.93} {'loss': 2.5712, 'grad_norm': 2.0092034339904785, 'learning_rate': 7.444762896480551e-08, 'epoch': 0.93} {'loss': 2.2715, 'grad_norm': 1.7296099662780762, 'learning_rate': 7.434244411539809e-08, 'epoch': 0.93} {'loss': 2.1795, 'grad_norm': 1.6836243867874146, 'learning_rate': 7.423733250329995e-08, 'epoch': 0.93} {'loss': 2.3563, 'grad_norm': 1.8225035667419434, 'learning_rate': 7.413229413168465e-08, 'epoch': 0.93} {'loss': 2.1403, 'grad_norm': 1.7356128692626953, 'learning_rate': 7.402732900372438e-08, 'epoch': 0.93} {'loss': 2.1014, 'grad_norm': 1.7701362371444702, 'learning_rate': 7.392243712258718e-08, 'epoch': 0.93} {'loss': 2.219, 'grad_norm': 1.7157986164093018, 'learning_rate': 7.381761849144104e-08, 'epoch': 0.93} {'loss': 2.3571, 'grad_norm': 1.7025952339172363, 'learning_rate': 7.371287311344983e-08, 'epoch': 0.93} {'loss': 2.3126, 'grad_norm': 1.6978721618652344, 'learning_rate': 7.360820099177712e-08, 'epoch': 0.93} {'loss': 1.9633, 'grad_norm': 1.1965303421020508, 'learning_rate': 7.350360212958235e-08, 'epoch': 0.93} {'loss': 1.5293, 'grad_norm': 1.5715144872665405, 'learning_rate': 7.339907653002382e-08, 'epoch': 0.93} {'loss': 2.2848, 'grad_norm': 1.5162107944488525, 'learning_rate': 7.329462419625789e-08, 'epoch': 0.93} {'loss': 2.3545, 'grad_norm': 1.5985952615737915, 'learning_rate': 7.319024513143786e-08, 'epoch': 0.93} {'loss': 2.3867, 'grad_norm': 2.05739426612854, 'learning_rate': 7.308593933871539e-08, 'epoch': 0.93} {'loss': 2.2216, 'grad_norm': 1.7445200681686401, 'learning_rate': 7.298170682123962e-08, 'epoch': 0.93} {'loss': 1.9771, 'grad_norm': 1.7662441730499268, 'learning_rate': 7.287754758215748e-08, 'epoch': 0.93} {'loss': 2.2822, 'grad_norm': 1.556312084197998, 'learning_rate': 7.277346162461451e-08, 'epoch': 0.93} {'loss': 2.1547, 'grad_norm': 1.302057147026062, 'learning_rate': 7.266944895175265e-08, 'epoch': 0.93} {'loss': 2.4441, 'grad_norm': 1.7449252605438232, 'learning_rate': 7.256550956671299e-08, 'epoch': 0.93} {'loss': 2.1919, 'grad_norm': 1.7264397144317627, 'learning_rate': 7.246164347263301e-08, 'epoch': 0.93} {'loss': 2.2865, 'grad_norm': 1.8822447061538696, 'learning_rate': 7.235785067264884e-08, 'epoch': 0.93} {'loss': 2.1769, 'grad_norm': 1.413716197013855, 'learning_rate': 7.225413116989488e-08, 'epoch': 0.93} {'loss': 2.1945, 'grad_norm': 2.2525341510772705, 'learning_rate': 7.215048496750199e-08, 'epoch': 0.93} {'loss': 2.2936, 'grad_norm': 1.6304360628128052, 'learning_rate': 7.204691206860015e-08, 'epoch': 0.93} {'loss': 1.9833, 'grad_norm': 1.6447572708129883, 'learning_rate': 7.194341247631575e-08, 'epoch': 0.93} {'loss': 2.0788, 'grad_norm': 1.4218171834945679, 'learning_rate': 7.183998619377463e-08, 'epoch': 0.93} {'loss': 2.2954, 'grad_norm': 1.6204264163970947, 'learning_rate': 7.173663322409901e-08, 'epoch': 0.93} {'loss': 2.3903, 'grad_norm': 1.6206386089324951, 'learning_rate': 7.163335357040946e-08, 'epoch': 0.93} {'loss': 2.0042, 'grad_norm': 2.4925003051757812, 'learning_rate': 7.153014723582429e-08, 'epoch': 0.93} {'loss': 2.3334, 'grad_norm': 1.6305193901062012, 'learning_rate': 7.142701422345938e-08, 'epoch': 0.93} {'loss': 2.3833, 'grad_norm': 1.5451745986938477, 'learning_rate': 7.132395453642888e-08, 'epoch': 0.93} {'loss': 2.1982, 'grad_norm': 1.6487725973129272, 'learning_rate': 7.122096817784446e-08, 'epoch': 0.93} {'loss': 2.2528, 'grad_norm': 1.8667035102844238, 'learning_rate': 7.111805515081532e-08, 'epoch': 0.93} {'loss': 1.9382, 'grad_norm': 1.2846012115478516, 'learning_rate': 7.101521545844898e-08, 'epoch': 0.93} {'loss': 2.1157, 'grad_norm': 1.277206301689148, 'learning_rate': 7.091244910385015e-08, 'epoch': 0.93} {'loss': 1.9863, 'grad_norm': 1.767683506011963, 'learning_rate': 7.080975609012192e-08, 'epoch': 0.93} {'loss': 2.2203, 'grad_norm': 1.7207313776016235, 'learning_rate': 7.070713642036487e-08, 'epoch': 0.93} {'loss': 2.063, 'grad_norm': 1.7902885675430298, 'learning_rate': 7.060459009767706e-08, 'epoch': 0.93} {'loss': 2.3566, 'grad_norm': 1.6742810010910034, 'learning_rate': 7.05021171251552e-08, 'epoch': 0.93} {'loss': 2.3608, 'grad_norm': 1.7038501501083374, 'learning_rate': 7.039971750589236e-08, 'epoch': 0.93} {'loss': 2.1609, 'grad_norm': 1.6509449481964111, 'learning_rate': 7.029739124298108e-08, 'epoch': 0.93} {'loss': 2.4978, 'grad_norm': 1.827287197113037, 'learning_rate': 7.019513833951052e-08, 'epoch': 0.93} {'loss': 2.0396, 'grad_norm': 1.4244340658187866, 'learning_rate': 7.009295879856798e-08, 'epoch': 0.93} {'loss': 2.1758, 'grad_norm': 1.4647079706192017, 'learning_rate': 6.999085262323847e-08, 'epoch': 0.93} {'loss': 2.3276, 'grad_norm': 1.7459856271743774, 'learning_rate': 6.988881981660505e-08, 'epoch': 0.93} {'loss': 2.0464, 'grad_norm': 1.801094651222229, 'learning_rate': 6.978686038174892e-08, 'epoch': 0.93} {'loss': 2.4181, 'grad_norm': 1.7682511806488037, 'learning_rate': 6.968497432174703e-08, 'epoch': 0.93} {'loss': 2.0148, 'grad_norm': 1.6659451723098755, 'learning_rate': 6.958316163967721e-08, 'epoch': 0.93} {'loss': 1.8498, 'grad_norm': 1.8208394050598145, 'learning_rate': 6.948142233861199e-08, 'epoch': 0.93} {'loss': 2.1993, 'grad_norm': 1.823837399482727, 'learning_rate': 6.937975642162421e-08, 'epoch': 0.93} {'loss': 2.3678, 'grad_norm': 1.6787184476852417, 'learning_rate': 6.927816389178333e-08, 'epoch': 0.93} {'loss': 2.1457, 'grad_norm': 1.5435800552368164, 'learning_rate': 6.917664475215608e-08, 'epoch': 0.93} {'loss': 1.9859, 'grad_norm': 1.4954339265823364, 'learning_rate': 6.907519900580862e-08, 'epoch': 0.93} {'loss': 2.1526, 'grad_norm': 1.969598650932312, 'learning_rate': 6.897382665580321e-08, 'epoch': 0.93} {'loss': 1.6874, 'grad_norm': 1.2870773077011108, 'learning_rate': 6.88725277052002e-08, 'epoch': 0.93} {'loss': 2.1759, 'grad_norm': 1.636069655418396, 'learning_rate': 6.877130215705879e-08, 'epoch': 0.93} {'loss': 2.3816, 'grad_norm': 1.6415654420852661, 'learning_rate': 6.867015001443489e-08, 'epoch': 0.93} {'loss': 2.233, 'grad_norm': 3.1479549407958984, 'learning_rate': 6.856907128038298e-08, 'epoch': 0.93} {'loss': 2.436, 'grad_norm': 1.6705933809280396, 'learning_rate': 6.846806595795424e-08, 'epoch': 0.93} {'loss': 2.2386, 'grad_norm': 1.5365396738052368, 'learning_rate': 6.836713405019901e-08, 'epoch': 0.93} {'loss': 2.1538, 'grad_norm': 1.7288241386413574, 'learning_rate': 6.826627556016401e-08, 'epoch': 0.93} {'loss': 2.1598, 'grad_norm': 1.5727566480636597, 'learning_rate': 6.81654904908946e-08, 'epoch': 0.93} {'loss': 2.1525, 'grad_norm': 1.641899585723877, 'learning_rate': 6.806477884543472e-08, 'epoch': 0.93} {'loss': 2.249, 'grad_norm': 1.6036204099655151, 'learning_rate': 6.796414062682388e-08, 'epoch': 0.93} {'loss': 2.1736, 'grad_norm': 1.4536845684051514, 'learning_rate': 6.786357583810105e-08, 'epoch': 0.93} {'loss': 2.279, 'grad_norm': 2.082552433013916, 'learning_rate': 6.776308448230267e-08, 'epoch': 0.93} {'loss': 2.2928, 'grad_norm': 1.6477642059326172, 'learning_rate': 6.766266656246273e-08, 'epoch': 0.93} {'loss': 2.3153, 'grad_norm': 1.7378665208816528, 'learning_rate': 6.756232208161351e-08, 'epoch': 0.93} {'loss': 2.268, 'grad_norm': 1.7514674663543701, 'learning_rate': 6.746205104278398e-08, 'epoch': 0.93} {'loss': 2.07, 'grad_norm': 1.7058172225952148, 'learning_rate': 6.736185344900225e-08, 'epoch': 0.93} {'loss': 2.0463, 'grad_norm': 1.3345097303390503, 'learning_rate': 6.726172930329289e-08, 'epoch': 0.93} {'loss': 2.4977, 'grad_norm': 1.3683620691299438, 'learning_rate': 6.716167860867983e-08, 'epoch': 0.93} {'loss': 2.4638, 'grad_norm': 1.5928411483764648, 'learning_rate': 6.706170136818318e-08, 'epoch': 0.93} {'loss': 2.4839, 'grad_norm': 1.7347298860549927, 'learning_rate': 6.696179758482164e-08, 'epoch': 0.93} {'loss': 1.5626, 'grad_norm': 1.5996730327606201, 'learning_rate': 6.686196726161193e-08, 'epoch': 0.93} {'loss': 2.246, 'grad_norm': 1.6913549900054932, 'learning_rate': 6.676221040156778e-08, 'epoch': 0.93} {'loss': 2.2258, 'grad_norm': 1.9151731729507446, 'learning_rate': 6.666252700770093e-08, 'epoch': 0.93} {'loss': 2.3911, 'grad_norm': 1.8333326578140259, 'learning_rate': 6.656291708302204e-08, 'epoch': 0.93} {'loss': 2.3346, 'grad_norm': 1.8068128824234009, 'learning_rate': 6.646338063053759e-08, 'epoch': 0.93} {'loss': 2.4942, 'grad_norm': 1.7287936210632324, 'learning_rate': 6.63639176532535e-08, 'epoch': 0.93} {'loss': 2.2334, 'grad_norm': 1.7803633213043213, 'learning_rate': 6.626452815417295e-08, 'epoch': 0.93} {'loss': 2.3421, 'grad_norm': 1.6917263269424438, 'learning_rate': 6.6165212136296e-08, 'epoch': 0.93} {'loss': 2.2139, 'grad_norm': 1.4726057052612305, 'learning_rate': 6.606596960262196e-08, 'epoch': 0.93} {'loss': 2.3383, 'grad_norm': 1.7244991064071655, 'learning_rate': 6.596680055614673e-08, 'epoch': 0.93} {'loss': 1.9527, 'grad_norm': 1.4839214086532593, 'learning_rate': 6.586770499986517e-08, 'epoch': 0.93} {'loss': 2.231, 'grad_norm': 1.675945520401001, 'learning_rate': 6.576868293676847e-08, 'epoch': 0.93} {'loss': 2.1009, 'grad_norm': 1.6828094720840454, 'learning_rate': 6.566973436984703e-08, 'epoch': 0.93} {'loss': 2.5959, 'grad_norm': 2.252229690551758, 'learning_rate': 6.55708593020879e-08, 'epoch': 0.93} {'loss': 2.1927, 'grad_norm': 1.6348626613616943, 'learning_rate': 6.547205773647703e-08, 'epoch': 0.93} {'loss': 1.9974, 'grad_norm': 1.4260590076446533, 'learning_rate': 6.537332967599703e-08, 'epoch': 0.93} {'loss': 2.4453, 'grad_norm': 1.5825339555740356, 'learning_rate': 6.527467512362829e-08, 'epoch': 0.93} {'loss': 2.088, 'grad_norm': 1.8019311428070068, 'learning_rate': 6.517609408235065e-08, 'epoch': 0.93} {'loss': 2.3013, 'grad_norm': 1.638500452041626, 'learning_rate': 6.507758655513952e-08, 'epoch': 0.93} {'loss': 2.143, 'grad_norm': 1.7440800666809082, 'learning_rate': 6.497915254496944e-08, 'epoch': 0.93} {'loss': 1.7354, 'grad_norm': 1.3898690938949585, 'learning_rate': 6.48807920548128e-08, 'epoch': 0.93} {'loss': 2.078, 'grad_norm': 1.6062629222869873, 'learning_rate': 6.478250508763856e-08, 'epoch': 0.93} {'loss': 2.3106, 'grad_norm': 2.1596333980560303, 'learning_rate': 6.468429164641521e-08, 'epoch': 0.93} {'loss': 2.3116, 'grad_norm': 1.809017300605774, 'learning_rate': 6.458615173410732e-08, 'epoch': 0.93} {'loss': 2.1657, 'grad_norm': 1.5831748247146606, 'learning_rate': 6.448808535367863e-08, 'epoch': 0.93} {'loss': 1.7831, 'grad_norm': 1.5184762477874756, 'learning_rate': 6.439009250808981e-08, 'epoch': 0.93} {'loss': 2.3038, 'grad_norm': 1.56550931930542, 'learning_rate': 6.429217320029907e-08, 'epoch': 0.93} {'loss': 2.4411, 'grad_norm': 1.9276258945465088, 'learning_rate': 6.419432743326349e-08, 'epoch': 0.93} {'loss': 2.2415, 'grad_norm': 1.8451722860336304, 'learning_rate': 6.40965552099368e-08, 'epoch': 0.93} {'loss': 2.2254, 'grad_norm': 1.7002241611480713, 'learning_rate': 6.399885653327165e-08, 'epoch': 0.93} {'loss': 2.1272, 'grad_norm': 1.863349437713623, 'learning_rate': 6.390123140621707e-08, 'epoch': 0.93} {'loss': 2.0937, 'grad_norm': 1.6322370767593384, 'learning_rate': 6.380367983172098e-08, 'epoch': 0.93} {'loss': 2.3606, 'grad_norm': 1.567264437675476, 'learning_rate': 6.370620181272935e-08, 'epoch': 0.93} {'loss': 2.3885, 'grad_norm': 1.7846630811691284, 'learning_rate': 6.360879735218428e-08, 'epoch': 0.93} {'loss': 2.4354, 'grad_norm': 1.7813587188720703, 'learning_rate': 6.35114664530273e-08, 'epoch': 0.93} {'loss': 2.2391, 'grad_norm': 1.7096079587936401, 'learning_rate': 6.341420911819662e-08, 'epoch': 0.93} {'loss': 2.2152, 'grad_norm': 1.6178994178771973, 'learning_rate': 6.331702535062934e-08, 'epoch': 0.93} {'loss': 2.3396, 'grad_norm': 1.977503776550293, 'learning_rate': 6.32199151532592e-08, 'epoch': 0.93} {'loss': 2.2678, 'grad_norm': 1.6319751739501953, 'learning_rate': 6.312287852901833e-08, 'epoch': 0.93} {'loss': 2.0876, 'grad_norm': 1.65431547164917, 'learning_rate': 6.302591548083687e-08, 'epoch': 0.93} {'loss': 1.967, 'grad_norm': 1.430131196975708, 'learning_rate': 6.292902601164191e-08, 'epoch': 0.93} {'loss': 2.2828, 'grad_norm': 1.580824851989746, 'learning_rate': 6.283221012435947e-08, 'epoch': 0.93} {'loss': 2.1716, 'grad_norm': 1.8009737730026245, 'learning_rate': 6.273546782191192e-08, 'epoch': 0.93} {'loss': 2.5613, 'grad_norm': 1.673190712928772, 'learning_rate': 6.263879910722054e-08, 'epoch': 0.93} {'loss': 2.2366, 'grad_norm': 1.608107328414917, 'learning_rate': 6.25422039832041e-08, 'epoch': 0.93} {'loss': 2.1049, 'grad_norm': 1.8520281314849854, 'learning_rate': 6.244568245277888e-08, 'epoch': 0.93} {'loss': 2.5042, 'grad_norm': 1.9231312274932861, 'learning_rate': 6.234923451885922e-08, 'epoch': 0.93} {'loss': 2.2641, 'grad_norm': 3.5197722911834717, 'learning_rate': 6.225286018435723e-08, 'epoch': 0.93} {'loss': 2.027, 'grad_norm': 1.7274091243743896, 'learning_rate': 6.215655945218252e-08, 'epoch': 0.93} {'loss': 2.3208, 'grad_norm': 1.7331205606460571, 'learning_rate': 6.206033232524305e-08, 'epoch': 0.93} {'loss': 2.1784, 'grad_norm': 1.6867828369140625, 'learning_rate': 6.196417880644401e-08, 'epoch': 0.93} {'loss': 2.4493, 'grad_norm': 1.7596766948699951, 'learning_rate': 6.186809889868833e-08, 'epoch': 0.93} {'loss': 2.2638, 'grad_norm': 5.756646156311035, 'learning_rate': 6.177209260487677e-08, 'epoch': 0.93} {'loss': 2.2489, 'grad_norm': 1.657254934310913, 'learning_rate': 6.167615992790838e-08, 'epoch': 0.93} {'loss': 2.5648, 'grad_norm': 1.8212770223617554, 'learning_rate': 6.158030087068e-08, 'epoch': 0.93} {'loss': 2.1976, 'grad_norm': 1.7269455194473267, 'learning_rate': 6.148451543608518e-08, 'epoch': 0.93} {'loss': 2.141, 'grad_norm': 1.9012404680252075, 'learning_rate': 6.138880362701632e-08, 'epoch': 0.93} {'loss': 2.2432, 'grad_norm': 1.83761465549469, 'learning_rate': 6.129316544636305e-08, 'epoch': 0.93} {'loss': 2.4264, 'grad_norm': 1.7245354652404785, 'learning_rate': 6.119760089701305e-08, 'epoch': 0.93} {'loss': 2.1506, 'grad_norm': 1.3992950916290283, 'learning_rate': 6.110210998185179e-08, 'epoch': 0.93} {'loss': 2.3339, 'grad_norm': 1.705223798751831, 'learning_rate': 6.100669270376198e-08, 'epoch': 0.93} {'loss': 2.2875, 'grad_norm': 1.9555974006652832, 'learning_rate': 6.091134906562518e-08, 'epoch': 0.93} {'loss': 2.0591, 'grad_norm': 2.055418014526367, 'learning_rate': 6.08160790703194e-08, 'epoch': 0.93} {'loss': 2.3735, 'grad_norm': 1.67573881149292, 'learning_rate': 6.072088272072174e-08, 'epoch': 0.93} {'loss': 2.0547, 'grad_norm': 1.851942539215088, 'learning_rate': 6.062576001970576e-08, 'epoch': 0.93} {'loss': 2.0594, 'grad_norm': 1.7950735092163086, 'learning_rate': 6.05307109701439e-08, 'epoch': 0.93} {'loss': 2.2523, 'grad_norm': 1.5810668468475342, 'learning_rate': 6.043573557490607e-08, 'epoch': 0.93} {'loss': 2.2664, 'grad_norm': 1.8907653093338013, 'learning_rate': 6.034083383685969e-08, 'epoch': 0.93} {'loss': 2.4145, 'grad_norm': 1.635170340538025, 'learning_rate': 6.024600575887024e-08, 'epoch': 0.93} {'loss': 2.233, 'grad_norm': 1.783573031425476, 'learning_rate': 6.015125134380046e-08, 'epoch': 0.93} {'loss': 2.2265, 'grad_norm': 1.7986294031143188, 'learning_rate': 6.005657059451136e-08, 'epoch': 0.93} {'loss': 2.2023, 'grad_norm': 1.6197668313980103, 'learning_rate': 5.996196351386208e-08, 'epoch': 0.93} {'loss': 2.4351, 'grad_norm': 2.021810293197632, 'learning_rate': 5.986743010470836e-08, 'epoch': 0.93} {'loss': 2.2957, 'grad_norm': 2.8063759803771973, 'learning_rate': 5.977297036990487e-08, 'epoch': 0.93} {'loss': 2.0612, 'grad_norm': 1.913666009902954, 'learning_rate': 5.96785843123035e-08, 'epoch': 0.93} {'loss': 2.2799, 'grad_norm': 1.7728450298309326, 'learning_rate': 5.958427193475419e-08, 'epoch': 0.93} {'loss': 2.326, 'grad_norm': 1.7446036338806152, 'learning_rate': 5.9490033240104386e-08, 'epoch': 0.93} {'loss': 2.4635, 'grad_norm': 1.8484396934509277, 'learning_rate': 5.9395868231199306e-08, 'epoch': 0.93} {'loss': 2.5236, 'grad_norm': 22.491851806640625, 'learning_rate': 5.9301776910882237e-08, 'epoch': 0.93} {'loss': 2.4848, 'grad_norm': 1.8004087209701538, 'learning_rate': 5.920775928199368e-08, 'epoch': 0.93} {'loss': 2.1501, 'grad_norm': 2.0380349159240723, 'learning_rate': 5.911381534737276e-08, 'epoch': 0.93} {'loss': 2.3364, 'grad_norm': 1.7196727991104126, 'learning_rate': 5.9019945109855535e-08, 'epoch': 0.93} {'loss': 2.2787, 'grad_norm': 1.6864750385284424, 'learning_rate': 5.8926148572276134e-08, 'epoch': 0.93} {'loss': 2.4381, 'grad_norm': 1.4964866638183594, 'learning_rate': 5.8832425737467284e-08, 'epoch': 0.93} {'loss': 2.1975, 'grad_norm': 1.5839974880218506, 'learning_rate': 5.873877660825783e-08, 'epoch': 0.93} {'loss': 2.3952, 'grad_norm': 1.7536728382110596, 'learning_rate': 5.864520118747607e-08, 'epoch': 0.93} {'loss': 2.5252, 'grad_norm': 2.6677608489990234, 'learning_rate': 5.85516994779467e-08, 'epoch': 0.93} {'loss': 2.2039, 'grad_norm': 8.491868019104004, 'learning_rate': 5.8458271482493e-08, 'epoch': 0.93} {'loss': 2.2997, 'grad_norm': 2.0581865310668945, 'learning_rate': 5.8364917203936056e-08, 'epoch': 0.93} {'loss': 2.3504, 'grad_norm': 1.528542160987854, 'learning_rate': 5.827163664509389e-08, 'epoch': 0.93} {'loss': 2.3613, 'grad_norm': 1.7166234254837036, 'learning_rate': 5.8178429808783687e-08, 'epoch': 0.93} {'loss': 2.2001, 'grad_norm': 1.7813206911087036, 'learning_rate': 5.8085296697819036e-08, 'epoch': 0.93} {'loss': 2.2244, 'grad_norm': 1.5924708843231201, 'learning_rate': 5.7992237315012136e-08, 'epoch': 0.93} {'loss': 2.2328, 'grad_norm': 1.6593023538589478, 'learning_rate': 5.7899251663172394e-08, 'epoch': 0.93} {'loss': 2.2445, 'grad_norm': 1.6970967054367065, 'learning_rate': 5.780633974510785e-08, 'epoch': 0.93} {'loss': 2.3676, 'grad_norm': 1.6896922588348389, 'learning_rate': 5.7713501563623485e-08, 'epoch': 0.93} {'loss': 2.3205, 'grad_norm': 1.582364797592163, 'learning_rate': 5.762073712152205e-08, 'epoch': 0.93} {'loss': 2.4134, 'grad_norm': 1.9134743213653564, 'learning_rate': 5.752804642160437e-08, 'epoch': 0.93} {'loss': 2.25, 'grad_norm': 1.5824925899505615, 'learning_rate': 5.7435429466669856e-08, 'epoch': 0.93} {'loss': 2.1339, 'grad_norm': 1.567651391029358, 'learning_rate': 5.734288625951406e-08, 'epoch': 0.93} {'loss': 2.2891, 'grad_norm': 1.5519670248031616, 'learning_rate': 5.7250416802931416e-08, 'epoch': 0.93} {'loss': 2.5716, 'grad_norm': 1.79404878616333, 'learning_rate': 5.7158021099713855e-08, 'epoch': 0.93} {'loss': 2.2914, 'grad_norm': 2.0067193508148193, 'learning_rate': 5.706569915265109e-08, 'epoch': 0.93} {'loss': 2.0659, 'grad_norm': 1.663954496383667, 'learning_rate': 5.697345096453033e-08, 'epoch': 0.93} {'loss': 2.1141, 'grad_norm': 1.5049089193344116, 'learning_rate': 5.688127653813685e-08, 'epoch': 0.93} {'loss': 1.9156, 'grad_norm': 2.9991371631622314, 'learning_rate': 5.678917587625399e-08, 'epoch': 0.93} {'loss': 2.3679, 'grad_norm': 1.7091933488845825, 'learning_rate': 5.669714898166173e-08, 'epoch': 0.93} {'loss': 2.351, 'grad_norm': 2.0465729236602783, 'learning_rate': 5.6605195857139806e-08, 'epoch': 0.93} {'loss': 2.0617, 'grad_norm': 1.6990846395492554, 'learning_rate': 5.651331650546349e-08, 'epoch': 0.93} {'loss': 2.2364, 'grad_norm': 1.6157004833221436, 'learning_rate': 5.642151092940751e-08, 'epoch': 0.93} {'loss': 2.2568, 'grad_norm': 1.8545118570327759, 'learning_rate': 5.632977913174326e-08, 'epoch': 0.93} {'loss': 2.1189, 'grad_norm': 1.5853272676467896, 'learning_rate': 5.623812111524074e-08, 'epoch': 0.94} {'loss': 2.1989, 'grad_norm': 1.6851716041564941, 'learning_rate': 5.6146536882667747e-08, 'epoch': 0.94} {'loss': 2.4468, 'grad_norm': 1.7548130750656128, 'learning_rate': 5.605502643678817e-08, 'epoch': 0.94} {'loss': 2.4305, 'grad_norm': 1.5684410333633423, 'learning_rate': 5.5963589780365924e-08, 'epoch': 0.94} {'loss': 1.8454, 'grad_norm': 1.3126351833343506, 'learning_rate': 5.5872226916161845e-08, 'epoch': 0.94} {'loss': 2.2229, 'grad_norm': 1.7749494314193726, 'learning_rate': 5.5780937846934e-08, 'epoch': 0.94} {'loss': 2.1369, 'grad_norm': 1.6809507608413696, 'learning_rate': 5.568972257543881e-08, 'epoch': 0.94} {'loss': 2.2394, 'grad_norm': 1.4670711755752563, 'learning_rate': 5.559858110443017e-08, 'epoch': 0.94} {'loss': 2.6963, 'grad_norm': 1.899787425994873, 'learning_rate': 5.550751343666033e-08, 'epoch': 0.94} {'loss': 1.4138, 'grad_norm': 1.649839997291565, 'learning_rate': 5.5416519574878205e-08, 'epoch': 0.94} {'loss': 2.1969, 'grad_norm': 1.9951019287109375, 'learning_rate': 5.532559952183186e-08, 'epoch': 0.94} {'loss': 2.3103, 'grad_norm': 1.7511420249938965, 'learning_rate': 5.5234753280266065e-08, 'epoch': 0.94} {'loss': 2.1284, 'grad_norm': 1.2591416835784912, 'learning_rate': 5.514398085292333e-08, 'epoch': 0.94} {'loss': 2.6589, 'grad_norm': 1.3893297910690308, 'learning_rate': 5.505328224254508e-08, 'epoch': 0.94} {'loss': 2.2538, 'grad_norm': 2.0429913997650146, 'learning_rate': 5.4962657451869406e-08, 'epoch': 0.94} {'loss': 2.0879, 'grad_norm': 1.6406396627426147, 'learning_rate': 5.487210648363217e-08, 'epoch': 0.94} {'loss': 2.2878, 'grad_norm': 1.709384799003601, 'learning_rate': 5.478162934056813e-08, 'epoch': 0.94} {'loss': 2.3001, 'grad_norm': 1.5679394006729126, 'learning_rate': 5.4691226025408436e-08, 'epoch': 0.94} {'loss': 2.3552, 'grad_norm': 1.7284531593322754, 'learning_rate': 5.460089654088313e-08, 'epoch': 0.94} {'loss': 2.202, 'grad_norm': 2.6054446697235107, 'learning_rate': 5.4510640889718916e-08, 'epoch': 0.94} {'loss': 2.5424, 'grad_norm': 1.7710354328155518, 'learning_rate': 5.442045907464083e-08, 'epoch': 0.94} {'loss': 2.2962, 'grad_norm': 1.5594687461853027, 'learning_rate': 5.4330351098372534e-08, 'epoch': 0.94} {'loss': 2.1288, 'grad_norm': 1.2975974082946777, 'learning_rate': 5.424031696363352e-08, 'epoch': 0.94} {'loss': 2.4915, 'grad_norm': 1.5752971172332764, 'learning_rate': 5.4150356673143277e-08, 'epoch': 0.94} {'loss': 2.1911, 'grad_norm': 1.615368366241455, 'learning_rate': 5.406047022961713e-08, 'epoch': 0.94} {'loss': 2.1696, 'grad_norm': 1.718608021736145, 'learning_rate': 5.3970657635769583e-08, 'epoch': 0.94} {'loss': 2.5871, 'grad_norm': 4.2354736328125, 'learning_rate': 5.38809188943118e-08, 'epoch': 0.94} {'loss': 2.2269, 'grad_norm': 1.5127711296081543, 'learning_rate': 5.3791254007953543e-08, 'epoch': 0.94} {'loss': 2.3875, 'grad_norm': 1.8245450258255005, 'learning_rate': 5.37016629794021e-08, 'epoch': 0.94} {'loss': 2.0352, 'grad_norm': 1.70597505569458, 'learning_rate': 5.361214581136226e-08, 'epoch': 0.94} {'loss': 2.3054, 'grad_norm': 1.7369346618652344, 'learning_rate': 5.352270250653685e-08, 'epoch': 0.94} {'loss': 2.227, 'grad_norm': 1.555422067642212, 'learning_rate': 5.343333306762649e-08, 'epoch': 0.94} {'loss': 2.3801, 'grad_norm': 1.7389055490493774, 'learning_rate': 5.3344037497329307e-08, 'epoch': 0.94} {'loss': 2.2553, 'grad_norm': 1.7618380784988403, 'learning_rate': 5.325481579834174e-08, 'epoch': 0.94} {'loss': 2.4668, 'grad_norm': 1.5260765552520752, 'learning_rate': 5.316566797335748e-08, 'epoch': 0.94} {'loss': 2.104, 'grad_norm': 1.6864899396896362, 'learning_rate': 5.307659402506798e-08, 'epoch': 0.94} {'loss': 2.5853, 'grad_norm': 1.667985200881958, 'learning_rate': 5.298759395616304e-08, 'epoch': 0.94} {'loss': 2.2335, 'grad_norm': 1.939481258392334, 'learning_rate': 5.2898667769329115e-08, 'epoch': 0.94} {'loss': 2.156, 'grad_norm': 1.59723699092865, 'learning_rate': 5.2809815467251556e-08, 'epoch': 0.94} {'loss': 2.4848, 'grad_norm': 1.823800802230835, 'learning_rate': 5.272103705261322e-08, 'epoch': 0.94} {'loss': 2.0191, 'grad_norm': 1.7290481328964233, 'learning_rate': 5.263233252809447e-08, 'epoch': 0.94} {'loss': 2.2202, 'grad_norm': 1.5502718687057495, 'learning_rate': 5.2543701896373144e-08, 'epoch': 0.94} {'loss': 2.2074, 'grad_norm': 1.4263132810592651, 'learning_rate': 5.2455145160125734e-08, 'epoch': 0.94} {'loss': 2.0841, 'grad_norm': 1.4355370998382568, 'learning_rate': 5.236666232202592e-08, 'epoch': 0.94} {'loss': 2.0201, 'grad_norm': 1.7213071584701538, 'learning_rate': 5.22782533847449e-08, 'epoch': 0.94} {'loss': 1.9841, 'grad_norm': 1.2459022998809814, 'learning_rate': 5.2189918350952776e-08, 'epoch': 0.94} {'loss': 2.2324, 'grad_norm': 1.7105023860931396, 'learning_rate': 5.210165722331573e-08, 'epoch': 0.94} {'loss': 2.3542, 'grad_norm': 1.6163369417190552, 'learning_rate': 5.2013470004499136e-08, 'epoch': 0.94} {'loss': 2.2515, 'grad_norm': 1.6623361110687256, 'learning_rate': 5.192535669716531e-08, 'epoch': 0.94} {'loss': 2.3221, 'grad_norm': 1.5432088375091553, 'learning_rate': 5.183731730397462e-08, 'epoch': 0.94} {'loss': 2.5869, 'grad_norm': 2.5903375148773193, 'learning_rate': 5.1749351827585784e-08, 'epoch': 0.94} {'loss': 2.0547, 'grad_norm': 2.0472640991210938, 'learning_rate': 5.166146027065388e-08, 'epoch': 0.94} {'loss': 2.3087, 'grad_norm': 1.6140539646148682, 'learning_rate': 5.1573642635833475e-08, 'epoch': 0.94} {'loss': 2.1783, 'grad_norm': 1.7569665908813477, 'learning_rate': 5.148589892577549e-08, 'epoch': 0.94} {'loss': 2.5503, 'grad_norm': 1.6222244501113892, 'learning_rate': 5.13982291431292e-08, 'epoch': 0.94} {'loss': 2.4044, 'grad_norm': 1.7047725915908813, 'learning_rate': 5.1310633290541646e-08, 'epoch': 0.94} {'loss': 2.3811, 'grad_norm': 1.7664533853530884, 'learning_rate': 5.122311137065766e-08, 'epoch': 0.94} {'loss': 2.1798, 'grad_norm': 1.4104304313659668, 'learning_rate': 5.113566338611958e-08, 'epoch': 0.94} {'loss': 2.3874, 'grad_norm': 1.9330335855484009, 'learning_rate': 5.104828933956779e-08, 'epoch': 0.94} {'loss': 2.333, 'grad_norm': 1.9123733043670654, 'learning_rate': 5.096098923364073e-08, 'epoch': 0.94} {'loss': 2.171, 'grad_norm': 1.966084361076355, 'learning_rate': 5.087376307097352e-08, 'epoch': 0.94} {'loss': 2.3897, 'grad_norm': 1.6019126176834106, 'learning_rate': 5.078661085420017e-08, 'epoch': 0.94} {'loss': 2.2291, 'grad_norm': 1.667006015777588, 'learning_rate': 5.0699532585952174e-08, 'epoch': 0.94} {'loss': 2.3023, 'grad_norm': 1.6889054775238037, 'learning_rate': 5.061252826885854e-08, 'epoch': 0.94} {'loss': 2.2554, 'grad_norm': 4.2502121925354, 'learning_rate': 5.052559790554606e-08, 'epoch': 0.94} {'loss': 2.4151, 'grad_norm': 1.6442062854766846, 'learning_rate': 5.043874149863931e-08, 'epoch': 0.94} {'loss': 2.2547, 'grad_norm': 1.6261686086654663, 'learning_rate': 5.03519590507609e-08, 'epoch': 0.94} {'loss': 2.0506, 'grad_norm': 1.591356873512268, 'learning_rate': 5.026525056453124e-08, 'epoch': 0.94} {'loss': 2.068, 'grad_norm': 1.4294203519821167, 'learning_rate': 5.0178616042567686e-08, 'epoch': 0.94} {'loss': 2.1647, 'grad_norm': 1.7448126077651978, 'learning_rate': 5.009205548748675e-08, 'epoch': 0.94} {'loss': 2.3994, 'grad_norm': 1.487188458442688, 'learning_rate': 5.000556890190134e-08, 'epoch': 0.94} {'loss': 2.2481, 'grad_norm': 1.7132103443145752, 'learning_rate': 4.991915628842326e-08, 'epoch': 0.94} {'loss': 2.2342, 'grad_norm': 1.5922768115997314, 'learning_rate': 4.983281764966097e-08, 'epoch': 0.94} {'loss': 2.2522, 'grad_norm': 1.5540698766708374, 'learning_rate': 4.974655298822129e-08, 'epoch': 0.94} {'loss': 1.9534, 'grad_norm': 2.325192451477051, 'learning_rate': 4.9660362306709345e-08, 'epoch': 0.94} {'loss': 2.2422, 'grad_norm': 1.5566511154174805, 'learning_rate': 4.957424560772694e-08, 'epoch': 0.94} {'loss': 1.4494, 'grad_norm': 1.5171985626220703, 'learning_rate': 4.9488202893874793e-08, 'epoch': 0.94} {'loss': 2.2086, 'grad_norm': 1.803394079208374, 'learning_rate': 4.9402234167749975e-08, 'epoch': 0.94} {'loss': 2.2936, 'grad_norm': 1.7150806188583374, 'learning_rate': 4.931633943194847e-08, 'epoch': 0.94} {'loss': 2.3419, 'grad_norm': 1.9811537265777588, 'learning_rate': 4.9230518689064033e-08, 'epoch': 0.94} {'loss': 2.1675, 'grad_norm': 1.7228014469146729, 'learning_rate': 4.9144771941687374e-08, 'epoch': 0.94} {'loss': 2.4014, 'grad_norm': 2.010122299194336, 'learning_rate': 4.905909919240726e-08, 'epoch': 0.94} {'loss': 2.11, 'grad_norm': 1.7245680093765259, 'learning_rate': 4.897350044381105e-08, 'epoch': 0.94} {'loss': 2.4837, 'grad_norm': 2.260931968688965, 'learning_rate': 4.888797569848253e-08, 'epoch': 0.94} {'loss': 1.3175, 'grad_norm': 1.6839029788970947, 'learning_rate': 4.880252495900462e-08, 'epoch': 0.94} {'loss': 2.3018, 'grad_norm': 1.7630811929702759, 'learning_rate': 4.871714822795664e-08, 'epoch': 0.94} {'loss': 2.226, 'grad_norm': 1.470042109489441, 'learning_rate': 4.863184550791683e-08, 'epoch': 0.94} {'loss': 2.3498, 'grad_norm': 1.621469497680664, 'learning_rate': 4.854661680146033e-08, 'epoch': 0.94} {'loss': 2.1495, 'grad_norm': 1.6217960119247437, 'learning_rate': 4.8461462111160926e-08, 'epoch': 0.94} {'loss': 1.8267, 'grad_norm': 2.1690824031829834, 'learning_rate': 4.8376381439589336e-08, 'epoch': 0.94} {'loss': 2.4207, 'grad_norm': 1.5938833951950073, 'learning_rate': 4.829137478931434e-08, 'epoch': 0.94} {'loss': 2.5059, 'grad_norm': 1.7665302753448486, 'learning_rate': 4.820644216290249e-08, 'epoch': 0.94} {'loss': 2.4046, 'grad_norm': 1.687180757522583, 'learning_rate': 4.8121583562918405e-08, 'epoch': 0.94} {'loss': 2.0927, 'grad_norm': 1.6193101406097412, 'learning_rate': 4.8036798991923925e-08, 'epoch': 0.94} {'loss': 2.4377, 'grad_norm': 1.698629379272461, 'learning_rate': 4.795208845247923e-08, 'epoch': 0.94} {'loss': 2.4452, 'grad_norm': 1.5819727182388306, 'learning_rate': 4.786745194714143e-08, 'epoch': 0.94} {'loss': 2.0225, 'grad_norm': 1.8049057722091675, 'learning_rate': 4.778288947846682e-08, 'epoch': 0.94} {'loss': 2.2431, 'grad_norm': 1.6373034715652466, 'learning_rate': 4.7698401049007527e-08, 'epoch': 0.94} {'loss': 2.2142, 'grad_norm': 1.5182000398635864, 'learning_rate': 4.761398666131539e-08, 'epoch': 0.94} {'loss': 2.0851, 'grad_norm': 1.9094630479812622, 'learning_rate': 4.752964631793866e-08, 'epoch': 0.94} {'loss': 2.1511, 'grad_norm': 2.033534526824951, 'learning_rate': 4.7445380021423906e-08, 'epoch': 0.94} {'loss': 2.1261, 'grad_norm': 1.2640451192855835, 'learning_rate': 4.7361187774315195e-08, 'epoch': 0.94} {'loss': 2.2361, 'grad_norm': 1.8227832317352295, 'learning_rate': 4.7277069579154674e-08, 'epoch': 0.94} {'loss': 2.1679, 'grad_norm': 1.3991012573242188, 'learning_rate': 4.719302543848225e-08, 'epoch': 0.94} {'loss': 2.169, 'grad_norm': 1.5312787294387817, 'learning_rate': 4.710905535483534e-08, 'epoch': 0.94} {'loss': 2.5099, 'grad_norm': 1.6882027387619019, 'learning_rate': 4.7025159330749134e-08, 'epoch': 0.94} {'loss': 2.1457, 'grad_norm': 1.6557410955429077, 'learning_rate': 4.694133736875661e-08, 'epoch': 0.94} {'loss': 2.317, 'grad_norm': 1.5569849014282227, 'learning_rate': 4.68575894713888e-08, 'epoch': 0.94} {'loss': 2.3289, 'grad_norm': 2.3755109310150146, 'learning_rate': 4.677391564117423e-08, 'epoch': 0.94} {'loss': 2.3919, 'grad_norm': 1.6333237886428833, 'learning_rate': 4.6690315880638934e-08, 'epoch': 0.94} {'loss': 2.3692, 'grad_norm': 1.6883325576782227, 'learning_rate': 4.660679019230757e-08, 'epoch': 0.94} {'loss': 2.1167, 'grad_norm': 1.5682766437530518, 'learning_rate': 4.6523338578701725e-08, 'epoch': 0.94} {'loss': 2.3824, 'grad_norm': 1.8330260515213013, 'learning_rate': 4.6439961042341055e-08, 'epoch': 0.94} {'loss': 2.4271, 'grad_norm': 1.6688470840454102, 'learning_rate': 4.635665758574298e-08, 'epoch': 0.94} {'loss': 2.03, 'grad_norm': 1.3341443538665771, 'learning_rate': 4.6273428211422445e-08, 'epoch': 0.94} {'loss': 2.1249, 'grad_norm': 1.7625435590744019, 'learning_rate': 4.6190272921892706e-08, 'epoch': 0.94} {'loss': 2.2663, 'grad_norm': 1.5859079360961914, 'learning_rate': 4.610719171966427e-08, 'epoch': 0.94} {'loss': 2.1007, 'grad_norm': 1.6412954330444336, 'learning_rate': 4.602418460724567e-08, 'epoch': 0.94} {'loss': 2.5322, 'grad_norm': 1.8413118124008179, 'learning_rate': 4.5941251587143246e-08, 'epoch': 0.94} {'loss': 2.3488, 'grad_norm': 1.586146593093872, 'learning_rate': 4.585839266186026e-08, 'epoch': 0.94} {'loss': 2.3715, 'grad_norm': 1.5381016731262207, 'learning_rate': 4.5775607833899446e-08, 'epoch': 0.94} {'loss': 2.2429, 'grad_norm': 1.8151289224624634, 'learning_rate': 4.5692897105759635e-08, 'epoch': 0.94} {'loss': 2.3124, 'grad_norm': 1.8374361991882324, 'learning_rate': 4.561026047993855e-08, 'epoch': 0.94} {'loss': 2.2273, 'grad_norm': 1.461632251739502, 'learning_rate': 4.552769795893086e-08, 'epoch': 0.94} {'loss': 2.3817, 'grad_norm': 1.6211745738983154, 'learning_rate': 4.5445209545229574e-08, 'epoch': 0.94} {'loss': 2.0417, 'grad_norm': 2.490365743637085, 'learning_rate': 4.53627952413252e-08, 'epoch': 0.94} {'loss': 2.1265, 'grad_norm': 1.7401249408721924, 'learning_rate': 4.528045504970574e-08, 'epoch': 0.94} {'loss': 2.1582, 'grad_norm': 1.6399319171905518, 'learning_rate': 4.519818897285755e-08, 'epoch': 0.94} {'loss': 2.1732, 'grad_norm': 1.6627787351608276, 'learning_rate': 4.511599701326474e-08, 'epoch': 0.94} {'loss': 2.3574, 'grad_norm': 1.7734158039093018, 'learning_rate': 4.50338791734084e-08, 'epoch': 0.94} {'loss': 2.1238, 'grad_norm': 1.5729808807373047, 'learning_rate': 4.49518354557682e-08, 'epoch': 0.94} {'loss': 2.2118, 'grad_norm': 1.69611394405365, 'learning_rate': 4.486986586282105e-08, 'epoch': 0.94} {'loss': 2.2386, 'grad_norm': 1.7018874883651733, 'learning_rate': 4.478797039704219e-08, 'epoch': 0.94} {'loss': 2.3219, 'grad_norm': 1.3774255514144897, 'learning_rate': 4.470614906090409e-08, 'epoch': 0.94} {'loss': 2.5992, 'grad_norm': 1.6849747896194458, 'learning_rate': 4.4624401856877e-08, 'epoch': 0.94} {'loss': 2.2674, 'grad_norm': 1.6535272598266602, 'learning_rate': 4.4542728787429214e-08, 'epoch': 0.94} {'loss': 2.2991, 'grad_norm': 1.481693983078003, 'learning_rate': 4.4461129855026816e-08, 'epoch': 0.94} {'loss': 2.1952, 'grad_norm': 1.6066255569458008, 'learning_rate': 4.43796050621334e-08, 'epoch': 0.94} {'loss': 2.3648, 'grad_norm': 1.5387128591537476, 'learning_rate': 4.429815441121005e-08, 'epoch': 0.94} {'loss': 1.7019, 'grad_norm': 1.613629698753357, 'learning_rate': 4.4216777904716457e-08, 'epoch': 0.94} {'loss': 1.7679, 'grad_norm': 2.744352340698242, 'learning_rate': 4.413547554510955e-08, 'epoch': 0.94} {'loss': 2.3967, 'grad_norm': 1.7272673845291138, 'learning_rate': 4.405424733484404e-08, 'epoch': 0.94} {'loss': 2.297, 'grad_norm': 1.6334060430526733, 'learning_rate': 4.397309327637267e-08, 'epoch': 0.94} {'loss': 2.1327, 'grad_norm': 1.562092661857605, 'learning_rate': 4.389201337214516e-08, 'epoch': 0.94} {'loss': 2.1523, 'grad_norm': 1.5685150623321533, 'learning_rate': 4.3811007624609546e-08, 'epoch': 0.94} {'loss': 2.3197, 'grad_norm': 1.7827171087265015, 'learning_rate': 4.373007603621221e-08, 'epoch': 0.94} {'loss': 2.1321, 'grad_norm': 1.5214518308639526, 'learning_rate': 4.364921860939619e-08, 'epoch': 0.94} {'loss': 2.3056, 'grad_norm': 1.7270220518112183, 'learning_rate': 4.3568435346603155e-08, 'epoch': 0.94} {'loss': 2.1777, 'grad_norm': 1.690656065940857, 'learning_rate': 4.34877262502717e-08, 'epoch': 0.94} {'loss': 1.9678, 'grad_norm': 1.4365079402923584, 'learning_rate': 4.340709132283904e-08, 'epoch': 0.94} {'loss': 2.2607, 'grad_norm': 1.5592334270477295, 'learning_rate': 4.332653056673963e-08, 'epoch': 0.94} {'loss': 2.6238, 'grad_norm': 1.598943829536438, 'learning_rate': 4.324604398440624e-08, 'epoch': 0.94} {'loss': 2.0384, 'grad_norm': 2.0013506412506104, 'learning_rate': 4.316563157826831e-08, 'epoch': 0.94} {'loss': 2.3079, 'grad_norm': 1.5458245277404785, 'learning_rate': 4.30852933507539e-08, 'epoch': 0.94} {'loss': 2.3156, 'grad_norm': 4.062448501586914, 'learning_rate': 4.300502930428913e-08, 'epoch': 0.94} {'loss': 2.3492, 'grad_norm': 1.6451735496520996, 'learning_rate': 4.2924839441296496e-08, 'epoch': 0.94} {'loss': 2.5898, 'grad_norm': 1.6657308340072632, 'learning_rate': 4.284472376419796e-08, 'epoch': 0.94} {'loss': 2.3158, 'grad_norm': 1.4350860118865967, 'learning_rate': 4.276468227541214e-08, 'epoch': 0.94} {'loss': 2.1508, 'grad_norm': 1.7026783227920532, 'learning_rate': 4.2684714977355434e-08, 'epoch': 0.94} {'loss': 2.2568, 'grad_norm': 1.8924223184585571, 'learning_rate': 4.260482187244314e-08, 'epoch': 0.94} {'loss': 2.4225, 'grad_norm': 1.8346045017242432, 'learning_rate': 4.252500296308665e-08, 'epoch': 0.94} {'loss': 2.5461, 'grad_norm': 1.9094104766845703, 'learning_rate': 4.244525825169571e-08, 'epoch': 0.94} {'loss': 2.4355, 'grad_norm': 1.7362149953842163, 'learning_rate': 4.236558774067895e-08, 'epoch': 0.94} {'loss': 2.1851, 'grad_norm': 1.6437722444534302, 'learning_rate': 4.228599143244111e-08, 'epoch': 0.94} {'loss': 1.3539, 'grad_norm': 1.5450644493103027, 'learning_rate': 4.220646932938582e-08, 'epoch': 0.94} {'loss': 2.2806, 'grad_norm': 1.5111467838287354, 'learning_rate': 4.212702143391367e-08, 'epoch': 0.94} {'loss': 2.4411, 'grad_norm': 1.6138161420822144, 'learning_rate': 4.204764774842385e-08, 'epoch': 0.94} {'loss': 2.193, 'grad_norm': 1.5098861455917358, 'learning_rate': 4.196834827531277e-08, 'epoch': 0.94} {'loss': 2.0976, 'grad_norm': 1.5893361568450928, 'learning_rate': 4.1889123016974343e-08, 'epoch': 0.94} {'loss': 2.233, 'grad_norm': 1.7136940956115723, 'learning_rate': 4.180997197580111e-08, 'epoch': 0.94} {'loss': 2.1588, 'grad_norm': 1.6857600212097168, 'learning_rate': 4.173089515418255e-08, 'epoch': 0.94} {'loss': 2.2348, 'grad_norm': 1.701744556427002, 'learning_rate': 4.165189255450619e-08, 'epoch': 0.94} {'loss': 2.4637, 'grad_norm': 1.8373656272888184, 'learning_rate': 4.1572964179157626e-08, 'epoch': 0.94} {'loss': 2.1411, 'grad_norm': 1.8688654899597168, 'learning_rate': 4.1494110030519394e-08, 'epoch': 0.94} {'loss': 2.2513, 'grad_norm': 1.5662992000579834, 'learning_rate': 4.1415330110972926e-08, 'epoch': 0.94} {'loss': 2.438, 'grad_norm': 1.9055413007736206, 'learning_rate': 4.133662442289632e-08, 'epoch': 0.94} {'loss': 2.361, 'grad_norm': 1.8587638139724731, 'learning_rate': 4.1257992968666285e-08, 'epoch': 0.94} {'loss': 2.2341, 'grad_norm': 1.7252790927886963, 'learning_rate': 4.117943575065675e-08, 'epoch': 0.94} {'loss': 2.3329, 'grad_norm': 1.8354135751724243, 'learning_rate': 4.110095277123943e-08, 'epoch': 0.94} {'loss': 2.121, 'grad_norm': 1.3697080612182617, 'learning_rate': 4.102254403278439e-08, 'epoch': 0.94} {'loss': 2.1504, 'grad_norm': 1.8050192594528198, 'learning_rate': 4.094420953765832e-08, 'epoch': 0.94} {'loss': 2.4308, 'grad_norm': 2.4348337650299072, 'learning_rate': 4.0865949288227124e-08, 'epoch': 0.94} {'loss': 2.2015, 'grad_norm': 1.5471066236495972, 'learning_rate': 4.0787763286853076e-08, 'epoch': 0.94} {'loss': 2.2034, 'grad_norm': 1.877516746520996, 'learning_rate': 4.070965153589734e-08, 'epoch': 0.94} {'loss': 2.096, 'grad_norm': 1.6790871620178223, 'learning_rate': 4.063161403771776e-08, 'epoch': 0.94} {'loss': 1.8417, 'grad_norm': 1.4403440952301025, 'learning_rate': 4.0553650794670775e-08, 'epoch': 0.94} {'loss': 2.1493, 'grad_norm': 7.395209789276123, 'learning_rate': 4.047576180911089e-08, 'epoch': 0.95} {'loss': 2.3786, 'grad_norm': 1.7951909303665161, 'learning_rate': 4.0397947083388734e-08, 'epoch': 0.95} {'loss': 2.1677, 'grad_norm': 1.751722812652588, 'learning_rate': 4.032020661985436e-08, 'epoch': 0.95} {'loss': 2.2921, 'grad_norm': 1.6543776988983154, 'learning_rate': 4.024254042085479e-08, 'epoch': 0.95} {'loss': 1.5037, 'grad_norm': 1.5493073463439941, 'learning_rate': 4.016494848873509e-08, 'epoch': 0.95} {'loss': 2.0759, 'grad_norm': 1.7099744081497192, 'learning_rate': 4.0087430825838103e-08, 'epoch': 0.95} {'loss': 2.2851, 'grad_norm': 1.4571682214736938, 'learning_rate': 4.0009987434503905e-08, 'epoch': 0.95} {'loss': 1.7899, 'grad_norm': 1.4195448160171509, 'learning_rate': 3.993261831707118e-08, 'epoch': 0.95} {'loss': 2.2965, 'grad_norm': 1.625667691230774, 'learning_rate': 3.985532347587556e-08, 'epoch': 0.95} {'loss': 2.279, 'grad_norm': 1.546085238456726, 'learning_rate': 3.977810291325102e-08, 'epoch': 0.95} {'loss': 2.279, 'grad_norm': 1.5777270793914795, 'learning_rate': 3.970095663152901e-08, 'epoch': 0.95} {'loss': 2.1311, 'grad_norm': 1.5834890604019165, 'learning_rate': 3.962388463303851e-08, 'epoch': 0.95} {'loss': 2.1485, 'grad_norm': 1.7433786392211914, 'learning_rate': 3.954688692010683e-08, 'epoch': 0.95} {'loss': 2.3478, 'grad_norm': 1.664886236190796, 'learning_rate': 3.946996349505877e-08, 'epoch': 0.95} {'loss': 2.4601, 'grad_norm': 1.903293251991272, 'learning_rate': 3.939311436021665e-08, 'epoch': 0.95} {'loss': 2.0322, 'grad_norm': 1.6675355434417725, 'learning_rate': 3.931633951790082e-08, 'epoch': 0.95} {'loss': 2.4327, 'grad_norm': 1.6203150749206543, 'learning_rate': 3.9239638970429425e-08, 'epoch': 0.95} {'loss': 2.2483, 'grad_norm': 1.6391230821609497, 'learning_rate': 3.916301272011869e-08, 'epoch': 0.95} {'loss': 2.231, 'grad_norm': 1.8037792444229126, 'learning_rate': 3.908646076928146e-08, 'epoch': 0.95} {'loss': 2.0782, 'grad_norm': 1.6619727611541748, 'learning_rate': 3.900998312022897e-08, 'epoch': 0.95} {'loss': 2.2318, 'grad_norm': 2.0017855167388916, 'learning_rate': 3.893357977527101e-08, 'epoch': 0.95} {'loss': 2.5126, 'grad_norm': 1.70675790309906, 'learning_rate': 3.8857250736713817e-08, 'epoch': 0.95} {'loss': 2.4238, 'grad_norm': 1.4024291038513184, 'learning_rate': 3.878099600686219e-08, 'epoch': 0.95} {'loss': 2.2431, 'grad_norm': 1.6164984703063965, 'learning_rate': 3.8704815588018476e-08, 'epoch': 0.95} {'loss': 2.1135, 'grad_norm': 2.3625710010528564, 'learning_rate': 3.862870948248304e-08, 'epoch': 0.95} {'loss': 1.7306, 'grad_norm': 1.4906065464019775, 'learning_rate': 3.8552677692552945e-08, 'epoch': 0.95} {'loss': 2.2235, 'grad_norm': 1.9185391664505005, 'learning_rate': 3.8476720220524675e-08, 'epoch': 0.95} {'loss': 2.3072, 'grad_norm': 1.534508228302002, 'learning_rate': 3.840083706869141e-08, 'epoch': 0.95} {'loss': 2.3318, 'grad_norm': 1.8048219680786133, 'learning_rate': 3.832502823934353e-08, 'epoch': 0.95} {'loss': 2.192, 'grad_norm': 1.672446846961975, 'learning_rate': 3.824929373477088e-08, 'epoch': 0.95} {'loss': 2.3867, 'grad_norm': 1.9279286861419678, 'learning_rate': 3.817363355725967e-08, 'epoch': 0.95} {'loss': 2.1963, 'grad_norm': 2.115795850753784, 'learning_rate': 3.80980477090942e-08, 'epoch': 0.95} {'loss': 1.9459, 'grad_norm': 1.888505220413208, 'learning_rate': 3.80225361925568e-08, 'epoch': 0.95} {'loss': 2.2591, 'grad_norm': 1.8760672807693481, 'learning_rate': 3.7947099009927045e-08, 'epoch': 0.95} {'loss': 2.2501, 'grad_norm': 1.7328985929489136, 'learning_rate': 3.787173616348311e-08, 'epoch': 0.95} {'loss': 2.356, 'grad_norm': 1.641249179840088, 'learning_rate': 3.7796447655500114e-08, 'epoch': 0.95} {'loss': 2.135, 'grad_norm': 1.6726016998291016, 'learning_rate': 3.772123348825124e-08, 'epoch': 0.95} {'loss': 2.2622, 'grad_norm': 1.8301482200622559, 'learning_rate': 3.7646093664007456e-08, 'epoch': 0.95} {'loss': 2.1252, 'grad_norm': 1.7100956439971924, 'learning_rate': 3.757102818503749e-08, 'epoch': 0.95} {'loss': 2.4782, 'grad_norm': 1.7225916385650635, 'learning_rate': 3.7496037053607606e-08, 'epoch': 0.95} {'loss': 2.2446, 'grad_norm': 1.7018051147460938, 'learning_rate': 3.74211202719818e-08, 'epoch': 0.95} {'loss': 2.1647, 'grad_norm': 2.169429063796997, 'learning_rate': 3.734627784242273e-08, 'epoch': 0.95} {'loss': 2.2655, 'grad_norm': 1.6944247484207153, 'learning_rate': 3.727150976718941e-08, 'epoch': 0.95} {'loss': 2.5435, 'grad_norm': 1.8996245861053467, 'learning_rate': 3.7196816048539474e-08, 'epoch': 0.95} {'loss': 2.3097, 'grad_norm': 1.7492977380752563, 'learning_rate': 3.7122196688728904e-08, 'epoch': 0.95} {'loss': 2.2708, 'grad_norm': 2.5123817920684814, 'learning_rate': 3.704765169000923e-08, 'epoch': 0.95} {'loss': 2.1394, 'grad_norm': 1.2705092430114746, 'learning_rate': 3.6973181054632266e-08, 'epoch': 0.95} {'loss': 2.3402, 'grad_norm': 1.5310970544815063, 'learning_rate': 3.689878478484593e-08, 'epoch': 0.95} {'loss': 1.8505, 'grad_norm': 1.3845717906951904, 'learning_rate': 3.682446288289648e-08, 'epoch': 0.95} {'loss': 2.0588, 'grad_norm': 2.099372148513794, 'learning_rate': 3.675021535102852e-08, 'epoch': 0.95} {'loss': 2.4685, 'grad_norm': 1.6014288663864136, 'learning_rate': 3.667604219148302e-08, 'epoch': 0.95} {'loss': 2.2755, 'grad_norm': 1.6030174493789673, 'learning_rate': 3.660194340650014e-08, 'epoch': 0.95} {'loss': 2.3334, 'grad_norm': 1.724605679512024, 'learning_rate': 3.652791899831643e-08, 'epoch': 0.95} {'loss': 2.1535, 'grad_norm': 1.7158657312393188, 'learning_rate': 3.645396896916759e-08, 'epoch': 0.95} {'loss': 2.0592, 'grad_norm': 1.592390537261963, 'learning_rate': 3.6380093321285723e-08, 'epoch': 0.95} {'loss': 2.3717, 'grad_norm': 1.7125641107559204, 'learning_rate': 3.6306292056901835e-08, 'epoch': 0.95} {'loss': 2.0791, 'grad_norm': 1.756790280342102, 'learning_rate': 3.6232565178243864e-08, 'epoch': 0.95} {'loss': 2.0107, 'grad_norm': 1.7387526035308838, 'learning_rate': 3.615891268753807e-08, 'epoch': 0.95} {'loss': 2.0521, 'grad_norm': 1.4496080875396729, 'learning_rate': 3.608533458700797e-08, 'epoch': 0.95} {'loss': 2.2016, 'grad_norm': 1.6935358047485352, 'learning_rate': 3.601183087887539e-08, 'epoch': 0.95} {'loss': 2.3697, 'grad_norm': 1.4993853569030762, 'learning_rate': 3.593840156535938e-08, 'epoch': 0.95} {'loss': 2.2389, 'grad_norm': 1.9228909015655518, 'learning_rate': 3.586504664867707e-08, 'epoch': 0.95} {'loss': 2.3187, 'grad_norm': 1.8473141193389893, 'learning_rate': 3.579176613104335e-08, 'epoch': 0.95} {'loss': 2.2712, 'grad_norm': 3.561687469482422, 'learning_rate': 3.571856001467061e-08, 'epoch': 0.95} {'loss': 2.2939, 'grad_norm': 1.5539815425872803, 'learning_rate': 3.5645428301769037e-08, 'epoch': 0.95} {'loss': 2.1817, 'grad_norm': 1.898414969444275, 'learning_rate': 3.557237099454686e-08, 'epoch': 0.95} {'loss': 2.3395, 'grad_norm': 1.7850537300109863, 'learning_rate': 3.549938809521009e-08, 'epoch': 0.95} {'loss': 2.1423, 'grad_norm': 2.1436545848846436, 'learning_rate': 3.5426479605961686e-08, 'epoch': 0.95} {'loss': 2.0309, 'grad_norm': 1.7194575071334839, 'learning_rate': 3.53536455290035e-08, 'epoch': 0.95} {'loss': 2.239, 'grad_norm': 1.4780142307281494, 'learning_rate': 3.528088586653433e-08, 'epoch': 0.95} {'loss': 2.1274, 'grad_norm': 1.6545188426971436, 'learning_rate': 3.520820062075131e-08, 'epoch': 0.95} {'loss': 2.1835, 'grad_norm': 1.6272398233413696, 'learning_rate': 3.513558979384851e-08, 'epoch': 0.95} {'loss': 2.2973, 'grad_norm': 1.3673232793807983, 'learning_rate': 3.5063053388018357e-08, 'epoch': 0.95} {'loss': 2.3674, 'grad_norm': 1.6914782524108887, 'learning_rate': 3.499059140545158e-08, 'epoch': 0.95} {'loss': 2.4925, 'grad_norm': 1.7566906213760376, 'learning_rate': 3.491820384833505e-08, 'epoch': 0.95} {'loss': 2.2498, 'grad_norm': 1.3130548000335693, 'learning_rate': 3.484589071885508e-08, 'epoch': 0.95} {'loss': 2.0308, 'grad_norm': 1.5913609266281128, 'learning_rate': 3.477365201919436e-08, 'epoch': 0.95} {'loss': 2.118, 'grad_norm': 1.6607810258865356, 'learning_rate': 3.4701487751534476e-08, 'epoch': 0.95} {'loss': 2.3095, 'grad_norm': 1.4603294134140015, 'learning_rate': 3.4629397918054254e-08, 'epoch': 0.95} {'loss': 2.1952, 'grad_norm': 1.6341379880905151, 'learning_rate': 3.455738252092999e-08, 'epoch': 0.95} {'loss': 1.9927, 'grad_norm': 1.7577300071716309, 'learning_rate': 3.448544156233663e-08, 'epoch': 0.95} {'loss': 2.2373, 'grad_norm': 1.382332682609558, 'learning_rate': 3.441357504444548e-08, 'epoch': 0.95} {'loss': 2.4696, 'grad_norm': 1.6337707042694092, 'learning_rate': 3.4341782969426754e-08, 'epoch': 0.95} {'loss': 2.4319, 'grad_norm': 1.6310808658599854, 'learning_rate': 3.4270065339448155e-08, 'epoch': 0.95} {'loss': 2.5676, 'grad_norm': 1.632493257522583, 'learning_rate': 3.419842215667463e-08, 'epoch': 0.95} {'loss': 2.6605, 'grad_norm': 1.7604559659957886, 'learning_rate': 3.412685342326999e-08, 'epoch': 0.95} {'loss': 2.186, 'grad_norm': 1.9232628345489502, 'learning_rate': 3.4055359141394464e-08, 'epoch': 0.95} {'loss': 1.3572, 'grad_norm': 1.7246736288070679, 'learning_rate': 3.398393931320687e-08, 'epoch': 0.95} {'loss': 2.3085, 'grad_norm': 1.7888951301574707, 'learning_rate': 3.391259394086382e-08, 'epoch': 0.95} {'loss': 2.081, 'grad_norm': 1.395844578742981, 'learning_rate': 3.384132302651888e-08, 'epoch': 0.95} {'loss': 2.032, 'grad_norm': 1.7386380434036255, 'learning_rate': 3.377012657232448e-08, 'epoch': 0.95} {'loss': 2.2356, 'grad_norm': 1.4918757677078247, 'learning_rate': 3.369900458042974e-08, 'epoch': 0.95} {'loss': 2.0585, 'grad_norm': 1.476658582687378, 'learning_rate': 3.3627957052982385e-08, 'epoch': 0.95} {'loss': 2.294, 'grad_norm': 3.2625365257263184, 'learning_rate': 3.355698399212737e-08, 'epoch': 0.95} {'loss': 2.354, 'grad_norm': 1.6881569623947144, 'learning_rate': 3.348608540000769e-08, 'epoch': 0.95} {'loss': 2.2867, 'grad_norm': 1.5951368808746338, 'learning_rate': 3.3415261278763876e-08, 'epoch': 0.95} {'loss': 2.5068, 'grad_norm': 1.6106021404266357, 'learning_rate': 3.33445116305342e-08, 'epoch': 0.95} {'loss': 2.183, 'grad_norm': 1.783237338066101, 'learning_rate': 3.32738364574553e-08, 'epoch': 0.95} {'loss': 2.4194, 'grad_norm': 1.6653709411621094, 'learning_rate': 3.320323576166046e-08, 'epoch': 0.95} {'loss': 2.2127, 'grad_norm': 1.4210290908813477, 'learning_rate': 3.313270954528158e-08, 'epoch': 0.95} {'loss': 2.1834, 'grad_norm': 1.5291088819503784, 'learning_rate': 3.306225781044781e-08, 'epoch': 0.95} {'loss': 2.0481, 'grad_norm': 1.5080410242080688, 'learning_rate': 3.2991880559286594e-08, 'epoch': 0.95} {'loss': 2.3526, 'grad_norm': 1.3798497915267944, 'learning_rate': 3.2921577793922634e-08, 'epoch': 0.95} {'loss': 2.1215, 'grad_norm': 1.7774722576141357, 'learning_rate': 3.285134951647867e-08, 'epoch': 0.95} {'loss': 2.2072, 'grad_norm': 1.7624958753585815, 'learning_rate': 3.2781195729074954e-08, 'epoch': 0.95} {'loss': 2.3142, 'grad_norm': 1.8550547361373901, 'learning_rate': 3.271111643382979e-08, 'epoch': 0.95} {'loss': 2.2014, 'grad_norm': 2.0590920448303223, 'learning_rate': 3.264111163285899e-08, 'epoch': 0.95} {'loss': 2.5624, 'grad_norm': 1.8576196432113647, 'learning_rate': 3.257118132827614e-08, 'epoch': 0.95} {'loss': 2.1126, 'grad_norm': 1.494179368019104, 'learning_rate': 3.25013255221926e-08, 'epoch': 0.95} {'loss': 2.2941, 'grad_norm': 1.85036039352417, 'learning_rate': 3.243154421671779e-08, 'epoch': 0.95} {'loss': 2.4078, 'grad_norm': 1.823843240737915, 'learning_rate': 3.23618374139581e-08, 'epoch': 0.95} {'loss': 1.8706, 'grad_norm': 1.6436012983322144, 'learning_rate': 3.229220511601849e-08, 'epoch': 0.95} {'loss': 2.1927, 'grad_norm': 1.9594144821166992, 'learning_rate': 3.2222647325001466e-08, 'epoch': 0.95} {'loss': 2.2183, 'grad_norm': 1.6366913318634033, 'learning_rate': 3.2153164043007e-08, 'epoch': 0.95} {'loss': 2.2598, 'grad_norm': 1.7119742631912231, 'learning_rate': 3.208375527213287e-08, 'epoch': 0.95} {'loss': 2.0594, 'grad_norm': 1.8442610502243042, 'learning_rate': 3.201442101447516e-08, 'epoch': 0.95} {'loss': 2.3211, 'grad_norm': 1.7229299545288086, 'learning_rate': 3.194516127212666e-08, 'epoch': 0.95} {'loss': 2.0754, 'grad_norm': 1.3105298280715942, 'learning_rate': 3.187597604717901e-08, 'epoch': 0.95} {'loss': 2.3592, 'grad_norm': 1.8259609937667847, 'learning_rate': 3.180686534172084e-08, 'epoch': 0.95} {'loss': 2.4664, 'grad_norm': 1.6398800611495972, 'learning_rate': 3.17378291578388e-08, 'epoch': 0.95} {'loss': 2.18, 'grad_norm': 1.488273024559021, 'learning_rate': 3.166886749761733e-08, 'epoch': 0.95} {'loss': 2.1589, 'grad_norm': 1.5169745683670044, 'learning_rate': 3.159998036313866e-08, 'epoch': 0.95} {'loss': 2.2626, 'grad_norm': 1.703871488571167, 'learning_rate': 3.1531167756482514e-08, 'epoch': 0.95} {'loss': 1.9625, 'grad_norm': 2.041689395904541, 'learning_rate': 3.146242967972668e-08, 'epoch': 0.95} {'loss': 2.2433, 'grad_norm': 1.8609063625335693, 'learning_rate': 3.139376613494671e-08, 'epoch': 0.95} {'loss': 2.1614, 'grad_norm': 2.021469831466675, 'learning_rate': 3.13251771242154e-08, 'epoch': 0.95} {'loss': 2.143, 'grad_norm': 3.070955276489258, 'learning_rate': 3.125666264960359e-08, 'epoch': 0.95} {'loss': 2.1328, 'grad_norm': 1.5040847063064575, 'learning_rate': 3.118822271318045e-08, 'epoch': 0.95} {'loss': 2.3337, 'grad_norm': 1.4361577033996582, 'learning_rate': 3.1119857317011835e-08, 'epoch': 0.95} {'loss': 2.138, 'grad_norm': 1.480057954788208, 'learning_rate': 3.105156646316193e-08, 'epoch': 0.95} {'loss': 2.3689, 'grad_norm': 1.534948468208313, 'learning_rate': 3.098335015369297e-08, 'epoch': 0.95} {'loss': 2.2334, 'grad_norm': 1.8172035217285156, 'learning_rate': 3.091520839066442e-08, 'epoch': 0.95} {'loss': 2.1963, 'grad_norm': 2.4600961208343506, 'learning_rate': 3.084714117613352e-08, 'epoch': 0.95} {'loss': 2.3288, 'grad_norm': 1.835564374923706, 'learning_rate': 3.077914851215585e-08, 'epoch': 0.95} {'loss': 2.1135, 'grad_norm': 1.683838963508606, 'learning_rate': 3.071123040078367e-08, 'epoch': 0.95} {'loss': 2.2206, 'grad_norm': 1.6726486682891846, 'learning_rate': 3.064338684406809e-08, 'epoch': 0.95} {'loss': 2.0949, 'grad_norm': 1.4829813241958618, 'learning_rate': 3.057561784405722e-08, 'epoch': 0.95} {'loss': 2.3465, 'grad_norm': 1.8516216278076172, 'learning_rate': 3.050792340279718e-08, 'epoch': 0.95} {'loss': 2.2685, 'grad_norm': 1.6789616346359253, 'learning_rate': 3.0440303522332185e-08, 'epoch': 0.95} {'loss': 1.4677, 'grad_norm': 1.6889915466308594, 'learning_rate': 3.037275820470364e-08, 'epoch': 0.95} {'loss': 2.2105, 'grad_norm': 1.6575042009353638, 'learning_rate': 3.030528745195077e-08, 'epoch': 0.95} {'loss': 2.2281, 'grad_norm': 1.7392964363098145, 'learning_rate': 3.023789126611137e-08, 'epoch': 0.95} {'loss': 2.2621, 'grad_norm': 1.6208863258361816, 'learning_rate': 3.0170569649219385e-08, 'epoch': 0.95} {'loss': 2.0557, 'grad_norm': 1.9783514738082886, 'learning_rate': 3.01033226033079e-08, 'epoch': 0.95} {'loss': 2.3518, 'grad_norm': 1.7830402851104736, 'learning_rate': 3.0036150130407505e-08, 'epoch': 0.95} {'loss': 2.2643, 'grad_norm': 1.7189797163009644, 'learning_rate': 2.996905223254576e-08, 'epoch': 0.95} {'loss': 2.1054, 'grad_norm': 1.8742396831512451, 'learning_rate': 2.990202891174909e-08, 'epoch': 0.95} {'loss': 2.4018, 'grad_norm': 1.7651034593582153, 'learning_rate': 2.9835080170040886e-08, 'epoch': 0.95} {'loss': 2.2724, 'grad_norm': 1.8176321983337402, 'learning_rate': 2.976820600944258e-08, 'epoch': 0.95} {'loss': 2.3321, 'grad_norm': 1.7962820529937744, 'learning_rate': 2.970140643197311e-08, 'epoch': 0.95} {'loss': 2.1278, 'grad_norm': 1.7787491083145142, 'learning_rate': 2.963468143964948e-08, 'epoch': 0.95} {'loss': 2.1353, 'grad_norm': 1.5217666625976562, 'learning_rate': 2.9568031034486467e-08, 'epoch': 0.95} {'loss': 2.1064, 'grad_norm': 1.2994959354400635, 'learning_rate': 2.950145521849579e-08, 'epoch': 0.95} {'loss': 2.0636, 'grad_norm': 1.4254878759384155, 'learning_rate': 2.943495399368834e-08, 'epoch': 0.95} {'loss': 1.9371, 'grad_norm': 5.753810882568359, 'learning_rate': 2.9368527362071686e-08, 'epoch': 0.95} {'loss': 2.1958, 'grad_norm': 1.7623578310012817, 'learning_rate': 2.930217532565116e-08, 'epoch': 0.95} {'loss': 2.3981, 'grad_norm': 1.8429392576217651, 'learning_rate': 2.9235897886430443e-08, 'epoch': 0.95} {'loss': 2.2404, 'grad_norm': 1.7146615982055664, 'learning_rate': 2.916969504641043e-08, 'epoch': 0.95} {'loss': 2.1116, 'grad_norm': 1.5194568634033203, 'learning_rate': 2.9103566807590356e-08, 'epoch': 0.95} {'loss': 2.4012, 'grad_norm': 1.7098475694656372, 'learning_rate': 2.9037513171966404e-08, 'epoch': 0.95} {'loss': 2.5073, 'grad_norm': 1.942186713218689, 'learning_rate': 2.897153414153281e-08, 'epoch': 0.95} {'loss': 2.3472, 'grad_norm': 1.6934101581573486, 'learning_rate': 2.8905629718282426e-08, 'epoch': 0.95} {'loss': 2.2066, 'grad_norm': 6.992137908935547, 'learning_rate': 2.8839799904203937e-08, 'epoch': 0.95} {'loss': 2.2019, 'grad_norm': 1.631890892982483, 'learning_rate': 2.877404470128603e-08, 'epoch': 0.95} {'loss': 2.4681, 'grad_norm': 1.7871425151824951, 'learning_rate': 2.8708364111513232e-08, 'epoch': 0.95} {'loss': 2.4164, 'grad_norm': 1.2913446426391602, 'learning_rate': 2.864275813686923e-08, 'epoch': 0.95} {'loss': 2.3871, 'grad_norm': 1.7475876808166504, 'learning_rate': 2.857722677933439e-08, 'epoch': 0.95} {'loss': 1.7498, 'grad_norm': 1.492322564125061, 'learning_rate': 2.85117700408874e-08, 'epoch': 0.95} {'loss': 2.3802, 'grad_norm': 1.6574952602386475, 'learning_rate': 2.8446387923504736e-08, 'epoch': 0.95} {'loss': 2.3767, 'grad_norm': 1.9226443767547607, 'learning_rate': 2.838108042916038e-08, 'epoch': 0.95} {'loss': 2.3345, 'grad_norm': 1.688840389251709, 'learning_rate': 2.831584755982636e-08, 'epoch': 0.95} {'loss': 1.9225, 'grad_norm': 1.764195442199707, 'learning_rate': 2.8250689317471657e-08, 'epoch': 0.95} {'loss': 2.1665, 'grad_norm': 1.9101579189300537, 'learning_rate': 2.818560570406387e-08, 'epoch': 0.95} {'loss': 2.1811, 'grad_norm': 1.8336349725723267, 'learning_rate': 2.812059672156836e-08, 'epoch': 0.95} {'loss': 2.3466, 'grad_norm': 1.5898003578186035, 'learning_rate': 2.8055662371947455e-08, 'epoch': 0.95} {'loss': 1.9796, 'grad_norm': 1.3928142786026, 'learning_rate': 2.7990802657162087e-08, 'epoch': 0.95} {'loss': 2.0671, 'grad_norm': 1.4992384910583496, 'learning_rate': 2.7926017579170405e-08, 'epoch': 0.95} {'loss': 2.2442, 'grad_norm': 1.6877397298812866, 'learning_rate': 2.7861307139928628e-08, 'epoch': 0.95} {'loss': 2.4253, 'grad_norm': 1.9015804529190063, 'learning_rate': 2.7796671341390192e-08, 'epoch': 0.95} {'loss': 2.5847, 'grad_norm': 1.5881019830703735, 'learning_rate': 2.773211018550659e-08, 'epoch': 0.95} {'loss': 2.3383, 'grad_norm': 1.8238521814346313, 'learning_rate': 2.766762367422765e-08, 'epoch': 0.95} {'loss': 2.3055, 'grad_norm': 1.7677463293075562, 'learning_rate': 2.7603211809499875e-08, 'epoch': 0.95} {'loss': 2.0556, 'grad_norm': 1.3452129364013672, 'learning_rate': 2.7538874593268095e-08, 'epoch': 0.95} {'loss': 2.3827, 'grad_norm': 3.225322961807251, 'learning_rate': 2.747461202747492e-08, 'epoch': 0.95} {'loss': 2.4693, 'grad_norm': 2.0358939170837402, 'learning_rate': 2.7410424114060753e-08, 'epoch': 0.95} {'loss': 2.0235, 'grad_norm': 1.999631404876709, 'learning_rate': 2.7346310854963755e-08, 'epoch': 0.95} {'loss': 2.1861, 'grad_norm': 2.0494775772094727, 'learning_rate': 2.7282272252119323e-08, 'epoch': 0.95} {'loss': 2.3172, 'grad_norm': 1.8523164987564087, 'learning_rate': 2.7218308307460918e-08, 'epoch': 0.96} {'loss': 2.0934, 'grad_norm': 1.623648762702942, 'learning_rate': 2.7154419022919766e-08, 'epoch': 0.96} {'loss': 2.4429, 'grad_norm': 1.5435895919799805, 'learning_rate': 2.7090604400425158e-08, 'epoch': 0.96} {'loss': 2.2891, 'grad_norm': 1.4788495302200317, 'learning_rate': 2.702686444190389e-08, 'epoch': 0.96} {'loss': 2.1653, 'grad_norm': 1.701802134513855, 'learning_rate': 2.6963199149279973e-08, 'epoch': 0.96} {'loss': 2.4099, 'grad_norm': 1.4865328073501587, 'learning_rate': 2.6899608524476316e-08, 'epoch': 0.96} {'loss': 2.3251, 'grad_norm': 1.8537750244140625, 'learning_rate': 2.683609256941222e-08, 'epoch': 0.96} {'loss': 2.2247, 'grad_norm': 1.6054331064224243, 'learning_rate': 2.677265128600559e-08, 'epoch': 0.96} {'loss': 2.2845, 'grad_norm': 1.5124046802520752, 'learning_rate': 2.6709284676172398e-08, 'epoch': 0.96} {'loss': 2.3441, 'grad_norm': 1.581500768661499, 'learning_rate': 2.6645992741825e-08, 'epoch': 0.96} {'loss': 2.5262, 'grad_norm': 1.5006932020187378, 'learning_rate': 2.65827754848752e-08, 'epoch': 0.96} {'loss': 2.183, 'grad_norm': 2.536541223526001, 'learning_rate': 2.6519632907230917e-08, 'epoch': 0.96} {'loss': 2.3598, 'grad_norm': 1.5778900384902954, 'learning_rate': 2.645656501079924e-08, 'epoch': 0.96} {'loss': 2.1265, 'grad_norm': 1.542126178741455, 'learning_rate': 2.639357179748392e-08, 'epoch': 0.96} {'loss': 2.2068, 'grad_norm': 1.6252474784851074, 'learning_rate': 2.6330653269187323e-08, 'epoch': 0.96} {'loss': 2.1697, 'grad_norm': 1.6537636518478394, 'learning_rate': 2.6267809427808766e-08, 'epoch': 0.96} {'loss': 2.4143, 'grad_norm': 1.7560882568359375, 'learning_rate': 2.6205040275245896e-08, 'epoch': 0.96} {'loss': 2.0916, 'grad_norm': 1.7461190223693848, 'learning_rate': 2.6142345813393865e-08, 'epoch': 0.96} {'loss': 2.6219, 'grad_norm': 1.7203032970428467, 'learning_rate': 2.6079726044145327e-08, 'epoch': 0.96} {'loss': 2.0856, 'grad_norm': 2.364102840423584, 'learning_rate': 2.6017180969391265e-08, 'epoch': 0.96} {'loss': 2.3413, 'grad_norm': 1.8886469602584839, 'learning_rate': 2.5954710591019893e-08, 'epoch': 0.96} {'loss': 1.8204, 'grad_norm': 1.5447381734848022, 'learning_rate': 2.589231491091748e-08, 'epoch': 0.96} {'loss': 1.912, 'grad_norm': 1.3411157131195068, 'learning_rate': 2.5829993930968077e-08, 'epoch': 0.96} {'loss': 2.2448, 'grad_norm': 1.823316216468811, 'learning_rate': 2.5767747653052954e-08, 'epoch': 0.96} {'loss': 2.382, 'grad_norm': 1.5154566764831543, 'learning_rate': 2.5705576079051718e-08, 'epoch': 0.96} {'loss': 2.0675, 'grad_norm': 1.5443568229675293, 'learning_rate': 2.564347921084176e-08, 'epoch': 0.96} {'loss': 2.4083, 'grad_norm': 1.7797147035598755, 'learning_rate': 2.558145705029713e-08, 'epoch': 0.96} {'loss': 2.2131, 'grad_norm': 1.675678014755249, 'learning_rate': 2.5519509599291337e-08, 'epoch': 0.96} {'loss': 2.3786, 'grad_norm': 1.8297929763793945, 'learning_rate': 2.545763685969427e-08, 'epoch': 0.96} {'loss': 2.0731, 'grad_norm': 1.7432810068130493, 'learning_rate': 2.5395838833374153e-08, 'epoch': 0.96} {'loss': 2.2893, 'grad_norm': 1.7896031141281128, 'learning_rate': 2.5334115522197e-08, 'epoch': 0.96} {'loss': 1.8399, 'grad_norm': 1.504904866218567, 'learning_rate': 2.5272466928026042e-08, 'epoch': 0.96} {'loss': 2.4257, 'grad_norm': 1.6692144870758057, 'learning_rate': 2.521089305272284e-08, 'epoch': 0.96} {'loss': 2.4203, 'grad_norm': 1.9543267488479614, 'learning_rate': 2.5149393898146467e-08, 'epoch': 0.96} {'loss': 2.3611, 'grad_norm': 1.744056224822998, 'learning_rate': 2.508796946615405e-08, 'epoch': 0.96} {'loss': 2.1243, 'grad_norm': 1.9064395427703857, 'learning_rate': 2.5026619758599658e-08, 'epoch': 0.96} {'loss': 2.1726, 'grad_norm': 1.5848761796951294, 'learning_rate': 2.4965344777335698e-08, 'epoch': 0.96} {'loss': 2.4138, 'grad_norm': 1.6224931478500366, 'learning_rate': 2.4904144524212636e-08, 'epoch': 0.96} {'loss': 2.0977, 'grad_norm': 1.5741287469863892, 'learning_rate': 2.4843019001077885e-08, 'epoch': 0.96} {'loss': 2.3928, 'grad_norm': 1.6921195983886719, 'learning_rate': 2.4781968209776907e-08, 'epoch': 0.96} {'loss': 2.45, 'grad_norm': 1.4583284854888916, 'learning_rate': 2.4720992152153512e-08, 'epoch': 0.96} {'loss': 2.3388, 'grad_norm': 1.7401795387268066, 'learning_rate': 2.4660090830048166e-08, 'epoch': 0.96} {'loss': 2.5232, 'grad_norm': 1.883891224861145, 'learning_rate': 2.459926424529996e-08, 'epoch': 0.96} {'loss': 2.4195, 'grad_norm': 1.677066445350647, 'learning_rate': 2.4538512399745472e-08, 'epoch': 0.96} {'loss': 2.2229, 'grad_norm': 1.7568267583847046, 'learning_rate': 2.4477835295218798e-08, 'epoch': 0.96} {'loss': 2.0682, 'grad_norm': 1.5405129194259644, 'learning_rate': 2.4417232933551805e-08, 'epoch': 0.96} {'loss': 2.3414, 'grad_norm': 2.069995880126953, 'learning_rate': 2.4356705316574414e-08, 'epoch': 0.96} {'loss': 2.5127, 'grad_norm': 1.7323516607284546, 'learning_rate': 2.429625244611461e-08, 'epoch': 0.96} {'loss': 2.3608, 'grad_norm': 1.7484164237976074, 'learning_rate': 2.4235874323996765e-08, 'epoch': 0.96} {'loss': 2.5043, 'grad_norm': 1.7792093753814697, 'learning_rate': 2.4175570952044425e-08, 'epoch': 0.96} {'loss': 2.1536, 'grad_norm': 1.6329203844070435, 'learning_rate': 2.4115342332078074e-08, 'epoch': 0.96} {'loss': 2.2758, 'grad_norm': 2.1200006008148193, 'learning_rate': 2.4055188465916256e-08, 'epoch': 0.96} {'loss': 2.1801, 'grad_norm': 1.4011279344558716, 'learning_rate': 2.3995109355375303e-08, 'epoch': 0.96} {'loss': 2.1929, 'grad_norm': 2.378074884414673, 'learning_rate': 2.3935105002269032e-08, 'epoch': 0.96} {'loss': 1.9621, 'grad_norm': 2.4765424728393555, 'learning_rate': 2.387517540840906e-08, 'epoch': 0.96} {'loss': 2.2066, 'grad_norm': 1.975827932357788, 'learning_rate': 2.381532057560504e-08, 'epoch': 0.96} {'loss': 2.3712, 'grad_norm': 1.7963001728057861, 'learning_rate': 2.3755540505663866e-08, 'epoch': 0.96} {'loss': 2.2288, 'grad_norm': 1.7108172178268433, 'learning_rate': 2.369583520039076e-08, 'epoch': 0.96} {'loss': 2.241, 'grad_norm': 1.2766337394714355, 'learning_rate': 2.3636204661588447e-08, 'epoch': 0.96} {'loss': 2.3166, 'grad_norm': 1.626097559928894, 'learning_rate': 2.3576648891056876e-08, 'epoch': 0.96} {'loss': 2.2881, 'grad_norm': 1.742470383644104, 'learning_rate': 2.3517167890594606e-08, 'epoch': 0.96} {'loss': 2.1532, 'grad_norm': 1.5822182893753052, 'learning_rate': 2.3457761661997704e-08, 'epoch': 0.96} {'loss': 2.2741, 'grad_norm': 1.7735601663589478, 'learning_rate': 2.3398430207059176e-08, 'epoch': 0.96} {'loss': 2.0968, 'grad_norm': 1.4678410291671753, 'learning_rate': 2.3339173527570647e-08, 'epoch': 0.96} {'loss': 2.2122, 'grad_norm': 1.4672164916992188, 'learning_rate': 2.327999162532152e-08, 'epoch': 0.96} {'loss': 2.2805, 'grad_norm': 1.8232665061950684, 'learning_rate': 2.3220884502098416e-08, 'epoch': 0.96} {'loss': 2.2915, 'grad_norm': 1.438637137413025, 'learning_rate': 2.3161852159686306e-08, 'epoch': 0.96} {'loss': 2.2262, 'grad_norm': 1.8826708793640137, 'learning_rate': 2.310289459986681e-08, 'epoch': 0.96} {'loss': 1.8885, 'grad_norm': 1.4072136878967285, 'learning_rate': 2.3044011824420732e-08, 'epoch': 0.96} {'loss': 2.1919, 'grad_norm': 1.566510558128357, 'learning_rate': 2.2985203835125536e-08, 'epoch': 0.96} {'loss': 2.095, 'grad_norm': 1.739700436592102, 'learning_rate': 2.292647063375675e-08, 'epoch': 0.96} {'loss': 2.0893, 'grad_norm': 1.7569621801376343, 'learning_rate': 2.2867812222088227e-08, 'epoch': 0.96} {'loss': 2.332, 'grad_norm': 1.4026036262512207, 'learning_rate': 2.280922860189022e-08, 'epoch': 0.96} {'loss': 2.1754, 'grad_norm': 1.4874528646469116, 'learning_rate': 2.2750719774932152e-08, 'epoch': 0.96} {'loss': 2.398, 'grad_norm': 1.7922497987747192, 'learning_rate': 2.2692285742980102e-08, 'epoch': 0.96} {'loss': 2.0236, 'grad_norm': 1.8906841278076172, 'learning_rate': 2.2633926507798775e-08, 'epoch': 0.96} {'loss': 2.122, 'grad_norm': 1.6391932964324951, 'learning_rate': 2.2575642071150094e-08, 'epoch': 0.96} {'loss': 2.3942, 'grad_norm': 3.2651925086975098, 'learning_rate': 2.2517432434793762e-08, 'epoch': 0.96} {'loss': 2.3692, 'grad_norm': 1.4614453315734863, 'learning_rate': 2.245929760048726e-08, 'epoch': 0.96} {'loss': 2.3754, 'grad_norm': 1.8242909908294678, 'learning_rate': 2.2401237569985857e-08, 'epoch': 0.96} {'loss': 2.2028, 'grad_norm': 1.5879621505737305, 'learning_rate': 2.2343252345042588e-08, 'epoch': 0.96} {'loss': 2.1248, 'grad_norm': 1.5951536893844604, 'learning_rate': 2.2285341927408e-08, 'epoch': 0.96} {'loss': 1.9493, 'grad_norm': 1.5555235147476196, 'learning_rate': 2.222750631883097e-08, 'epoch': 0.96} {'loss': 2.6079, 'grad_norm': 1.732352375984192, 'learning_rate': 2.2169745521057328e-08, 'epoch': 0.96} {'loss': 2.1789, 'grad_norm': 1.684874415397644, 'learning_rate': 2.2112059535830953e-08, 'epoch': 0.96} {'loss': 1.8348, 'grad_norm': 1.4964255094528198, 'learning_rate': 2.2054448364894065e-08, 'epoch': 0.96} {'loss': 2.5103, 'grad_norm': 1.8371951580047607, 'learning_rate': 2.1996912009985827e-08, 'epoch': 0.96} {'loss': 2.1566, 'grad_norm': 1.5918234586715698, 'learning_rate': 2.193945047284346e-08, 'epoch': 0.96} {'loss': 2.1801, 'grad_norm': 1.5380524396896362, 'learning_rate': 2.188206375520169e-08, 'epoch': 0.96} {'loss': 1.8975, 'grad_norm': 1.4743459224700928, 'learning_rate': 2.182475185879329e-08, 'epoch': 0.96} {'loss': 2.2071, 'grad_norm': 1.5184448957443237, 'learning_rate': 2.1767514785348554e-08, 'epoch': 0.96} {'loss': 2.3518, 'grad_norm': 2.0175673961639404, 'learning_rate': 2.1710352536595812e-08, 'epoch': 0.96} {'loss': 2.2226, 'grad_norm': 2.8479859828948975, 'learning_rate': 2.1653265114260914e-08, 'epoch': 0.96} {'loss': 2.0858, 'grad_norm': 1.881823182106018, 'learning_rate': 2.1596252520067752e-08, 'epoch': 0.96} {'loss': 2.3715, 'grad_norm': 1.4929654598236084, 'learning_rate': 2.153931475573717e-08, 'epoch': 0.96} {'loss': 2.271, 'grad_norm': 1.4304659366607666, 'learning_rate': 2.1482451822988638e-08, 'epoch': 0.96} {'loss': 2.5379, 'grad_norm': 1.7429994344711304, 'learning_rate': 2.1425663723538827e-08, 'epoch': 0.96} {'loss': 2.4, 'grad_norm': 1.7452670335769653, 'learning_rate': 2.1368950459102477e-08, 'epoch': 0.96} {'loss': 2.0444, 'grad_norm': 1.4465504884719849, 'learning_rate': 2.1312312031391835e-08, 'epoch': 0.96} {'loss': 2.3226, 'grad_norm': 1.823087215423584, 'learning_rate': 2.1255748442116643e-08, 'epoch': 0.96} {'loss': 2.2722, 'grad_norm': 1.6292582750320435, 'learning_rate': 2.119925969298553e-08, 'epoch': 0.96} {'loss': 2.1339, 'grad_norm': 2.512949228286743, 'learning_rate': 2.114284578570325e-08, 'epoch': 0.96} {'loss': 2.3027, 'grad_norm': 1.6373918056488037, 'learning_rate': 2.1086506721973433e-08, 'epoch': 0.96} {'loss': 2.3729, 'grad_norm': 1.9754855632781982, 'learning_rate': 2.1030242503496946e-08, 'epoch': 0.96} {'loss': 2.3606, 'grad_norm': 1.8573267459869385, 'learning_rate': 2.097405313197298e-08, 'epoch': 0.96} {'loss': 2.1022, 'grad_norm': 1.7256962060928345, 'learning_rate': 2.091793860909769e-08, 'epoch': 0.96} {'loss': 2.3311, 'grad_norm': 1.5962756872177124, 'learning_rate': 2.0861898936565262e-08, 'epoch': 0.96} {'loss': 2.2653, 'grad_norm': 1.5101535320281982, 'learning_rate': 2.0805934116067962e-08, 'epoch': 0.96} {'loss': 2.3176, 'grad_norm': 1.674227237701416, 'learning_rate': 2.075004414929527e-08, 'epoch': 0.96} {'loss': 2.3429, 'grad_norm': 1.7058976888656616, 'learning_rate': 2.0694229037935e-08, 'epoch': 0.96} {'loss': 1.9518, 'grad_norm': 1.5808961391448975, 'learning_rate': 2.0638488783671917e-08, 'epoch': 0.96} {'loss': 2.4734, 'grad_norm': 1.9971085786819458, 'learning_rate': 2.058282338818912e-08, 'epoch': 0.96} {'loss': 2.0792, 'grad_norm': 2.117591381072998, 'learning_rate': 2.0527232853167766e-08, 'epoch': 0.96} {'loss': 2.1997, 'grad_norm': 1.6315686702728271, 'learning_rate': 2.0471717180285678e-08, 'epoch': 0.96} {'loss': 1.974, 'grad_norm': 1.7050031423568726, 'learning_rate': 2.041627637121929e-08, 'epoch': 0.96} {'loss': 2.2037, 'grad_norm': 1.6975373029708862, 'learning_rate': 2.0360910427642266e-08, 'epoch': 0.96} {'loss': 2.4081, 'grad_norm': 1.6402753591537476, 'learning_rate': 2.0305619351226603e-08, 'epoch': 0.96} {'loss': 2.0914, 'grad_norm': 1.308486819267273, 'learning_rate': 2.0250403143641795e-08, 'epoch': 0.96} {'loss': 2.1244, 'grad_norm': 1.3491668701171875, 'learning_rate': 2.019526180655429e-08, 'epoch': 0.96} {'loss': 2.1311, 'grad_norm': 1.8809236288070679, 'learning_rate': 2.01401953416297e-08, 'epoch': 0.96} {'loss': 2.1794, 'grad_norm': 1.9211024045944214, 'learning_rate': 2.0085203750530023e-08, 'epoch': 0.96} {'loss': 2.3489, 'grad_norm': 1.8038990497589111, 'learning_rate': 2.0030287034916164e-08, 'epoch': 0.96} {'loss': 2.309, 'grad_norm': 1.605187177658081, 'learning_rate': 1.9975445196446232e-08, 'epoch': 0.96} {'loss': 2.224, 'grad_norm': 8.648273468017578, 'learning_rate': 1.9920678236775292e-08, 'epoch': 0.96} {'loss': 2.0764, 'grad_norm': 1.4399148225784302, 'learning_rate': 1.986598615755758e-08, 'epoch': 0.96} {'loss': 2.3273, 'grad_norm': 1.6040174961090088, 'learning_rate': 1.9811368960444276e-08, 'epoch': 0.96} {'loss': 2.2976, 'grad_norm': 1.3365269899368286, 'learning_rate': 1.975682664708434e-08, 'epoch': 0.96} {'loss': 2.2293, 'grad_norm': 1.7672525644302368, 'learning_rate': 1.97023592191245e-08, 'epoch': 0.96} {'loss': 1.9719, 'grad_norm': 1.639390230178833, 'learning_rate': 1.9647966678209286e-08, 'epoch': 0.96} {'loss': 2.1205, 'grad_norm': 2.207216501235962, 'learning_rate': 1.9593649025981264e-08, 'epoch': 0.96} {'loss': 2.0629, 'grad_norm': 1.7975291013717651, 'learning_rate': 1.953940626408024e-08, 'epoch': 0.96} {'loss': 2.0652, 'grad_norm': 1.5396445989608765, 'learning_rate': 1.948523839414379e-08, 'epoch': 0.96} {'loss': 2.4196, 'grad_norm': 1.9219814538955688, 'learning_rate': 1.943114541780755e-08, 'epoch': 0.96} {'loss': 2.2778, 'grad_norm': 1.7346845865249634, 'learning_rate': 1.937712733670466e-08, 'epoch': 0.96} {'loss': 2.2416, 'grad_norm': 1.4120450019836426, 'learning_rate': 1.9323184152466314e-08, 'epoch': 0.96} {'loss': 1.8622, 'grad_norm': 1.3653454780578613, 'learning_rate': 1.926931586672065e-08, 'epoch': 0.96} {'loss': 2.3093, 'grad_norm': 1.8067891597747803, 'learning_rate': 1.9215522481094707e-08, 'epoch': 0.96} {'loss': 2.3059, 'grad_norm': 1.235738754272461, 'learning_rate': 1.9161803997212458e-08, 'epoch': 0.96} {'loss': 2.2488, 'grad_norm': 1.6929466724395752, 'learning_rate': 1.9108160416695664e-08, 'epoch': 0.96} {'loss': 2.2114, 'grad_norm': 1.6598092317581177, 'learning_rate': 1.9054591741164142e-08, 'epoch': 0.96} {'loss': 2.5502, 'grad_norm': 1.5480588674545288, 'learning_rate': 1.9001097972235204e-08, 'epoch': 0.96} {'loss': 2.2911, 'grad_norm': 2.077408790588379, 'learning_rate': 1.8947679111523953e-08, 'epoch': 0.96} {'loss': 2.4047, 'grad_norm': 1.8422571420669556, 'learning_rate': 1.8894335160643264e-08, 'epoch': 0.96} {'loss': 2.2459, 'grad_norm': 1.4395663738250732, 'learning_rate': 1.8841066121203788e-08, 'epoch': 0.96} {'loss': 2.2872, 'grad_norm': 1.8241983652114868, 'learning_rate': 1.8787871994813966e-08, 'epoch': 0.96} {'loss': 2.2337, 'grad_norm': 3.9080190658569336, 'learning_rate': 1.8734752783079457e-08, 'epoch': 0.96} {'loss': 2.2556, 'grad_norm': 1.5838569402694702, 'learning_rate': 1.8681708487604533e-08, 'epoch': 0.96} {'loss': 2.1899, 'grad_norm': 1.8820174932479858, 'learning_rate': 1.862873910999041e-08, 'epoch': 0.96} {'loss': 2.4841, 'grad_norm': 2.2049925327301025, 'learning_rate': 1.8575844651836928e-08, 'epoch': 0.96} {'loss': 2.0232, 'grad_norm': 1.8942947387695312, 'learning_rate': 1.852302511474058e-08, 'epoch': 0.96} {'loss': 2.4776, 'grad_norm': 1.6948628425598145, 'learning_rate': 1.84702805002962e-08, 'epoch': 0.96} {'loss': 2.3779, 'grad_norm': 3.184701919555664, 'learning_rate': 1.841761081009641e-08, 'epoch': 0.96} {'loss': 2.3055, 'grad_norm': 1.7908811569213867, 'learning_rate': 1.8365016045731598e-08, 'epoch': 0.96} {'loss': 2.2327, 'grad_norm': 1.5558756589889526, 'learning_rate': 1.8312496208789388e-08, 'epoch': 0.96} {'loss': 2.3307, 'grad_norm': 1.5533860921859741, 'learning_rate': 1.826005130085573e-08, 'epoch': 0.96} {'loss': 2.2702, 'grad_norm': 1.7326734066009521, 'learning_rate': 1.8207681323513803e-08, 'epoch': 0.96} {'loss': 2.1047, 'grad_norm': 1.9817891120910645, 'learning_rate': 1.81553862783454e-08, 'epoch': 0.96} {'loss': 2.1496, 'grad_norm': 1.8546584844589233, 'learning_rate': 1.8103166166928975e-08, 'epoch': 0.96} {'loss': 2.5049, 'grad_norm': 1.650267481803894, 'learning_rate': 1.8051020990841328e-08, 'epoch': 0.96} {'loss': 2.4049, 'grad_norm': 1.7105859518051147, 'learning_rate': 1.799895075165703e-08, 'epoch': 0.96} {'loss': 2.3044, 'grad_norm': 2.476125955581665, 'learning_rate': 1.79469554509476e-08, 'epoch': 0.96} {'loss': 2.0774, 'grad_norm': 1.7027243375778198, 'learning_rate': 1.789503509028373e-08, 'epoch': 0.96} {'loss': 1.7431, 'grad_norm': 1.3207966089248657, 'learning_rate': 1.7843189671232497e-08, 'epoch': 0.96} {'loss': 2.2136, 'grad_norm': 1.7172881364822388, 'learning_rate': 1.7791419195359594e-08, 'epoch': 0.96} {'loss': 2.0909, 'grad_norm': 1.274707555770874, 'learning_rate': 1.7739723664227937e-08, 'epoch': 0.96} {'loss': 2.1395, 'grad_norm': 1.5885367393493652, 'learning_rate': 1.7688103079398224e-08, 'epoch': 0.96} {'loss': 2.1664, 'grad_norm': 1.8760275840759277, 'learning_rate': 1.763655744242948e-08, 'epoch': 0.96} {'loss': 2.2936, 'grad_norm': 1.5388144254684448, 'learning_rate': 1.7585086754877413e-08, 'epoch': 0.96} {'loss': 1.9536, 'grad_norm': 1.8265278339385986, 'learning_rate': 1.753369101829633e-08, 'epoch': 0.96} {'loss': 2.3326, 'grad_norm': 1.6590116024017334, 'learning_rate': 1.7482370234238322e-08, 'epoch': 0.96} {'loss': 2.3907, 'grad_norm': 1.9646021127700806, 'learning_rate': 1.7431124404252154e-08, 'epoch': 0.96} {'loss': 2.076, 'grad_norm': 1.7236855030059814, 'learning_rate': 1.737995352988603e-08, 'epoch': 0.96} {'loss': 2.4024, 'grad_norm': 1.5851272344589233, 'learning_rate': 1.732885761268427e-08, 'epoch': 0.96} {'loss': 2.0665, 'grad_norm': 1.688209056854248, 'learning_rate': 1.7277836654189805e-08, 'epoch': 0.96} {'loss': 2.274, 'grad_norm': 1.553032398223877, 'learning_rate': 1.7226890655943073e-08, 'epoch': 0.96} {'loss': 2.1492, 'grad_norm': 1.9503920078277588, 'learning_rate': 1.7176019619482288e-08, 'epoch': 0.96} {'loss': 2.2564, 'grad_norm': 1.6588175296783447, 'learning_rate': 1.712522354634344e-08, 'epoch': 0.96} {'loss': 2.286, 'grad_norm': 1.6600441932678223, 'learning_rate': 1.7074502438060025e-08, 'epoch': 0.96} {'loss': 2.1238, 'grad_norm': 1.7048659324645996, 'learning_rate': 1.7023856296163877e-08, 'epoch': 0.96} {'loss': 2.1742, 'grad_norm': 1.28386390209198, 'learning_rate': 1.697328512218349e-08, 'epoch': 0.96} {'loss': 2.3996, 'grad_norm': 2.0117475986480713, 'learning_rate': 1.692278891764626e-08, 'epoch': 0.96} {'loss': 1.9739, 'grad_norm': 1.806004524230957, 'learning_rate': 1.687236768407652e-08, 'epoch': 0.96} {'loss': 2.1623, 'grad_norm': 1.475860595703125, 'learning_rate': 1.6822021422996938e-08, 'epoch': 0.96} {'loss': 2.2175, 'grad_norm': 1.7198926210403442, 'learning_rate': 1.6771750135927413e-08, 'epoch': 0.96} {'loss': 2.1744, 'grad_norm': 1.5605278015136719, 'learning_rate': 1.6721553824385618e-08, 'epoch': 0.96} {'loss': 2.3832, 'grad_norm': 1.7625495195388794, 'learning_rate': 1.6671432489887563e-08, 'epoch': 0.96} {'loss': 2.4795, 'grad_norm': 1.6374776363372803, 'learning_rate': 1.6621386133945927e-08, 'epoch': 0.97} {'loss': 2.0185, 'grad_norm': 1.5550397634506226, 'learning_rate': 1.657141475807228e-08, 'epoch': 0.97} {'loss': 2.1858, 'grad_norm': 1.699829339981079, 'learning_rate': 1.6521518363775136e-08, 'epoch': 0.97} {'loss': 2.3429, 'grad_norm': 1.7177019119262695, 'learning_rate': 1.6471696952561066e-08, 'epoch': 0.97} {'loss': 2.3001, 'grad_norm': 1.6370586156845093, 'learning_rate': 1.6421950525934427e-08, 'epoch': 0.97} {'loss': 2.0944, 'grad_norm': 1.308953881263733, 'learning_rate': 1.637227908539707e-08, 'epoch': 0.97} {'loss': 2.3293, 'grad_norm': 1.7190598249435425, 'learning_rate': 1.6322682632448904e-08, 'epoch': 0.97} {'loss': 2.2646, 'grad_norm': 1.7700271606445312, 'learning_rate': 1.627316116858707e-08, 'epoch': 0.97} {'loss': 2.2452, 'grad_norm': 1.84935462474823, 'learning_rate': 1.622371469530676e-08, 'epoch': 0.97} {'loss': 2.3969, 'grad_norm': 1.6921991109848022, 'learning_rate': 1.617434321410122e-08, 'epoch': 0.97} {'loss': 2.1741, 'grad_norm': 1.4272568225860596, 'learning_rate': 1.6125046726460926e-08, 'epoch': 0.97} {'loss': 2.1422, 'grad_norm': 3.6522111892700195, 'learning_rate': 1.6075825233874408e-08, 'epoch': 0.97} {'loss': 2.3345, 'grad_norm': 1.8537390232086182, 'learning_rate': 1.602667873782743e-08, 'epoch': 0.97} {'loss': 2.0639, 'grad_norm': 1.7860256433486938, 'learning_rate': 1.5977607239804073e-08, 'epoch': 0.97} {'loss': 1.6406, 'grad_norm': 1.5774418115615845, 'learning_rate': 1.592861074128621e-08, 'epoch': 0.97} {'loss': 2.0587, 'grad_norm': 1.9147385358810425, 'learning_rate': 1.587968924375294e-08, 'epoch': 0.97} {'loss': 1.7885, 'grad_norm': 1.4240301847457886, 'learning_rate': 1.5830842748681408e-08, 'epoch': 0.97} {'loss': 2.2535, 'grad_norm': 1.787169098854065, 'learning_rate': 1.5782071257546272e-08, 'epoch': 0.97} {'loss': 2.1926, 'grad_norm': 1.7116684913635254, 'learning_rate': 1.5733374771819965e-08, 'epoch': 0.97} {'loss': 2.1426, 'grad_norm': 1.9851940870285034, 'learning_rate': 1.5684753292973253e-08, 'epoch': 0.97} {'loss': 2.3525, 'grad_norm': 1.6873753070831299, 'learning_rate': 1.5636206822473854e-08, 'epoch': 0.97} {'loss': 2.0686, 'grad_norm': 2.218038320541382, 'learning_rate': 1.5587735361787537e-08, 'epoch': 0.97} {'loss': 2.2175, 'grad_norm': 3.5589544773101807, 'learning_rate': 1.5539338912377578e-08, 'epoch': 0.97} {'loss': 2.1729, 'grad_norm': 1.7897039651870728, 'learning_rate': 1.549101747570586e-08, 'epoch': 0.97} {'loss': 2.4478, 'grad_norm': 1.6511380672454834, 'learning_rate': 1.5442771053230665e-08, 'epoch': 0.97} {'loss': 2.1951, 'grad_norm': 1.726985216140747, 'learning_rate': 1.5394599646408602e-08, 'epoch': 0.97} {'loss': 2.2713, 'grad_norm': 1.9421250820159912, 'learning_rate': 1.5346503256694902e-08, 'epoch': 0.97} {'loss': 2.2288, 'grad_norm': 1.92954683303833, 'learning_rate': 1.5298481885540895e-08, 'epoch': 0.97} {'loss': 2.2881, 'grad_norm': 1.6822232007980347, 'learning_rate': 1.5250535534397093e-08, 'epoch': 0.97} {'loss': 1.5368, 'grad_norm': 1.335563063621521, 'learning_rate': 1.520266420471067e-08, 'epoch': 0.97} {'loss': 1.1022, 'grad_norm': 1.521445393562317, 'learning_rate': 1.515486789792714e-08, 'epoch': 0.97} {'loss': 2.1332, 'grad_norm': 1.6255849599838257, 'learning_rate': 1.510714661548979e-08, 'epoch': 0.97} {'loss': 2.4084, 'grad_norm': 1.9019452333450317, 'learning_rate': 1.5059500358839407e-08, 'epoch': 0.97} {'loss': 2.0184, 'grad_norm': 1.8297138214111328, 'learning_rate': 1.501192912941457e-08, 'epoch': 0.97} {'loss': 2.3778, 'grad_norm': 9.725275039672852, 'learning_rate': 1.4964432928651073e-08, 'epoch': 0.97} {'loss': 1.3709, 'grad_norm': 1.4702847003936768, 'learning_rate': 1.49170117579836e-08, 'epoch': 0.97} {'loss': 2.0068, 'grad_norm': 1.831873893737793, 'learning_rate': 1.4869665618843788e-08, 'epoch': 0.97} {'loss': 2.1241, 'grad_norm': 1.570775032043457, 'learning_rate': 1.4822394512661042e-08, 'epoch': 0.97} {'loss': 2.191, 'grad_norm': 1.2197742462158203, 'learning_rate': 1.4775198440862559e-08, 'epoch': 0.97} {'loss': 1.5071, 'grad_norm': 1.422006368637085, 'learning_rate': 1.472807740487331e-08, 'epoch': 0.97} {'loss': 2.3456, 'grad_norm': 1.6974163055419922, 'learning_rate': 1.468103140611632e-08, 'epoch': 0.97} {'loss': 1.7007, 'grad_norm': 1.5605541467666626, 'learning_rate': 1.4634060446011566e-08, 'epoch': 0.97} {'loss': 2.4123, 'grad_norm': 1.7943484783172607, 'learning_rate': 1.4587164525977637e-08, 'epoch': 0.97} {'loss': 2.1471, 'grad_norm': 1.5874027013778687, 'learning_rate': 1.4540343647430067e-08, 'epoch': 0.97} {'loss': 1.947, 'grad_norm': 1.6668095588684082, 'learning_rate': 1.4493597811783e-08, 'epoch': 0.97} {'loss': 1.9643, 'grad_norm': 1.3086591958999634, 'learning_rate': 1.4446927020447255e-08, 'epoch': 0.97} {'loss': 2.3281, 'grad_norm': 1.555724859237671, 'learning_rate': 1.4400331274832535e-08, 'epoch': 0.97} {'loss': 2.2258, 'grad_norm': 2.1678645610809326, 'learning_rate': 1.4353810576345217e-08, 'epoch': 0.97} {'loss': 2.2409, 'grad_norm': 1.703331708908081, 'learning_rate': 1.430736492639001e-08, 'epoch': 0.97} {'loss': 2.0888, 'grad_norm': 1.7592616081237793, 'learning_rate': 1.4260994326369404e-08, 'epoch': 0.97} {'loss': 2.053, 'grad_norm': 1.6192302703857422, 'learning_rate': 1.4214698777683666e-08, 'epoch': 0.97} {'loss': 2.2587, 'grad_norm': 1.57266104221344, 'learning_rate': 1.4168478281730014e-08, 'epoch': 0.97} {'loss': 2.328, 'grad_norm': 2.2488112449645996, 'learning_rate': 1.4122332839903996e-08, 'epoch': 0.97} {'loss': 2.2792, 'grad_norm': 1.8048275709152222, 'learning_rate': 1.4076262453599498e-08, 'epoch': 0.97} {'loss': 2.2839, 'grad_norm': 1.5994611978530884, 'learning_rate': 1.4030267124206798e-08, 'epoch': 0.97} {'loss': 2.2239, 'grad_norm': 1.4956704378128052, 'learning_rate': 1.3984346853115338e-08, 'epoch': 0.97} {'loss': 2.4061, 'grad_norm': 1.605455994606018, 'learning_rate': 1.3938501641710678e-08, 'epoch': 0.97} {'loss': 2.1798, 'grad_norm': 1.5358705520629883, 'learning_rate': 1.389273149137782e-08, 'epoch': 0.97} {'loss': 2.5139, 'grad_norm': 1.9287508726119995, 'learning_rate': 1.3847036403498438e-08, 'epoch': 0.97} {'loss': 1.9768, 'grad_norm': 1.568422555923462, 'learning_rate': 1.3801416379451981e-08, 'epoch': 0.97} {'loss': 1.998, 'grad_norm': 1.3933881521224976, 'learning_rate': 1.375587142061624e-08, 'epoch': 0.97} {'loss': 1.2174, 'grad_norm': 2.3037185668945312, 'learning_rate': 1.3710401528365946e-08, 'epoch': 0.97} {'loss': 2.2527, 'grad_norm': 2.093351364135742, 'learning_rate': 1.3665006704074168e-08, 'epoch': 0.97} {'loss': 2.2412, 'grad_norm': 1.6734187602996826, 'learning_rate': 1.3619686949111477e-08, 'epoch': 0.97} {'loss': 2.1466, 'grad_norm': 1.6630630493164062, 'learning_rate': 1.3574442264846222e-08, 'epoch': 0.97} {'loss': 2.2582, 'grad_norm': 1.6597073078155518, 'learning_rate': 1.3529272652644255e-08, 'epoch': 0.97} {'loss': 2.3479, 'grad_norm': 1.6200517416000366, 'learning_rate': 1.3484178113869762e-08, 'epoch': 0.97} {'loss': 2.4491, 'grad_norm': 1.7561321258544922, 'learning_rate': 1.3439158649883876e-08, 'epoch': 0.97} {'loss': 2.3431, 'grad_norm': 1.5866750478744507, 'learning_rate': 1.3394214262046068e-08, 'epoch': 0.97} {'loss': 1.9707, 'grad_norm': 1.377432107925415, 'learning_rate': 1.3349344951713583e-08, 'epoch': 0.97} {'loss': 2.1812, 'grad_norm': 1.6215585470199585, 'learning_rate': 1.3304550720240616e-08, 'epoch': 0.97} {'loss': 2.2832, 'grad_norm': 1.483447551727295, 'learning_rate': 1.3259831568979698e-08, 'epoch': 0.97} {'loss': 2.1761, 'grad_norm': 1.9099637269973755, 'learning_rate': 1.321518749928169e-08, 'epoch': 0.97} {'loss': 2.3199, 'grad_norm': 1.676941156387329, 'learning_rate': 1.3170618512493572e-08, 'epoch': 0.97} {'loss': 2.3348, 'grad_norm': 1.5900380611419678, 'learning_rate': 1.3126124609961765e-08, 'epoch': 0.97} {'loss': 2.4315, 'grad_norm': 1.4694253206253052, 'learning_rate': 1.3081705793029365e-08, 'epoch': 0.97} {'loss': 2.164, 'grad_norm': 1.7905056476593018, 'learning_rate': 1.303736206303724e-08, 'epoch': 0.97} {'loss': 2.2016, 'grad_norm': 1.605035424232483, 'learning_rate': 1.2993093421324876e-08, 'epoch': 0.97} {'loss': 2.5179, 'grad_norm': 1.6404234170913696, 'learning_rate': 1.2948899869228149e-08, 'epoch': 0.97} {'loss': 2.2003, 'grad_norm': 1.6654057502746582, 'learning_rate': 1.2904781408081823e-08, 'epoch': 0.97} {'loss': 2.1706, 'grad_norm': 1.6697407960891724, 'learning_rate': 1.2860738039218167e-08, 'epoch': 0.97} {'loss': 2.0973, 'grad_norm': 1.6199333667755127, 'learning_rate': 1.2816769763966397e-08, 'epoch': 0.97} {'loss': 2.4363, 'grad_norm': 1.780998706817627, 'learning_rate': 1.2772876583654337e-08, 'epoch': 0.97} {'loss': 2.2066, 'grad_norm': 1.609757423400879, 'learning_rate': 1.2729058499607316e-08, 'epoch': 0.97} {'loss': 2.2017, 'grad_norm': 1.8143569231033325, 'learning_rate': 1.2685315513148167e-08, 'epoch': 0.97} {'loss': 2.2864, 'grad_norm': 1.709815502166748, 'learning_rate': 1.2641647625597774e-08, 'epoch': 0.97} {'loss': 2.1937, 'grad_norm': 1.7023704051971436, 'learning_rate': 1.2598054838274531e-08, 'epoch': 0.97} {'loss': 1.9069, 'grad_norm': 1.310152292251587, 'learning_rate': 1.2554537152494328e-08, 'epoch': 0.97} {'loss': 2.3702, 'grad_norm': 1.5707290172576904, 'learning_rate': 1.2511094569571669e-08, 'epoch': 0.97} {'loss': 2.1648, 'grad_norm': 1.7298063039779663, 'learning_rate': 1.2467727090817728e-08, 'epoch': 0.97} {'loss': 2.1587, 'grad_norm': 1.6383061408996582, 'learning_rate': 1.2424434717542012e-08, 'epoch': 0.97} {'loss': 2.487, 'grad_norm': 1.6630173921585083, 'learning_rate': 1.2381217451051531e-08, 'epoch': 0.97} {'loss': 1.9494, 'grad_norm': 1.6967380046844482, 'learning_rate': 1.2338075292651352e-08, 'epoch': 0.97} {'loss': 1.2099, 'grad_norm': 1.60701584815979, 'learning_rate': 1.2295008243644047e-08, 'epoch': 0.97} {'loss': 2.0701, 'grad_norm': 1.8444417715072632, 'learning_rate': 1.2252016305329961e-08, 'epoch': 0.97} {'loss': 2.2658, 'grad_norm': 1.8257248401641846, 'learning_rate': 1.2209099479006947e-08, 'epoch': 0.97} {'loss': 2.4046, 'grad_norm': 2.032270908355713, 'learning_rate': 1.2166257765970636e-08, 'epoch': 0.97} {'loss': 2.288, 'grad_norm': 1.8884367942810059, 'learning_rate': 1.212349116751499e-08, 'epoch': 0.97} {'loss': 2.1988, 'grad_norm': 1.5545384883880615, 'learning_rate': 1.20807996849312e-08, 'epoch': 0.97} {'loss': 2.2596, 'grad_norm': 1.7732489109039307, 'learning_rate': 1.2038183319507957e-08, 'epoch': 0.97} {'loss': 2.55, 'grad_norm': 2.296020269393921, 'learning_rate': 1.1995642072531733e-08, 'epoch': 0.97} {'loss': 2.2543, 'grad_norm': 1.4744949340820312, 'learning_rate': 1.1953175945287886e-08, 'epoch': 0.97} {'loss': 2.3634, 'grad_norm': 1.8718379735946655, 'learning_rate': 1.1910784939057618e-08, 'epoch': 0.97} {'loss': 2.1327, 'grad_norm': 1.8930302858352661, 'learning_rate': 1.186846905512129e-08, 'epoch': 0.97} {'loss': 1.4638, 'grad_norm': 1.9272195100784302, 'learning_rate': 1.1826228294756492e-08, 'epoch': 0.97} {'loss': 2.1786, 'grad_norm': 1.7765361070632935, 'learning_rate': 1.1784062659238592e-08, 'epoch': 0.97} {'loss': 2.2822, 'grad_norm': 1.7841086387634277, 'learning_rate': 1.1741972149840742e-08, 'epoch': 0.97} {'loss': 2.3485, 'grad_norm': 1.6696926355361938, 'learning_rate': 1.1699956767833586e-08, 'epoch': 0.97} {'loss': 2.2462, 'grad_norm': 2.176114559173584, 'learning_rate': 1.1658016514485836e-08, 'epoch': 0.97} {'loss': 2.2665, 'grad_norm': 1.8674852848052979, 'learning_rate': 1.1616151391063701e-08, 'epoch': 0.97} {'loss': 2.3536, 'grad_norm': 1.6100109815597534, 'learning_rate': 1.1574361398831168e-08, 'epoch': 0.97} {'loss': 2.0339, 'grad_norm': 1.3845164775848389, 'learning_rate': 1.1532646539050285e-08, 'epoch': 0.97} {'loss': 2.4289, 'grad_norm': 1.6798855066299438, 'learning_rate': 1.149100681298032e-08, 'epoch': 0.97} {'loss': 1.8411, 'grad_norm': 1.4260494709014893, 'learning_rate': 1.1449442221878326e-08, 'epoch': 0.97} {'loss': 2.1752, 'grad_norm': 1.7434909343719482, 'learning_rate': 1.1407952766999686e-08, 'epoch': 0.97} {'loss': 2.3211, 'grad_norm': 1.7938854694366455, 'learning_rate': 1.1366538449596454e-08, 'epoch': 0.97} {'loss': 2.0685, 'grad_norm': 1.932653546333313, 'learning_rate': 1.1325199270919573e-08, 'epoch': 0.97} {'loss': 1.666, 'grad_norm': 2.0254552364349365, 'learning_rate': 1.1283935232216936e-08, 'epoch': 0.97} {'loss': 2.4674, 'grad_norm': 1.7698935270309448, 'learning_rate': 1.1242746334734767e-08, 'epoch': 0.97} {'loss': 1.2127, 'grad_norm': 1.5024003982543945, 'learning_rate': 1.1201632579716238e-08, 'epoch': 0.97} {'loss': 2.2348, 'grad_norm': 1.83344304561615, 'learning_rate': 1.1160593968402855e-08, 'epoch': 0.97} {'loss': 2.2081, 'grad_norm': 1.559337854385376, 'learning_rate': 1.111963050203363e-08, 'epoch': 0.97} {'loss': 2.1628, 'grad_norm': 1.6356596946716309, 'learning_rate': 1.1078742181845626e-08, 'epoch': 0.97} {'loss': 2.4036, 'grad_norm': 2.1440868377685547, 'learning_rate': 1.1037929009073134e-08, 'epoch': 0.97} {'loss': 2.302, 'grad_norm': 1.5172467231750488, 'learning_rate': 1.0997190984948225e-08, 'epoch': 0.97} {'loss': 2.471, 'grad_norm': 1.4305334091186523, 'learning_rate': 1.0956528110701026e-08, 'epoch': 0.97} {'loss': 2.4805, 'grad_norm': 1.6785346269607544, 'learning_rate': 1.091594038755972e-08, 'epoch': 0.97} {'loss': 2.4055, 'grad_norm': 1.8896266222000122, 'learning_rate': 1.0875427816749162e-08, 'epoch': 0.97} {'loss': 2.2592, 'grad_norm': 1.6384180784225464, 'learning_rate': 1.0834990399493095e-08, 'epoch': 0.97} {'loss': 2.3093, 'grad_norm': 1.5714465379714966, 'learning_rate': 1.0794628137011653e-08, 'epoch': 0.97} {'loss': 2.1559, 'grad_norm': 1.633208990097046, 'learning_rate': 1.0754341030524418e-08, 'epoch': 0.97} {'loss': 2.3488, 'grad_norm': 2.020915985107422, 'learning_rate': 1.0714129081247082e-08, 'epoch': 0.97} {'loss': 2.4487, 'grad_norm': 1.8006565570831299, 'learning_rate': 1.0673992290393953e-08, 'epoch': 0.97} {'loss': 1.8123, 'grad_norm': 1.4223618507385254, 'learning_rate': 1.0633930659176839e-08, 'epoch': 0.97} {'loss': 2.2953, 'grad_norm': 1.6614112854003906, 'learning_rate': 1.0593944188805327e-08, 'epoch': 0.97} {'loss': 2.3821, 'grad_norm': 1.7576247453689575, 'learning_rate': 1.0554032880487064e-08, 'epoch': 0.97} {'loss': 2.157, 'grad_norm': 1.5834500789642334, 'learning_rate': 1.0514196735426363e-08, 'epoch': 0.97} {'loss': 2.0692, 'grad_norm': 1.9789408445358276, 'learning_rate': 1.0474435754826706e-08, 'epoch': 0.97} {'loss': 2.0807, 'grad_norm': 1.3910882472991943, 'learning_rate': 1.0434749939888244e-08, 'epoch': 0.97} {'loss': 1.9954, 'grad_norm': 1.8764722347259521, 'learning_rate': 1.0395139291809186e-08, 'epoch': 0.97} {'loss': 2.0966, 'grad_norm': 1.5782866477966309, 'learning_rate': 1.035560381178552e-08, 'epoch': 0.97} {'loss': 2.4305, 'grad_norm': 2.0550432205200195, 'learning_rate': 1.031614350101101e-08, 'epoch': 0.97} {'loss': 2.2209, 'grad_norm': 1.9633153676986694, 'learning_rate': 1.0276758360676931e-08, 'epoch': 0.97} {'loss': 2.1091, 'grad_norm': 2.0072643756866455, 'learning_rate': 1.0237448391972604e-08, 'epoch': 0.97} {'loss': 2.166, 'grad_norm': 1.309967041015625, 'learning_rate': 1.0198213596084584e-08, 'epoch': 0.97} {'loss': 1.4758, 'grad_norm': 1.7292732000350952, 'learning_rate': 1.015905397419803e-08, 'epoch': 0.97} {'loss': 2.1543, 'grad_norm': 1.78793203830719, 'learning_rate': 1.01199695274945e-08, 'epoch': 0.97} {'loss': 2.2556, 'grad_norm': 1.7443821430206299, 'learning_rate': 1.0080960257154992e-08, 'epoch': 0.97} {'loss': 1.9441, 'grad_norm': 1.2066618204116821, 'learning_rate': 1.0042026164356622e-08, 'epoch': 0.97} {'loss': 2.387, 'grad_norm': 1.7988208532333374, 'learning_rate': 1.0003167250275114e-08, 'epoch': 0.97} {'loss': 2.2463, 'grad_norm': 1.7870794534683228, 'learning_rate': 9.964383516083975e-09, 'epoch': 0.97} {'loss': 2.0301, 'grad_norm': 1.935500144958496, 'learning_rate': 9.925674962953657e-09, 'epoch': 0.97} {'loss': 2.0985, 'grad_norm': 1.7250196933746338, 'learning_rate': 9.887041592053226e-09, 'epoch': 0.97} {'loss': 1.9107, 'grad_norm': 1.5871071815490723, 'learning_rate': 9.848483404549247e-09, 'epoch': 0.97} {'loss': 2.2313, 'grad_norm': 1.7674963474273682, 'learning_rate': 9.810000401605513e-09, 'epoch': 0.97} {'loss': 2.5097, 'grad_norm': 3.788517951965332, 'learning_rate': 9.771592584384425e-09, 'epoch': 0.97} {'loss': 2.0308, 'grad_norm': 1.5184829235076904, 'learning_rate': 9.73325995404506e-09, 'epoch': 0.97} {'loss': 2.0422, 'grad_norm': 1.920508623123169, 'learning_rate': 9.6950025117451e-09, 'epoch': 0.97} {'loss': 2.3972, 'grad_norm': 1.7468565702438354, 'learning_rate': 9.656820258639733e-09, 'epoch': 0.97} {'loss': 1.9906, 'grad_norm': 1.676461100578308, 'learning_rate': 9.618713195881646e-09, 'epoch': 0.97} {'loss': 2.3569, 'grad_norm': 1.624428391456604, 'learning_rate': 9.580681324621588e-09, 'epoch': 0.97} {'loss': 2.3967, 'grad_norm': 1.7049574851989746, 'learning_rate': 9.542724646007529e-09, 'epoch': 0.97} {'loss': 2.3883, 'grad_norm': 1.7071974277496338, 'learning_rate': 9.504843161185495e-09, 'epoch': 0.97} {'loss': 2.363, 'grad_norm': 5.449316501617432, 'learning_rate': 9.467036871299574e-09, 'epoch': 0.97} {'loss': 2.0584, 'grad_norm': 1.9340773820877075, 'learning_rate': 9.429305777491072e-09, 'epoch': 0.97} {'loss': 2.1926, 'grad_norm': 1.6671956777572632, 'learning_rate': 9.391649880898801e-09, 'epoch': 0.97} {'loss': 2.2504, 'grad_norm': 1.8206709623336792, 'learning_rate': 9.354069182660464e-09, 'epoch': 0.97} {'loss': 2.3376, 'grad_norm': 1.5496430397033691, 'learning_rate': 9.31656368391015e-09, 'epoch': 0.97} {'loss': 2.3992, 'grad_norm': 1.7258617877960205, 'learning_rate': 9.27913338578057e-09, 'epoch': 0.97} {'loss': 1.9189, 'grad_norm': 1.9383710622787476, 'learning_rate': 9.241778289401649e-09, 'epoch': 0.97} {'loss': 2.3186, 'grad_norm': 2.522202730178833, 'learning_rate': 9.204498395901096e-09, 'epoch': 0.97} {'loss': 2.1095, 'grad_norm': 1.4989197254180908, 'learning_rate': 9.167293706404957e-09, 'epoch': 0.97} {'loss': 1.9528, 'grad_norm': 1.714023232460022, 'learning_rate': 9.13016422203622e-09, 'epoch': 0.97} {'loss': 2.2153, 'grad_norm': 1.6328047513961792, 'learning_rate': 9.093109943915935e-09, 'epoch': 0.97} {'loss': 2.2439, 'grad_norm': 1.8295069932937622, 'learning_rate': 9.056130873162928e-09, 'epoch': 0.97} {'loss': 1.9847, 'grad_norm': 1.5713046789169312, 'learning_rate': 9.019227010893806e-09, 'epoch': 0.97} {'loss': 2.3375, 'grad_norm': 1.6836750507354736, 'learning_rate': 8.9823983582224e-09, 'epoch': 0.97} {'loss': 2.2741, 'grad_norm': 1.8430759906768799, 'learning_rate': 8.945644916261154e-09, 'epoch': 0.97} {'loss': 2.0994, 'grad_norm': 1.6459839344024658, 'learning_rate': 8.908966686119735e-09, 'epoch': 0.97} {'loss': 2.2931, 'grad_norm': 1.7991880178451538, 'learning_rate': 8.872363668905037e-09, 'epoch': 0.97} {'loss': 2.2333, 'grad_norm': 1.8471753597259521, 'learning_rate': 8.835835865722841e-09, 'epoch': 0.97} {'loss': 2.4109, 'grad_norm': 1.8559859991073608, 'learning_rate': 8.7993832776756e-09, 'epoch': 0.97} {'loss': 2.193, 'grad_norm': 1.821247935295105, 'learning_rate': 8.763005905864097e-09, 'epoch': 0.97} {'loss': 2.0271, 'grad_norm': 1.9205396175384521, 'learning_rate': 8.726703751386623e-09, 'epoch': 0.97} {'loss': 1.6112, 'grad_norm': 1.884726881980896, 'learning_rate': 8.690476815339244e-09, 'epoch': 0.97} {'loss': 2.138, 'grad_norm': 1.6796462535858154, 'learning_rate': 8.654325098815809e-09, 'epoch': 0.97} {'loss': 2.2603, 'grad_norm': 1.5791122913360596, 'learning_rate': 8.618248602907664e-09, 'epoch': 0.97} {'loss': 2.1609, 'grad_norm': 1.6541937589645386, 'learning_rate': 8.58224732870422e-09, 'epoch': 0.98} {'loss': 2.2595, 'grad_norm': 1.5009630918502808, 'learning_rate': 8.54632127729238e-09, 'epoch': 0.98} {'loss': 1.8328, 'grad_norm': 1.6891791820526123, 'learning_rate': 8.510470449757113e-09, 'epoch': 0.98} {'loss': 2.2278, 'grad_norm': 2.0362062454223633, 'learning_rate': 8.474694847180331e-09, 'epoch': 0.98} {'loss': 2.1817, 'grad_norm': 2.0358617305755615, 'learning_rate': 8.438994470642558e-09, 'epoch': 0.98} {'loss': 2.6013, 'grad_norm': 1.7363301515579224, 'learning_rate': 8.403369321221545e-09, 'epoch': 0.98} {'loss': 2.0813, 'grad_norm': 1.8266048431396484, 'learning_rate': 8.367819399993094e-09, 'epoch': 0.98} {'loss': 2.63, 'grad_norm': 1.724622130393982, 'learning_rate': 8.332344708030515e-09, 'epoch': 0.98} {'loss': 1.8193, 'grad_norm': 1.3278136253356934, 'learning_rate': 8.29694524640462e-09, 'epoch': 0.98} {'loss': 2.348, 'grad_norm': 1.5622828006744385, 'learning_rate': 8.261621016184829e-09, 'epoch': 0.98} {'loss': 2.3463, 'grad_norm': 2.3747150897979736, 'learning_rate': 8.226372018436957e-09, 'epoch': 0.98} {'loss': 2.3834, 'grad_norm': 1.842603325843811, 'learning_rate': 8.19119825422543e-09, 'epoch': 0.98} {'loss': 2.2954, 'grad_norm': 1.759336233139038, 'learning_rate': 8.156099724612454e-09, 'epoch': 0.98} {'loss': 2.3415, 'grad_norm': 1.4161525964736938, 'learning_rate': 8.121076430658015e-09, 'epoch': 0.98} {'loss': 2.38, 'grad_norm': 2.0534303188323975, 'learning_rate': 8.086128373419044e-09, 'epoch': 0.98} {'loss': 2.3352, 'grad_norm': 1.646621823310852, 'learning_rate': 8.05125555395081e-09, 'epoch': 0.98} {'loss': 2.0833, 'grad_norm': 1.4361306428909302, 'learning_rate': 8.016457973306358e-09, 'epoch': 0.98} {'loss': 2.237, 'grad_norm': 1.754980444908142, 'learning_rate': 7.981735632536236e-09, 'epoch': 0.98} {'loss': 2.1788, 'grad_norm': 1.944434642791748, 'learning_rate': 7.947088532689051e-09, 'epoch': 0.98} {'loss': 2.181, 'grad_norm': 1.5342464447021484, 'learning_rate': 7.912516674810632e-09, 'epoch': 0.98} {'loss': 2.1255, 'grad_norm': 1.309486985206604, 'learning_rate': 7.87802005994459e-09, 'epoch': 0.98} {'loss': 2.3611, 'grad_norm': 1.6437777280807495, 'learning_rate': 7.843598689133148e-09, 'epoch': 0.98} {'loss': 2.3742, 'grad_norm': 2.2245941162109375, 'learning_rate': 7.809252563414915e-09, 'epoch': 0.98} {'loss': 2.248, 'grad_norm': 1.4821768999099731, 'learning_rate': 7.774981683827399e-09, 'epoch': 0.98} {'loss': 2.3252, 'grad_norm': 1.8317197561264038, 'learning_rate': 7.74078605140477e-09, 'epoch': 0.98} {'loss': 2.0758, 'grad_norm': 1.715259313583374, 'learning_rate': 7.70666566718009e-09, 'epoch': 0.98} {'loss': 1.8662, 'grad_norm': 1.1837844848632812, 'learning_rate': 7.672620532183095e-09, 'epoch': 0.98} {'loss': 2.2942, 'grad_norm': 2.2603931427001953, 'learning_rate': 7.638650647442124e-09, 'epoch': 0.98} {'loss': 2.347, 'grad_norm': 1.4782025814056396, 'learning_rate': 7.604756013982195e-09, 'epoch': 0.98} {'loss': 2.4525, 'grad_norm': 1.7241930961608887, 'learning_rate': 7.570936632827487e-09, 'epoch': 0.98} {'loss': 2.2543, 'grad_norm': 1.5964924097061157, 'learning_rate': 7.537192504998292e-09, 'epoch': 0.98} {'loss': 2.645, 'grad_norm': 1.6928895711898804, 'learning_rate': 7.503523631514075e-09, 'epoch': 0.98} {'loss': 2.2777, 'grad_norm': 1.8268402814865112, 'learning_rate': 7.469930013391246e-09, 'epoch': 0.98} {'loss': 2.3666, 'grad_norm': 1.6794120073318481, 'learning_rate': 7.4364116516437155e-09, 'epoch': 0.98} {'loss': 2.55, 'grad_norm': 1.8533827066421509, 'learning_rate': 7.402968547284006e-09, 'epoch': 0.98} {'loss': 2.1138, 'grad_norm': 2.149552822113037, 'learning_rate': 7.369600701321589e-09, 'epoch': 0.98} {'loss': 1.9254, 'grad_norm': 1.2369953393936157, 'learning_rate': 7.336308114763712e-09, 'epoch': 0.98} {'loss': 2.1988, 'grad_norm': 1.986140489578247, 'learning_rate': 7.303090788615963e-09, 'epoch': 0.98} {'loss': 2.2737, 'grad_norm': 1.7428882122039795, 'learning_rate': 7.269948723881149e-09, 'epoch': 0.98} {'loss': 2.367, 'grad_norm': 2.0318782329559326, 'learning_rate': 7.236881921559857e-09, 'epoch': 0.98} {'loss': 1.969, 'grad_norm': 1.37529718875885, 'learning_rate': 7.203890382650458e-09, 'epoch': 0.98} {'loss': 1.2228, 'grad_norm': 1.5500990152359009, 'learning_rate': 7.170974108149375e-09, 'epoch': 0.98} {'loss': 2.1192, 'grad_norm': 1.4717365503311157, 'learning_rate': 7.1381330990497045e-09, 'epoch': 0.98} {'loss': 2.45, 'grad_norm': 1.670833945274353, 'learning_rate': 7.105367356343984e-09, 'epoch': 0.98} {'loss': 2.1752, 'grad_norm': 1.7347111701965332, 'learning_rate': 7.07267688102059e-09, 'epoch': 0.98} {'loss': 2.1174, 'grad_norm': 1.3907274007797241, 'learning_rate': 7.040061674067067e-09, 'epoch': 0.98} {'loss': 2.3925, 'grad_norm': 1.7016079425811768, 'learning_rate': 7.007521736467904e-09, 'epoch': 0.98} {'loss': 2.2589, 'grad_norm': 1.7561537027359009, 'learning_rate': 6.975057069205926e-09, 'epoch': 0.98} {'loss': 2.1341, 'grad_norm': 1.5115714073181152, 'learning_rate': 6.942667673260906e-09, 'epoch': 0.98} {'loss': 2.0113, 'grad_norm': 2.0388224124908447, 'learning_rate': 6.9103535496112265e-09, 'epoch': 0.98} {'loss': 2.2979, 'grad_norm': 1.6644033193588257, 'learning_rate': 6.878114699231941e-09, 'epoch': 0.98} {'loss': 2.1591, 'grad_norm': 1.4529023170471191, 'learning_rate': 6.845951123096994e-09, 'epoch': 0.98} {'loss': 2.307, 'grad_norm': 1.6659361124038696, 'learning_rate': 6.8138628221769975e-09, 'epoch': 0.98} {'loss': 2.0765, 'grad_norm': 1.508431077003479, 'learning_rate': 6.7818497974414535e-09, 'epoch': 0.98} {'loss': 2.0852, 'grad_norm': 1.7548425197601318, 'learning_rate': 6.749912049856255e-09, 'epoch': 0.98} {'loss': 2.2632, 'grad_norm': 1.6107622385025024, 'learning_rate': 6.71804958038591e-09, 'epoch': 0.98} {'loss': 1.9502, 'grad_norm': 2.0112318992614746, 'learning_rate': 6.686262389992704e-09, 'epoch': 0.98} {'loss': 2.293, 'grad_norm': 1.8563398122787476, 'learning_rate': 6.6545504796358685e-09, 'epoch': 0.98} {'loss': 2.2487, 'grad_norm': 1.8802987337112427, 'learning_rate': 6.622913850273527e-09, 'epoch': 0.98} {'loss': 2.2604, 'grad_norm': 2.180145025253296, 'learning_rate': 6.591352502860193e-09, 'epoch': 0.98} {'loss': 2.2218, 'grad_norm': 1.7834097146987915, 'learning_rate': 6.559866438349271e-09, 'epoch': 0.98} {'loss': 2.0508, 'grad_norm': 1.6452432870864868, 'learning_rate': 6.528455657691113e-09, 'epoch': 0.98} {'loss': 2.0158, 'grad_norm': 1.8946397304534912, 'learning_rate': 6.497120161834402e-09, 'epoch': 0.98} {'loss': 2.3464, 'grad_norm': 1.5954011678695679, 'learning_rate': 6.465859951725051e-09, 'epoch': 0.98} {'loss': 2.0564, 'grad_norm': 1.6582051515579224, 'learning_rate': 6.434675028307025e-09, 'epoch': 0.98} {'loss': 2.4763, 'grad_norm': 1.7862865924835205, 'learning_rate': 6.403565392521516e-09, 'epoch': 0.98} {'loss': 2.0473, 'grad_norm': 1.577194094657898, 'learning_rate': 6.372531045308328e-09, 'epoch': 0.98} {'loss': 2.3664, 'grad_norm': 1.8511048555374146, 'learning_rate': 6.341571987603934e-09, 'epoch': 0.98} {'loss': 2.2038, 'grad_norm': 1.4843945503234863, 'learning_rate': 6.310688220343697e-09, 'epoch': 0.98} {'loss': 1.6593, 'grad_norm': 1.6623681783676147, 'learning_rate': 6.279879744459372e-09, 'epoch': 0.98} {'loss': 2.4108, 'grad_norm': 2.883298873901367, 'learning_rate': 6.24914656088188e-09, 'epoch': 0.98} {'loss': 2.2614, 'grad_norm': 1.7201519012451172, 'learning_rate': 6.218488670538536e-09, 'epoch': 0.98} {'loss': 2.2638, 'grad_norm': 1.7365493774414062, 'learning_rate': 6.187906074355266e-09, 'epoch': 0.98} {'loss': 2.3103, 'grad_norm': 1.802122950553894, 'learning_rate': 6.157398773255496e-09, 'epoch': 0.98} {'loss': 2.4648, 'grad_norm': 1.6304103136062622, 'learning_rate': 6.126966768160158e-09, 'epoch': 0.98} {'loss': 2.4694, 'grad_norm': 2.1479082107543945, 'learning_rate': 6.0966100599882395e-09, 'epoch': 0.98} {'loss': 2.202, 'grad_norm': 1.6255637407302856, 'learning_rate': 6.066328649656228e-09, 'epoch': 0.98} {'loss': 2.376, 'grad_norm': 2.129761219024658, 'learning_rate': 6.036122538078393e-09, 'epoch': 0.98} {'loss': 2.1144, 'grad_norm': 2.1268630027770996, 'learning_rate': 6.0059917261667825e-09, 'epoch': 0.98} {'loss': 2.2612, 'grad_norm': 1.7220607995986938, 'learning_rate': 5.975936214830946e-09, 'epoch': 0.98} {'loss': 2.2567, 'grad_norm': 2.080888271331787, 'learning_rate': 5.94595600497877e-09, 'epoch': 0.98} {'loss': 2.3268, 'grad_norm': 3.2076961994171143, 'learning_rate': 5.916051097514807e-09, 'epoch': 0.98} {'loss': 1.9301, 'grad_norm': 1.281426191329956, 'learning_rate': 5.886221493342503e-09, 'epoch': 0.98} {'loss': 2.2499, 'grad_norm': 1.690306305885315, 'learning_rate': 5.8564671933622475e-09, 'epoch': 0.98} {'loss': 2.1908, 'grad_norm': 2.195209264755249, 'learning_rate': 5.826788198472489e-09, 'epoch': 0.98} {'loss': 2.445, 'grad_norm': 1.8057655096054077, 'learning_rate': 5.797184509569176e-09, 'epoch': 0.98} {'loss': 2.2009, 'grad_norm': 2.5383646488189697, 'learning_rate': 5.7676561275463174e-09, 'epoch': 0.98} {'loss': 2.2632, 'grad_norm': 1.6972771883010864, 'learning_rate': 5.7382030532954214e-09, 'epoch': 0.98} {'loss': 2.0395, 'grad_norm': 1.6233949661254883, 'learning_rate': 5.708825287705777e-09, 'epoch': 0.98} {'loss': 2.2474, 'grad_norm': 1.7337840795516968, 'learning_rate': 5.679522831664175e-09, 'epoch': 0.98} {'loss': 2.4215, 'grad_norm': 1.6094996929168701, 'learning_rate': 5.650295686055462e-09, 'epoch': 0.98} {'loss': 2.2811, 'grad_norm': 2.056133270263672, 'learning_rate': 5.621143851762268e-09, 'epoch': 0.98} {'loss': 2.2554, 'grad_norm': 1.598105788230896, 'learning_rate': 5.592067329664441e-09, 'epoch': 0.98} {'loss': 2.3604, 'grad_norm': 1.6850084066390991, 'learning_rate': 5.563066120640171e-09, 'epoch': 0.98} {'loss': 2.2515, 'grad_norm': 2.409166097640991, 'learning_rate': 5.534140225565144e-09, 'epoch': 0.98} {'loss': 2.2403, 'grad_norm': 1.4119199514389038, 'learning_rate': 5.505289645312273e-09, 'epoch': 0.98} {'loss': 2.1037, 'grad_norm': 1.3963873386383057, 'learning_rate': 5.4765143807528065e-09, 'epoch': 0.98} {'loss': 2.1745, 'grad_norm': 1.6100664138793945, 'learning_rate': 5.447814432756049e-09, 'epoch': 0.98} {'loss': 1.9179, 'grad_norm': 1.5132108926773071, 'learning_rate': 5.419189802187696e-09, 'epoch': 0.98} {'loss': 2.3099, 'grad_norm': 2.310384750366211, 'learning_rate': 5.390640489912613e-09, 'epoch': 0.98} {'loss': 1.8264, 'grad_norm': 1.3533785343170166, 'learning_rate': 5.362166496792609e-09, 'epoch': 0.98} {'loss': 2.4856, 'grad_norm': 1.795069932937622, 'learning_rate': 5.333767823687275e-09, 'epoch': 0.98} {'loss': 1.8653, 'grad_norm': 1.935220718383789, 'learning_rate': 5.305444471454257e-09, 'epoch': 0.98} {'loss': 2.2864, 'grad_norm': 1.8415330648422241, 'learning_rate': 5.2771964409487065e-09, 'epoch': 0.98} {'loss': 1.8691, 'grad_norm': 1.5187046527862549, 'learning_rate': 5.249023733023273e-09, 'epoch': 0.98} {'loss': 2.1609, 'grad_norm': 1.6530781984329224, 'learning_rate': 5.2209263485286655e-09, 'epoch': 0.98} {'loss': 2.333, 'grad_norm': 1.6902351379394531, 'learning_rate': 5.192904288313372e-09, 'epoch': 0.98} {'loss': 2.0346, 'grad_norm': 1.3018611669540405, 'learning_rate': 5.164957553223382e-09, 'epoch': 0.98} {'loss': 2.4208, 'grad_norm': 1.702654242515564, 'learning_rate': 5.137086144102188e-09, 'epoch': 0.98} {'loss': 2.408, 'grad_norm': 1.7150074243545532, 'learning_rate': 5.109290061791894e-09, 'epoch': 0.98} {'loss': 2.3031, 'grad_norm': 1.613925814628601, 'learning_rate': 5.081569307131273e-09, 'epoch': 0.98} {'loss': 2.1745, 'grad_norm': 1.4716342687606812, 'learning_rate': 5.0539238809574344e-09, 'epoch': 0.98} {'loss': 2.1203, 'grad_norm': 1.545029878616333, 'learning_rate': 5.026353784105265e-09, 'epoch': 0.98} {'loss': 1.9449, 'grad_norm': 1.5389716625213623, 'learning_rate': 4.9988590174065985e-09, 'epoch': 0.98} {'loss': 2.2394, 'grad_norm': 1.7253342866897583, 'learning_rate': 4.971439581692439e-09, 'epoch': 0.98} {'loss': 2.1361, 'grad_norm': 1.3505316972732544, 'learning_rate': 4.944095477789901e-09, 'epoch': 0.98} {'loss': 2.1032, 'grad_norm': 1.7825065851211548, 'learning_rate': 4.9168267065247135e-09, 'epoch': 0.98} {'loss': 2.228, 'grad_norm': 1.8779692649841309, 'learning_rate': 4.8896332687206615e-09, 'epoch': 0.98} {'loss': 2.1632, 'grad_norm': 1.3391908407211304, 'learning_rate': 4.862515165198201e-09, 'epoch': 0.98} {'loss': 1.9867, 'grad_norm': 1.7145953178405762, 'learning_rate': 4.835472396776397e-09, 'epoch': 0.98} {'loss': 2.2828, 'grad_norm': 1.591185450553894, 'learning_rate': 4.808504964272099e-09, 'epoch': 0.98} {'loss': 2.2958, 'grad_norm': 1.76812744140625, 'learning_rate': 4.781612868498819e-09, 'epoch': 0.98} {'loss': 2.3592, 'grad_norm': 1.7508025169372559, 'learning_rate': 4.7547961102689665e-09, 'epoch': 0.98} {'loss': 1.6508, 'grad_norm': 1.859471321105957, 'learning_rate': 4.728054690391892e-09, 'epoch': 0.98} {'loss': 2.2541, 'grad_norm': 1.6219940185546875, 'learning_rate': 4.7013886096752835e-09, 'epoch': 0.98} {'loss': 1.9866, 'grad_norm': 1.4456838369369507, 'learning_rate': 4.6747978689240525e-09, 'epoch': 0.98} {'loss': 2.2565, 'grad_norm': 1.9193899631500244, 'learning_rate': 4.6482824689414454e-09, 'epoch': 0.98} {'loss': 2.3631, 'grad_norm': 1.684130072593689, 'learning_rate': 4.621842410527655e-09, 'epoch': 0.98} {'loss': 2.0534, 'grad_norm': 1.7378343343734741, 'learning_rate': 4.595477694480932e-09, 'epoch': 0.98} {'loss': 2.1871, 'grad_norm': 1.7318552732467651, 'learning_rate': 4.569188321597584e-09, 'epoch': 0.98} {'loss': 2.1539, 'grad_norm': 1.577267050743103, 'learning_rate': 4.542974292671143e-09, 'epoch': 0.98} {'loss': 2.2105, 'grad_norm': 1.565105676651001, 'learning_rate': 4.5168356084931974e-09, 'epoch': 0.98} {'loss': 2.2376, 'grad_norm': 1.8438552618026733, 'learning_rate': 4.490772269852839e-09, 'epoch': 0.98} {'loss': 2.1848, 'grad_norm': 1.745305061340332, 'learning_rate': 4.464784277537215e-09, 'epoch': 0.98} {'loss': 2.3214, 'grad_norm': 1.9787590503692627, 'learning_rate': 4.438871632330699e-09, 'epoch': 0.98} {'loss': 2.3738, 'grad_norm': 1.9384664297103882, 'learning_rate': 4.41303433501572e-09, 'epoch': 0.98} {'loss': 2.1253, 'grad_norm': 1.5070399045944214, 'learning_rate': 4.387272386372488e-09, 'epoch': 0.98} {'loss': 2.0278, 'grad_norm': 2.210148572921753, 'learning_rate': 4.361585787178713e-09, 'epoch': 0.98} {'loss': 2.2447, 'grad_norm': 9.4879150390625, 'learning_rate': 4.335974538210441e-09, 'epoch': 0.98} {'loss': 2.1453, 'grad_norm': 1.5674560070037842, 'learning_rate': 4.310438640240111e-09, 'epoch': 0.98} {'loss': 2.1369, 'grad_norm': 1.7695797681808472, 'learning_rate': 4.28497809403905e-09, 'epoch': 0.98} {'loss': 2.2753, 'grad_norm': 2.1864631175994873, 'learning_rate': 4.259592900376364e-09, 'epoch': 0.98} {'loss': 2.2227, 'grad_norm': 1.5836819410324097, 'learning_rate': 4.234283060018107e-09, 'epoch': 0.98} {'loss': 2.4892, 'grad_norm': 1.7078309059143066, 'learning_rate': 4.209048573728392e-09, 'epoch': 0.98} {'loss': 2.2932, 'grad_norm': 1.5177115201950073, 'learning_rate': 4.183889442269384e-09, 'epoch': 0.98} {'loss': 2.2268, 'grad_norm': 1.5562363862991333, 'learning_rate': 4.158805666400756e-09, 'epoch': 0.98} {'loss': 1.7156, 'grad_norm': 1.5849800109863281, 'learning_rate': 4.133797246879401e-09, 'epoch': 0.98} {'loss': 2.1447, 'grad_norm': 1.727256417274475, 'learning_rate': 4.108864184460826e-09, 'epoch': 0.98} {'loss': 2.2983, 'grad_norm': 1.6470392942428589, 'learning_rate': 4.084006479897762e-09, 'epoch': 0.98} {'loss': 2.195, 'grad_norm': 1.8246210813522339, 'learning_rate': 4.05922413394072e-09, 'epoch': 0.98} {'loss': 2.1367, 'grad_norm': 1.734748125076294, 'learning_rate': 4.034517147337713e-09, 'epoch': 0.98} {'loss': 2.2639, 'grad_norm': 1.68813157081604, 'learning_rate': 4.009885520834811e-09, 'epoch': 0.98} {'loss': 2.2949, 'grad_norm': 2.249208688735962, 'learning_rate': 3.985329255175862e-09, 'epoch': 0.98} {'loss': 2.2747, 'grad_norm': 1.79241943359375, 'learning_rate': 3.960848351102497e-09, 'epoch': 0.98} {'loss': 2.1079, 'grad_norm': 1.5198127031326294, 'learning_rate': 3.936442809353291e-09, 'epoch': 0.98} {'loss': 2.2157, 'grad_norm': 1.8398908376693726, 'learning_rate': 3.9121126306654325e-09, 'epoch': 0.98} {'loss': 2.1748, 'grad_norm': 1.8414188623428345, 'learning_rate': 3.8878578157736105e-09, 'epoch': 0.98} {'loss': 2.1478, 'grad_norm': 1.590512752532959, 'learning_rate': 3.863678365410017e-09, 'epoch': 0.98} {'loss': 2.0754, 'grad_norm': 1.523997187614441, 'learning_rate': 3.839574280304625e-09, 'epoch': 0.98} {'loss': 1.7821, 'grad_norm': 1.4828519821166992, 'learning_rate': 3.815545561185186e-09, 'epoch': 0.98} {'loss': 2.3141, 'grad_norm': 1.6071081161499023, 'learning_rate': 3.7915922087775055e-09, 'epoch': 0.98} {'loss': 1.6035, 'grad_norm': 1.5999680757522583, 'learning_rate': 3.7677142238043416e-09, 'epoch': 0.98} {'loss': 2.2656, 'grad_norm': 1.6193305253982544, 'learning_rate': 3.743911606987061e-09, 'epoch': 0.98} {'loss': 2.343, 'grad_norm': 2.871877670288086, 'learning_rate': 3.7201843590439768e-09, 'epoch': 0.98} {'loss': 2.3957, 'grad_norm': 3.99399995803833, 'learning_rate': 3.696532480691739e-09, 'epoch': 0.98} {'loss': 2.1527, 'grad_norm': 1.7254282236099243, 'learning_rate': 3.6729559726444986e-09, 'epoch': 0.98} {'loss': 2.3096, 'grad_norm': 1.8854411840438843, 'learning_rate': 3.649454835613908e-09, 'epoch': 0.98} {'loss': 1.8809, 'grad_norm': 1.7822235822677612, 'learning_rate': 3.6260290703094002e-09, 'epoch': 0.98} {'loss': 2.1245, 'grad_norm': 2.376424551010132, 'learning_rate': 3.6026786774387425e-09, 'epoch': 0.98} {'loss': 2.352, 'grad_norm': 1.677649974822998, 'learning_rate': 3.5794036577063705e-09, 'epoch': 0.98} {'loss': 2.2256, 'grad_norm': 1.6974843740463257, 'learning_rate': 3.5562040118156115e-09, 'epoch': 0.98} {'loss': 2.3568, 'grad_norm': 2.307046890258789, 'learning_rate': 3.533079740466461e-09, 'epoch': 0.98} {'loss': 2.4764, 'grad_norm': 1.7727091312408447, 'learning_rate': 3.5100308443572485e-09, 'epoch': 0.98} {'loss': 2.333, 'grad_norm': 1.273139238357544, 'learning_rate': 3.4870573241840845e-09, 'epoch': 0.98} {'loss': 2.4406, 'grad_norm': 1.609047770500183, 'learning_rate': 3.464159180640303e-09, 'epoch': 0.98} {'loss': 2.2821, 'grad_norm': 1.8150930404663086, 'learning_rate': 3.4413364144175733e-09, 'epoch': 0.98} {'loss': 2.2949, 'grad_norm': 1.6930036544799805, 'learning_rate': 3.4185890262045106e-09, 'epoch': 0.98} {'loss': 2.3462, 'grad_norm': 1.4004634618759155, 'learning_rate': 3.395917016688344e-09, 'epoch': 0.98} {'loss': 2.1246, 'grad_norm': 2.1355130672454834, 'learning_rate': 3.3733203865535246e-09, 'epoch': 0.98} {'loss': 2.1847, 'grad_norm': 1.711533784866333, 'learning_rate': 3.3507991364822858e-09, 'epoch': 0.98} {'loss': 2.3943, 'grad_norm': 1.8218016624450684, 'learning_rate': 3.3283532671543604e-09, 'epoch': 0.98} {'loss': 2.3255, 'grad_norm': 2.0099239349365234, 'learning_rate': 3.3059827792478184e-09, 'epoch': 0.98} {'loss': 2.0555, 'grad_norm': 1.9053889513015747, 'learning_rate': 3.283687673437952e-09, 'epoch': 0.98} {'loss': 2.3193, 'grad_norm': 1.714349389076233, 'learning_rate': 3.2614679503975567e-09, 'epoch': 0.98} {'loss': 2.338, 'grad_norm': 1.6946505308151245, 'learning_rate': 3.239323610798317e-09, 'epoch': 0.98} {'loss': 2.5778, 'grad_norm': 1.4611402750015259, 'learning_rate': 3.217254655308033e-09, 'epoch': 0.98} {'loss': 2.5361, 'grad_norm': 2.037990093231201, 'learning_rate': 3.195261084593393e-09, 'epoch': 0.99} {'loss': 1.8844, 'grad_norm': 1.7259140014648438, 'learning_rate': 3.1733428993183103e-09, 'epoch': 0.99} {'loss': 2.2216, 'grad_norm': 2.0129215717315674, 'learning_rate': 3.1515001001447555e-09, 'epoch': 0.99} {'loss': 2.0997, 'grad_norm': 7.308460712432861, 'learning_rate': 3.129732687732201e-09, 'epoch': 0.99} {'loss': 2.3202, 'grad_norm': 1.7190892696380615, 'learning_rate': 3.1080406627376212e-09, 'epoch': 0.99} {'loss': 1.9198, 'grad_norm': 1.4397588968276978, 'learning_rate': 3.0864240258163257e-09, 'epoch': 0.99} {'loss': 2.3841, 'grad_norm': 1.712103009223938, 'learning_rate': 3.06488277762057e-09, 'epoch': 0.99} {'loss': 2.285, 'grad_norm': 1.6979339122772217, 'learning_rate': 3.0434169188009456e-09, 'epoch': 0.99} {'loss': 2.396, 'grad_norm': 1.7375727891921997, 'learning_rate': 3.0220264500058216e-09, 'epoch': 0.99} {'loss': 2.2489, 'grad_norm': 1.9484074115753174, 'learning_rate': 3.000711371880516e-09, 'epoch': 0.99} {'loss': 2.3342, 'grad_norm': 1.5225660800933838, 'learning_rate': 2.9794716850689577e-09, 'epoch': 0.99} {'loss': 2.4009, 'grad_norm': 1.4549376964569092, 'learning_rate': 2.958307390212023e-09, 'epoch': 0.99} {'loss': 1.9735, 'grad_norm': 1.3715732097625732, 'learning_rate': 2.937218487949478e-09, 'epoch': 0.99} {'loss': 1.7923, 'grad_norm': 1.5770180225372314, 'learning_rate': 2.916204978917203e-09, 'epoch': 0.99} {'loss': 2.2033, 'grad_norm': 1.5985850095748901, 'learning_rate': 2.8952668637502456e-09, 'epoch': 0.99} {'loss': 2.1518, 'grad_norm': 1.6172913312911987, 'learning_rate': 2.8744041430806003e-09, 'epoch': 0.99} {'loss': 2.3225, 'grad_norm': 1.8555643558502197, 'learning_rate': 2.8536168175380406e-09, 'epoch': 0.99} {'loss': 2.2337, 'grad_norm': 2.198230266571045, 'learning_rate': 2.8329048877503984e-09, 'epoch': 0.99} {'loss': 1.6182, 'grad_norm': 1.6614269018173218, 'learning_rate': 2.812268354343006e-09, 'epoch': 0.99} {'loss': 2.4838, 'grad_norm': 1.7254410982131958, 'learning_rate': 2.7917072179386995e-09, 'epoch': 0.99} {'loss': 2.3942, 'grad_norm': 2.2344582080841064, 'learning_rate': 2.771221479158648e-09, 'epoch': 0.99} {'loss': 2.0936, 'grad_norm': 1.3811805248260498, 'learning_rate': 2.750811138620968e-09, 'epoch': 0.99} {'loss': 2.2665, 'grad_norm': 1.514719009399414, 'learning_rate': 2.730476196942389e-09, 'epoch': 0.99} {'loss': 2.0747, 'grad_norm': 1.372495412826538, 'learning_rate': 2.7102166547363083e-09, 'epoch': 0.99} {'loss': 2.3132, 'grad_norm': 1.7392776012420654, 'learning_rate': 2.6900325126147376e-09, 'epoch': 0.99} {'loss': 2.4535, 'grad_norm': 1.4793139696121216, 'learning_rate': 2.6699237711871885e-09, 'epoch': 0.99} {'loss': 2.2615, 'grad_norm': 1.6152675151824951, 'learning_rate': 2.6498904310606754e-09, 'epoch': 0.99} {'loss': 2.3048, 'grad_norm': 1.7368518114089966, 'learning_rate': 2.6299324928399927e-09, 'epoch': 0.99} {'loss': 2.3099, 'grad_norm': 1.7928179502487183, 'learning_rate': 2.6100499571277137e-09, 'epoch': 0.99} {'loss': 2.4594, 'grad_norm': 1.573644995689392, 'learning_rate': 2.590242824524469e-09, 'epoch': 0.99} {'loss': 2.2275, 'grad_norm': 1.9391443729400635, 'learning_rate': 2.5705110956278368e-09, 'epoch': 0.99} {'loss': 2.5368, 'grad_norm': 1.6947687864303589, 'learning_rate': 2.5508547710337285e-09, 'epoch': 0.99} {'loss': 2.252, 'grad_norm': 1.7124934196472168, 'learning_rate': 2.531273851335836e-09, 'epoch': 0.99} {'loss': 1.6174, 'grad_norm': 1.4652377367019653, 'learning_rate': 2.5117683371250754e-09, 'epoch': 0.99} {'loss': 2.3258, 'grad_norm': 1.6920418739318848, 'learning_rate': 2.492338228990421e-09, 'epoch': 0.99} {'loss': 2.3181, 'grad_norm': 1.7341902256011963, 'learning_rate': 2.4729835275189016e-09, 'epoch': 0.99} {'loss': 2.2735, 'grad_norm': 1.7801499366760254, 'learning_rate': 2.4537042332942186e-09, 'epoch': 0.99} {'loss': 2.1736, 'grad_norm': 1.799004077911377, 'learning_rate': 2.43450034689896e-09, 'epoch': 0.99} {'loss': 2.3536, 'grad_norm': 1.4096412658691406, 'learning_rate': 2.415371868912941e-09, 'epoch': 0.99} {'loss': 2.3831, 'grad_norm': 2.1290316581726074, 'learning_rate': 2.396318799913477e-09, 'epoch': 0.99} {'loss': 2.3809, 'grad_norm': 1.3982888460159302, 'learning_rate': 2.3773411404759416e-09, 'epoch': 0.99} {'loss': 2.1932, 'grad_norm': 1.6809003353118896, 'learning_rate': 2.3584388911734866e-09, 'epoch': 0.99} {'loss': 2.4447, 'grad_norm': 1.6270445585250854, 'learning_rate': 2.33961205257649e-09, 'epoch': 0.99} {'loss': 2.3574, 'grad_norm': 2.115391492843628, 'learning_rate': 2.320860625253385e-09, 'epoch': 0.99} {'loss': 2.0744, 'grad_norm': 1.3713233470916748, 'learning_rate': 2.3021846097706634e-09, 'epoch': 0.99} {'loss': 2.2893, 'grad_norm': 1.6424366235733032, 'learning_rate': 2.283584006692041e-09, 'epoch': 0.99} {'loss': 1.6509, 'grad_norm': 1.7452682256698608, 'learning_rate': 2.2650588165792907e-09, 'epoch': 0.99} {'loss': 2.5382, 'grad_norm': 2.5217034816741943, 'learning_rate': 2.24660903999141e-09, 'epoch': 0.99} {'loss': 2.4283, 'grad_norm': 1.7846585512161255, 'learning_rate': 2.2282346774854524e-09, 'epoch': 0.99} {'loss': 2.1851, 'grad_norm': 1.7662556171417236, 'learning_rate': 2.2099357296165304e-09, 'epoch': 0.99} {'loss': 1.8767, 'grad_norm': 1.9338324069976807, 'learning_rate': 2.191712196936979e-09, 'epoch': 0.99} {'loss': 2.0721, 'grad_norm': 1.6844955682754517, 'learning_rate': 2.1735640799969147e-09, 'epoch': 0.99} {'loss': 2.4736, 'grad_norm': 2.6479101181030273, 'learning_rate': 2.1554913793442322e-09, 'epoch': 0.99} {'loss': 2.0905, 'grad_norm': 1.7573776245117188, 'learning_rate': 2.1374940955248837e-09, 'epoch': 0.99} {'loss': 2.2484, 'grad_norm': 1.6633379459381104, 'learning_rate': 2.119572229082045e-09, 'epoch': 0.99} {'loss': 2.0582, 'grad_norm': 1.6203609704971313, 'learning_rate': 2.1017257805566737e-09, 'epoch': 0.99} {'loss': 2.0471, 'grad_norm': 1.730989694595337, 'learning_rate': 2.0839547504880596e-09, 'epoch': 0.99} {'loss': 1.9818, 'grad_norm': 1.6215624809265137, 'learning_rate': 2.066259139412441e-09, 'epoch': 0.99} {'loss': 2.2433, 'grad_norm': 6.902483940124512, 'learning_rate': 2.0486389478641123e-09, 'epoch': 0.99} {'loss': 2.3154, 'grad_norm': 7.968076705932617, 'learning_rate': 2.031094176375148e-09, 'epoch': 0.99} {'loss': 2.0215, 'grad_norm': 1.4236434698104858, 'learning_rate': 2.0136248254751245e-09, 'epoch': 0.99} {'loss': 2.1025, 'grad_norm': 1.769356369972229, 'learning_rate': 1.996230895691953e-09, 'epoch': 0.99} {'loss': 2.4277, 'grad_norm': 1.7230045795440674, 'learning_rate': 1.9789123875502135e-09, 'epoch': 0.99} {'loss': 2.6058, 'grad_norm': 1.6112539768218994, 'learning_rate': 1.961669301573099e-09, 'epoch': 0.99} {'loss': 2.1829, 'grad_norm': 1.6949337720870972, 'learning_rate': 1.9445016382810268e-09, 'epoch': 0.99} {'loss': 2.2541, 'grad_norm': 1.7362055778503418, 'learning_rate': 1.9274093981927476e-09, 'epoch': 0.99} {'loss': 2.1984, 'grad_norm': 1.6095268726348877, 'learning_rate': 1.910392581823961e-09, 'epoch': 0.99} {'loss': 2.3046, 'grad_norm': 1.6967511177062988, 'learning_rate': 1.893451189688422e-09, 'epoch': 0.99} {'loss': 2.3163, 'grad_norm': 1.67172110080719, 'learning_rate': 1.876585222297944e-09, 'epoch': 0.99} {'loss': 2.0151, 'grad_norm': 1.714707851409912, 'learning_rate': 1.859794680161564e-09, 'epoch': 0.99} {'loss': 2.2602, 'grad_norm': 1.5509932041168213, 'learning_rate': 1.8430795637860988e-09, 'epoch': 0.99} {'loss': 2.0374, 'grad_norm': 1.6825727224349976, 'learning_rate': 1.8264398736764222e-09, 'epoch': 0.99} {'loss': 2.2599, 'grad_norm': 1.6713709831237793, 'learning_rate': 1.8098756103349102e-09, 'epoch': 0.99} {'loss': 2.1656, 'grad_norm': 1.7031112909317017, 'learning_rate': 1.7933867742617183e-09, 'epoch': 0.99} {'loss': 2.3408, 'grad_norm': 1.728029489517212, 'learning_rate': 1.776973365954504e-09, 'epoch': 0.99} {'loss': 2.1909, 'grad_norm': 1.8450061082839966, 'learning_rate': 1.7606353859092595e-09, 'epoch': 0.99} {'loss': 2.2969, 'grad_norm': 1.8457647562026978, 'learning_rate': 1.7443728346186461e-09, 'epoch': 0.99} {'loss': 2.4488, 'grad_norm': 1.6734853982925415, 'learning_rate': 1.7281857125742151e-09, 'epoch': 0.99} {'loss': 2.4136, 'grad_norm': 1.7417007684707642, 'learning_rate': 1.7120740202644647e-09, 'epoch': 0.99} {'loss': 1.9827, 'grad_norm': 2.0422463417053223, 'learning_rate': 1.6960377581756726e-09, 'epoch': 0.99} {'loss': 2.0299, 'grad_norm': 1.626664400100708, 'learning_rate': 1.680076926792451e-09, 'epoch': 0.99} {'loss': 2.2841, 'grad_norm': 1.6433091163635254, 'learning_rate': 1.6641915265963592e-09, 'epoch': 0.99} {'loss': 2.3347, 'grad_norm': 1.7708114385604858, 'learning_rate': 1.6483815580672912e-09, 'epoch': 0.99} {'loss': 2.3516, 'grad_norm': 1.6392344236373901, 'learning_rate': 1.6326470216823653e-09, 'epoch': 0.99} {'loss': 2.3075, 'grad_norm': 1.8372676372528076, 'learning_rate': 1.6169879179167569e-09, 'epoch': 0.99} {'loss': 1.8812, 'grad_norm': 1.8714364767074585, 'learning_rate': 1.6014042472431435e-09, 'epoch': 0.99} {'loss': 2.4891, 'grad_norm': 2.458894729614258, 'learning_rate': 1.585896010131982e-09, 'epoch': 0.99} {'loss': 2.073, 'grad_norm': 1.2716220617294312, 'learning_rate': 1.5704632070517866e-09, 'epoch': 0.99} {'loss': 2.2154, 'grad_norm': 1.3269699811935425, 'learning_rate': 1.5551058384685736e-09, 'epoch': 0.99} {'loss': 2.2559, 'grad_norm': 1.54900324344635, 'learning_rate': 1.5398239048455833e-09, 'epoch': 0.99} {'loss': 2.0305, 'grad_norm': 1.6646348237991333, 'learning_rate': 1.5246174066443908e-09, 'epoch': 0.99} {'loss': 2.2989, 'grad_norm': 1.7097171545028687, 'learning_rate': 1.5094863443243513e-09, 'epoch': 0.99} {'loss': 2.12, 'grad_norm': 1.8453463315963745, 'learning_rate': 1.4944307183420437e-09, 'epoch': 0.99} {'loss': 2.1556, 'grad_norm': 2.062436819076538, 'learning_rate': 1.479450529152382e-09, 'epoch': 0.99} {'loss': 2.1874, 'grad_norm': 1.838022232055664, 'learning_rate': 1.464545777207227e-09, 'epoch': 0.99} {'loss': 2.3419, 'grad_norm': 1.5896321535110474, 'learning_rate': 1.4497164629567738e-09, 'epoch': 0.99} {'loss': 2.3428, 'grad_norm': 1.3685495853424072, 'learning_rate': 1.434962586848998e-09, 'epoch': 0.99} {'loss': 2.294, 'grad_norm': 1.8343349695205688, 'learning_rate': 1.4202841493290987e-09, 'epoch': 0.99} {'loss': 2.3662, 'grad_norm': 1.9075061082839966, 'learning_rate': 1.4056811508400546e-09, 'epoch': 0.99} {'loss': 2.2085, 'grad_norm': 1.7920446395874023, 'learning_rate': 1.39115359182318e-09, 'epoch': 0.99} {'loss': 2.2305, 'grad_norm': 1.724481463432312, 'learning_rate': 1.3767014727170124e-09, 'epoch': 0.99} {'loss': 2.2995, 'grad_norm': 1.547753095626831, 'learning_rate': 1.36232479395787e-09, 'epoch': 0.99} {'loss': 1.2661, 'grad_norm': 1.7573564052581787, 'learning_rate': 1.3480235559795718e-09, 'epoch': 0.99} {'loss': 2.0351, 'grad_norm': 1.6362502574920654, 'learning_rate': 1.3337977592142725e-09, 'epoch': 0.99} {'loss': 2.3223, 'grad_norm': 1.5100542306900024, 'learning_rate': 1.319647404091351e-09, 'epoch': 0.99} {'loss': 2.1802, 'grad_norm': 1.7251989841461182, 'learning_rate': 1.3055724910379653e-09, 'epoch': 0.99} {'loss': 2.2483, 'grad_norm': 2.193146228790283, 'learning_rate': 1.2915730204793308e-09, 'epoch': 0.99} {'loss': 1.4255, 'grad_norm': 1.6259320974349976, 'learning_rate': 1.27764899283761e-09, 'epoch': 0.99} {'loss': 2.2833, 'grad_norm': 1.5033924579620361, 'learning_rate': 1.2638004085338551e-09, 'epoch': 0.99} {'loss': 2.1783, 'grad_norm': 1.518433928489685, 'learning_rate': 1.2500272679857872e-09, 'epoch': 0.99} {'loss': 2.5044, 'grad_norm': 1.3858373165130615, 'learning_rate': 1.2363295716094626e-09, 'epoch': 0.99} {'loss': 2.4614, 'grad_norm': 1.7528952360153198, 'learning_rate': 1.2227073198181616e-09, 'epoch': 0.99} {'loss': 2.3347, 'grad_norm': 1.5589898824691772, 'learning_rate': 1.2091605130234996e-09, 'epoch': 0.99} {'loss': 2.2717, 'grad_norm': 1.7209852933883667, 'learning_rate': 1.1956891516340386e-09, 'epoch': 0.99} {'loss': 2.1144, 'grad_norm': 1.6247833967208862, 'learning_rate': 1.1822932360572304e-09, 'epoch': 0.99} {'loss': 2.2426, 'grad_norm': 2.5994763374328613, 'learning_rate': 1.1689727666969186e-09, 'epoch': 0.99} {'loss': 2.0059, 'grad_norm': 2.1978132724761963, 'learning_rate': 1.1557277439555592e-09, 'epoch': 0.99} {'loss': 1.927, 'grad_norm': 1.4918545484542847, 'learning_rate': 1.1425581682328324e-09, 'epoch': 0.99} {'loss': 1.949, 'grad_norm': 1.692618727684021, 'learning_rate': 1.1294640399267531e-09, 'epoch': 0.99} {'loss': 2.4494, 'grad_norm': 1.7048016786575317, 'learning_rate': 1.1164453594322832e-09, 'epoch': 0.99} {'loss': 2.013, 'grad_norm': 1.4329441785812378, 'learning_rate': 1.1035021271429969e-09, 'epoch': 0.99} {'loss': 2.346, 'grad_norm': 1.82826828956604, 'learning_rate': 1.0906343434488598e-09, 'epoch': 0.99} {'loss': 2.1197, 'grad_norm': 1.3847476243972778, 'learning_rate': 1.0778420087392826e-09, 'epoch': 0.99} {'loss': 2.254, 'grad_norm': 1.8296637535095215, 'learning_rate': 1.0651251233997905e-09, 'epoch': 0.99} {'loss': 2.0946, 'grad_norm': 1.5653115510940552, 'learning_rate': 1.052483687814798e-09, 'epoch': 0.99} {'loss': 2.3858, 'grad_norm': 2.0899975299835205, 'learning_rate': 1.039917702365667e-09, 'epoch': 0.99} {'loss': 2.1969, 'grad_norm': 1.814491629600525, 'learning_rate': 1.0274271674320935e-09, 'epoch': 0.99} {'loss': 1.5037, 'grad_norm': 1.704851746559143, 'learning_rate': 1.0150120833909981e-09, 'epoch': 0.99} {'loss': 2.1778, 'grad_norm': 1.6151931285858154, 'learning_rate': 1.002672450617359e-09, 'epoch': 0.99} {'loss': 2.2164, 'grad_norm': 1.8671033382415771, 'learning_rate': 9.90408269483656e-10, 'epoch': 0.99} {'loss': 2.6414, 'grad_norm': 1.6027071475982666, 'learning_rate': 9.78219540360148e-10, 'epoch': 0.99} {'loss': 2.2617, 'grad_norm': 1.6708866357803345, 'learning_rate': 9.661062636148744e-10, 'epoch': 0.99} {'loss': 2.2565, 'grad_norm': 1.4733881950378418, 'learning_rate': 9.54068439613931e-10, 'epoch': 0.99} {'loss': 2.1077, 'grad_norm': 2.0474982261657715, 'learning_rate': 9.421060687200834e-10, 'epoch': 0.99} {'loss': 2.4386, 'grad_norm': 1.705777883529663, 'learning_rate': 9.302191512949866e-10, 'epoch': 0.99} {'loss': 2.2082, 'grad_norm': 1.9731272459030151, 'learning_rate': 9.184076876972426e-10, 'epoch': 0.99} {'loss': 2.2515, 'grad_norm': 1.5774787664413452, 'learning_rate': 9.066716782837881e-10, 'epoch': 0.99} {'loss': 2.2031, 'grad_norm': 1.6211389303207397, 'learning_rate': 8.950111234087843e-10, 'epoch': 0.99} {'loss': 2.2367, 'grad_norm': 1.7858824729919434, 'learning_rate': 8.834260234244496e-10, 'epoch': 0.99} {'loss': 2.2309, 'grad_norm': 1.620485782623291, 'learning_rate': 8.719163786802265e-10, 'epoch': 0.99} {'loss': 2.1202, 'grad_norm': 1.725762963294983, 'learning_rate': 8.6048218952417e-10, 'epoch': 0.99} {'loss': 2.1273, 'grad_norm': 1.4721026420593262, 'learning_rate': 8.491234563010042e-10, 'epoch': 0.99} {'loss': 2.2143, 'grad_norm': 1.3904820680618286, 'learning_rate': 8.378401793537883e-10, 'epoch': 0.99} {'loss': 2.1304, 'grad_norm': 1.6996067762374878, 'learning_rate': 8.266323590233605e-10, 'epoch': 0.99} {'loss': 2.2305, 'grad_norm': 1.565988540649414, 'learning_rate': 8.154999956480614e-10, 'epoch': 0.99} {'loss': 2.183, 'grad_norm': 1.8442386388778687, 'learning_rate': 8.044430895637334e-10, 'epoch': 0.99} {'loss': 2.2669, 'grad_norm': 1.7992132902145386, 'learning_rate': 7.934616411048313e-10, 'epoch': 0.99} {'loss': 2.284, 'grad_norm': 1.804750680923462, 'learning_rate': 7.825556506022014e-10, 'epoch': 0.99} {'loss': 2.1131, 'grad_norm': 1.7365376949310303, 'learning_rate': 7.717251183858576e-10, 'epoch': 0.99} {'loss': 2.2235, 'grad_norm': 1.529360055923462, 'learning_rate': 7.609700447822055e-10, 'epoch': 0.99} {'loss': 2.4738, 'grad_norm': 1.7935887575149536, 'learning_rate': 7.502904301159853e-10, 'epoch': 0.99} {'loss': 2.3471, 'grad_norm': 1.8233946561813354, 'learning_rate': 7.396862747099942e-10, 'epoch': 0.99} {'loss': 2.2355, 'grad_norm': 1.7006194591522217, 'learning_rate': 7.291575788842542e-10, 'epoch': 0.99} {'loss': 2.2514, 'grad_norm': 1.7859073877334595, 'learning_rate': 7.187043429565665e-10, 'epoch': 0.99} {'loss': 2.385, 'grad_norm': 1.8537561893463135, 'learning_rate': 7.083265672427897e-10, 'epoch': 0.99} {'loss': 2.269, 'grad_norm': 1.7445396184921265, 'learning_rate': 6.980242520560066e-10, 'epoch': 0.99} {'loss': 1.8961, 'grad_norm': 1.727765440940857, 'learning_rate': 6.877973977073571e-10, 'epoch': 0.99} {'loss': 2.1928, 'grad_norm': 1.515010118484497, 'learning_rate': 6.776460045054833e-10, 'epoch': 0.99} {'loss': 2.1138, 'grad_norm': 1.5670775175094604, 'learning_rate': 6.675700727570844e-10, 'epoch': 0.99} {'loss': 2.1321, 'grad_norm': 1.789539098739624, 'learning_rate': 6.57569602766639e-10, 'epoch': 0.99} {'loss': 2.0506, 'grad_norm': 1.7536935806274414, 'learning_rate': 6.476445948352949e-10, 'epoch': 0.99} {'loss': 2.2556, 'grad_norm': 1.965190052986145, 'learning_rate': 6.377950492633677e-10, 'epoch': 0.99} {'loss': 2.228, 'grad_norm': 1.530452013015747, 'learning_rate': 6.280209663481196e-10, 'epoch': 0.99} {'loss': 2.0986, 'grad_norm': 1.9025835990905762, 'learning_rate': 6.183223463845922e-10, 'epoch': 0.99} {'loss': 2.2864, 'grad_norm': 1.5678536891937256, 'learning_rate': 6.08699189665607e-10, 'epoch': 0.99} {'loss': 2.3745, 'grad_norm': 1.5261718034744263, 'learning_rate': 5.991514964814871e-10, 'epoch': 0.99} {'loss': 2.3823, 'grad_norm': 1.4872972965240479, 'learning_rate': 5.896792671208906e-10, 'epoch': 0.99} {'loss': 2.1786, 'grad_norm': 1.580703854560852, 'learning_rate': 5.802825018697001e-10, 'epoch': 0.99} {'loss': 1.8823, 'grad_norm': 1.426193356513977, 'learning_rate': 5.709612010115773e-10, 'epoch': 0.99} {'loss': 2.0474, 'grad_norm': 1.6019741296768188, 'learning_rate': 5.617153648279638e-10, 'epoch': 0.99} {'loss': 2.3151, 'grad_norm': 1.492617130279541, 'learning_rate': 5.525449935980809e-10, 'epoch': 0.99} {'loss': 2.3941, 'grad_norm': 1.9972233772277832, 'learning_rate': 5.434500875986515e-10, 'epoch': 0.99} {'loss': 2.5477, 'grad_norm': 1.4666904211044312, 'learning_rate': 5.344306471044558e-10, 'epoch': 0.99} {'loss': 2.2821, 'grad_norm': 1.5122320652008057, 'learning_rate': 5.25486672387776e-10, 'epoch': 0.99} {'loss': 2.2213, 'grad_norm': 1.7020210027694702, 'learning_rate': 5.166181637183965e-10, 'epoch': 0.99} {'loss': 2.3712, 'grad_norm': 1.6982520818710327, 'learning_rate': 5.078251213644358e-10, 'epoch': 0.99} {'loss': 2.0504, 'grad_norm': 1.4985371828079224, 'learning_rate': 4.991075455915151e-10, 'epoch': 0.99} {'loss': 2.2535, 'grad_norm': 2.008890390396118, 'learning_rate': 4.90465436662202e-10, 'epoch': 0.99} {'loss': 2.3588, 'grad_norm': 1.9193568229675293, 'learning_rate': 4.818987948379538e-10, 'epoch': 0.99} {'loss': 2.4067, 'grad_norm': 1.5859454870224, 'learning_rate': 4.734076203771754e-10, 'epoch': 0.99} {'loss': 2.2183, 'grad_norm': 1.5566587448120117, 'learning_rate': 4.649919135363279e-10, 'epoch': 0.99} {'loss': 2.2833, 'grad_norm': 1.7398658990859985, 'learning_rate': 4.56651674569375e-10, 'epoch': 0.99} {'loss': 2.3052, 'grad_norm': 1.6365915536880493, 'learning_rate': 4.483869037286148e-10, 'epoch': 0.99} {'loss': 2.1265, 'grad_norm': 1.6932865381240845, 'learning_rate': 4.4019760126301494e-10, 'epoch': 0.99} {'loss': 2.4752, 'grad_norm': 1.7323511838912964, 'learning_rate': 4.320837674198775e-10, 'epoch': 0.99} {'loss': 2.2381, 'grad_norm': 1.7485135793685913, 'learning_rate': 4.2404540244456173e-10, 'epoch': 0.99} {'loss': 2.4672, 'grad_norm': 2.5374093055725098, 'learning_rate': 4.1608250657965143e-10, 'epoch': 1.0} {'loss': 2.3087, 'grad_norm': 1.7158364057540894, 'learning_rate': 4.0819508006523234e-10, 'epoch': 1.0} {'loss': 2.2922, 'grad_norm': 1.6754287481307983, 'learning_rate': 4.003831231397248e-10, 'epoch': 1.0} {'loss': 2.4125, 'grad_norm': 1.7425786256790161, 'learning_rate': 3.926466360390513e-10, 'epoch': 1.0} {'loss': 2.5382, 'grad_norm': 1.581141710281372, 'learning_rate': 3.8498561899663613e-10, 'epoch': 1.0} {'loss': 2.0943, 'grad_norm': 1.5571752786636353, 'learning_rate': 3.774000722439608e-10, 'epoch': 1.0} {'loss': 2.1353, 'grad_norm': 3.5667028427124023, 'learning_rate': 3.6988999601000886e-10, 'epoch': 1.0} {'loss': 2.4457, 'grad_norm': 1.859488844871521, 'learning_rate': 3.6245539052126575e-10, 'epoch': 1.0} {'loss': 2.3893, 'grad_norm': 1.7396385669708252, 'learning_rate': 3.550962560025517e-10, 'epoch': 1.0} {'loss': 2.2303, 'grad_norm': 1.6979429721832275, 'learning_rate': 3.4781259267563374e-10, 'epoch': 1.0} {'loss': 2.1877, 'grad_norm': 1.7754528522491455, 'learning_rate': 3.406044007608911e-10, 'epoch': 1.0} {'loss': 2.2356, 'grad_norm': 1.6631743907928467, 'learning_rate': 3.334716804759275e-10, 'epoch': 1.0} {'loss': 1.444, 'grad_norm': 1.3957428932189941, 'learning_rate': 3.2641443203584865e-10, 'epoch': 1.0} {'loss': 2.3887, 'grad_norm': 1.8730098009109497, 'learning_rate': 3.194326556538174e-10, 'epoch': 1.0} {'loss': 2.1598, 'grad_norm': 1.7653326988220215, 'learning_rate': 3.125263515404986e-10, 'epoch': 1.0} {'loss': 2.3644, 'grad_norm': 1.7859930992126465, 'learning_rate': 3.056955199046141e-10, 'epoch': 1.0} {'loss': 1.8439, 'grad_norm': 1.3148062229156494, 'learning_rate': 2.989401609523879e-10, 'epoch': 1.0} {'loss': 2.2953, 'grad_norm': 1.877532720565796, 'learning_rate': 2.9226027488782337e-10, 'epoch': 1.0} {'loss': 2.4223, 'grad_norm': 1.9914095401763916, 'learning_rate': 2.856558619124261e-10, 'epoch': 1.0} {'loss': 2.1864, 'grad_norm': 1.2815219163894653, 'learning_rate': 2.7912692222575865e-10, 'epoch': 1.0} {'loss': 2.2539, 'grad_norm': 1.8285611867904663, 'learning_rate': 2.726734560248856e-10, 'epoch': 1.0} {'loss': 1.2905, 'grad_norm': 1.6020715236663818, 'learning_rate': 2.662954635046511e-10, 'epoch': 1.0} {'loss': 2.1649, 'grad_norm': 1.4220489263534546, 'learning_rate': 2.599929448576788e-10, 'epoch': 1.0} {'loss': 2.4614, 'grad_norm': 1.3878614902496338, 'learning_rate': 2.5376590027409444e-10, 'epoch': 1.0} {'loss': 2.3474, 'grad_norm': 1.662135124206543, 'learning_rate': 2.476143299420808e-10, 'epoch': 1.0} {'loss': 2.3216, 'grad_norm': 1.563722848892212, 'learning_rate': 2.4153823404732267e-10, 'epoch': 1.0} {'loss': 1.5372, 'grad_norm': 1.4750593900680542, 'learning_rate': 2.3553761277328446e-10, 'epoch': 1.0} {'loss': 2.4294, 'grad_norm': 1.7199536561965942, 'learning_rate': 2.2961246630121002e-10, 'epoch': 1.0} {'loss': 1.965, 'grad_norm': 1.352290153503418, 'learning_rate': 2.2376279480984532e-10, 'epoch': 1.0} {'loss': 2.165, 'grad_norm': 1.850872278213501, 'learning_rate': 2.179885984759933e-10, 'epoch': 1.0} {'loss': 2.3886, 'grad_norm': 1.8819692134857178, 'learning_rate': 2.1228987747368146e-10, 'epoch': 1.0} {'loss': 2.3558, 'grad_norm': 1.6596671342849731, 'learning_rate': 2.0666663197527192e-10, 'epoch': 1.0} {'loss': 1.572, 'grad_norm': 1.7443734407424927, 'learning_rate': 2.0111886215035124e-10, 'epoch': 1.0} {'loss': 2.1139, 'grad_norm': 1.5789469480514526, 'learning_rate': 1.9564656816656313e-10, 'epoch': 1.0} {'loss': 2.1554, 'grad_norm': 1.7782388925552368, 'learning_rate': 1.9024975018905323e-10, 'epoch': 1.0} {'loss': 2.0545, 'grad_norm': 1.3730130195617676, 'learning_rate': 1.8492840838074678e-10, 'epoch': 1.0} {'loss': 2.0052, 'grad_norm': 1.6458171606063843, 'learning_rate': 1.7968254290234853e-10, 'epoch': 1.0} {'loss': 2.1947, 'grad_norm': 1.6583738327026367, 'learning_rate': 1.7451215391234288e-10, 'epoch': 1.0} {'loss': 2.3644, 'grad_norm': 1.45762038230896, 'learning_rate': 1.6941724156671612e-10, 'epoch': 1.0} {'loss': 2.1831, 'grad_norm': 3.210908889770508, 'learning_rate': 1.6439780601923416e-10, 'epoch': 1.0} {'loss': 1.8694, 'grad_norm': 1.5096186399459839, 'learning_rate': 1.5945384742172e-10, 'epoch': 1.0} {'loss': 2.2572, 'grad_norm': 1.799891471862793, 'learning_rate': 1.5458536592322105e-10, 'epoch': 1.0} {'loss': 2.1535, 'grad_norm': 1.616823434829712, 'learning_rate': 1.4979236167084187e-10, 'epoch': 1.0} {'loss': 2.0998, 'grad_norm': 1.548783302307129, 'learning_rate': 1.4507483480891148e-10, 'epoch': 1.0} {'loss': 2.1039, 'grad_norm': 1.5635944604873657, 'learning_rate': 1.404327854803711e-10, 'epoch': 1.0} {'loss': 1.194, 'grad_norm': 2.728353261947632, 'learning_rate': 1.3586621382538635e-10, 'epoch': 1.0} {'loss': 2.3974, 'grad_norm': 2.4405665397644043, 'learning_rate': 1.3137511998134733e-10, 'epoch': 1.0} {'loss': 2.1666, 'grad_norm': 1.8118901252746582, 'learning_rate': 1.269595040842564e-10, 'epoch': 1.0} {'loss': 2.0258, 'grad_norm': 1.9379208087921143, 'learning_rate': 1.2261936626734027e-10, 'epoch': 1.0} {'loss': 2.2698, 'grad_norm': 1.6783487796783447, 'learning_rate': 1.1835470666160532e-10, 'epoch': 1.0} {'loss': 2.2703, 'grad_norm': 1.7455772161483765, 'learning_rate': 1.1416552539583736e-10, 'epoch': 1.0} {'loss': 2.3127, 'grad_norm': 1.711962342262268, 'learning_rate': 1.1005182259660185e-10, 'epoch': 1.0} {'loss': 2.2949, 'grad_norm': 1.7484252452850342, 'learning_rate': 1.0601359838768866e-10, 'epoch': 1.0} {'loss': 2.2521, 'grad_norm': 1.7760496139526367, 'learning_rate': 1.0205085289149985e-10, 'epoch': 1.0} {'loss': 2.4395, 'grad_norm': 1.7961876392364502, 'learning_rate': 9.816358622766198e-11, 'epoch': 1.0} {'loss': 2.2788, 'grad_norm': 1.6374882459640503, 'learning_rate': 9.435179851330356e-11, 'epoch': 1.0} {'loss': 2.2596, 'grad_norm': 1.5396138429641724, 'learning_rate': 9.061548986361023e-11, 'epoch': 1.0} {'loss': 1.9267, 'grad_norm': 1.8231278657913208, 'learning_rate': 8.69546603915472e-11, 'epoch': 1.0} {'loss': 2.0231, 'grad_norm': 3.4997732639312744, 'learning_rate': 8.33693102073041e-11, 'epoch': 1.0} {'loss': 2.1972, 'grad_norm': 1.8388689756393433, 'learning_rate': 7.985943941940522e-11, 'epoch': 1.0} {'loss': 2.3769, 'grad_norm': 1.6827707290649414, 'learning_rate': 7.642504813387685e-11, 'epoch': 1.0} {'loss': 2.2935, 'grad_norm': 1.6709591150283813, 'learning_rate': 7.306613645396977e-11, 'epoch': 1.0} {'loss': 1.8152, 'grad_norm': 1.4865272045135498, 'learning_rate': 6.978270448154689e-11, 'epoch': 1.0} {'loss': 2.2637, 'grad_norm': 1.5489674806594849, 'learning_rate': 6.657475231569565e-11, 'epoch': 1.0} {'loss': 2.4, 'grad_norm': 1.5420461893081665, 'learning_rate': 6.344228005300545e-11, 'epoch': 1.0} {'loss': 2.2527, 'grad_norm': 1.6574821472167969, 'learning_rate': 6.038528778840035e-11, 'epoch': 1.0} {'loss': 2.1309, 'grad_norm': 1.4316952228546143, 'learning_rate': 5.740377561402888e-11, 'epoch': 1.0} {'loss': 2.401, 'grad_norm': 1.6817224025726318, 'learning_rate': 5.4497743619819075e-11, 'epoch': 1.0} {'loss': 2.2778, 'grad_norm': 2.0418622493743896, 'learning_rate': 5.166719189347857e-11, 'epoch': 1.0} {'loss': 2.1669, 'grad_norm': 1.7114332914352417, 'learning_rate': 4.8912120520772097e-11, 'epoch': 1.0} {'loss': 2.0168, 'grad_norm': 1.5564912557601929, 'learning_rate': 4.623252958468882e-11, 'epoch': 1.0} {'loss': 2.153, 'grad_norm': 1.6138333082199097, 'learning_rate': 4.362841916599747e-11, 'epoch': 1.0} {'loss': 2.1504, 'grad_norm': 1.7963799238204956, 'learning_rate': 4.1099789343246324e-11, 'epoch': 1.0} {'loss': 2.3367, 'grad_norm': 1.810329794883728, 'learning_rate': 3.8646640193318316e-11, 'epoch': 1.0} {'loss': 2.394, 'grad_norm': 1.637689232826233, 'learning_rate': 3.6268971790043294e-11, 'epoch': 1.0} {'loss': 2.1309, 'grad_norm': 1.817311406135559, 'learning_rate': 3.3966784204753075e-11, 'epoch': 1.0} {'loss': 1.9908, 'grad_norm': 1.641890287399292, 'learning_rate': 3.174007750766928e-11, 'epoch': 1.0} {'loss': 1.9726, 'grad_norm': 1.3618379831314087, 'learning_rate': 2.9588851765405266e-11, 'epoch': 1.0} {'loss': 1.6791, 'grad_norm': 1.9464654922485352, 'learning_rate': 2.7513107043464216e-11, 'epoch': 1.0} {'loss': 2.2528, 'grad_norm': 18.894798278808594, 'learning_rate': 2.5512843404018606e-11, 'epoch': 1.0} {'loss': 1.8845, 'grad_norm': 1.5971311330795288, 'learning_rate': 2.3588060907575593e-11, 'epoch': 1.0} {'loss': 2.2306, 'grad_norm': 1.8258086442947388, 'learning_rate': 2.1738759612699444e-11, 'epoch': 1.0} {'loss': 2.271, 'grad_norm': 2.2420032024383545, 'learning_rate': 1.9964939574623753e-11, 'epoch': 1.0} {'loss': 2.3123, 'grad_norm': 1.6532375812530518, 'learning_rate': 1.826660084719434e-11, 'epoch': 1.0} {'loss': 2.4192, 'grad_norm': 1.6795446872711182, 'learning_rate': 1.6643743481759013e-11, 'epoch': 1.0} {'loss': 2.502, 'grad_norm': 1.6544067859649658, 'learning_rate': 1.509636752716759e-11, 'epoch': 1.0} {'loss': 1.8362, 'grad_norm': 1.3617478609085083, 'learning_rate': 1.362447303032699e-11, 'epoch': 1.0} {'loss': 2.2098, 'grad_norm': 1.5537595748901367, 'learning_rate': 1.2228060035368583e-11, 'epoch': 1.0} {'loss': 2.1715, 'grad_norm': 1.868287205696106, 'learning_rate': 1.0907128584480842e-11, 'epoch': 1.0} {'loss': 2.1123, 'grad_norm': 7.813989639282227, 'learning_rate': 9.66167871790935e-12, 'epoch': 1.0} {'loss': 2.0405, 'grad_norm': 1.7221657037734985, 'learning_rate': 8.491710473124138e-12, 'epoch': 1.0} {'loss': 2.0563, 'grad_norm': 1.7284594774246216, 'learning_rate': 7.397223885097227e-12, 'epoch': 1.0} {'loss': 2.3567, 'grad_norm': 1.775658130645752, 'learning_rate': 6.3782189874128654e-12, 'epoch': 1.0} {'loss': 2.0505, 'grad_norm': 1.6675034761428833, 'learning_rate': 5.434695810324631e-12, 'epoch': 1.0} {'train_runtime': 406656.0741, 'train_samples_per_second': 0.046, 'train_steps_per_second': 0.046, 'train_loss': 2.2396400040695084, 'epoch': 1.0}