Namespace(aim_repo=None, aim_run_hash=None, align_suffix=None, alignfile=None, all_gather_list_size=16384, amp=False, amp_batch_retries=2, amp_init_scale=128, amp_scale_window=None, azureml_logging=False, bf16=False, bpe=None, cpu=False, criterion='cross_entropy', dataset_impl='mmap', destdir='data/out_distill/tokenized.en-hi', dict_only=False, empty_cache_freq=0, fp16=False, fp16_init_scale=128, fp16_no_flatten_grads=False, fp16_scale_tolerance=0.0, fp16_scale_window=None, joined_dictionary=False, log_file=None, log_format=None, log_interval=100, lr_scheduler='fixed', memory_efficient_bf16=False, memory_efficient_fp16=False, min_loss_scale=0.0001, model_parallel_size=1, no_progress_bar=False, nwordssrc=-1, nwordstgt=-1, on_cpu_convert_precision=False, only_source=False, optimizer=None, padding_factor=8, plasma_path='/tmp/plasma', profile=False, quantization_config_path=None, reset_logging=False, scoring='bleu', seed=1, simul_type=None, source_lang='en', srcdict=None, suppress_crashes=False, target_lang='hi', task='translation', tensorboard_logdir=None, testpref='data/test-tok', tgtdict=None, threshold_loss_scale=None, thresholdsrc=2, thresholdtgt=2, tokenizer=None, tpu=False, trainpref='data/300k/train-distill-tok', use_plasma_view=False, user_dir=None, validpref='data/val-tok', wandb_project=None, workers=1)
[en] Dictionary: 58936 types
[en] data/300k/train-distill-tok.en: 300000 sents, 5789433 tokens, 1.15% replaced (by <unk>)
[en] Dictionary: 58936 types
[en] data/val-tok.en: 500 sents, 10356 tokens, 11.4% replaced (by <unk>)
[en] Dictionary: 58936 types
[en] data/test-tok.en: 512 sents, 10618 tokens, 10.3% replaced (by <unk>)
[hi] Dictionary: 50016 types
[hi] data/300k/train-distill-tok.hi: 300000 sents, 5911137 tokens, 0.805% replaced (by <unk>)
[hi] Dictionary: 50016 types
[hi] data/val-tok.hi: 500 sents, 12623 tokens, 11.7% replaced (by <unk>)
[hi] Dictionary: 50016 types
[hi] data/test-tok.hi: 512 sents, 12873 tokens, 11.9% replaced (by <unk>)
Wrote preprocessed data to data/out_distill/tokenized.en-hi