m2m100_418M_de_informal

This model is a fine-tuned version of facebook/m2m100_418M on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 32
eval_batch_size: 8
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 3.0

Training Loss	Epoch	Step	Validation Loss	Bleu
4.0838	0.3745	500	0.5202	27.7900
0.5145	0.7491	1000	0.4506	30.4858
0.4699	1.1236	1500	0.4375	31.3207
0.434	1.4981	2000	0.4323	31.7593
0.4276	1.8727	2500	0.4255	32.3827
0.4028	2.2472	3000	0.4245	32.3672
0.3948	2.6217	3500	0.4211	32.6619
0.3895	2.9963	4000	0.4198	32.7587