nhi_heldout-speaker-exp_ERG513_mms-1b-nhi-adapterft

This model is a fine-tuned version of facebook/mms-1b-all on the audiofolder dataset. It achieves the following results on the evaluation set:

Loss: 0.5175
Wer: 0.4501
Cer: 0.1170

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.001
train_batch_size: 16
eval_batch_size: 32
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 100
num_epochs: 100
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Wer	Cer
1.0957	1.5267	200	0.5731	0.5762	0.1479
0.8701	3.0534	400	0.4845	0.52	0.1291
0.7821	4.5802	600	0.5054	0.5208	0.1310
0.7153	6.1069	800	0.4817	0.5086	0.1291
0.6852	7.6336	1000	0.4694	0.4853	0.1235
0.6552	9.1603	1200	0.4521	0.4787	0.1207
0.6257	10.6870	1400	0.4525	0.4734	0.1182
0.6497	12.2137	1600	0.4622	0.4715	0.1200
0.594	13.7405	1800	0.4412	0.4673	0.1178
0.5867	15.2672	2000	0.4599	0.4734	0.1221
0.5646	16.7939	2200	0.4545	0.4776	0.1208
0.5537	18.3206	2400	0.4279	0.4636	0.1158
0.548	19.8473	2600	0.4570	0.4731	0.1190
0.5116	21.3740	2800	0.4562	0.4758	0.1200
0.5098	22.9008	3000	0.4432	0.4699	0.1200
0.4814	24.4275	3200	0.4426	0.4662	0.1171
0.5041	25.9542	3400	0.4434	0.4630	0.1179
0.4514	27.4809	3600	0.4475	0.4577	0.1180
0.4677	29.0076	3800	0.4632	0.4623	0.1208
0.4644	30.5344	4000	0.4630	0.4670	0.1230
0.4682	32.0611	4200	0.4570	0.4570	0.1164
0.4469	33.5878	4400	0.4636	0.4625	0.1190
0.4338	35.1145	4600	0.4612	0.4641	0.1203
0.4288	36.6412	4800	0.4486	0.4448	0.1158
0.4282	38.1679	5000	0.4652	0.4623	0.1184
0.4118	39.6947	5200	0.4561	0.4522	0.1151
0.4247	41.2214	5400	0.4638	0.4630	0.1178
0.3904	42.7481	5600	0.4648	0.4585	0.1169
0.3936	44.2748	5800	0.4752	0.4707	0.1220
0.3738	45.8015	6000	0.4774	0.4633	0.1189
0.3796	47.3282	6200	0.4664	0.4453	0.1135
0.3582	48.8550	6400	0.4672	0.4511	0.1141
0.3639	50.3817	6600	0.4698	0.4461	0.1144
0.3675	51.9084	6800	0.4732	0.4607	0.1182
0.3376	53.4351	7000	0.4615	0.4387	0.1129
0.3422	54.9618	7200	0.4700	0.4416	0.1156
0.339	56.4885	7400	0.4668	0.4495	0.1140
0.3414	58.0153	7600	0.4864	0.4548	0.1175
0.3265	59.5420	7800	0.4934	0.4623	0.1196
0.3239	61.0687	8000	0.4799	0.4469	0.1154
0.3121	62.5954	8200	0.4899	0.4498	0.1178
0.3294	64.1221	8400	0.4845	0.4577	0.1174
0.3026	65.6489	8600	0.4892	0.4472	0.1158
0.3029	67.1756	8800	0.4817	0.4466	0.1151
0.2874	68.7023	9000	0.4873	0.4567	0.1171
0.2842	70.2290	9200	0.5043	0.4509	0.1181
0.293	71.7557	9400	0.4934	0.4498	0.1149
0.2647	73.2824	9600	0.5036	0.4485	0.1171
0.2818	74.8092	9800	0.5119	0.4564	0.1201
0.2805	76.3359	10000	0.5022	0.4522	0.1164
0.2758	77.8626	10200	0.5001	0.4498	0.1164
0.2599	79.3893	10400	0.5056	0.4485	0.1176
0.264	80.9160	10600	0.5161	0.4548	0.1194
0.2537	82.4427	10800	0.5161	0.4503	0.1176
0.257	83.9695	11000	0.5145	0.4485	0.1164
0.2527	85.4962	11200	0.5155	0.4525	0.1175
0.2524	87.0229	11400	0.5301	0.4503	0.1169
0.2376	88.5496	11600	0.5232	0.4538	0.1182
0.2431	90.0763	11800	0.5172	0.4509	0.1182
0.2452	91.6031	12000	0.5085	0.4485	0.1162
0.2389	93.1298	12200	0.5173	0.4501	0.1173
0.2382	94.6565	12400	0.5149	0.4495	0.1176
0.2318	96.1832	12600	0.5208	0.4493	0.1175
0.2257	97.7099	12800	0.5200	0.4495	0.1165
0.2319	99.2366	13000	0.5175	0.4501	0.1170

Framework versions

Transformers 4.41.2
Pytorch 2.4.0
Datasets 3.2.0
Tokenizers 0.19.1

Lguyogiro
/

nhi_heldout-speaker-exp_ERG513_mms-1b-nhi-adapterft

nhi_heldout-speaker-exp_ERG513_mms-1b-nhi-adapterft

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for Lguyogiro/nhi_heldout-speaker-exp_ERG513_mms-1b-nhi-adapterft

Evaluation results