关于粤语的wer指标

#2
by lq0104 - opened

multilingual test set的wer指标,粤语的和其他语音差这么多(粤语:34.111),其他语言基本都是个位数,我看到技术报告里写到wer的测试用的是“- WER (字错率)计算中,使用Whisper-large-v3或paraformer-zm进行转录;”,说明这个指标跟asr模型的识别性能也是相关的,所以我怀疑tts粤语指标差可能是asr模型的问题。
但是我看了openai-whisper-largev3的指标:https://github.com/openai/whisper ,粤语在Common Voice 15的指标Cantonese(CN)是10.9,Cantonese(HK)是15.9,Mandarin的指标是12.8,Vietnamese的指标更达到了39.8,所以光看largev3不同语言的识别能力也看不出什么规律,
所以我想问的是:为什么粤语的指标相对差了这么多呢?

MiniMax org

计算粤语WER时,我们直接将识别结果跟原始文本计算了WER,没有统一简繁体再计算WER。统一简繁体之后的WER为 MiniMax-Speech: 20.795,Elevenlabs multilingual_v2: 40.585,我们后续将修正这个结果,感谢您的提问。

感谢您的回复,统一简繁体确实对wer指标影响很大。
但我还有一个疑问是,为什么别的语言的wer值都是个位数,以Vietnamese为例,minimax的wer为0.88,按理说越南语和粤语在发音上有一定的近似之处,当然它们的文本和token表征完全不一样,但是最终指标差了这么多感觉也很奇怪。看到你们的链接:https://huggingface.co/datasets/MiniMaxAI/TTS-Multilingual-Test-Set 中提到,“To assess the multilingual zero-shot voice cloning capabilities of TTS models, we have constructed a test set encompassing 24 languages. This dataset provides both audio samples for voice cloning and corresponding test texts. Specifically, the test set for each language includes: 100 distinct test sentences.”,会不会是你们评估粤语的测试脚本(也就是这100个不同的测试句子)更困难?还是说有其他原因呢

Sign up or log in to comment