utter-project
/

mHuBERT-147

@@ -123,21 +123,30 @@ language:
 - zh
 ---
-This repository contains the files for the 3rd iteration, base architecture, multilingual HuBERT model.
-## mHuBERT-147 models
-mHuBERT-147 are compact and competitive multilingual HuBERT models trained on 90K hours of open-license data in 147 languages.
-This repository contains:
 * Fairseq checkpoint (original);
 * HuggingFace checkpoint;
 * Faiss index for continuous pre-training (OPQ16_64,IVF1000_HNSW32,PQ16x4fsr).
-# Additional Information
 **Manifest list:** https://huggingface.co/utter-project/mHuBERT-147-base-3rd-iter/tree/main/manifest
@@ -147,10 +156,12 @@ Please note that since training, there were CommonVoice removal requests. This m
 **Scripts for pre-processing/faiss clustering:** https://github.com/utter-project/mHuBERT-147-scripts
-**Languages present not indexed by Huggingface:** Asturian (ast), Basaa (bas), Cebuano (ceb), Central Kurdish/Sorani (ckb), Hakha Chin (cnh), Hawaiian (haw), Upper Sorbian (hsb) Kabyle (kab), Moksha (mdf), Meadow Mari (mhr), Hill Mari (mrj), Erzya (myv), Taiwanese Hokkien (nan-tw), Sursilvan (rm-sursilv), Vallader (rm-vallader), Sakha (sah), Santali (sat), Scots (sco), Saraiki (skr), Tigre (tig), Tok Pisin (tpi), Akwapen Twi (tw-akuapem), Asante Twi (tw-asante), Votic (vot), Waray (war), Cantonese (yue).
-# Datasets Included
 For ASR/ST/TTS datasets, only train set is used.
 * [Aishell](https://www.openslr.org/33/) and [AISHELL-3](https://www.openslr.org/93/)
@@ -169,8 +180,10 @@ For ASR/ST/TTS datasets, only train set is used.
 * [VoxLingua107](https://bark.phon.ioc.ee/voxlingua107/)
 * [VoxPopuli](https://github.com/facebookresearch/voxpopuli/)
-# Citing
 ```
 @inproceedings{boito2024mhubert,
@@ -181,9 +194,6 @@ booktitle={Interspeech 2024},
 }
 ```
-# Funding
 <img src="https://cdn-uploads.huggingface.co/production/uploads/62262e19d36494a6f743a28d/HbzC1C-uHe25ewTy2wyoK.png" width=7% height=7%>
 This is an output of the European Project UTTER (Unified Transcription and Translation for Extended Reality) funded by European Union’s Horizon Europe Research and Innovation programme under grant agreement number 101070631.

 - zh
 ---
+# Table of Contents:
+1. [Summary](https://huggingface.co/utter-project/mHuBERT-147#mhubert-147-models)
+2. [Training Data and Code](https://huggingface.co/utter-project/mHuBERT-147#Training)
+3. [ML-SUPERB Scores]()
+4. [Languages and Datasets](https://huggingface.co/utter-project/mHuBERT-147#Languages-and-Datasets)
+5. [Citing and Funding Information](https://huggingface.co/utter-project/mHuBERT-147#Citing-and-Funding-Information)
+# mHuBERT-147 models
+mHuBERT-147 are compact and competitive multilingual HuBERT models trained on 90K hours of open-license data in 147 languages.
+Different from *traditional* HuBERTs, mHuBERT-147 models are trained using faiss IVF discrete speech units.
+Training employs a two-level language, data source up-sampling during training. See more information in our paper.
+**This repository contains:**
 * Fairseq checkpoint (original);
 * HuggingFace checkpoint;
 * Faiss index for continuous pre-training (OPQ16_64,IVF1000_HNSW32,PQ16x4fsr).
+**Model details:** 3rd iteration, base architecture, 147 languages.
+# Training
 **Manifest list:** https://huggingface.co/utter-project/mHuBERT-147-base-3rd-iter/tree/main/manifest
 **Scripts for pre-processing/faiss clustering:** https://github.com/utter-project/mHuBERT-147-scripts
+# ML-SUPERB Scores
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/62262e19d36494a6f743a28d/chXjExnWc3rhhtdsyiU-W.png)
+# Languages and Datasets
 For ASR/ST/TTS datasets, only train set is used.
 * [Aishell](https://www.openslr.org/33/) and [AISHELL-3](https://www.openslr.org/93/)
 * [VoxLingua107](https://bark.phon.ioc.ee/voxlingua107/)
 * [VoxPopuli](https://github.com/facebookresearch/voxpopuli/)
+**Languages present not indexed by Huggingface:** Asturian (ast), Basaa (bas), Cebuano (ceb), Central Kurdish/Sorani (ckb), Hakha Chin (cnh), Hawaiian (haw), Upper Sorbian (hsb) Kabyle (kab), Moksha (mdf), Meadow Mari (mhr), Hill Mari (mrj), Erzya (myv), Taiwanese Hokkien (nan-tw), Sursilvan (rm-sursilv), Vallader (rm-vallader), Sakha (sah), Santali (sat), Scots (sco), Saraiki (skr), Tigre (tig), Tok Pisin (tpi), Akwapen Twi (tw-akuapem), Asante Twi (tw-asante), Votic (vot), Waray (war), Cantonese (yue).
+# Citing and Funding Information
 ```
 @inproceedings{boito2024mhubert,
 }
 ```
 <img src="https://cdn-uploads.huggingface.co/production/uploads/62262e19d36494a6f743a28d/HbzC1C-uHe25ewTy2wyoK.png" width=7% height=7%>
 This is an output of the European Project UTTER (Unified Transcription and Translation for Extended Reality) funded by European Union’s Horizon Europe Research and Innovation programme under grant agreement number 101070631.