utter-project
/

mHuBERT-147

Feature Extraction

Model card Files Files and versions Community

mzboito commited on Mar 14, 2024

Commit

9c1b2c8

·

verified ·

1 Parent(s): c3109e0

Update README.md

Files changed (1) hide show

README.md +32 -1

README.md CHANGED Viewed

@@ -125,6 +125,37 @@ language:
 ## mHuBERT-147 models
-Languages present not indexed by Huggingface: Asturian (ast), Basaa (bas), Cebuano (ceb), Central Kurdish/Sorani (ckb), Hakha Chin (cnh), Hawaiian (haw), Upper Sorbian (hsb) Kabyle (kab), Moksha (mdf), Meadow Mari (mhr), Hill Mari (mrj), Erzya (myv), Taiwanese Hokkien (nan-tw), Sursilvan (rm-sursilv), Vallader (rm-vallader), Sakha (sah), Santali (sat), Scots (sco), Saraiki (skr), Tigre (tig), Tok Pisin (tpi), Akwapen Twi (tw-akuapem), Asante Twi (tw-asante), Votic (vot), Waray (war), Cantonese (yue),

 ## mHuBERT-147 models
+mHuBERT-147 are multilingual general-purpose HuBERT models trained on 90K hours of open-license data in 147 languages.
+This repository contains:
+* Fairseq checkpoint (original);
+* HuggingFace checkpoint;
+* Faiss index for continuous pre-training (OPQ16_64,IVF1000_HNSW32,PQ16x4fsr).
+# Citing
+```
+[PAPER GOES HERE]
+'''
+# Other information
+**Languages present not indexed by Huggingface:** Asturian (ast), Basaa (bas), Cebuano (ceb), Central Kurdish/Sorani (ckb), Hakha Chin (cnh), Hawaiian (haw), Upper Sorbian (hsb) Kabyle (kab), Moksha (mdf), Meadow Mari (mhr), Hill Mari (mrj), Erzya (myv), Taiwanese Hokkien (nan-tw), Sursilvan (rm-sursilv), Vallader (rm-vallader), Sakha (sah), Santali (sat), Scots (sco), Saraiki (skr), Tigre (tig), Tok Pisin (tpi), Akwapen Twi (tw-akuapem), Asante Twi (tw-asante), Votic (vot), Waray (war), Cantonese (yue).
+**Datasets:**
+* Aishell
+* BibleTTS
+* ClovaCall
+* CommonVoice v11
+* Google TTS data
+* IISc-MILE
+* JVS
+* Kokoro
+* Kosp2e
+* Media Speech
+* Multilingual LibriSpeech
+* Samrómur
+* THCHS-30 and THUYG-20
+* VoxLingua107
+* VoxPopuli