hf-seamless-m4t-medium-en-tw-3-ep / special_tokens_map.json
lukmanaj's picture
Upload tokenizer
deda80d verified
{
"additional_special_tokens": [
"<pad>",
"<unk>",
"<s>",
"</s>",
"__ace__",
"__ace_Latn__",
"__acm__",
"__acq__",
"__aeb__",
"__afr__",
"__ajp__",
"__aka__",
"__amh__",
"__apc__",
"__arb__",
"__ars__",
"__ary__",
"__arz__",
"__asm__",
"__ast__",
"__awa__",
"__ayr__",
"__azb__",
"__azj__",
"__bak__",
"__bam__",
"__ban__",
"__bel__",
"__bem__",
"__ben__",
"__bho__",
"__bjn__",
"__bjn_Latn__",
"__bod__",
"__bos__",
"__bug__",
"__bul__",
"__cat__",
"__ceb__",
"__ces__",
"__cjk__",
"__ckb__",
"__crh__",
"__cym__",
"__dan__",
"__deu__",
"__dik__",
"__dyu__",
"__dzo__",
"__ell__",
"__eng__",
"__epo__",
"__est__",
"__eus__",
"__ewe__",
"__fao__",
"__pes__",
"__fij__",
"__fin__",
"__fon__",
"__fra__",
"__fur__",
"__fuv__",
"__gla__",
"__gle__",
"__glg__",
"__grn__",
"__guj__",
"__hat__",
"__hau__",
"__heb__",
"__hin__",
"__hne__",
"__hrv__",
"__hun__",
"__hye__",
"__ibo__",
"__ilo__",
"__ind__",
"__isl__",
"__ita__",
"__jav__",
"__jpn__",
"__kab__",
"__kac__",
"__kam__",
"__kan__",
"__kas__",
"__kas_Deva__",
"__kat__",
"__knc__",
"__knc_Latn__",
"__kaz__",
"__kbp__",
"__kea__",
"__khm__",
"__kik__",
"__kin__",
"__kir__",
"__kmb__",
"__kon__",
"__kor__",
"__kmr__",
"__lao__",
"__lvs__",
"__lij__",
"__lim__",
"__lin__",
"__lit__",
"__lmo__",
"__ltg__",
"__ltz__",
"__lua__",
"__lug__",
"__luo__",
"__lus__",
"__mag__",
"__mai__",
"__mal__",
"__mar__",
"__min__",
"__mkd__",
"__plt__",
"__mlt__",
"__mni__",
"__khk__",
"__mos__",
"__mri__",
"__zsm__",
"__mya__",
"__nld__",
"__nno__",
"__nob__",
"__npi__",
"__nso__",
"__nus__",
"__nya__",
"__oci__",
"__gaz__",
"__ory__",
"__pag__",
"__pan__",
"__pap__",
"__pol__",
"__por__",
"__prs__",
"__pbt__",
"__quy__",
"__ron__",
"__run__",
"__rus__",
"__sag__",
"__san__",
"__sat__",
"__scn__",
"__shn__",
"__sin__",
"__slk__",
"__slv__",
"__smo__",
"__sna__",
"__snd__",
"__som__",
"__sot__",
"__spa__",
"__als__",
"__srd__",
"__srp__",
"__ssw__",
"__sun__",
"__swe__",
"__swh__",
"__szl__",
"__tam__",
"__tat__",
"__tel__",
"__tgk__",
"__tgl__",
"__tha__",
"__tir__",
"__taq__",
"__taq_Tfng__",
"__tpi__",
"__tsn__",
"__tso__",
"__tuk__",
"__tum__",
"__tur__",
"__twi__",
"__tzm__",
"__uig__",
"__ukr__",
"__umb__",
"__urd__",
"__uzn__",
"__vec__",
"__vie__",
"__war__",
"__wol__",
"__xho__",
"__ydd__",
"__yor__",
"__yue__",
"__cmn__",
"__cmn_Hant__",
"__zul__"
],
"bos_token": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"cls_token": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"pad_token": {
"content": "<pad>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"sep_token": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"unk_token": {
"content": "<unk>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
}
}