speecht5_asr_finetune_persian / tokenizer_config.json

Upload processor

f508f2d verified 17 days ago

13.7 kB

	{
	"added_tokens_decoder": {
	"0": {
	"content": "<s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<pad>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "</s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"3": {
	"content": "<unk>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"79": {
	"content": "<mask>",
	"lstrip": true,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"80": {
	"content": "<ctc_blank>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"81": {
	"content": "ذ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"82": {
	"content": "ی",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"83": {
	"content": "ł",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"84": {
	"content": "ض",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"85": {
	"content": "غ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"86": {
	"content": "\\",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"87": {
	"content": "è",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"88": {
	"content": "ص",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"89": {
	"content": "د",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"90": {
	"content": "ٱ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"91": {
	"content": "’",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"92": {
	"content": "\|",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"93": {
	"content": "ن",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"94": {
	"content": "ک",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"95": {
	"content": "÷",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96": {
	"content": "ع",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"97": {
	"content": "و",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"98": {
	"content": "،",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"99": {
	"content": "ق",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"100": {
	"content": "=",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"101": {
	"content": "ف",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"102": {
	"content": "۸",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"103": {
	"content": "🎵",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"104": {
	"content": "ا",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"105": {
	"content": "خ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"106": {
	"content": "ت",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"107": {
	"content": "",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"108": {
	"content": "۷",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"109": {
	"content": ">",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"110": {
	"content": "۱",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"111": {
	"content": "ć",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"112": {
	"content": "۳",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"113": {
	"content": "چ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"114": {
	"content": "@",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"115": {
	"content": "ئ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"116": {
	"content": "آ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"117": {
	"content": "۵",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"118": {
	"content": "۶",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"119": {
	"content": "♪",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"120": {
	"content": "²",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"121": {
	"content": "ج",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"122": {
	"content": "ه",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"123": {
	"content": "ژ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"124": {
	"content": "ر",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"125": {
	"content": "۲",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"126": {
	"content": "۹",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"127": {
	"content": "😊",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"128": {
	"content": "ط",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"129": {
	"content": "á",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"130": {
	"content": "‪",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"131": {
	"content": "^",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"132": {
	"content": "ظ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"133": {
	"content": "س",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"134": {
	"content": "ﯽ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"135": {
	"content": "إ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"136": {
	"content": "پ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"137": {
	"content": "ز",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"138": {
	"content": "à",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"139": {
	"content": "٫",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"140": {
	"content": "×",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"141": {
	"content": "ب",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"142": {
	"content": "گ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"143": {
	"content": "٪",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"144": {
	"content": "۴",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"145": {
	"content": "ث",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"146": {
	"content": "ل",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"147": {
	"content": "ء",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"148": {
	"content": "ش",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"149": {
	"content": "♫",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"150": {
	"content": "‫",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"151": {
	"content": "م",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"152": {
	"content": "ح",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"153": {
	"content": " ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"154": {
	"content": "۰",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	}
	},
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": false,
	"eos_token": "</s>",
	"extra_special_tokens": {},
	"mask_token": "<mask>",
	"model_max_length": 450,
	"normalize": false,
	"pad_token": "<pad>",
	"processor_class": "SpeechT5Processor",
	"sp_model_kwargs": {},
	"tokenizer_class": "SpeechT5Tokenizer",
	"unk_token": "<unk>"
	}