iszoke's picture
Upload tokenizer
47cbd45 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "<s>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "</s>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "<unk>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "<pad>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "<mask>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"post_processor": {
"type": "TemplateProcessing",
"single": [
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "</s>",
"type_id": 0
}
}
],
"pair": [
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "</s>",
"type_id": 0
}
},
{
"Sequence": {
"id": "B",
"type_id": 1
}
},
{
"SpecialToken": {
"id": "</s>",
"type_id": 1
}
}
],
"special_tokens": {
"</s>": {
"id": "</s>",
"ids": [
1
],
"tokens": [
"</s>"
]
},
"<s>": {
"id": "<s>",
"ids": [
0
],
"tokens": [
"<s>"
]
}
}
},
"decoder": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "<unk>",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"vocab": {
"<s>": 0,
"</s>": 1,
"<unk>": 2,
"<pad>": 3,
"<mask>": 4,
"!": 5,
"\"": 6,
"#": 7,
"$": 8,
"&": 9,
"'": 10,
"(": 11,
")": 12,
"*": 13,
"+": 14,
",": 15,
"-": 16,
".": 17,
"/": 18,
"0": 19,
"1": 20,
"2": 21,
"3": 22,
"4": 23,
"5": 24,
"6": 25,
"7": 26,
"8": 27,
"9": 28,
":": 29,
";": 30,
"<": 31,
">": 32,
"?": 33,
"A": 34,
"B": 35,
"C": 36,
"D": 37,
"E": 38,
"F": 39,
"G": 40,
"H": 41,
"I": 42,
"J": 43,
"K": 44,
"L": 45,
"M": 46,
"N": 47,
"O": 48,
"P": 49,
"R": 50,
"S": 51,
"T": 52,
"U": 53,
"V": 54,
"W": 55,
"Z": 56,
"[": 57,
"\\": 58,
"]": 59,
"^": 60,
"_": 61,
"a": 62,
"b": 63,
"c": 64,
"d": 65,
"e": 66,
"f": 67,
"g": 68,
"h": 69,
"i": 70,
"j": 71,
"k": 72,
"l": 73,
"m": 74,
"n": 75,
"o": 76,
"p": 77,
"q": 78,
"r": 79,
"s": 80,
"t": 81,
"u": 82,
"v": 83,
"w": 84,
"y": 85,
"z": 86,
"{": 87,
"|": 88,
"}": 89,
"~": 90,
"¡": 91,
"¢": 92,
"£": 93,
"¤": 94,
"¥": 95,
"¦": 96,
"¨": 97,
"©": 98,
"«": 99,
"¬": 100,
"¯": 101,
"°": 102,
"³": 103,
"´": 104,
"¶": 105,
"¹": 106,
"º": 107,
"»": 108,
"¼": 109,
"½": 110,
"¾": 111,
"¿": 112,
"Â": 113,
"Ã": 114,
"Ä": 115,
"Å": 116,
"Ç": 117,
"É": 118,
"Ì": 119,
"á": 120,
"â": 121,
"Ġ": 122,
"Ģ": 123,
"ģ": 124,
"Ĥ": 125,
"ĩ": 126,
"Ī": 127,
"ī": 128,
"Į": 129,
"į": 130,
"İ": 131,
"ı": 132,
"ĵ": 133,
"Ķ": 134,
"ķ": 135,
"ĸ": 136,
"ĺ": 137,
"Ļ": 138,
"ļ": 139,
"Ľ": 140,
"ľ": 141,
"Ŀ": 142,
"ŀ": 143,
"ł": 144,
"Ń": 145,
"Ġt": 146,
"á": 147,
"Ġs": 148,
"Ġp": 149,
"ÃŃ": 150,
"ÅĪ": 151,
"Ġn": 152,
"Å¡": 153,
"Ġa": 154,
"Ġv": 155,
"li": 156,
"Ġd": 157,
"ÅĻ": 158,
"Ġj": 159,
"Ġm": 160,
"Å¥": 161,
"âĢ": 162,
"ak": 163,
"ž": 164,
"Ġb": 165,
"Ġse": 166,
"ch": 167,
"Ġto": 168,
"Äį": 169,
"le": 170,
"la": 171,
"Ġk": 172,
"Äı": 173,
"Ġz": 174,
"ej": 175,
"ou": 176,
"en": 177,
"Ġna": 178,
"ÅĪe": 179,
"Ġpo": 180,
"Ġne": 181,
"ho": 182,
"il": 183,
"Ġdo": 184,
"Ġvo": 185,
"Ġu": 186,
"al": 187,
"ÅĤ": 188,
"ro": 189,
"ÅĪi": 190,
"ra": 191,
"ov": 192,
"Ġtak": 193,
"Ġta": 194,
"st": 195,
"že": 196,
"ĠA": 197,
"ka": 198,
"je": 199,
"ÅĻi": 200,
"ĠâĢ": 201,
"Ġza": 202,
"rá": 203,
"ÅĻe": 204,
"ĠT": 205,
"ú": 206,
"el": 207,
"Ġje": 208,
"é": 209,
"Ġže": 210,
"âĢĻ": 211,
"Ġf": 212,
"Ġh": 213,
"ĠÅ¡": 214,
"ce": 215,
"ĠâĢŀ": 216,
"me": 217,
"âĢľ": 218,
"ku": 219,
"Å¥i": 220,
"Ġst": 221,
"Ġch": 222,
"de": 223,
"Å¥e": 224,
"Ġho": 225,
"va": 226,
"ÅĪÃŃ": 227,
"Ġtam": 228,
"Ġbi": 229,
"ko": 230,
"ki": 231,
"̯": 232,
"Ġjak": 233,
"te": 234,
"ĠmÅĪe": 235,
"Äıe": 236,
"ne": 237,
"na": 238,
"Ġbil": 239,
"ma": 240,
"Ġsem": 241,
"Ġc": 242,
"Ġsi": 243,
"Ġo": 244,
"Ġvi": 245,
"Ġmu": 246,
"Äıi": 247,
"bi": 248,
"Ġko": 249,
"ru": 250,
"di": 251,
"no": 252,
"Äįe": 253,
"Ġsme": 254,
"ĠN": 255,
"ám": 256,
"ĠJ": 257,
"ci": 258,
"lo": 259,
"to": 260,
"da": 261,
"ĠpÅĻi": 262,
"ĠP": 263,
"vi": 264,
"še": 265,
"Ġten": 266,
"Ġsa": 267,
"ĠV": 268,
"ý": 269,
"Ġji": 270,
"ali": 271,
"Ġg": 272,
"Ġpro": 273,
"Ġco": 274,
"ÅĻÃŃ": 275,
"Ġdi": 276,
"Ġve": 277,
"Ġro": 278,
"si": 279,
"dá": 280,
"ĠÅĪe": 281,
"mu": 282,
"an": 283,
".âĢľ": 284,
"ĠTo": 285,
"po": 286,
"se": 287,
"lÃŃ": 288,
"er": 289,
"ĠÅĪi": 290,
"Ġjá": 291,
"Ġale": 292,
"at": 293,
"bo": 294,
"em": 295,
"Ġti": 296,
"lu": 297,
"ĠuÅ¡": 298,
"ri": 299,
"Ġjako": 300,
"ká": 301,
"ÅĤa": 302,
"Ġž": 303,
"ĠpÅĻe": 304,
"ná": 305,
"Ġte": 306,
"Ġbilo": 307,
"ĠM": 308,
"Ġtakov": 309,
"Ġjen": 310,
"Äįi": 311,
"ÃŃm": 312,
"du": 313,
"Ġka": 314,
"ta": 315,
"nou": 316,
"vo": 317,
"Ġmo": 318,
"ĠÅĪ": 319,
"lá": 320,
"do": 321,
"ĠTak": 322,
"eš": 323,
"Ġno": 324,
"ĠÅ": 325,
"nu": 326,
"vÃŃ": 327,
"ĠÄıe": 328,
"ar": 329,
"nÃŃ": 330,
"Ġtaki": 331,
"ÅĤo": 332,
"ĠB": 333,
"Ġle": 334,
"Ġabi": 335,
"ĠNo": 336,
"ĠD": 337,
"ag": 338,
"sk": 339,
"vá": 340,
"Ġná": 341,
"Ġvon": 342,
"Ġjed": 343,
"ĠK": 344,
"Ġby": 345,
"ĠS": 346,
"mo": 347,
"ĠH": 348,
"alo": 349,
"Ġcho": 350,
"lou": 351,
"sta": 352,
"ba": 353,
"ĠeÅ¡": 354,
"Ġbila": 355,
"Ġtoho": 356,
"Ġtu": 357,
"át": 358,
"ák": 359,
"Ġmi": 360,
"ni": 361,
"Ġi": 362,
"Å¥ÃŃ": 363,
"Ġbili": 364,
"ÄıÃŃ": 365,
"Ġmá": 366,
"ši": 367,
"Ġpa": 368,
"ĠÄį": 369,
"ál": 370,
"ó": 371,
"ĠfÅ¡e": 372,
"rav": 373,
"ĠdiÅ¡": 374,
"ĠAle": 375,
"!âĢľ": 376,
"ĠpÅĻiÅ¡": 377,
"ilo": 378,
"Ġešťe": 379,
"ĠVo": 380,
"mÅĪe": 381,
"ze": 382,
"Ġtag": 383,
"Ġbu": 384,
"nej": 385,
"zi": 386,
"Ġsp": 387,
"ova": 388,
"mi": 389,
"ve": 390,
"Ġma": 391,
"Ġzas": 392,
"lej": 393,
"ĠÅ¥i": 394,
"rát": 395,
"Ġpou": 396,
"pi": 397,
"bu": 398,
"Ġuž": 399,
"ÄįÃŃ": 400,
"Ġpr": 401,
"ti": 402,
"Ġnebo": 403,
"ĠÅĪÃŃ": 404,
"ĠÄįe": 405,
"ÉĻ": 406,
"tu": 407,
"Äıel": 408,
"pa": 409,
"rou": 410,
"tá": 411,
"ĠmÅĪel": 412,
"Ġnech": 413,
"vje": 414,
"ĠÅ¥e": 415,
"ÉĻr": 416,
"ĠF": 417,
"Ġli": 418,
"ÃŃho": 419,
"za": 420,
"Ġze": 421,
"Ġce": 422,
"ji": 423,
"ruh": 424,
"Ġpe": 425,
"Ġtadi": 426,
"Äįka": 427,
"ĠÅĻi": 428,
"ck": 429,
"Ġtá": 430,
"ĠZ": 431,
"Ġvod": 432,
"Ġde": 433,
"ĠmÅĪeli": 434,
"cki": 435,
"sťi": 436,
"tom": 437,
"Ġnej": 438,
"Ġtom": 439,
"ĠJá": 440,
"dy": 441,
"ĠaÅĪi": 442,
"Ġsta": 443,
"ži": 444,
"vali": 445,
"Ġkou": 446,
"Ġpá": 447,
"ĠÅĻe": 448,
"Ġpot": 449,
"Ġdob": 450,
"?âĢľ": 451,
"..": 452,
"re": 453,
"Ġvot": 454,
"Ġgdi": 455,
"spo": 456,
"oval": 457,
"Ġrá": 458,
"be": 459,
"co": 460,
"val": 461,
"sa": 462,
"Ġba": 463,
"ĠÅĪák": 464,
"bje": 465,
"Ġvy": 466,
"Ġprá": 467,
"ĠPo": 468,
"Ġku": 469,
"ĠvÃŃ": 470,
"ĠâĢĶ": 471,
"dz": 472,
"kou": 473,
"Ġroz": 474,
"ĠÅĪic": 475,
"ĠaÅ¡": 476,
"Ġmus": 477,
"ĠchoÄıi": 478,
"Ġneb": 479,
"lik": 480,
"Å¡ÃŃ": 481,
"Ġprav": 482,
"Ġbude": 483,
"Äįku": 484,
"Ġpje": 485,
"ĠC": 486,
"Ġdruh": 487,
"Ġstra": 488,
"Ġpovi": 489,
"má": 490,
"Ġsou": 491,
"ste": 492,
"Ġ-": 493,
"Ġtej": 494,
"Äıil": 495,
"dal": 496,
"ĠÅł": 497,
"cho": 498,
"Ġkrá": 499
},
"merges": [
"Ġ t",
"Ã ¡",
"Ġ s",
"Ġ p",
"Ã Ń",
"Å Ī",
"Ġ n",
"Å ¡",
"Ġ a",
"Ġ v",
"l i",
"Ġ d",
"Å Ļ",
"Ġ j",
"Ġ m",
"Å ¥",
"â Ģ",
"a k",
"Å ¾",
"Ġ b",
"Ġs e",
"c h",
"Ġt o",
"Ä į",
"l e",
"l a",
"Ġ k",
"Ä ı",
"Ġ z",
"e j",
"o u",
"e n",
"Ġn a",
"ÅĪ e",
"Ġp o",
"Ġn e",
"h o",
"i l",
"Ġd o",
"Ġv o",
"Ġ u",
"a l",
"Å Ĥ",
"r o",
"ÅĪ i",
"r a",
"o v",
"Ġt ak",
"Ġt a",
"s t",
"ž e",
"Ġ A",
"k a",
"j e",
"ÅĻ i",
"Ġ âĢ",
"Ġz a",
"r á",
"ÅĻ e",
"Ġ T",
"Ã º",
"e l",
"Ġj e",
"Ã ©",
"Ġ že",
"âĢ Ļ",
"Ġ f",
"Ġ h",
"Ġ Å¡",
"c e",
"ĠâĢ ŀ",
"m e",
"âĢ ľ",
"k u",
"Å¥ i",
"Ġs t",
"Ġ ch",
"d e",
"Å¥ e",
"Ġ ho",
"v a",
"ÅĪ ÃŃ",
"Ġta m",
"Ġb i",
"k o",
"k i",
"Ì ¯",
"Ġj ak",
"t e",
"Ġm ÅĪe",
"Äı e",
"n e",
"n a",
"Ġb il",
"m a",
"Ġse m",
"Ġ c",
"Ġs i",
"Ġ o",
"Ġv i",
"Ġm u",
"Äı i",
"b i",
"Ġk o",
"r u",
"d i",
"n o",
"Äį e",
"Ġs me",
"Ġ N",
"á m",
"Ġ J",
"c i",
"l o",
"t o",
"d a",
"Ġp ÅĻi",
"Ġ P",
"v i",
"Å¡ e",
"Ġt en",
"Ġs a",
"Ġ V",
"Ã ½",
"Ġj i",
"a li",
"Ġ g",
"Ġp ro",
"Ġc o",
"ÅĻ ÃŃ",
"Ġd i",
"Ġv e",
"Ġ ro",
"s i",
"d á",
"Ġ ÅĪe",
"m u",
"a n",
". âĢľ",
"ĠT o",
"p o",
"s e",
"l ÃŃ",
"e r",
"Ġ ÅĪi",
"Ġj á",
"Ġa le",
"a t",
"b o",
"e m",
"Ġt i",
"l u",
"Ġu Å¡",
"r i",
"Ġjak o",
"k á",
"ÅĤ a",
"Ġ ž",
"Ġp ÅĻe",
"n á",
"Ġt e",
"Ġbil o",
"Ġ M",
"Ġtak ov",
"Ġj en",
"Äį i",
"ÃŃ m",
"d u",
"Ġk a",
"t a",
"n ou",
"v o",
"Ġm o",
"Ġ ÅĪ",
"l á",
"d o",
"ĠT ak",
"e Å¡",
"Ġn o",
"Ġ Å",
"n u",
"v ÃŃ",
"Ġ Äıe",
"a r",
"n ÃŃ",
"Ġtak i",
"ÅĤ o",
"Ġ B",
"Ġ le",
"Ġa bi",
"ĠN o",
"Ġ D",
"a g",
"s k",
"v á",
"Ġn á",
"Ġvo n",
"Ġje d",
"Ġ K",
"Ġb y",
"Ġ S",
"m o",
"Ġ H",
"al o",
"Ġch o",
"l ou",
"st a",
"b a",
"Ġ eÅ¡",
"Ġbi la",
"Ġto ho",
"Ġt u",
"á t",
"á k",
"Ġm i",
"n i",
"Ġ i",
"Å¥ ÃŃ",
"Ġbi li",
"Äı ÃŃ",
"Ġm á",
"Å¡ i",
"Ġp a",
"Ġ Äį",
"á l",
"Ã ³",
"Ġf Å¡e",
"ra v",
"Ġdi Å¡",
"ĠA le",
"! âĢľ",
"ĠpÅĻi Å¡",
"il o",
"ĠeÅ¡ Å¥e",
"ĠV o",
"m ÅĪe",
"z e",
"Ġta g",
"Ġb u",
"n ej",
"z i",
"Ġs p",
"ov a",
"m i",
"v e",
"Ġm a",
"Ġza s",
"le j",
"Ġ Å¥i",
"rá t",
"Ġp ou",
"p i",
"b u",
"Ġu ž",
"Äį ÃŃ",
"Ġp r",
"t i",
"Ġne bo",
"Ġ ÅĪÃŃ",
"Ġ Äįe",
"É Ļ",
"t u",
"Äı el",
"p a",
"r ou",
"t á",
"ĠmÅĪe l",
"Ġne ch",
"v je",
"Ġ Å¥e",
"ÉĻ r",
"Ġ F",
"Ġ li",
"ÃŃ ho",
"z a",
"Ġz e",
"Ġ ce",
"j i",
"ru h",
"Ġp e",
"Ġta di",
"Äį ka",
"Ġ ÅĻi",
"c k",
"Ġt á",
"Ġ Z",
"Ġvo d",
"Ġd e",
"ĠmÅĪe li",
"c ki",
"s ťi",
"to m",
"Ġn ej",
"Ġto m",
"ĠJ á",
"d y",
"Ġa ÅĪi",
"Ġst a",
"ž i",
"va li",
"Ġk ou",
"Ġp á",
"Ġ ÅĻe",
"Ġpo t",
"Ġdo b",
"? âĢľ",
". .",
"r e",
"Ġvo t",
"Ġg di",
"s po",
"ov al",
"Ġ rá",
"b e",
"c o",
"v al",
"s a",
"Ġb a",
"ĠÅĪ Ã¡k",
"b je",
"Ġv y",
"Ġp rá",
"ĠP o",
"Ġk u",
"Ġv ÃŃ",
"ĠâĢ Ķ",
"d z",
"k ou",
"Ġro z",
"ĠÅĪi c",
"Ġa Å¡",
"Ġmu s",
"Ġcho Äıi",
"Ġne b",
"li k",
"Å¡ ÃŃ",
"Ġp rav",
"Ġbu de",
"Äį ku",
"Ġp je",
"Ġ C",
"Ġd ruh",
"Ġst ra",
"Ġpo vi",
"m á",
"Ġs ou",
"st e",
"Ġ -",
"Ġt ej",
"Äı il",
"d al",
"ĠÅ ł",
"ch o",
"Ġk rá"
]
}
}