Piranav
/

wav2vec2-large-mms-1b-mundari-colab

@@ -1,33 +1,33 @@
 {
   "added_tokens_decoder": {
-    "67": {
-      "content": "[UNK]",
-      "lstrip": true,
       "normalized": false,
-      "rstrip": true,
       "single_word": false,
-      "special": false
     },
-    "68": {
-      "content": "[PAD]",
-      "lstrip": true,
       "normalized": false,
-      "rstrip": true,
       "single_word": false,
-      "special": false
     },
-    "69": {
-      "content": "<s>",
       "lstrip": false,
-      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "70": {
-      "content": "</s>",
       "lstrip": false,
-      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
@@ -40,7 +40,7 @@
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "replace_word_delimiter_char": " ",
-  "target_lang": "muw",
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
   "unk_token": "[UNK]",
   "word_delimiter_token": "|"

 {
   "added_tokens_decoder": {
+    "163": {
+      "content": "<s>",
+      "lstrip": false,
       "normalized": false,
+      "rstrip": false,
       "single_word": false,
+      "special": true
     },
+    "164": {
+      "content": "</s>",
+      "lstrip": false,
       "normalized": false,
+      "rstrip": false,
       "single_word": false,
+      "special": true
     },
+    "165": {
+      "content": "[UNK]",
       "lstrip": false,
+      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "166": {
+      "content": "[PAD]",
       "lstrip": false,
+      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "replace_word_delimiter_char": " ",
+  "target_lang": "unr",
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
   "unk_token": "[UNK]",
   "word_delimiter_token": "|"

vocab.json CHANGED Viewed

@@ -1,73 +1,167 @@
 {
-  "muw": {
-    "(": 1,
-    ")": 2,
-    ",": 3,
-    "-": 4,
-    ":": 5,
-    "?": 6,
-    "[PAD]": 68,
-    "[UNK]": 67,
-    "|": 0,
-    "ं": 7,
-    "ः": 8,
-    "अ": 9,
-    "आ": 10,
-    "इ": 11,
-    "ई": 12,
-    "उ": 13,
-    "ऊ": 14,
-    "ए": 15,
-    "ऑ": 16,
-    "ओ": 17,
-    "क": 18,
-    "ख": 19,
-    "ग": 20,
-    "घ": 21,
-    "ङ": 22,
-    "च": 23,
-    "छ": 24,
-    "ज": 25,
-    "झ": 26,
-    "ञ": 27,
-    "ट": 28,
-    "ठ": 29,
-    "ड": 30,
-    "ण": 31,
-    "त": 32,
-    "थ": 33,
-    "द": 34,
-    "ध": 35,
-    "न": 36,
-    "प": 37,
-    "फ": 38,
-    "ब": 39,
-    "भ": 40,
-    "म": 41,
-    "य": 42,
-    "र": 43,
-    "ल": 44,
-    "व": 45,
-    "श": 46,
-    "ष": 47,
-    "स": 48,
-    "ह": 49,
-    "़": 50,
-    "ा": 51,
-    "ि": 52,
-    "ी": 53,
-    "ु": 54,
-    "ू": 55,
-    "ृ": 56,
-    "े": 57,
-    "ै": 58,
-    "ॉ": 59,
-    "ो": 60,
-    "ौ": 61,
-    "्": 62,
-    "ड़": 63,
-    "ढ़": 64,
-    "।": 65,
-    "‌": 66
   }
 }

 {
+  "unr": {
+    " ": 0,
+    "!": 1,
+    "'": 2,
+    "(": 3,
+    ")": 4,
+    "+": 5,
+    ",": 6,
+    "-": 7,
+    ".": 8,
+    "/": 9,
+    "0": 10,
+    "1": 11,
+    "2": 12,
+    "3": 13,
+    "4": 14,
+    "5": 15,
+    "7": 16,
+    "8": 17,
+    "9": 18,
+    ":": 19,
+    ";": 20,
+    "<": 21,
+    "=": 22,
+    ">": 23,
+    "?": 24,
+    "A": 25,
+    "B": 26,
+    "C": 27,
+    "D": 28,
+    "E": 29,
+    "F": 30,
+    "G": 31,
+    "H": 32,
+    "I": 33,
+    "L": 34,
+    "M": 35,
+    "N": 36,
+    "O": 37,
+    "P": 38,
+    "R": 39,
+    "S": 40,
+    "T": 41,
+    "V": 42,
+    "X": 43,
+    "]": 44,
+    "a": 45,
+    "d": 46,
+    "e": 47,
+    "g": 48,
+    "i": 49,
+    "l": 50,
+    "n": 51,
+    "o": 52,
+    "p": 53,
+    "r": 54,
+    "t": 55,
+    "u": 56,
+    "w": 57,
+    "y": 58,
+    "|": 59,
+    " ": 60,
+    "ª": 61,
+    "´": 62,
+    "·": 63,
+    "́": 64,
+    "Б": 65,
+    "Г": 66,
+    "а": 67,
+    "в": 68,
+    "е": 69,
+    "з": 70,
+    "и": 71,
+    "к": 72,
+    "р": 73,
+    "у": 74,
+    "ш": 75,
+    "я": 76,
+    "ا": 77,
+    "س": 78,
+    "ن": 79,
+    "ک": 80,
+    "ی": 81,
+    "ँ": 82,
+    "ं": 83,
+    "ः": 84,
+    "अ": 85,
+    "आ": 86,
+    "इ": 87,
+    "ई": 88,
+    "उ": 89,
+    "ऊ": 90,
+    "ऋ": 91,
+    "ए": 92,
+    "ऐ": 93,
+    "ऑ": 94,
+    "ओ": 95,
+    "औ": 96,
+    "क": 97,
+    "ख": 98,
+    "ग": 99,
+    "घ": 100,
+    "ङ": 101,
+    "च": 102,
+    "छ": 103,
+    "ज": 104,
+    "झ": 105,
+    "ञ": 106,
+    "ट": 107,
+    "ठ": 108,
+    "ड": 109,
+    "ढ": 110,
+    "ण": 111,
+    "त": 112,
+    "थ": 113,
+    "द": 114,
+    "ध": 115,
+    "न": 116,
+    "प": 117,
+    "फ": 118,
+    "ब": 119,
+    "भ": 120,
+    "म": 121,
+    "य": 122,
+    "र": 123,
+    "ऱ": 124,
+    "ल": 125,
+    "व": 126,
+    "श": 127,
+    "ष": 128,
+    "स": 129,
+    "ह": 130,
+    "ऺ": 131,
+    "़": 132,
+    "ऽ": 133,
+    "ा": 134,
+    "ि": 135,
+    "ी": 136,
+    "ु": 137,
+    "ू": 138,
+    "ृ": 139,
+    "ॅ": 140,
+    "े": 141,
+    "ै": 142,
+    "ॉ": 143,
+    "ॊ": 144,
+    "ो": 145,
+    "ौ": 146,
+    "्": 147,
+    "ॐ": 148,
+    "क़": 149,
+    "ख़": 150,
+    "ग़": 151,
+    "ज़": 152,
+    "ड़": 153,
+    "ढ़": 154,
+    "फ़": 155,
+    "ॢ": 156,
+    "।": 157,
+    "॥": 158,
+    "‌": 159,
+    "‍": 160,
+    "–": 161,
+    "’": 162
   }
 }