Upload tokenizer

Browse files

Files changed (3) hide show

tokenizer.json +103 -59
tokenizer_config.json +1 -1
vocab.json +1 -1

tokenizer.json CHANGED Viewed

@@ -22,7 +22,7 @@
       "special": true
     },
     {
-      "id": 5,
       "content": "UTT_BOUNDARY",
       "single_word": false,
       "lstrip": false,
@@ -34,13 +34,6 @@
   "normalizer": {
     "type": "Sequence",
     "normalizers": [
-      {
-        "type": "Replace",
-        "pattern": {
-          "String": "\n"
-        },
-        "content": " UTT_BOUNDARY"
-      },
       {
         "type": "Strip",
         "strip_left": true,
@@ -51,63 +44,114 @@
   "pre_tokenizer": {
     "type": "Whitespace"
   },
-  "post_processor": null,
   "decoder": null,
   "model": {
     "type": "WordLevel",
     "vocab": {
       "UNK": 0,
       "PAD": 1,
-      "BOS": 2,
-      "EOS": 3,
-      "WORD_BOUNDARY": 4,
-      "UTT_BOUNDARY": 5,
-      "k": 6,
-      "y": 7,
-      "m": 8,
-      "aɪ": 9,
-      "s": 10,
-      "t": 11,
-      "eɪ": 12,
-      "ŋ": 13,
-      "a": 14,
-      "i": 15,
-      "n": 16,
-      "ɛ": 17,
-      "æ": 18,
-      "z": 19,
-      "ɡ": 20,
-      "r": 21,
-      "v": 22,
-      "u": 23,
-      "ɾ": 24,
-      "d": 25,
-      "ʊ": 26,
-      "oɪ": 27,
-      "ɲ": 28,
-      "e": 29,
-      "f": 30,
-      "o": 31,
-      "p": 32,
-      "ʒ": 33,
-      "t̠ʃ": 34,
-      "d̠ʒ": 35,
-      "eʊ": 36,
-      "w": 37,
-      "aʊ": 38,
-      "j": 39,
-      "ə": 40,
-      "ũ": 41,
-      "ɐ̃": 42,
-      "l": 43,
-      "b": 44,
-      "x": 45,
-      "ɔ": 46,
-      "ʃ": 47,
-      "iʊ": 48,
-      "ɛʊ": 49,
-      "ɔɪ": 50,
-      "uɪ": 51
     },
     "unk_token": "UNK"
   }

       "special": true
     },
     {
+      "id": 3,
       "content": "UTT_BOUNDARY",
       "single_word": false,
       "lstrip": false,
   "normalizer": {
     "type": "Sequence",
     "normalizers": [
       {
         "type": "Strip",
         "strip_left": true,
   "pre_tokenizer": {
     "type": "Whitespace"
   },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "UTT_BOUNDARY",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "SpecialToken": {
+          "id": "UTT_BOUNDARY",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "UTT_BOUNDARY",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {
+      "UTT_BOUNDARY": {
+        "id": "UTT_BOUNDARY",
+        "ids": [
+          3
+        ],
+        "tokens": [
+          "UTT_BOUNDARY"
+        ]
+      }
+    }
+  },
   "decoder": null,
   "model": {
     "type": "WordLevel",
     "vocab": {
       "UNK": 0,
       "PAD": 1,
+      "WORD_BOUNDARY": 2,
+      "UTT_BOUNDARY": 3,
+      "k": 4,
+      "y": 5,
+      "m": 6,
+      "aɪ": 7,
+      "s": 8,
+      "t": 9,
+      "eɪ": 10,
+      "ŋ": 11,
+      "a": 12,
+      "i": 13,
+      "n": 14,
+      "ɛ": 15,
+      "æ": 16,
+      "z": 17,
+      "ɡ": 18,
+      "r": 19,
+      "v": 20,
+      "u": 21,
+      "ɾ": 22,
+      "d": 23,
+      "ʊ": 24,
+      "oɪ": 25,
+      "ɲ": 26,
+      "e": 27,
+      "f": 28,
+      "o": 29,
+      "p": 30,
+      "ʒ": 31,
+      "t̠ʃ": 32,
+      "d̠ʒ": 33,
+      "eʊ": 34,
+      "w": 35,
+      "aʊ": 36,
+      "j": 37,
+      "ə": 38,
+      "ũ": 39,
+      "ɐ̃": 40,
+      "l": 41,
+      "b": 42,
+      "x": 43,
+      "ɔ": 44,
+      "ʃ": 45,
+      "iʊ": 46,
+      "ɛʊ": 47,
+      "ɔɪ": 48,
+      "uɪ": 49
     },
     "unk_token": "UNK"
   }

tokenizer_config.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "single_word": false,
       "special": true
     },
-    "5": {
       "content": "UTT_BOUNDARY",
       "lstrip": false,
       "normalized": false,

       "single_word": false,
       "special": true
     },
+    "3": {
       "content": "UTT_BOUNDARY",
       "lstrip": false,
       "normalized": false,

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"UNK":0,"PAD":1,"~~BOS~~":2,"~~EOS~~":3,"~~WORD_BOUNDARY~~":4,"~~UTT_BOUNDARY~~":5,"k":6,"y":7,"m":8,"aɪ":9,"s":10,"t":11,"eɪ":12,"ŋ":13,"a":14,"i":15,"n":16,"ɛ":17,"æ":18,"z":19,"ɡ":20,"r":21,"v":22,"u":23,"ɾ":24,"d":25,"ʊ":26,"oɪ":27,"ɲ":28,"e":29,"f":30,"o":31,"~~p":32,"ʒ":33,"~~t̠ʃ":34,"d̠ʒ":35,"eʊ":36,"w":37,"aʊ":38,"j":39,"ə":40,"ũ":41,"ɐ̃":42,"l":43,"b":44,"x":45,"ɔ":46,"ʃ":47,"iʊ":48,"ɛʊ":49,"ɔɪ":50,"uɪ":51}

+ {"UNK":0,"PAD":1,"WORD_BOUNDARY":2,"UTT_BOUNDARY":3,"k":4,"y":5,"m":6,"aɪ":7,"s":8,"t":9,"eɪ":10,"ŋ":11,"a":12,"i":13,"n":14,"ɛ":15,"æ":16,"z":17,"ɡ":18,"r":19,"v":20,"u":21,"ɾ":22,"d":23,"ʊ":24,"oɪ":25,"ɲ":26,"e":27,"f":28,"o":29,"p":30,"ʒ":31,"t̠ʃ":32,"d̠ʒ":33,"eʊ":34,"w":35,"aʊ":36,"j":37,"ə":38,"ũ":39,"ɐ̃":40,"l":41,"b":42,"x":43,"ɔ":44,"ʃ":45,"iʊ":46,"ɛʊ":47,"ɔɪ":48,"uɪ":49}