Upload tokenizer

Browse files

Files changed (3) hide show

added_tokens.json +1 -13
tokenizer_config.json +1 -97
vocab.json +3 -0

added_tokens.json CHANGED Viewed

@@ -1,15 +1,3 @@
 {
-  "<unk>": 74,
-  "ড়": 76,
-  "ঢ়": 86,
-  "য়": 84,
-  "১": 83,
-  "২": 79,
-  "৩": 85,
-  "৪": 82,
-  "৫": 75,
-  "৬": 77,
-  "৭": 81,
-  "৮": 80,
-  "৯": 78
 }

 {
+  "<unk>": 77
 }

tokenizer_config.json CHANGED Viewed

@@ -9,109 +9,13 @@
       "single_word": false,
       "special": true
     },
-    "74": {
       "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
-    },
-    "75": {
-      "content": "৫",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "76": {
-      "content": "ড়",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "77": {
-      "content": "৬",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "78": {
-      "content": "৯",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "79": {
-      "content": "২",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "80": {
-      "content": "৮",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "81": {
-      "content": "৭",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "82": {
-      "content": "৪",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "83": {
-      "content": "১",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "84": {
-      "content": "য়",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "85": {
-      "content": "৩",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "86": {
-      "content": "ঢ়",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
     }
   },
   "clean_up_tokenization_spaces": true,

       "single_word": false,
       "special": true
     },
+    "77": {
       "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "clean_up_tokenization_spaces": true,

vocab.json CHANGED Viewed

@@ -40,7 +40,9 @@
   "ট": 55,
   "ঠ": 73,
   "ড": 21,
   "ঢ": 22,
   "ণ": 51,
   "ত": 42,
   "থ": 14,
@@ -53,6 +55,7 @@
   "ভ": 16,
   "ম": 41,
   "য": 38,
   "র": 69,
   "ল": 10,
   "শ": 48,

   "ট": 55,
   "ঠ": 73,
   "ড": 21,
+  "ড়": 74,
   "ঢ": 22,
+  "ঢ়": 76,
   "ণ": 51,
   "ত": 42,
   "থ": 14,
   "ভ": 16,
   "ম": 41,
   "য": 38,
+  "য়": 75,
   "র": 69,
   "ল": 10,
   "শ": 48,