Upload tokenizer

Files changed (4) hide show

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
-license: apache-2.0
 base_model: zainulhakim/241103_wav2vec2_Augmented_Dataset
-tags:
-- generated_from_trainer
 metrics:
 - wer
 model-index:
 - name: augmented_indians_dataset_client2
   results: []

 ---
 base_model: zainulhakim/241103_wav2vec2_Augmented_Dataset
+license: apache-2.0
 metrics:
 - wer
+tags:
+- generated_from_trainer
 model-index:
 - name: augmented_indians_dataset_client2
   results: []

special_tokens_map.json CHANGED Viewed

@@ -1,30 +1,6 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "[PAD]",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": true,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "[UNK]",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": true,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
 }

tokenizer_config.json CHANGED Viewed

@@ -39,7 +39,6 @@
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
-  "processor_class": "Wav2Vec2Processor",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",

   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",

vocab.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "[PAD]": 19,
   "[UNK]": 18,
-  "a": 13,
-  "c": 1,
-  "d": 10,
-  "e": 16,
-  "f": 15,
-  "h": 4,
   "i": 11,
-  "l": 8,
   "m": 3,
-  "n": 5,
-  "o": 9,
-  "p": 6,
-  "r": 7,
-  "s": 2,
-  "t": 17,
-  "u": 12,
-  "x": 14,
-  "|": 0
 }

 {
   "[PAD]": 19,
   "[UNK]": 18,
+  "a": 7,
+  "c": 0,
+  "d": 17,
+  "e": 6,
+  "f": 13,
+  "h": 14,
   "i": 11,
+  "l": 12,
   "m": 3,
+  "n": 9,
+  "o": 2,
+  "p": 5,
+  "r": 8,
+  "s": 1,
+  "t": 10,
+  "u": 16,
+  "x": 15,
+  "|": 4
 }