tohoku-nlp
/

roberta-base-japanese

Inference Endpoints

Model card Files Files and versions Community

kiyono commited on Sep 21, 2021

Commit

52c0a6f

•

1 Parent(s): 8e0dd0e

fix tokenization config

Files changed (1) hide show

tokenizer_config.json +28 -6

tokenizer_config.json CHANGED Viewed

@@ -1,8 +1,30 @@
 {
-    "do_lower_case": false,
-    "word_tokenizer_type": "mecab",
-    "mecab_kwargs": {
-        "mecab_dic": "unidic_lite"
-    },
-    "do_zenkaku": true
 }

 {
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "unk_token": "<unk>",
+  "sep_token": "</s>",
+  "cls_token": "<s>",
+  "pad_token": "<pad>",
+  "mask_token": {
+    "content": "<mask>",
+    "single_word": false,
+    "lstrip": true,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "sp_model_kwargs": {},
+  "do_lower_case": false,
+  "do_word_tokenize": true,
+  "do_subword_tokenize": true,
+  "word_tokenizer_type": "mecab",
+  "subword_tokenizer_type": "bpe",
+  "never_split": null,
+  "mecab_kwargs": {
+    "mecab_dic": "unidic_lite"
+  },
+  "special_tokens_map_file": null,
+  "tokenizer_file": null,
+  "tokenizer_class": "RobertaJapaneseTokenizer"
 }