add tokenizer

Files changed (2) hide show

tokenizer.json CHANGED Viewed

@@ -7,9 +7,7 @@
     "stride": 0
   },
   "padding": {
-    "strategy": {
-      "Fixed": 512
-    },
     "direction": "Right",
     "pad_to_multiple_of": null,
     "pad_id": 1,
@@ -19,48 +17,48 @@
   "added_tokens": [
     {
       "id": 0,
-      "special": true,
       "content": "<s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 1,
-      "special": true,
       "content": "<pad>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 2,
-      "special": true,
       "content": "</s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 3,
-      "special": true,
       "content": "<unk>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 50264,
-      "special": true,
       "content": "<mask>",
       "single_word": false,
       "lstrip": true,
       "rstrip": false,
-      "normalized": false
     }
   ],
   "normalizer": null,

     "stride": 0
   },
   "padding": {
+    "strategy": "BatchLongest",
     "direction": "Right",
     "pad_to_multiple_of": null,
     "pad_id": 1,
   "added_tokens": [
     {
       "id": 0,
       "content": "<s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 1,
       "content": "<pad>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 2,
       "content": "</s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 3,
       "content": "<unk>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 50264,
       "content": "<mask>",
       "single_word": false,
       "lstrip": true,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": null,

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"~~unk_token~~": "~~<unk>~~", "bos_token": "<s>", "eos_token": "</s>", "~~add_prefix_space~~": ~~false,~~ "~~errors~~"~~: "replace"~~, "~~sep_token~~": "</s>", "~~cls_token~~": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "trim_offsets": true, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "roberta-base", "tokenizer_class": "RobertaTokenizer"}


1	+ {"errors": "replace", "bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": "<mask>", "add_prefix_space": false, "trim_offsets": true, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "roberta-base", "tokenizer_class": "RobertaTokenizer"}