Upload tokenizer

Files changed (2) hide show

tokenizer_config.json CHANGED Viewed

@@ -17,6 +17,12 @@
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "__type": "AddedToken",
     "content": "</s>",
@@ -36,6 +42,7 @@
   },
   "max_len": 512,
   "model_max_length": 512,
   "pad_token": {
     "__type": "AddedToken",
     "content": "<pad>",
@@ -44,6 +51,13 @@
     "rstrip": false,
     "single_word": false
   },
   "sep_token": {
     "__type": "AddedToken",
     "content": "</s>",
@@ -52,7 +66,13 @@
     "rstrip": false,
     "single_word": false
   },
-  "tokenizer_class": "RobertaTokenizer",
   "trim_offsets": true,
   "unk_token": {
     "__type": "AddedToken",

     "rstrip": false,
     "single_word": false
   },
+  "cls_token_box": [
+    0,
+    0,
+    0,
+    0
+  ],
   "eos_token": {
     "__type": "AddedToken",
     "content": "</s>",
   },
   "max_len": 512,
   "model_max_length": 512,
+  "only_label_first_subword": true,
   "pad_token": {
     "__type": "AddedToken",
     "content": "<pad>",
     "rstrip": false,
     "single_word": false
   },
+  "pad_token_box": [
+    0,
+    0,
+    0,
+    0
+  ],
+  "pad_token_label": -100,
   "sep_token": {
     "__type": "AddedToken",
     "content": "</s>",
     "rstrip": false,
     "single_word": false
   },
+  "sep_token_box": [
+    0,
+    0,
+    0,
+    0
+  ],
+  "tokenizer_class": "LayoutLMv3Tokenizer",
   "trim_offsets": true,
   "unk_token": {
     "__type": "AddedToken",

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff