euclaise
/

ReMask-3B

Text Generation

Model card Files Files and versions Community

euclaise commited on Aug 10, 2024

Commit

e094dae

·

verified ·

1 Parent(s): ffc21f7

Upload tokenizer

Files changed (2) hide show

tokenizer.json +25 -4
tokenizer_config.json +4 -0

tokenizer.json CHANGED Viewed

@@ -239,10 +239,30 @@
     "use_regex": true
   },
   "post_processor": {
-    "type": "ByteLevel",
-    "add_prefix_space": false,
-    "trim_offsets": true,
-    "use_regex": true
   },
   "decoder": {
     "type": "ByteLevel",
@@ -258,6 +278,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
       "<|endoftext|>": 0,
       "<|padding|>": 1,

     "use_regex": true
   },
   "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {}
   },
   "decoder": {
     "type": "ByteLevel",
     "end_of_word_suffix": null,
     "fuse_unk": false,
     "byte_fallback": false,
+    "ignore_merges": false,
     "vocab": {
       "<|endoftext|>": 0,
       "<|padding|>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
@@ -203,9 +205,11 @@
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

 {
+  "add_bos_token": false,
+  "add_eos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
     }
   },
   "bos_token": "<|endoftext|>",
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|' + message['role'] + '|>\n' + message['content'] + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% endif %}",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }