adibm
/

sgd-llama-tokenizer

Model card Files Files and versions Community

adibm commited on Sep 14, 2023

Commit

a50cd23

1 Parent(s): e8baad1

Upload tokenizer

Browse files

Files changed (5) hide show

.gitattributes +1 -0
special_tokens_map.json +61 -0
tokenizer.json +3 -0
tokenizer.model +3 -0
tokenizer_config.json +67 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "additional_special_tokens": [
+    "<|begintarget|>",
+    "<|endtarget|>",
+    "<|begincontext|>",
+    "<|endcontext|>",
+    "<|system|>",
+    "<|user|>",
+    "<|beginlastuserutterance|>",
+    "<|endlastuserutterance|>",
+    "<|begindsts|>",
+    "<|enddsts|>",
+    "<|begindst|>",
+    "<|enddst|>",
+    "<|beginbelief|>",
+    "<|endbelief|>",
+    "<|beginresponse|>",
+    "<|endresponse|>",
+    "<|beginaction|>",
+    "<|endaction|>",
+    "<|beginuseraction|>",
+    "<|enduseraction|>",
+    "<|sysactions|>",
+    "<|beginintent|>",
+    "<|endintent|>",
+    "<|beginrequestedslots|>",
+    "<|endrequestedslots|>",
+    "<|promptdst|>",
+    "<|promptaction|>",
+    "<|promptresponse|>",
+    "<|pad|>",
+    "<|endoftext|>",
+    "<|startoftext|>",
+    "<|beginschema|>",
+    "<|endschema|>",
+    "<|schemaname|>",
+    "<|schemadescription|>",
+    "<|beginschemaintent|>",
+    "<|endschemaintent|>",
+    "<|intentrequiredslots|>",
+    "<|intentresultslots|>",
+    "<|intentoptionalslots|>",
+    "<|possiblevalues|>",
+    "<|endpossiblevalues|>",
+    "<|beginschemaslot|>",
+    "<|endschemaslot|>",
+    "<|schemaslotvalues|>",
+    "<|beginserviceresults|>",
+    "<|endserviceresults|>"
+  ],
+  "bos_token": "<|startoftext|>",
+  "eos_token": "<|endtarget|>",
+  "pad_token": "<|pad|>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d28aeee1343a1deccb4b21cf8d1fe43556cf2da412c5416a357c3b1fd0ce753
+size 25189832

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "add_prefix_space": false,
+  "additional_special_tokens": [
+    "<|begintarget|>",
+    "<|endtarget|>",
+    "<|begincontext|>",
+    "<|endcontext|>",
+    "<|system|>",
+    "<|user|>",
+    "<|beginlastuserutterance|>",
+    "<|endlastuserutterance|>",
+    "<|begindsts|>",
+    "<|enddsts|>",
+    "<|begindst|>",
+    "<|enddst|>",
+    "<|beginbelief|>",
+    "<|endbelief|>",
+    "<|beginresponse|>",
+    "<|endresponse|>",
+    "<|beginaction|>",
+    "<|endaction|>",
+    "<|beginuseraction|>",
+    "<|enduseraction|>",
+    "<|sysactions|>",
+    "<|beginintent|>",
+    "<|endintent|>",
+    "<|beginrequestedslots|>",
+    "<|endrequestedslots|>",
+    "<|promptdst|>",
+    "<|promptaction|>",
+    "<|promptresponse|>",
+    "<|pad|>",
+    "<|endoftext|>",
+    "<|startoftext|>",
+    "<|beginschema|>",
+    "<|endschema|>",
+    "<|schemaname|>",
+    "<|schemadescription|>",
+    "<|beginschemaintent|>",
+    "<|endschemaintent|>",
+    "<|intentrequiredslots|>",
+    "<|intentresultslots|>",
+    "<|intentoptionalslots|>",
+    "<|possiblevalues|>",
+    "<|endpossiblevalues|>",
+    "<|beginschemaslot|>",
+    "<|endschemaslot|>",
+    "<|schemaslotvalues|>",
+    "<|beginserviceresults|>",
+    "<|endserviceresults|>"
+  ],
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endtarget|>",
+  "model_max_length": 2048,
+  "pad_token": "<|pad|>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}