THUDM
/

glm-4-9b-chat-1m

Model card Files Files and versions Community

Update tokenization_chatglm.py

#8

by niuba - opened Jun 6

base: refs/heads/main

←

from: refs/pr/8

Discussion Files changed

Files changed (1) hide show

tokenization_chatglm.py +1 -1

tokenization_chatglm.py CHANGED Viewed

@@ -60,7 +60,7 @@ class ChatGLM4Tokenizer(PreTrainedTokenizer):
     def get_vocab(self):
         """ Returns vocab as a dict """
         vocab = {self._convert_id_to_token(i): i for i in range(self.vocab_size)}
-        vocab.update(self.added_tokens_encoder)
         return vocab
     def convert_tokens_to_string(self, tokens: List[Union[bytes, str]]) -> str:

     def get_vocab(self):
         """ Returns vocab as a dict """
         vocab = {self._convert_id_to_token(i): i for i in range(self.vocab_size)}
+        vocab.update(dict([(bytes(item[0],'utf-8'),item[1]) for item in self.added_tokens_encoder.items()]))
         return vocab
     def convert_tokens_to_string(self, tokens: List[Union[bytes, str]]) -> str: