Update tokenization_chatglm.py

当使用vllm+outlines时，由于会sorted词表，导致bytes和str无法比较

Files changed (1) hide show

tokenization_chatglm.py CHANGED Viewed

@@ -60,7 +60,7 @@ class ChatGLM4Tokenizer(PreTrainedTokenizer):
     def get_vocab(self):
         """ Returns vocab as a dict """
         vocab = {self._convert_id_to_token(i): i for i in range(self.vocab_size)}
-        vocab.update(self.added_tokens_encoder)
         return vocab
     def convert_tokens_to_string(self, tokens: List[Union[bytes, str]]) -> str:

     def get_vocab(self):
         """ Returns vocab as a dict """
         vocab = {self._convert_id_to_token(i): i for i in range(self.vocab_size)}
+        vocab.update(dict([(bytes(item[0],'utf-8'),item[1]) for item in self.added_tokens_encoder.items()]))
         return vocab
     def convert_tokens_to_string(self, tokens: List[Union[bytes, str]]) -> str: