InstaDeepAI
/

BulkRNABert

Feature Extraction

transcriptomics

Model card Files Files and versions

mgelard commited on Jun 25

Commit

bff7684

·

verified ·

1 Parent(s): e839f31

Upload tokenizer

Files changed (3) hide show

special_tokens_map.json +1 -5
tokenizer.py +1 -7
tokenizer_config.json +1 -29

special_tokens_map.json CHANGED Viewed

@@ -1,5 +1 @@
-{
-  "cls_token": "<cls>",
-  "mask_token": "<mask>",
-  "pad_token": "<pad>"
-}


1	+ {}

tokenizer.py CHANGED Viewed

@@ -30,7 +30,6 @@ class BinnedOmicTokenizer(PreTrainedTokenizer):
         ids_to_tokens = {i: tok for tok, i in vocab.items()}
-        # Save vocab attributes before superclass init
         self.vocab = vocab
         self.ids_to_tokens = ids_to_tokens
@@ -49,12 +48,7 @@ class BinnedOmicTokenizer(PreTrainedTokenizer):
         self.mask_token = "<mask>"
         self.cls_token = "<cls>"
-        super().__init__(
-            pad_token=self.pad_token,
-            mask_token=self.mask_token,
-            cls_token=self.cls_token,
-            **kwargs,
-        )
     def _convert_token_to_id(self, token: str) -> int:
         return self.vocab.get(token, self.vocab[self.unk_token])

         ids_to_tokens = {i: tok for tok, i in vocab.items()}
         self.vocab = vocab
         self.ids_to_tokens = ids_to_tokens
         self.mask_token = "<mask>"
         self.cls_token = "<cls>"
+        super().__init__(**kwargs)
     def _convert_token_to_id(self, token: str) -> int:
         return self.vocab.get(token, self.vocab[self.unk_token])

tokenizer_config.json CHANGED Viewed

@@ -1,30 +1,5 @@
 {
-  "added_tokens_decoder": {
-    "64": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "65": {
-      "content": "<mask>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "66": {
-      "content": "<cls>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
   "auto_map": {
     "AutoTokenizer": [
       "tokenizer.BinnedOmicTokenizer",
@@ -32,9 +7,6 @@
     ]
   },
   "clean_up_tokenization_spaces": true,
-  "cls_token": "<cls>",
-  "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<pad>",
   "tokenizer_class": "BinnedOmicTokenizer"
 }

 {
+  "added_tokens_decoder": {},
   "auto_map": {
     "AutoTokenizer": [
       "tokenizer.BinnedOmicTokenizer",
     ]
   },
   "clean_up_tokenization_spaces": true,
   "model_max_length": 1000000000000000019884624838656,
   "tokenizer_class": "BinnedOmicTokenizer"
 }