pbordesinstadeep commited on
Commit
4ea1928
·
verified ·
1 Parent(s): f74b1d2

Upload tokenizer

Browse files
Files changed (2) hide show
  1. dna_vocab_list.txt +2 -31
  2. protein_vocab_list.txt +34 -0
dna_vocab_list.txt CHANGED
@@ -1,34 +1,5 @@
1
- <cls>
2
- <pad>
3
- <eos>
4
- <unk>
5
- L
6
  A
 
7
  G
8
- V
9
- S
10
- E
11
- R
12
  T
13
- I
14
- D
15
- P
16
- K
17
- Q
18
- N
19
- F
20
- Y
21
- M
22
- H
23
- W
24
- C
25
- X
26
- B
27
- U
28
- Z
29
- O
30
- .
31
- -
32
- <null_1>
33
- <mask>
34
- <bos>
 
 
 
 
 
 
1
  A
2
+ C
3
  G
 
 
 
 
4
  T
5
+ <unk>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
protein_vocab_list.txt ADDED
@@ -0,0 +1,34 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <cls>
2
+ <pad>
3
+ <eos>
4
+ <unk>
5
+ L
6
+ A
7
+ G
8
+ V
9
+ S
10
+ E
11
+ R
12
+ T
13
+ I
14
+ D
15
+ P
16
+ K
17
+ Q
18
+ N
19
+ F
20
+ Y
21
+ M
22
+ H
23
+ W
24
+ C
25
+ X
26
+ B
27
+ U
28
+ Z
29
+ O
30
+ .
31
+ -
32
+ <null_1>
33
+ <mask>
34
+ <bos>