kuotient commited on
Commit
2c6baf2
1 Parent(s): 1e0e26c

Add tokenizer and config

Browse files
config.json CHANGED
@@ -1,5 +1,4 @@
1
  {
2
- "_name_or_path": "/workspace/llm/output_model/llama-2-ko-70b",
3
  "architectures": [
4
  "LlamaForCausalLM"
5
  ],
@@ -20,8 +19,8 @@
20
  "rope_scaling": null,
21
  "rope_theta": 10000.0,
22
  "tie_word_embeddings": false,
23
- "torch_dtype": "float16",
24
- "transformers_version": "4.33.0.dev0",
25
  "use_cache": true,
26
  "vocab_size": 46592
27
  }
 
1
  {
 
2
  "architectures": [
3
  "LlamaForCausalLM"
4
  ],
 
19
  "rope_scaling": null,
20
  "rope_theta": 10000.0,
21
  "tie_word_embeddings": false,
22
+ "torch_dtype": "bfloat16",
23
+ "transformers_version": "4.33.1",
24
  "use_cache": true,
25
  "vocab_size": 46592
26
  }
generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 1,
4
+ "eos_token_id": 2,
5
+ "pad_token_id": 2,
6
+ "transformers_version": "4.33.1"
7
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,234 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<unused0>",
4
+ "<unused1>",
5
+ "<unused2>",
6
+ "<unused3>",
7
+ "<unused4>",
8
+ "<unused5>",
9
+ "<unused6>",
10
+ "<unused7>",
11
+ "<unused8>",
12
+ "<unused9>",
13
+ "<unused10>",
14
+ "<unused11>",
15
+ "<unused12>",
16
+ "<unused13>",
17
+ "<unused14>",
18
+ "<unused15>",
19
+ "<unused16>",
20
+ "<unused17>",
21
+ "<unused18>",
22
+ "<unused19>",
23
+ "<unused20>",
24
+ "<unused21>",
25
+ "<unused22>",
26
+ "<unused23>",
27
+ "<unused24>",
28
+ "<unused25>",
29
+ "<unused26>",
30
+ "<unused27>",
31
+ "<unused28>",
32
+ "<unused29>",
33
+ "<unused30>",
34
+ "<unused31>",
35
+ "<unused32>",
36
+ "<unused33>",
37
+ "<unused34>",
38
+ "<unused35>",
39
+ "<unused36>",
40
+ "<unused37>",
41
+ "<unused38>",
42
+ "<unused39>",
43
+ "<unused40>",
44
+ "<unused41>",
45
+ "<unused42>",
46
+ "<unused43>",
47
+ "<unused44>",
48
+ "<unused45>",
49
+ "<unused46>",
50
+ "<unused47>",
51
+ "<unused48>",
52
+ "<unused49>",
53
+ "<unused50>",
54
+ "<unused51>",
55
+ "<unused52>",
56
+ "<unused53>",
57
+ "<unused54>",
58
+ "<unused55>",
59
+ "<unused56>",
60
+ "<unused57>",
61
+ "<unused58>",
62
+ "<unused59>",
63
+ "<unused60>",
64
+ "<unused61>",
65
+ "<unused62>",
66
+ "<unused63>",
67
+ "<unused64>",
68
+ "<unused65>",
69
+ "<unused66>",
70
+ "<unused67>",
71
+ "<unused68>",
72
+ "<unused69>",
73
+ "<unused70>",
74
+ "<unused71>",
75
+ "<unused72>",
76
+ "<unused73>",
77
+ "<unused74>",
78
+ "<unused75>",
79
+ "<unused76>",
80
+ "<unused77>",
81
+ "<unused78>",
82
+ "<unused79>",
83
+ "<unused80>",
84
+ "<unused81>",
85
+ "<unused82>",
86
+ "<unused83>",
87
+ "<unused84>",
88
+ "<unused85>",
89
+ "<unused86>",
90
+ "<unused87>",
91
+ "<unused88>",
92
+ "<unused89>",
93
+ "<unused90>",
94
+ "<unused91>",
95
+ "<unused92>",
96
+ "<unused93>",
97
+ "<unused94>",
98
+ "<unused95>",
99
+ "<unused96>",
100
+ "<unused97>",
101
+ "<unused98>",
102
+ "<unused99>",
103
+ "<unused100>",
104
+ "<unused101>",
105
+ "<unused102>",
106
+ "<unused103>",
107
+ "<unused104>",
108
+ "<unused105>",
109
+ "<unused106>",
110
+ "<unused107>",
111
+ "<unused108>",
112
+ "<unused109>",
113
+ "<unused110>",
114
+ "<unused111>",
115
+ "<unused112>",
116
+ "<unused113>",
117
+ "<unused114>",
118
+ "<unused115>",
119
+ "<unused116>",
120
+ "<unused117>",
121
+ "<unused118>",
122
+ "<unused119>",
123
+ "<unused120>",
124
+ "<unused121>",
125
+ "<unused122>",
126
+ "<unused123>",
127
+ "<unused124>",
128
+ "<unused125>",
129
+ "<unused126>",
130
+ "<unused127>",
131
+ "<unused128>",
132
+ "<unused129>",
133
+ "<unused130>",
134
+ "<unused131>",
135
+ "<unused132>",
136
+ "<unused133>",
137
+ "<unused134>",
138
+ "<unused135>",
139
+ "<unused136>",
140
+ "<unused137>",
141
+ "<unused138>",
142
+ "<unused139>",
143
+ "<unused140>",
144
+ "<unused141>",
145
+ "<unused142>",
146
+ "<unused143>",
147
+ "<unused144>",
148
+ "<unused145>",
149
+ "<unused146>",
150
+ "<unused147>",
151
+ "<unused148>",
152
+ "<unused149>",
153
+ "<unused150>",
154
+ "<unused151>",
155
+ "<unused152>",
156
+ "<unused153>",
157
+ "<unused154>",
158
+ "<unused155>",
159
+ "<unused156>",
160
+ "<unused157>",
161
+ "<unused158>",
162
+ "<unused159>",
163
+ "<unused160>",
164
+ "<unused161>",
165
+ "<unused162>",
166
+ "<unused163>",
167
+ "<unused164>",
168
+ "<unused165>",
169
+ "<unused166>",
170
+ "<unused167>",
171
+ "<unused168>",
172
+ "<unused169>",
173
+ "<unused170>",
174
+ "<unused171>",
175
+ "<unused172>",
176
+ "<unused173>",
177
+ "<unused174>",
178
+ "<unused175>",
179
+ "<unused176>",
180
+ "<unused177>",
181
+ "<unused178>",
182
+ "<unused179>",
183
+ "<unused180>",
184
+ "<unused181>",
185
+ "<unused182>",
186
+ "<unused183>",
187
+ "<unused184>",
188
+ "<unused185>",
189
+ "<unused186>",
190
+ "<unused187>",
191
+ "<unused188>",
192
+ "<unused189>",
193
+ "<unused190>",
194
+ "<unused191>",
195
+ "<unused192>",
196
+ "<unused193>",
197
+ "<unused194>",
198
+ "<unused195>",
199
+ "<unused196>",
200
+ "<unused197>",
201
+ "<unused198>",
202
+ "<unused199>",
203
+ "<unused200>",
204
+ "<unused201>",
205
+ "<unused202>",
206
+ "<unused203>",
207
+ "<unused204>",
208
+ "<unused205>",
209
+ "<unused206>",
210
+ "<unused207>",
211
+ "<unused208>"
212
+ ],
213
+ "bos_token": {
214
+ "content": "<s>",
215
+ "lstrip": false,
216
+ "normalized": false,
217
+ "rstrip": false,
218
+ "single_word": false
219
+ },
220
+ "eos_token": {
221
+ "content": "</s>",
222
+ "lstrip": false,
223
+ "normalized": false,
224
+ "rstrip": false,
225
+ "single_word": false
226
+ },
227
+ "unk_token": {
228
+ "content": "<unk>",
229
+ "lstrip": false,
230
+ "normalized": false,
231
+ "rstrip": false,
232
+ "single_word": false
233
+ }
234
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "__type": "AddedToken",
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false
9
+ },
10
+ "clean_up_tokenization_spaces": false,
11
+ "eos_token": {
12
+ "__type": "AddedToken",
13
+ "content": "</s>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false
18
+ },
19
+ "legacy": false,
20
+ "model_max_length": 1000000000000000019884624838656,
21
+ "pad_token": {
22
+ "__type": "AddedToken",
23
+ "content": "</s>",
24
+ "lstrip": false,
25
+ "normalized": false,
26
+ "rstrip": false,
27
+ "single_word": false
28
+ },
29
+ "sp_model_kwargs": {},
30
+ "tokenizer_class": "LlamaTokenizer",
31
+ "unk_token": {
32
+ "__type": "AddedToken",
33
+ "content": "<unk>",
34
+ "lstrip": false,
35
+ "normalized": false,
36
+ "rstrip": false,
37
+ "single_word": false
38
+ },
39
+ "use_default_system_prompt": true
40
+ }