huudan123 commited on
Commit
9226e24
·
verified ·
1 Parent(s): c607316

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,410 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: huudan123/model_stage3_latest
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ metrics:
7
+ - pearson_cosine
8
+ - spearman_cosine
9
+ - pearson_manhattan
10
+ - spearman_manhattan
11
+ - pearson_euclidean
12
+ - spearman_euclidean
13
+ - pearson_dot
14
+ - spearman_dot
15
+ - pearson_max
16
+ - spearman_max
17
+ pipeline_tag: sentence-similarity
18
+ tags:
19
+ - sentence-transformers
20
+ - sentence-similarity
21
+ - feature-extraction
22
+ - generated_from_trainer
23
+ - dataset_size:11498
24
+ - loss:CosineSimilarityLoss
25
+ widget:
26
+ - source_sentence: 'Đó là chính thức: Thỏa thuận đạt được trên \"vách đá tài chính\"'
27
+ sentences:
28
+ - Chỉ số trung bình công nghiệp Dow Jones . DJI kết thúc phiên tăng 56,79 điểm,
29
+ tương đương 0,67%, lên 8.588,36 điểm - mức cao nhất kể từ ngày 17/1.
30
+ - Thượng viện Hoa Kỳ bỏ phiếu về thỏa thuận vách đá tài chính khi thời hạn gần kề
31
+ - Nhà hoạt động Trung Quốc Chen hạ cánh ở Mỹ
32
+ - source_sentence: Một người đàn ông mặc vest đang đạp xe trên con đường trải nhựa.
33
+ sentences:
34
+ - Bất cứ khi nào tôi bắt đầu đọc đi đọc lại cùng một dòng, tôi bắt đầu đọc lướt.
35
+ - Một người đàn ông, phụ nữ và đi bộ trên một con đường trải nhựa.
36
+ - Một trắng với những vệt màu nâu nhạt có một cây gậy trong miệng và bàn chân của
37
+ nó trong tuyết.
38
+ - source_sentence: Một người đàn ông đang giơ lên và nói về một chiếc áo phông You
39
+ Tube màu xám.
40
+ sentences:
41
+ - Một người đàn ông mặc bộ đồ màu xám đang khóa một chiếc xe đạp
42
+ - Số người chết vì động đất ở Philippines tăng lên 185 người
43
+ - Và thực tế đơn giản ngày hôm nay?
44
+ - source_sentence: 'Ông Kerry: Chưa có thỏa thuận nào trong các cuộc đàm phán hạt
45
+ nhân với Iran'
46
+ sentences:
47
+ - Không có nhiều thứ mà bạn có thể làm với một món khai vị bột chua.
48
+ - Nhà đàm phán Iran lạc quan về các cuộc đàm phán hạt nhân mới nhất
49
+ - \"Tôi nghĩ bây giờ chúng ta có thể coi những gì đang xảy ra là một dịch bệnh thực
50
+ sự\", Bộ trưởng Y tế Jean-Francois Mattei nói trên đài phát thanh France Inter.
51
+ - source_sentence: Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm
52
+ Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu
53
+ đi.
54
+ sentences:
55
+ - Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine
56
+ - Một chiếc xe buýt màu xanh lá cây lái xuống một con đường.
57
+ - Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi
58
+ bộ trong tuyết.
59
+ model-index:
60
+ - name: SentenceTransformer based on huudan123/model_stage3_latest
61
+ results:
62
+ - task:
63
+ type: semantic-similarity
64
+ name: Semantic Similarity
65
+ dataset:
66
+ name: sts evaluator
67
+ type: sts-evaluator
68
+ metrics:
69
+ - type: pearson_cosine
70
+ value: 0.8329487883855833
71
+ name: Pearson Cosine
72
+ - type: spearman_cosine
73
+ value: 0.8384498035910675
74
+ name: Spearman Cosine
75
+ - type: pearson_manhattan
76
+ value: 0.8238846871882353
77
+ name: Pearson Manhattan
78
+ - type: spearman_manhattan
79
+ value: 0.8339605768593095
80
+ name: Spearman Manhattan
81
+ - type: pearson_euclidean
82
+ value: 0.8250026897904206
83
+ name: Pearson Euclidean
84
+ - type: spearman_euclidean
85
+ value: 0.8350094405752624
86
+ name: Spearman Euclidean
87
+ - type: pearson_dot
88
+ value: 0.8130063857339718
89
+ name: Pearson Dot
90
+ - type: spearman_dot
91
+ value: 0.8176439505486985
92
+ name: Spearman Dot
93
+ - type: pearson_max
94
+ value: 0.8329487883855833
95
+ name: Pearson Max
96
+ - type: spearman_max
97
+ value: 0.8384498035910675
98
+ name: Spearman Max
99
+ ---
100
+
101
+ # SentenceTransformer based on huudan123/model_stage3_latest
102
+
103
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [huudan123/model_stage3_latest](https://huggingface.co/huudan123/model_stage3_latest). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
104
+
105
+ ## Model Details
106
+
107
+ ### Model Description
108
+ - **Model Type:** Sentence Transformer
109
+ - **Base model:** [huudan123/model_stage3_latest](https://huggingface.co/huudan123/model_stage3_latest) <!-- at revision 568b8c728bf8997a2b59dbd3a2653c85a89b795c -->
110
+ - **Maximum Sequence Length:** 256 tokens
111
+ - **Output Dimensionality:** 768 tokens
112
+ - **Similarity Function:** Cosine Similarity
113
+ <!-- - **Training Dataset:** Unknown -->
114
+ <!-- - **Language:** Unknown -->
115
+ <!-- - **License:** Unknown -->
116
+
117
+ ### Model Sources
118
+
119
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
120
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
121
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
122
+
123
+ ### Full Model Architecture
124
+
125
+ ```
126
+ SentenceTransformer(
127
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
128
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
129
+ )
130
+ ```
131
+
132
+ ## Usage
133
+
134
+ ### Direct Usage (Sentence Transformers)
135
+
136
+ First install the Sentence Transformers library:
137
+
138
+ ```bash
139
+ pip install -U sentence-transformers
140
+ ```
141
+
142
+ Then you can load this model and run inference.
143
+ ```python
144
+ from sentence_transformers import SentenceTransformer
145
+
146
+ # Download from the 🤗 Hub
147
+ model = SentenceTransformer("huudan123/model_stage4_v1_latest")
148
+ # Run inference
149
+ sentences = [
150
+ 'Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.',
151
+ 'Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine',
152
+ 'Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi bộ trong tuyết.',
153
+ ]
154
+ embeddings = model.encode(sentences)
155
+ print(embeddings.shape)
156
+ # [3, 768]
157
+
158
+ # Get the similarity scores for the embeddings
159
+ similarities = model.similarity(embeddings, embeddings)
160
+ print(similarities.shape)
161
+ # [3, 3]
162
+ ```
163
+
164
+ <!--
165
+ ### Direct Usage (Transformers)
166
+
167
+ <details><summary>Click to see the direct usage in Transformers</summary>
168
+
169
+ </details>
170
+ -->
171
+
172
+ <!--
173
+ ### Downstream Usage (Sentence Transformers)
174
+
175
+ You can finetune this model on your own dataset.
176
+
177
+ <details><summary>Click to expand</summary>
178
+
179
+ </details>
180
+ -->
181
+
182
+ <!--
183
+ ### Out-of-Scope Use
184
+
185
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
186
+ -->
187
+
188
+ ## Evaluation
189
+
190
+ ### Metrics
191
+
192
+ #### Semantic Similarity
193
+ * Dataset: `sts-evaluator`
194
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
195
+
196
+ | Metric | Value |
197
+ |:-------------------|:-----------|
198
+ | pearson_cosine | 0.8329 |
199
+ | spearman_cosine | 0.8384 |
200
+ | pearson_manhattan | 0.8239 |
201
+ | spearman_manhattan | 0.834 |
202
+ | pearson_euclidean | 0.825 |
203
+ | spearman_euclidean | 0.835 |
204
+ | pearson_dot | 0.813 |
205
+ | spearman_dot | 0.8176 |
206
+ | pearson_max | 0.8329 |
207
+ | **spearman_max** | **0.8384** |
208
+
209
+ <!--
210
+ ## Bias, Risks and Limitations
211
+
212
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
213
+ -->
214
+
215
+ <!--
216
+ ### Recommendations
217
+
218
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
219
+ -->
220
+
221
+ ## Training Details
222
+
223
+ ### Training Hyperparameters
224
+ #### Non-Default Hyperparameters
225
+
226
+ - `overwrite_output_dir`: True
227
+ - `eval_strategy`: epoch
228
+ - `per_device_train_batch_size`: 256
229
+ - `per_device_eval_batch_size`: 256
230
+ - `learning_rate`: 2e-06
231
+ - `weight_decay`: 0.01
232
+ - `num_train_epochs`: 20
233
+ - `warmup_ratio`: 0.1
234
+ - `fp16`: True
235
+ - `load_best_model_at_end`: True
236
+ - `gradient_checkpointing`: True
237
+
238
+ #### All Hyperparameters
239
+ <details><summary>Click to expand</summary>
240
+
241
+ - `overwrite_output_dir`: True
242
+ - `do_predict`: False
243
+ - `eval_strategy`: epoch
244
+ - `prediction_loss_only`: True
245
+ - `per_device_train_batch_size`: 256
246
+ - `per_device_eval_batch_size`: 256
247
+ - `per_gpu_train_batch_size`: None
248
+ - `per_gpu_eval_batch_size`: None
249
+ - `gradient_accumulation_steps`: 1
250
+ - `eval_accumulation_steps`: None
251
+ - `torch_empty_cache_steps`: None
252
+ - `learning_rate`: 2e-06
253
+ - `weight_decay`: 0.01
254
+ - `adam_beta1`: 0.9
255
+ - `adam_beta2`: 0.999
256
+ - `adam_epsilon`: 1e-08
257
+ - `max_grad_norm`: 1.0
258
+ - `num_train_epochs`: 20
259
+ - `max_steps`: -1
260
+ - `lr_scheduler_type`: linear
261
+ - `lr_scheduler_kwargs`: {}
262
+ - `warmup_ratio`: 0.1
263
+ - `warmup_steps`: 0
264
+ - `log_level`: passive
265
+ - `log_level_replica`: warning
266
+ - `log_on_each_node`: True
267
+ - `logging_nan_inf_filter`: True
268
+ - `save_safetensors`: True
269
+ - `save_on_each_node`: False
270
+ - `save_only_model`: False
271
+ - `restore_callback_states_from_checkpoint`: False
272
+ - `no_cuda`: False
273
+ - `use_cpu`: False
274
+ - `use_mps_device`: False
275
+ - `seed`: 42
276
+ - `data_seed`: None
277
+ - `jit_mode_eval`: False
278
+ - `use_ipex`: False
279
+ - `bf16`: False
280
+ - `fp16`: True
281
+ - `fp16_opt_level`: O1
282
+ - `half_precision_backend`: auto
283
+ - `bf16_full_eval`: False
284
+ - `fp16_full_eval`: False
285
+ - `tf32`: None
286
+ - `local_rank`: 0
287
+ - `ddp_backend`: None
288
+ - `tpu_num_cores`: None
289
+ - `tpu_metrics_debug`: False
290
+ - `debug`: []
291
+ - `dataloader_drop_last`: False
292
+ - `dataloader_num_workers`: 0
293
+ - `dataloader_prefetch_factor`: None
294
+ - `past_index`: -1
295
+ - `disable_tqdm`: False
296
+ - `remove_unused_columns`: True
297
+ - `label_names`: None
298
+ - `load_best_model_at_end`: True
299
+ - `ignore_data_skip`: False
300
+ - `fsdp`: []
301
+ - `fsdp_min_num_params`: 0
302
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
303
+ - `fsdp_transformer_layer_cls_to_wrap`: None
304
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
305
+ - `deepspeed`: None
306
+ - `label_smoothing_factor`: 0.0
307
+ - `optim`: adamw_torch
308
+ - `optim_args`: None
309
+ - `adafactor`: False
310
+ - `group_by_length`: False
311
+ - `length_column_name`: length
312
+ - `ddp_find_unused_parameters`: None
313
+ - `ddp_bucket_cap_mb`: None
314
+ - `ddp_broadcast_buffers`: False
315
+ - `dataloader_pin_memory`: True
316
+ - `dataloader_persistent_workers`: False
317
+ - `skip_memory_metrics`: True
318
+ - `use_legacy_prediction_loop`: False
319
+ - `push_to_hub`: False
320
+ - `resume_from_checkpoint`: None
321
+ - `hub_model_id`: None
322
+ - `hub_strategy`: every_save
323
+ - `hub_private_repo`: False
324
+ - `hub_always_push`: False
325
+ - `gradient_checkpointing`: True
326
+ - `gradient_checkpointing_kwargs`: None
327
+ - `include_inputs_for_metrics`: False
328
+ - `eval_do_concat_batches`: True
329
+ - `fp16_backend`: auto
330
+ - `push_to_hub_model_id`: None
331
+ - `push_to_hub_organization`: None
332
+ - `mp_parameters`:
333
+ - `auto_find_batch_size`: False
334
+ - `full_determinism`: False
335
+ - `torchdynamo`: None
336
+ - `ray_scope`: last
337
+ - `ddp_timeout`: 1800
338
+ - `torch_compile`: False
339
+ - `torch_compile_backend`: None
340
+ - `torch_compile_mode`: None
341
+ - `dispatch_batches`: None
342
+ - `split_batches`: None
343
+ - `include_tokens_per_second`: False
344
+ - `include_num_input_tokens_seen`: False
345
+ - `neftune_noise_alpha`: None
346
+ - `optim_target_modules`: None
347
+ - `batch_eval_metrics`: False
348
+ - `eval_on_start`: False
349
+ - `eval_use_gather_object`: False
350
+ - `batch_sampler`: batch_sampler
351
+ - `multi_dataset_batch_sampler`: proportional
352
+
353
+ </details>
354
+
355
+ ### Training Logs
356
+ | Epoch | Step | loss | sts-evaluator_spearman_max |
357
+ |:-------:|:------:|:----------:|:--------------------------:|
358
+ | 0 | 0 | - | 0.8480 |
359
+ | **1.0** | **45** | **0.0382** | **0.8491** |
360
+ | 2.0 | 90 | 0.0307 | 0.8465 |
361
+ | 3.0 | 135 | 0.0285 | 0.8436 |
362
+ | 4.0 | 180 | 0.0267 | 0.8415 |
363
+ | 5.0 | 225 | 0.0265 | 0.8404 |
364
+ | 6.0 | 270 | 0.0253 | 0.8384 |
365
+
366
+ * The bold row denotes the saved checkpoint.
367
+
368
+ ### Framework Versions
369
+ - Python: 3.10.12
370
+ - Sentence Transformers: 3.0.1
371
+ - Transformers: 4.44.0
372
+ - PyTorch: 2.4.0+cu121
373
+ - Accelerate: 0.33.0
374
+ - Datasets: 2.21.0
375
+ - Tokenizers: 0.19.1
376
+
377
+ ## Citation
378
+
379
+ ### BibTeX
380
+
381
+ #### Sentence Transformers
382
+ ```bibtex
383
+ @inproceedings{reimers-2019-sentence-bert,
384
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
385
+ author = "Reimers, Nils and Gurevych, Iryna",
386
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
387
+ month = "11",
388
+ year = "2019",
389
+ publisher = "Association for Computational Linguistics",
390
+ url = "https://arxiv.org/abs/1908.10084",
391
+ }
392
+ ```
393
+
394
+ <!--
395
+ ## Glossary
396
+
397
+ *Clearly define terms in order to be accessible across audiences.*
398
+ -->
399
+
400
+ <!--
401
+ ## Model Card Authors
402
+
403
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
404
+ -->
405
+
406
+ <!--
407
+ ## Model Card Contact
408
+
409
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
410
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "./final_output",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 258,
17
+ "model_type": "roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "tokenizer_class": "PhobertTokenizer",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.44.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 64001
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.44.0",
5
+ "pytorch": "2.4.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9be2b3209afd42c1152686df23b52a021d054a98760fc8745f342a30e729d1a6
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 256,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "PhobertTokenizer",
53
+ "unk_token": "<unk>"
54
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff